Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Projektet udnytter de data, der indsendes til International Nucleotid sekvens Database Collaboration (INSDC) mod en kombination af beregning, manuel kurering og samarbejde for at producere et standard sæt stabile, ikke-redundante referencesekvenser. Projektet udvider disse referencesekvenser med aktuel viden, herunder publikationer, funktionelle funktioner og informativ nomenklatur. Databasen repræsenterer i øjeblikket sekvenser fra mere end 55 000 organismer (>4800 vira, >40 000 prokaryoter og >10 000 eukaryoter; Refseks frigivelse 71), der spænder fra en enkelt post til komplette genomer. Dette papir opsummerer den aktuelle status for den virale, prokaryote, og eukaryote grene af Refseks-projektet, rapporter om forbedringer af dataadgang og detaljerede bestræbelser på yderligere at udvide den taksonomiske repræsentation af samlingen. Vi fremhæver også forskellige funktionelle kurateringsinitiativer, der understøtter flere anvendelser af Refseks-data, herunder taksonomisk Validering, genomanmærkning, komparativ genomik, og klinisk test. Vi opsummerer vores tilgang til at udnytte tilgængelige RNA-Sekv og andre datatyper i vores manuelle kurationsproces for hvirveldyr, plante, og andre arter, og beskrive en ny retning for prokaryote genomer og protein navn ledelse.

introduktion

i de sidste 15 år har National Center for Biotechnology Information (NCBI) været en vigtig ressource for Genomisk, genetisk og proteomisk forskning. Projektets levering af kuraterede og stabile annoterede referencegenomer, transkripter og proteiner til udvalgte vira, mikrober, organeller og eukaryote organismer har gjort det muligt for forskere at fokusere på de bedste repræsentative sekvensdata i modsætning til de overflødige data i GenBank og utvetydigt henvise til specifikke genetiske sekvenser. Samlingen indeholder eksplicit sammenkædede genom -, transkript-og proteinsekvensposter, der indeholder publikationer, informativ nomenklatur og standardiserede og udvidede funktionsanmærkninger. Registreringer af refseks er integreret i NCBI ‘s ressourcer, herunder nukleotid -, Protein-og EKSPLOSIONSDATABASER og kan let identificeres ved hjælp af nøgleordet’ Refseks ‘ og ved deres særskilte tiltrædelsespræfikser, der definerer deres type (tabel 1). Alle Kvalitetssikringsdata er underlagt kvalitetssikringskontrol med nogle specialiserede kvalitetssikringstest, der er udviklet til forskellige takst-eller datatyper. For eksempel gennemgår alle virale Refseks ‘ er taksonomisk gennemgang af NCBI-personale inden Offentlig frigivelse. Refseks-tiltrædelser citeres bredt i videnskabelige publikationer og genetiske databaser, fordi de giver et stabilt og konsistent koordinatsystem, der kan bruges som en basislinje til rapportering af genspecifikke data, klinisk variation, og sammenligninger på tværs af arter. Disse referencesekvensstandarder bliver stadig vigtigere, fordi nøjagtig rapportering og reproducerbarhed er vigtige komponenter for bedste praksis inden for biomedicinsk forskning (1).

tiltrædelsespræfikser

tabel 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteiner kommenteret på nm_ transkript tiltrædelser eller kommenteret på genomiske molekyler uden et instantieret transkript (f. eks. nogle mitokondrielle genomer, virale genomer og referencebakterielle genomer
AP_3 protein proteiner kommenteret på AC_ genomiske tiltrædelser eller kommenteret på genomiske molekyler uden en instantieret transkriptoptegnelse
HP_3, 5 protein proteiner eller kommenteret på genomiske molekyler uden en instantieret transkriptionspost
yp_3 protein proteiner kommenteret på genomiske molekyler uden en instantieret transkriptionspost
AP_6 protein proteiner, der ikke er overflødige på tværs af flere stammer og arter. Et enkelt protein af denne type kan kommenteres på mere end et prokaryot genom
præfiks . Molekyltype . brug kontekst .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteiner kommenteret på nm_ transkript tiltrædelser eller kommenteret på genomiske molekyler uden et instantieret transkript (f. eks. nogle mitokondrielle genomer, virale genomer og referencebakterielle genomer
AP_3 protein proteiner kommenteret på AC_ genomiske tiltrædelser eller kommenteret på genomiske molekyler uden en instantieret transkriptoptegnelse
HP_3, 5 protein proteiner eller kommenteret på genomiske molekyler uden en instantieret transkriptionspost
yp_3 protein proteiner kommenteret på genomiske molekyler uden en instantieret transkriptionspost
AP_6 protein proteiner, der ikke er overflødige på tværs af flere stammer og arter. Et enkelt protein af denne type kan kommenteres på mere end et prokaryot genom

1Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 6 numre efterfulgt af sekvensversionsnummeret.

2det komplette tiltrædelsesformat består af præfikset efterfulgt af det insdc-tiltrædelsesnummer, som refs-rekorden er baseret på efterfulgt af refs-sekvensversionsnummeret.

3Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 6 eller 9 numre efterfulgt af sekvensversionsnummeret.

4optegnelser med dette tiltrædelsespræfiks er kurateret af NCBI-personale eller en modelorganismedatabase eller er i puljen af tiltrædelser, som kuratorer arbejder med. Disse registreringer kaldes det’ kendte ‘ datasæt.

5optegnelser med dette tiltrædelsespræfiks genereres enten gennem eukaryot genom annotation pipeline eller den lille eukaryote genom annotation pipeline. Registreringer, der genereres via den første metode, kaldes ‘model’ – datasættet.

6Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 9 numre efterfulgt af versionsnummeret. Versionsnummeret er altid’.1 ‘ da disse poster ikke kan opdateres. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteiner kommenteret på nm_ transkript tiltrædelser eller kommenteret på genomiske molekyler uden et instantieret transkript (f. eks. nogle mitokondrielle genomer, virale genomer og referencebakterielle genomer
AP_3 protein proteiner kommenteret på AC_ genomiske tiltrædelser eller kommenteret på genomiske molekyler uden en instantieret transkriptoptegnelse
HP_3, 5 protein proteiner eller kommenteret på genomiske molekyler uden en instantieret transkriptionspost
yp_3 protein proteiner kommenteret på genomiske molekyler uden en instantieret transkriptionspost
AP_6 protein proteiner, der ikke er overflødige på tværs af flere stammer og arter. Et enkelt protein af denne type kan kommenteres på mere end et prokaryot genom
præfiks . Molekyltype . brug kontekst .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteiner kommenteret på nm_ transkript tiltrædelser eller kommenteret på genomiske molekyler uden et instantieret transkript (f. eks. nogle mitokondrielle genomer, virale genomer og referencebakterielle genomer
AP_3 protein proteiner kommenteret på AC_ genomiske tiltrædelser eller kommenteret på genomiske molekyler uden en instantieret transkriptoptegnelse
HP_3, 5 protein proteiner eller kommenteret på genomiske molekyler uden en instantieret transkriptionspost
yp_3 protein proteiner kommenteret på genomiske molekyler uden en instantieret transkriptionspost
AP_6 protein proteiner, der ikke er overflødige på tværs af flere stammer og arter. Et enkelt protein af denne type kan kommenteres på mere end et prokaryot genom

1Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 6 numre efterfulgt af sekvensversionsnummeret.

2det komplette tiltrædelsesformat består af præfikset efterfulgt af det insdc-tiltrædelsesnummer, som refs-rekorden er baseret på efterfulgt af refs-sekvensversionsnummeret.

3Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 6 eller 9 numre efterfulgt af sekvensversionsnummeret.

4optegnelser med dette tiltrædelsespræfiks er kurateret af NCBI-personale eller en modelorganismedatabase eller er i puljen af tiltrædelser, som kuratorer arbejder med. Disse registreringer kaldes det’ kendte ‘ datasæt.

5optegnelser med dette tiltrædelsespræfiks genereres enten gennem eukaryot genom annotation pipeline eller den lille eukaryote genom annotation pipeline. Registreringer, der genereres via den første metode, kaldes ‘model’ – datasættet.

6Det komplette tiltrædelsesnummerformat består af præfikset, inklusive understregningen, efterfulgt af 9 numre efterfulgt af versionsnummeret. Versionsnummeret er altid’.1 ‘ da disse poster ikke kan opdateres. Se online dokumentation for yderligere information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

i de senere år har avancerede sekventeringsteknikker lettet en betydelig stigning i indsendelser af hele genomsamling til de offentlige databaser. Som følge heraf har projektet konkordant udvidet dybden og bredden af de skatter, der indgår i datasættet, primært gennem forbedringer af flere interne annotationsledninger. Alle skattemyndigheder er omfattet af Refseks-inklusion; imidlertid er annotation ofte begrænset til de organismer, for hvilke en primær genomsamling af høj kvalitet er tilgængelig med ubestridt organismeinformation. Vi kan således udelukke nogle kategorier af data, der ikke opfylder vores kvalitetsstandarder. Ekskluderede datasæt inkluderer: metagenomer, Samlinger med lave contig N50-værdier eller især højt antal uplacerede stilladser/contigs (dvs.høj fragmentering) eller genomer, der har signifikant mismatch eller Indel-variation sammenlignet med andre nært beslægtede genomer for arten (f. eks. nogle prokaryoter).

et unikt aspekt af datasættet er den kombinerede tilgang til at udnytte beregning, samarbejde og kuration af NCBI ‘ s videnskabelige personale. Som en stor bioinformatik facilitet, NCBI har investeret i at udvikle robuste processtrømme for at generere annotation og udføre kvalitetssikringstest for eukaryote og prokaryote genomer, udskrifter, og proteiner. Forbedringer af processen med virale genomer er i gang. Gruppen samarbejder med en lang række ekspertgrupper, herunder officielle nomenklaturmyndigheder (f. eks. HUGO Gen-Nomenklaturkomiteen (HGNC) og informationsnetværket for henholdsvis humane og sebrafisk gennavne), UniProtKB (proteinnavne) og miRBase (microRNA ‘ er) (2-5). Disse og andre samarbejder hjælper med at opretholde og forbedre kvaliteten af datasættet med kvalitetssikring gennem KVALITETSSIKRINGSRAPPORTER, udveksling af gen-og sekvensinformation og udveksling af funktionel information. NCBI-personale yder også kurateringsstøtte til vira, prokaryoter, eukaryoter, organeller, plasmider, og målrettede projekter, herunder kuratering af gener og sekvenser for Homo sapiens, Mus musculus og andre organismer. Ved hjælp af en gennemgang af resultaterne af kvalitetskontrollen, involvering i udvælgelsen af visse input til genom-annotationsbehandling, sekvensanalyse, taksonomisk analyse og funktionel gennemgang. Kuration understøtter også forbedringer af genom-annotationsledninger, da indholdseksperter hjælper med at definere programmatiske tilgange til at modellere både typisk og atypisk biologi. For eukaryoter, især pattedyr, definerer transkriptionsbaseret kuration ‘bedste’ sekvensrepræsentanter (som’ kendt ‘ Refseks; tabel 1 fodnote), der bruges som et primært inputreagens til den eukaryote genom-annotationsrørledning (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Forbedringer i input reagens kvalitet til gengæld tilføje betydelig kvalitet og reproducerbarhed til den resulterende genom annotation. Denne type manuel kuration har historisk været fokuseret på mennesker og mus på grund af deres unikke biomedicinske betydning (6). For nylig har disse kurateringsbestræbelser lagt større vægt på Rattus norvegicus, Danio rerio, Bos taurus og Gallus gallus. Disse arter er relevante for menneskers sundhed såvel som landbrugets bæredygtighed.

i dette papir rapporterer vi om vores fremskridt med at udvide Refseks datasættet til at omfatte mere forskellige organismer, beskrive forbedringer i dataadgang og give eksempler, der illustrerer et øget fokus på at levere fylogenetisk nyttige datasæt samt funktionel funktionsnotation på Refseks transkript-og proteinregistre. Vi forventer, at disse bestræbelser og forbedringer i datasættet vil fortsætte med at bidrage til fremme af medicinsk translationel forskning, landbrugsforbedringer, fylogenetisk identifikation, og evolutionære studier.

generering af datasættet

sekvensregistreringer genereres ved forskellige metoder afhængigt af sekvensklassen og organismen. Archaeal og bakterielle genomer (se prokaryoter afsnit) er kommenteret ved hjælp af NCBI ‘ s prokaryote genom annotation pipeline (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mens et lille antal referencebakterielle genomer understøttes af samarbejde og manuel kuration. Eukaryote genomer leveres ved hjælp af to processtrømme. Størstedelen af plante -, dyre -, insekt-og leddyrgenomer kommenteres af den eukaryote genom-annotationsrørledning. Denne pipeline genererer annotationsresultater baseret på tilgængelige transkriptionsdata (inklusive RNA-Sekv og transkriptom shotgun assembly (TSA) data) såvel som proteinhomologi, ab initio forudsigelse (stort set når transkriptomdata ikke er tilgængelige) og tilgængelige kendte (kuraterede) Refseks transkripter og proteiner (se tabel 1). Pipeline-genereret annotation (modelrefeks) kan eller måske ikke have støtte til den komplette eksonkombination fra en enkelt evidensjustering, men kan have RNA-Sekv-understøttelse af eksonpar. De eukaryote genomer, der er blevet kommenteret af denne pipeline, rapporteres offentligt med links for at hente dataene via FTP, for at se eller udføre en EKSPLOSIONSFORESPØRGSEL mod det kommenterede genom eller for at få adgang til en detaljeret annotationsrapportoversigt (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rørledningen til en delmængde af eukaryoter inklusive svampe, protosoer og nematoder involverer formeringsanmærkning, der er sendt til International Nukleotidsekvensdatabasesamarbejde (INSDC), med formatstandardisering, til en Refseks kopi af den indsendte genomsamling (se alger, svampe, nematoder og Protosoer).

NCBI-personale leverer størstedelen af Refseks organelle genom-annotation gennem formering fra insdc-indsendelsen. Mammalian mitokondrier annotation suppleres ofte med manuel kuration. Projektet opretholder også referencesekvenser for målrettede loci-projekter som f.eks. Locus Reference Genomic (lrg) samarbejde (7), for bakterielle og svampe ribosomale rRNA loci og for svampe interne transkriberede spacersekvenser (ITS) (8). Ud over, et betydeligt antal mennesker, mus, og andre udskrifter og proteiner tilvejebringes gennem samarbejde og manuel kuration, som inkluderer sekvensanalyse og litteraturgennemgang.NCBI ‘ s prokaryote (se nedenfor) og eukaryote annotationsledninger har holdt trit med det stigende antal genomsamlinger, der er indsendt til INSDC ved at levere konsistent annotation på Refseks kopier af udvalgte indsendte genomsamlinger af høj kvalitet. Til dato er 245 eukaryote genomer, herunder 170 hvirveldyr genomer, blevet kommenteret af denne rørledning, hvoraf mere end 120 arter blev kommenteret i de sidste 20 år. Blandt denne gruppe er 52 fuglearter, der inkluderer repræsentative arter af de fleste fugleordrer (9,10). Der har også været en betydelig udvidelse i antallet af Refseks-annoterede samlinger for ikke-menneskelige primater, andre pattedyr, fisk, planter og leddyr.

adgang til datasættet

hjemmesidenhttp://www.ncbi.nlm.nih.gov/refseq/ er et centralt knudepunkt for alle aspekter af datasættet. Dette site indeholder links, der guider brugerne gennem en generel beskrivelse af projektet, samt faktablade, vækststatistikker og information om mere fokuserede Refseks-projekter såsom prokaryote genome re-annotation initiative, Consensus Coding sekvens (CCDS) project (11) Refseks-projektet og målrettede Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) projekter. Links til den nyeste omfattende FTP-udgivelse og detaljeret dokumentation om formatet og indholdet af udgivelsen kan findes i afsnittet ‘Meddelelser’ på hjemmesiden. Tidligere annonceringer er også tilgængelige fra denne side. Vi opfordrer kraftigt til at hente data direkte fra NCBI, da overførsler fra andre bioinformatik og genomressourcer muligvis ikke inkluderer alle de tilgængelige data, eller kan kun afspejle justeringer af transskriptioner til et genom snarere end de genom-annotationsresultater, der genereres af NCBI.sekvensdata kan tilgås interaktivt ved hjælp af NCBIs nukleotid-og Proteindatabaser, i BLASTDATABASER, via NCBI ‘ s programmatiske grænseflade (E-utilities) eller via file transfer protocol (FTP). E-utilities understøtter scripted adgang til at hente referencedata i en række forskellige formater baseret på enten søgetermer eller tiltrædelseslister; omfattende dokumentation er tilgængelig i NCBI-håndbogen (www.ncbi.nlm.nih.gov/books/NBK25501/) og træningsvideoer er tilgængelige fra NCBI ‘ s YouTube-kanal (https://www.youtube.com/user/NCBINLM). Både nukleotid – og Proteindatabaserne tillader, at forespørgselsresultater begrænses til kun Refseks-poster ved at vælge ‘Refseks’ under ‘Kildedatabase’ i sidepanelet filtre. Der kan også fås adgang til data fra andre NCBI-databaser, herunder samling, Bioprojekt, gen og genom ved at følge de links, der leveres til nukleotid -, Protein-eller FTP-ressourcer Information om kurateringsændringer inden for Refseks-gruppen eller NCBI-opdateringer, der påvirker Refseks-databasen, rapporteres gennem flere kilder, herunder Refseks FTP-frigivelsesnotater, periodiske offentliggjorte rapporter, NCBI-meddelelserne nyhedsfeed http://www.ncbi.nlm.nih.gov/news/ og gennem NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Brugere kan også abonnere på maillisten for at modtage periodiske opdateringer om projektet og en oversigt over indholdet af hver FTP-udgivelse (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

Refseks data distribueres via FTP gennem to steder, refseks (ftp://ftp.ncbi.nlm.nih.gov/refseq/) og genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes FTP-stedet indeholder daglige opdateringer af alle nye og opdaterede refseks-poster, ugentlige opdateringer af nogle datatyper og en to-Månedlig omfattende Refseks-udgivelse (/refeks/release/). Derudover opdateres udvalgte organismespecifikke transkriptions-og proteindatasæt, inklusive menneske og mus, ugentligt. Undermappen opdateres dagligt med justeringer til genomet frigivet med hver annotationskørsel. Den omfattende to-månedlige frigivelse af Refseks er organiseret af taksonomisk (f.eks. hvirveldyr pattedyr) eller andre grupperinger (f. eks. mitokondrier). Data kan også hentes for hele Refseks-samlingen fra /refeks/release/complete/ – mappen. Udgivelsen giver en fordel for dem, der ønsker at opretholde periodiske opdateringer af enten den komplette samling eller en enkelt gruppe. Det inkluderer også poster, der ikke er tilgængelige fra FTP-stedet for ledsagende genomer, såsom udskrifter i samlingen, der vedligeholdes uafhængigt af, og muligvis ikke i øjeblikket kommenteres, en genomsamling. Udgivelsen er forsynet med væsentlig dokumentation af de installerede filer (/refseks/release/release-katalog/), herunder MD5 checksums, en liste over alle installerede filer, samt release notes og meddelelser (/refeks/release/release-notes/).data kan også hentes fra FTP-stedet for genomer. I August 2014 annoncerede NCBI en større omorganisering af dette FTP-sted, som nu giver samling og organismebaseret adgang til både GenBank og Refseks genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Denne mappe er yderligere opdelt i undermapper baseret på de samme grupper, der bruges i udgivelsen af Refseks, som hver giver yderligere underopdelinger efter art. FTP-stedet for genomer indeholder filer, der repræsenterer alle Genomsamlinger rapporteret i NCBI ‘ s Samlingsressource (www.ncbi.nlm.nih.gov/assembly/). fordelen ved genomstedet er, at dataene kan fås på en samling – eller organismespecifik måde. De leverede Data inkluderer genom-og produktsekvens (transkript/protein), annotation, samlingsrapporter og statistikker og MD5-kontrolsummer; disse data opdateres, når genomsamlingen og/eller annotationen opdateres. Dette område omfatter ikke sekvenser, der ligger uden for en genomsamling, eller produkter, der ikke er kommenteret på et genom.

vækst og statistik

FTP release 71 (juli 2015) omfatter mere end 77 millioner sekvensregistreringer for mere end 55 000 organismer. Tabel 2 opsummerer væksten i Referencedatasættet i det sidste år med hensyn til organismerne og antallet af sekvensregistreringer repræsenteret pr. Bakteriegenomer og proteiner udgør hovedparten af datasættet (56% af de samlede tiltrædelser og 76% af >52 millioner proteintiltrædelser). Signifikante stigninger i antallet af organismer, proteiner og samlede optegnelser ses for hvirvelløse, plante-og eukaryote organismer, hvilket er i overensstemmelse med det øgede antal og gennemstrømning af genomsekventeringsprojekter. En væsentlig faktor for den fortsatte høje vækstrate for Refseks-data er forbedringer i genomrørledninger, der genererer annoterede Refseks-genomer. Dette inkluderer især øget kapacitet i NCBI ‘s prokaryote genom-annotationsledning, genudvikling af processtrømmen, der formerer annotation fra eukaryote Genbankgenomer på Refseks genomer, og inkorporering af RNA-Sekv-bevis i NCBI’ s eukaryote genom-annotationsledning og dens indvirkning på generering af modelrefrekvenser (tabel 1).

årlig vækst i antallet af organismer, proteiner og transkripter, der er repræsenteret i den omfattende Refseks-frigivelse, pr.FTP-frigivelseskatalog

tabel 2.

årlig vækst i antallet af organismer, proteiner og udskrifter, der er repræsenteret i den omfattende Refseks-frigivelse, pr .FTP-frigivelsesmappe
Frigivelsesmappe. organismer . % ændring . udskrifter . % ændring . proteiner . % ændring .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % ændring . udskrifter . % ændring . proteiner . % ændring .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (f.eks. archaea.vækst.tekst og relaterede filer). Den procentvise årlige ændring er baseret på sammenligning af datatællinger for udgivelsen 71 (juli 2015) og udgivelsen 66 (juli 2014).

tabel 2.

årlig vækst i antallet af organismer, proteiner og udskrifter, der er repræsenteret i den omfattende Refseks-frigivelse, pr .FTP-frigivelsesmappe
Frigivelsesmappe. organismer . % ændring . udskrifter . % ændring . proteiner . % ændring .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % ændring . udskrifter . % ændring . proteiner . % ændring .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (f.eks. archaea.vækst.tekst og relaterede filer). Den procentvise årlige ændring er baseret på sammenligning af datatællinger for udgivelsen 71 (juli 2015) og udgivelsen 66 (juli 2014).

det dramatiske fald i antallet af plasmidproteinoptegnelser og dermed i antallet af samlede tiltrædelser afspejler færdiggørelsen af et refseks bakteriegenom-re-annotationsprojekt (http://www.ncbi.nlm.nih.gov/refseq/ about/ prokaryoter / reannotation/) og vedtagelsen af den nye datamodel for prokaryoter, inklusive deres plasmider. I denne nye datamodel kan en enkelt ikke-redundant proteintilslutning kommenteres på mere end en genomisk sekvensrekord, når translation af disse genomiske proteinkodende regioner resulterer i et identisk protein (se http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteiner/). Redundans i alle bakterielle proteiner faldt også signifikant; det er dog ikke tydeligt her på grund af fortsatte signifikante stigninger i antallet af bakterielle genomer inkluderet i datasættet. Disse ændringer resulterede også i et samlet fald i antallet af arkaeale proteinoptegnelser.

hvirveldyr

en udvalgt gruppe af hvirveldyr, herunder Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus og Danio rerio er hovedfokus for vores transkript – og litteraturbaserede manuelle kurateringsindsats. Kuratorer arbejder generelt ud fra lister over gener med datakonflikter identificeret ved kvalitetssikringstest, hvoraf nogle tidligere blev beskrevet (12). De følger et detaljeret sæt retningslinjer, når de analyserer hvert gen for at sikre konsistens på tværs af personer i det kuraterede datasæt. Denne analyse involverer dybdegående sekvensvurdering og litteraturgennemgang for at oprette referencetranskripter, proteiner, pseudogener og Refsekgenoptegnelser. Kuratorer genererer transkriptionsvarianter, løser sekvensfejl, fjerner unøjagtige oplysninger, opdaterer poster for korrekt at repræsentere locus ‘ biologi og tilføjer værdifuld funktionel information til nogle refseks-poster, såsom forbedrede proteinnavne, en oversigt over genproduktets funktion, genets funktionelle egenskaber og/eller relevante publikationer. Manuel kuration og litteraturgennemgang af gruppen kan resultere i repræsentation af unikke varianter og isoformer, der ikke ville blive forudsagt, når de udelukkende er baseret på beregningsanalyse. For eksempel litteraturgennemgang af det humane tumorundertrykkende gen, PTEN (phosphatase og tensin homolog, GeneID: 5728) afslørede eksistensen af en længere proteinisoform som følge af anvendelse af en alternativ in-frame opstrøms CUG-initieringskodon fundet i midten af en palindromisk sekvens opstrøms for den kanoniske mRNA-translationsstartkodon (13). Stærke eksperimentelle data viste, at denne mitokondrie-specifikke isoform initierer med en leucin snarere end en methionin (14). Datamodellen for eukaryoter giver et transkript, der eksplicit er knyttet til et protein. Derfor blev der leveret to identiske transkriptionsoptegnelser for at afspejle oversættelse fra de alternative initieringskodoner; NP_000305.3 repræsenterer 403 aminosyreprotein, der bruger det kanoniske methionin-startkodon, mens NP_001291646.2 repræsenterer det mitokondrie-lokaliserede 576 aminosyreprotein, der initierer med en leucin. Dermed, kurationsprocessen tjener et dobbelt formål med at tilvejebringe nøjagtige referencesekvenser, der letter præcis og reproducerbar genomanmærkning og leverer poster, der inkluderer relevant biologisk information. I dette afsnit diskuterer vi nylige opdateringer, forbedringer, vi har foretaget i vores manuelle kurateringsproces, og eksempler på fokuserede kurateringsprojekter.

Refsekgen-projektet

Refsekgen-delprojektet definerer humane genomiske sekvenser, der skal bruges som referencestandarder for velkarakteriserede gener, især til brug af klinisk genetik samfund. Disse sekvenser tjener som et stabilt fundament for rapportering af patogene varianter, til etablering af konventioner til nummerering af eksoner og introner og til definition af koordinaterne for andre varianter. Hver refsekgenrekord fokuserer på en genspecifik genomisk region og er typisk kommenteret med en delmængde af Refseks transkripter og proteiner valgt af domæneeksperter. Disse valg bestemmer eksonfunktioner. Justeringer af ældre versioner af det kanoniske Refseks transkript/protein samt andre kendte Refseks er inkluderet. Disse optegnelser inkluderer typisk 5 kilobaser (kb) sekvens opstrøms for fokusgenet og 2 kb sekvens nedstrøms for at understøtte repræsentation af potentielle reguleringssteder eller sletninger, der strækker sig ud over genfunktionen. En Refsekgen-post kan indeholde annotationsoplysninger for andre gener, der er placeret inden for dens grænser. Registreringer gennemgås oprindeligt af locus-specifikke databaser og NCBI-personale. Medlem af LRG-samarbejdet (7), som giver yderligere gennemgang af sekvensdataene, før der tilføjes en lrg-tiltrædelse. Et nyligt arbejdsfokus udvidede antallet af Refsekgen-poster til at repræsentere alle gener, for hvilke mindst to kliniske tests er blevet forelagt NIH Genetic Testing Registry (GTR). På nuværende tidspunkt er der 5596 Refsekgenregistre, hvoraf 633 har en lrg-tiltrædelse. Ved at søge i Nukleotiddatabasen med ‘refsegene’, ved deres lrg-tiltrædelser, ved at gennemse Refsegenes hjemmeside (www.ncbi.nlm.nih.gov/refseq/rsg/), eller ved FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

inkorporering af RNA-Sekv og andre datatyper i transkriptionsbaseret kuration

et vigtigt mål for curationsprojektet er at repræsentere transkript-og proteinreferencesekvenser af høj kvalitet og i fuld længde. Som sådan er vores kureringskriterier primært baseret på konventionel transkription (mRNA og Est ‘ er) og proteinjusteringer og offentliggjort bevis. Imidlertid, hvirveldyrstranskriptomprojekter er blevet stadig mere komplekse med størstedelen af nye transkriptionsdata, der i øjeblikket genereres af kortlæst sekventeringsteknologi. Genomdækkende undersøgelser, der ser på globale mønstre af promotorassocierede epigenetiske mærker, giver også bevis for aktive promotorer og/eller aktiv transkription. Gruppen har tilpasset kurateringspraksis for at inkorporere disse nye datatyper for at forbedre vores manuelle annotation, især i tilfælde, hvor et gen eller en variant mangler rigelig konventionel transkriptionsstøtte. Disse RNA-Sekv-og epigenomiske undersøgelser har genereret enorme datasæt, der udgør en udfordring for genanmærkningsgrupper for eksempel gennem potentielle falske positiver og manglen på støtte til langtrækkende eksonkombinationer (15). Kuratorer mindsker mod falske positiver ved selektivt at inkorporere kun datasæt af høj kvalitet til overvejelse i vores genom-annotationspipeline og i den manuelle annotationsproces. Visualiser transkriptionsjusteringer, variationsdata og filtrerede RNA-sek-data i tilpassede skærme i et internt justeringsværktøj, der er indarbejdet i NCBI Genome-Arbejdsbænkplatformen (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation af humane gener anvender analyseret RNA-Sekv læser fra Illumina BodyMap 2 (BioProject: PRJEB2445) og Human Protein Atlas projekter (BioProject: PRJEB4337) (16). Derudover bruger kuratorer promotorassocierede histonmodifikationsmærker såsom H3K4me3 fra NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) og projektet ENCODE (Encyclopedia of DNA Elements) (18) for at verificere tilstedeværelsen af en aktiv promotor. Kuratorer vurderer også polyA-sek-data for at bekræfte 3’ fuldstændighed af udskrifter, der mangler en polyA-hale (19). Yderligere datatyper, herunder PhyloCSF (20), CpGIslands, RepeatMasker (21) og Cap analyse af genekspression (CAGE) data (22), bruges undertiden som ekstra støtte.

Lange ikke-kodende RNA ‘er (lncrna’ er)

Refseksgruppen fortsætter med at udvide sig markant med repræsentationen af ikke-kodende strukturelle og mikro – RNA ‘er, transkriberede pseudogener og de stort set ukarakteriserede lncrna’ er. Denne klasse af gener defineres generelt som transkripter >200 nt i længden, der mangler stærkt proteinkodningspotentiale (23). lncrna-registreringer genereres ved kuration og gennem den eukaryote genom-annotationspipeline for lncRNA-gener. NCBI opretholder i øjeblikket over 540 000 eukaryote lncrna Refseks optegnelser, hvoraf over 6700 er blevet kurateret, og kun få hundrede er blevet funktionelt karakteriseret. Af disse er mange blevet impliceret i human sygdom, såsom BACE1-AS, som kan spille en rolle i patofysiologien af sygdom og HOTAIR, som har været forbundet med flere kræftformer (24,25). Langt størstedelen af lncrna ‘ er har ukendte funktioner, og fraværet af lange åbne læserammer udgør en udfordring med hensyn til at bekræfte transkriptionens fuldstændighed. Desuden er lncrna-indsendelser til INSDC i vid udstrækning baseret på TSA ‘ er fra korte læste datasæt, der kan omfatte artefaktuelle eksonkombinationer. Kuratorer tager en konservativ tilgang til at repræsentere lncrna-gener, kun manuelt at oprette Refseks (med et Nr_ tiltrædelsespræfiks) til udskrifter af høj kvalitet, som vi har en vis sikkerhed for eksonstrukturen. Ideelt set bør transkriptionsstøtten splejses med mindst tre eksoner, men to-ekson og intronløse udskrifter kan repræsenteres, hvis de understøttes af promotorassocieret epigenomik, poly(A) bevis, yderligere cDNA ‘ er og/eller RNA-sek data. Lncrna-poster for ikke-kodende gener kan hentes fra NCBI ‘s Nukleotiddatabase ved hjælp af søgestrengen’ biomol ncrna lncrna ‘ og valg af Refseksfilteret fra venstre kolonne.

funktionel annotation

det unikke bidrag fra kuraterede eukaryote refseks udskriftsposter er, at de integrerer funktionel information med en referencesekvens. Curationspersonale tilføjer genoversigter, nomenklatur, udskriftsvarianttekst, gen-og sekvensattributter og funktionelle funktioner, der er tilgængelige på Refseksposten og/eller gennem Genressourcen (http://www.ncbi.nlm.nih.gov/gene). I det forgangne år har medarbejderne fulgt flere dybdegående annotationsprojekter, hvoraf nogle er kort beskrevet i de følgende afsnit, for at tilføje funktionelle data til specifikke sæt gener, hvor beregningsværktøjer ikke er i stand til nøjagtigt at repræsentere biologisk viden. Disse projekter omfatter annotation af antimikrobielle peptider, endogene retrovira, replikationsafhængige histoner, regulatoriske uorfer og antisymer.

antimikrobielle peptider (ampere)

ampere var et nyligt kurateringsfokus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Forstærkere er naturligt forekommende peptider, der findes i en bred vifte af arter og er blevet impliceret i mange immunroller, herunder bakteriedræbende, antiviral, antifungale og endda antitumoraktiviteter. En liste over over 130 humane gener, der koder for en eller flere eksperimentelt beviste forstærkere, blev samlet fra flere offentligt tilgængelige AMP-datasæt og også udvundet fra publikationer. De fleste af disse forstærkere var ikke tidligere blevet identificeret i databasen, og ingen af AMP-databaserne forbandt peptiderne med deres kodningsgen. For at sikre, at det funktionelle peptid blev kommenteret, for at inkludere en publikation, der beskriver peptidets antimikrobielle aktivitet, for at tilføje en kort oversigt, der beskriver den antimikrobielle aktivitet af den kodede AMP, og for at gemme en ny Refseksattribut ‘Protein har antimikrobiel aktivitet’, som er inkluderet i Refseksattributten struktureret kommentar (f.eks.NM_001124. 2 for adm; GeneID: 133). For at få adgang til alle de kuraterede humane transkriptions-eller protein AMP-Poster skal du søge i nukleotid-eller proteindatabasen ved hjælp af ‘Protein har antimikrobiel aktivitet’. I øjeblikket vil denne søgning finde 191 Refseksposter, herunder splejsningsvarianter og proteinisoformer.

endogene retrovirus (ERV ‘er)

endogene retrovirus (ERV’ er) er genomiske loci, der er afledt af forfædres indsættelse af et eksogent retrovirus i værtsgenomet. ERV loci er generelt uden for Refseks; vi kommenterer dog ERV-proteinkodende loci i fuld længde, der kortlægges til en enkelt genomisk placering, hvis de har udviklet sig til at tjene en værtsfunktion, er forbundet med en kendt sygdom, og/eller hvis de er blevet tildelt nomenklatur af et officielt nomenklaturudvalg. Cirka 8% af det humane genom er af retroviral Oprindelse (27); på grund af deres gamle oprindelse har de fleste humane ERV-loci imidlertid akkumuleret nonsensmutationer og kan ikke længere kode et protein. Syncytinproteinerne, som er involveret i placentaudvikling (28), er en velkendt undtagelse herfra. Humane syncytin-1-og syncytin-2-proteiner kodes af generne ervv-1 (NM_001130925.1, NM_014590.3) og ERVFRD-1 (NM_207582.2). Til dato har vi oprettet 67 Refseks til ERV loci, som inkluderer poster, der repræsenterer ERV-gener fra et forskelligt sæt pattedyr. En ny attributkategori med titlen ‘endogen retrovirus’ blev oprettet til disse poster og vises i en struktureret kommentar til Refseks-posten. Disse optegnelser kan hentes fra Nukleotiddatabasen ved at søge efter ‘endogent retrovirus ‘.

Replikationsafhængige histoner

en hurtig syntese af histon-mRNA ‘ er er påkrævet under celledeling for at producere store mængder histonproteiner. Kritisk for denne proces er de replikationsafhængige histongener, der opreguleres under G1/S-fasen i cellecyklussen (29). Et specifikt Refseks-projekt blev gennemført med det formål at kuratere det fulde sæt replikationsafhængige histonproteinkodende gener i mennesker og mus. Disse gener har en kanonisk 3 ‘histon nedstrøms element(HDE) sekvens i den genomiske sekvens, og de resulterende modne mRNA’ er mangler karakteristisk Poly (a) haler og ophører i stedet kort efter en RNA stamme-loop struktur (30). HDE-elementet findes på precursortranskriptet, men er ikke inkluderet i det behandlede transkript repræsenteret af Refsek. Placeringen af den konserverede 16 nukleotidstam-loop-struktursekvens er angivet på Refseksposten som en funktionsnotation med titlen ‘stem-loop’. Et eksempel kan ses på Nm_003539.3 For HIST1H4D (GeneID: 8360). Til dato er 127 humane og museafhængige histonrefseksposter blevet kurateret, og der er tilføjet en Refseksattribut, som kan bruges til at hente disse poster fra Nukleotiddatabasen ved hjælp af søgestrengen ‘replikationsafhængig histon’.

Regulatory upstream open reading frames (uORFs)

oversættelse af en upstream open reading frame (uORF) kan påvirke translationen af den primære proteinkodende open reading frame (pORF) (31) negativt. Denne effekt dæmper ikke altid pORF-oversættelse fuldstændigt og kan være afhængig af celletype, udviklingstilstand eller cellulær tilstand. Derfor, selvom uorf ‘ er kan forudsiges ud fra seks-rammes oversættelse af et transkript, skal den regulerende virkning af dette element bestemmes gennem eksperimentel Validering. Kuratorer gennemgik litteraturen for at finde udskrifter med eksperimentelle beviser for lovgivningsmæssige uorf ‘er og opdaterede de tilsvarende refseks transkriptionsposter for at tilføje en misc_feature, der angiver placeringen af disse uorf’ er. Et eksempel er Nm_000392.4 for ABCC2 (GeneID: 1244). En ny attributkategori med titlen ‘regulatory uORF’ blev oprettet og vises i en struktureret kommentar til disse Refseks-poster. Både den kommenterede funktion og attributten citerer den understøttende publikation af PubMed ID. Til dato er 260 poster blevet kommenteret med denne attribut, og disse poster kan hentes fra Nukleotiddatabasen ved at søge efter ‘regulerende uorf ‘

et af målene med Refseks-projektet er at repræsentere gener med enestående biologi, der ikke følger standard afkodningsregler for proteinsyntese. Ornithin decarboksylase-genet er et sådant eksempel, hvor en programmeret +1 ribosomal frameshifting mekanisme forekommer og ikke kan forudsiges af konventionelle beregningsværktøjer. Et sæt af hvirveldyr antisym transkription og protein optegnelser var for nylig genstand for en manuel annotation indsats for at skabe standarder for at forbedre annotation af disse genprodukter ved eukaryote genom annotation pipeline (32). Registreringerne blev manuelt kommenteret med funktionen split CDS for at afspejle ribosomal glidning og inkluderer en attribut ‘ribosomal glidning’ med offentliggjort bevis, forskellige diverse funktionsanmærkninger (såsom placeringen af frameshift-stedet) og en kort oversigt, der beskriver genets funktion og nye egenskaber (f.eks.NM_139081. 2). Disse poster kan hentes fra enten nukleotid-eller Proteindatabasen med søgeforespørgslen: hvirveldyr refseks ribosomal glidning antisyme. Denne søgning finder i øjeblikket 242 refseks-poster (NM eller NP), som inkluderer transkriptionsvarianter og proteinisoformer.

hvirvelløse dyr

hvirvelløse arter repræsenterer langt størstedelen af eksisterende metaser (33); imidlertid er kun et relativt lille antal repræsenteret af sekventerede genomer. Dette på trods af at mange arter har kritisk biomedicinsk betydning, såsom Anopheles gambiae, en vektor for malaria og Biomphalaria glabrata, en vektor for schistosomiasis (34,35). Andre hvirvelløse dyr, herunder Apis mellifera og Crassostrea gigas, har betydelig kommerciel værdi (36-38). Gruppen har bestræbt sig på at øge antallet og omfanget af hvirvelløse genomer, der er repræsenteret i datasættet, ved at levere annotation via den eukaryote genom-annotationspipeline eller ved at udbrede annotation fra INSDC-indsendelser på Refseks-kopien af disse genomer. For begge processtrømme er vi afhængige af den offentlige tilgængelighed af genomer af høj kvalitet i INSDC-databaser og NCBI ‘ s Samlingsdatabase (www.ncbi.nlm.nih.gov/assembly/). til dato er 46 hvirvelløse genomer blevet kommenteret af NCBI inklusive repræsentative arter af insekter, arachnider, bløddyr og basale akkordater. Vi forventer en betydelig udvidelse i antallet af insekt-og andre hvirvelløse genomer, der er kommenteret som et resultat af genominitiativer som i5k (39), 1kite (1k Insekttranskriptomudvikling, http://www.1kite.org/) og Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

planter

Vi fortsætter med at udvide mangfoldigheden af plantearter repræsenteret i datasættet. Til dato er 61 plantearter inkluderet i datasættet for genomer (ftp://ftp.ncbi.nlm.nih.gov / genomer/ plante/), hvoraf 33 arter blev kommenteret gennem eukaryot genom annotation pipeline; resten er Refseks kopier af annoterede genomer indsendt til INSDC. I fremtiden vil flere plantegenomer, der er valgt til optagelse af Refseks, blive behandlet af eukaryote annotation pipeline, snarere end at udbrede annotation fra insdc-indsendelsen. Dette er en ændring af politikken for genomerne af planten og vil resultere i en større samlet konsistens af planteanmærkningsdata inden for datasættet for Referenceanmærkning. Størstedelen af de transkripter og proteiner, der er tilgængelige for plantearter, er ‘model’ – poster (tabel 1) med en mindre delmængde af ‘kendte’ poster (NM_, NR_, NP_), der vedligeholdes uafhængigt af annotationsprocessen ved hjælp af en kombination af automatiseret behandling og manuel gennemgang. Manuel kurering af plantetranskript-og proteindata er i øjeblikket tilgængelig for Solanum lycopersicum. Det nuværende kurateringsfokus indebærer omfattende sekvensvurdering og er målrettet mod at løse KVALITETSSIKRINGSPROBLEMER i det nuværende sæt udskrifter. Fejlopløsning er fokuseret på at identificere og fjerne kimære transkripter, redundante transkripter og gener og forbedre kvaliteten af den repræsenterede sekvens ved at vurdere Indel ‘ er og uoverensstemmelser mellem Refsekv-transkriptionen, den genomiske sekvens og ortologe data. Til planter, vi stræber efter at levere et kurateret transkript-og proteindatasæt, der er i overensstemmelse med den sort, der er valgt til genomsekventering og samling. Kurationsprotokollen, der anvendes til hvirveldyrsdata, bruges også til planter. Transkriptionsposter kan således opdateres til at være baseret på en anden INSDC-kildesekvens eller kan samles fra mere end en INSDC-sekvenspost for at tilvejebringe et transkript fra den foretrukne cultivar. Hvis INSDC-transkriptionsdata ikke er tilgængelige for den genomiske cultivar, kan der genereres et Refsekv-transkript fra den samlede genomiske sekvens baseret på en kombination af transkript-eller proteinjusteringer, RNA-Sekv og/eller offentliggjorte data. Et andet fokusområde er at øge antallet af understøttede kendte proteinkodende transkripter og proteiner, da dette giver et kurateret reagens, der kan bruges, når man kommenterer andre plantegenomer. Endelig laver vi flere Refseks, der repræsenterer splejsningsvarianter, når der er tilstrækkelig dokumentation. Disse bestræbelser vil i væsentlig grad forbedre kvaliteten af anlæggets Referencedatasæt og vil bidrage til forbedringer i fremtidige genomanmærkninger. Det nuværende sæt plantegenomer, der er kommenteret af rørledningen, kan fås på NCBI ‘ s eukaryote Genome annotation pipeline hjemmeside http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ med links til den detaljerede annotationsrapport og andre ressourcer såsom Art BLAST og FTP.

alger, svampe, nematoder og PROTOSOER

NCBI ‘ s lille eukaryote genomrørledning er en ny automatiseret rørledning designet til generering af Refseks-poster som et resultat af direkte udbredelse af annoterede INSDC-poster. De således genererede refs-poster er kopier af Genbankdataene med nogle formatændringer for at overholde refs-kravene. Den mest bemærkelsesværdige forskel mellem den originale INSDC-post og Refseks-posten er tilføjelsen af Refseks-transkriptionsproduktet. Selvom det ikke er designet til at generere de novo genom-annotation, trækker den lille eukaryote genomrørledning fra flere af NCBI eukaryote genom-annotationsrørledningsmoduler og deres kode (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

betegnelsen ‘små eukaryoter’ henviser til rørledningens primære anvendelse til at generere Refseks genomer til relativt mindre eukaryote genomer (sammenlignet med planter og hvirveldyr) såsom alger, protosoer, svampe, nematoder og nogle leddyr. Imidlertid behandles nogle store plantegenomer også ved hjælp af denne rørledning. Denne rørledning behandler samlinger af høj kvalitet bestående af kromosomer og/eller stilladser og deres komponenter. Disse samlinger med høj contig og stillads N50, høj kvalitet sekvens, og rimeligt god INSDC-indsendt annotation prioriteres. Denne rørledning, der erstatter en historisk processtrøm, der krævede mere manuel støtte, har først for nylig nået en offentlig produktionsfase og giver allerede et øget antal ‘små’ eukaryote genomer repræsenteret i Refseks. Der arbejdes løbende på at optimere rørledningens kapacitet og tilføje mere automatisering og yderligere minimere kuratorbehandlingsopgaver. Langsigtede planer omfatter implementering af et protein-navn management system for at give, rette eller forbedre de insdc indsendte Navne over tid. Mange af de genomer, der er inden for rammerne af den lille eukaryoter-rørledning, kan i øjeblikket ikke behandles af den (store) eukaryote genom-annotationsrørledning på grund af taksonomisk mangfoldighed og begrænset tilgængelighed af transkriptionsdata, der er nødvendige for at træne de novo-annotationsrørledningen.

Svampemålrettede loci

Svampemorfologi er meget forskelligartet, lige fra komplekse multicellulære strukturer til meget enkle enkeltceller. En række morfologiske strukturer og sporetyper kan produceres af en enkelt art. Omvendt producerer mange arter lignende morfologier (morfer), men er faktisk genetisk meget fjerne. Indtil for nylig kunne en enkelt art beskrives gyldigt med mere end et binomialt navn baseret på seksuelle eller aseksuelle morfer. I mange tilfælde er kun en enkelt morf blevet beskrevet og registreret for en given art, skønt arter, der er nært beslægtede med den, kunne have flere morfer beskrevet og registreret. Følgelig er sekvenssammenligninger blevet anvendt i svampesamfundet for at skelne mellem arter, for at spore arter, når de fortsætter gennem komplekse livscyklusser og for at identificere kryptiske arter. Som en del af den dynamiske proces med taksonomisk revurdering er mange svampeartskorrektioner ikke altid opdaterede i Genbanksekvensdata.

for at være en mere pålidelig ressource til DNA-baseret identifikation skal referencesekvenser afledt af typeprøver (som fungerer som referencer for arter) mærkes med det korrekte og mest opdaterede artsnavn. De målrettede Loci-databaser med svampe giver denne værdifulde ressource. For eksempel er PRJNA177353 et Bioprojekt, der specifikt fokuserer på de interne transkriberede afstandsstykker (ITS) regioner i den nukleare ribosomale cistron, som i mange år er blevet brugt som en fylogenetisk markør og for nylig godkendt som den formelle stregkodesekvens af svampe (41). Databasen startede som et samarbejde med indeks Fungorum, MycoBank og UNITE samt en stor gruppe taksonomiske specialister. Sekvenser blev valgt, for det meste fra typeeksemplarer med gyldige beskrivelser, og derefter blev aktuelle korrekte artsnavne forbundet med sekvenserne med det formål at repræsentere de fleste af de accepterede svampeordrer (8). Resultater fra denne kurateringsindsats er blevet brugt og Citeret af forskellige publikationer (42-46) og har hjulpet yderligere bestræbelser på at validere undergrupper af referencesekvenser, f.eks. medicinsk signifikante arter (47).

målet med fortsat kuration er at tilføje sekvenser fra nyligt beskrevne ordrer og udvide repræsentationen til at omfatte de fleste af de accepterede familier med fokus på medicinsk vigtige svampe. Processen inkluderer også at foretage korrektioner, erstatte sekvens fra verificeret materiale med sekvens fra typemateriale, når det bliver tilgængeligt, og redigere definitionslinjer eller fjerne Refseksposter, når taksonomiske klassifikationer ændres. Dette sikrer, at BLAST søgeresultater korrekt vise det aktuelle navn. Dens optegnelser er blevet udvidet til at repræsentere 3.060 sekvenser, der repræsenterer 270 familier fra 39 klasser. Under den indledende kollaborative indsats blev et mindre sæt sekvenstiltrædelser fra 28S nukleare store underenhed ribosomal gen (LSU) blev også indsamlet, men ikke verificeret. En arbejdsgang svarende til dens rekordkurationsproces blev fulgt, og under fortsat kuration er disse LSU-poster blevet verificeret for sekvenskvalitet, korrekt identifikation og nøjagtige kildedata. Tæt på 500 poster (fra 800 potentielle poster), der repræsenterer >100 familier fra 21 klasser blev verificeret og for nylig frigivet. 28S datasættet kan hentes fra BioProject PRJNA51803 (48).

prokaryoter

NCBI-Genomopsamlingen repræsenterer samlede prokaryote genomer med forskellige niveauer af kvalitet og prøvetagningstæthed. For prokaryoter, baseret på tidligere feedback fra samfundet, er vores nuværende politik at levere genomanmærkning til alle prokaryote genomer, der opfylder vores kvalitetskriterier. I de senere år har vi stået over for to store udfordringer: (I) holde trit med den hurtige eskalering af indsendte prokaryote genomer; og (ii) adressering af en voksende inkonsekvens i genomanmærkning på grund af brugen af både en INSDC-formeringsbaseret rørledning og forskellige versioner af en NCBI de novo genomanmærkningsrørledning som udviklet over tid.

Med den stigende interesse for humane patogener og fremskridt inden for DNA-sekventeringsteknologi er antallet af sekventerede prokaryote genomer hurtigt steget i det sidste årti. Nogle bakteriestammer kan ofte ikke skelnes ved hjælp af nuværende genotypemetoder, men mindre genetiske forskelle kan påvises på basis af helgenomsekventering, hvilket er nyttigt til karakterisering af transmissionsveje, identifikation af antibiotikaresistens og opmåling af udbrud. At undersøge fødevarebårne patogener eller infektionsudbrud, et stort antal næsten identiske bakteriegenomer er blevet sekventeret og kommenteret i de senere år, hvilket resulterer i adskillige identiske proteiner, hver med et særskilt tiltrædelsesnummer. I 2013 introducerede NCBI en ny proteindatamodel og tiltrædelsespræfiks til samlingen. Denne ændring reducerede redundansen i prokaryote proteiner og lettede identifikation af proteiner, der var identisk fundet på mere end et genom. Det tillod også en forbedret strategi til styring af prokaryote proteinnavne. Disse ikke-redundante optegnelser repræsenterer unikke prokaryote proteinsekvenser, der er uafhængige af et bestemt bakteriegenom og kan kommenteres på flere stammer eller arter (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).historisk set blev annotation af bakteriegenomer formeret fra INSDC-indsendelser, når de var tilgængelige, eller genereret ved hjælp af forskellige versioner af NCBI ‘ s prokaryote genom-Annotationspipeline (som også tilbydes som en service til GenBank-indsendelser). Dette resulterede i akkumulerede uoverensstemmelser i både strukturel og funktionel annotation i det Refseks prokaryote datasæt. I løbet af de sidste to år forbedrede NCBI flere aspekter af den prokaryote genom-Annotationsrørledning for at øge kapaciteten og yderligere standardisere annotationsregler. Vores pipeline kombinerer en genopkaldsalgoritme, GeneMarkS+ (49,50), med en justeringsbaseret gendetekteringsmetode og er i stand til at kommentere både komplette og udkast til genomer. Rørledningen forudsiger i øjeblikket proteinkodende gener, strukturelle RNA ‘er (5s, 16S og 23S), tRNA’ er og små ikke-kodende RNA ‘ er.

i 2015 udgav vi en omfattende annotationsopdatering til prokaryote genomer for at harmonisere genomannotation og fuldføre overgangen til den nye proteindatamodel. En ny prokaryot protein navn database, navn specifikationer, og en evidensbaseret strategi blev udviklet og er i øjeblikket ved at blive implementeret. Indtil videre har over 3 Millioner proteinoptegnelser opdateret navne i en indledende demonstration af fremgangsmåden. Den nye prokaryote datamodel giver en betydelig fordel ved navnestyring, da proteinnavnet bæres med proteinsekvensrekorden; opdatering af navnet på denne proteinrekord resulterer i automatisk udbredelse af opdateringen til alle genomer, der er kommenteret med det tiltrædelsesnummer.prokaryote genomer er organiseret i flere nye kategorier såsom referencegenomer og repræsentative genomer baseret på kuraterede attributter og monterings-og annotationskvalitetsmålinger (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referencegenomer vælges manuelt ‘guldstandard’ komplette genomer med annotation af høj kvalitet og det højeste niveau af eksperimentel understøttelse af strukturel og funktionel annotation. I øjeblikket kommenteres et lille datasæt med 122 referencegenomer manuelt af samarbejdende grupper og NCBI-personale. Referencegenomerne er tilgængelige på: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Repræsentative genomer beregnes beregningsmæssigt og vælges til at repræsentere forskellige arter. De repræsentative genomer er tilgængelige på: www.ncbi.nlm.nih.gov/genome/browse/representative prokaryote genomdata kan tilgås i BLASTDATABASER, internetressourcer (samling, Bioprojekt, genom, nukleotid og Protein) via NCBI ‘ s programmeringsværktøjer eller kan hentes fra genomerne eller FTP-stederne. En brugerdefineret ‘Microbes’ BLAST side, adgang fra BLAST hjemmeside, giver muligheder for at søge mod alle prokaryote genomer, Reference og repræsentative genomer delmængde, eller at begrænse søgningen til en bestemt taksa. En delmængde af prokaryote genomer er kommenteret med et NCBI-Gen-ID og kan hentes i NCBI ‘ s Genressource eller fra Gen-FTP-stedet. For archaea er dette fastsat for de fleste komplette genomer. For bakterier er dette tilvejebragt til referencegenomer og de repræsentative genomer for arter, der har mindst 10 genomindgivelser.

prokaryote målrettede loci

i prokaryoter er 16S ribosomal RNA-sekvensen blevet en standardmolekylær markør for beskrivelsen af en ny art. Mens disse markørsekvenser er blevet meget udbredt, varierer kvaliteten af sekvensdataene og de tilknyttede metadata, der sendes til INSDC-databaser, betydeligt. Anerkender vigtigheden af adgang til data af høj kvalitet for disse markører, NCBI har udvidet sit målrettede loci-projekt for at give en opdateret kilde til kuraterede data. Det målrettede loci-projekt opretholder i øjeblikket næsten 18 000 16S ribosomale RNA-referencesekvenser, hvoraf over 95% er fra typestammer. Typestammerne betragtes som eksemplet på arten, og det er vigtigt, at typestammedata kommenteres med korrekte metadata og er fri for forurening.

dette arbejde involverede en udtømmende gennemgang og opdatering af den underliggende taksonomidatabase, som blev brugt sammen med NCBI ‘ s type strain entres filter til at hente kandidatsekvenser. Sekvensdataene og deres tilknyttede taksonomi/metadata er blevet gennemgået og korrigeret for at inkludere de mest opdaterede oplysninger. Hvis en sekvens mislykkedes validering eller ikke kunne valideres nøjagtigt, blev den ekskluderet. Disse referencesekvenser kan nu bruges som’ guldstandarder ‘ til analyse af eksisterende og nye rRNA-sekvenser.

bakterielle og Archaeal 16S rRNA datasæt er tilgængelige fra BioProject (henholdsvis PRJNA33175 og PRJNA33317). En brugerdefineret BLAST-database er også tilgængelig (’16S ribosomale RNA-sekvenser (bakterier og Archaea)’).

vira

Referencedatamodellen for vira adskiller sig fra andre organismers. Generelt oprettes kun et komplet Refseks-genom for hver viral art. Lejlighedsvis oprettes flere Refseks-poster inden for en given viral art for at afspejle veldefinerede genotyper eller vigtige laboratorie-og/eller vilde stammer. Yderligere genomer for en given art valideres for taksonomi og fuldstændighed og indekseres derefter som sekvens ‘naboer’ (52). Både genomer og nabo genomer kan hentes gennem den specialiserede virale Genomressource (http://www.ncbi.nlm.nih.gov/genome/viruses/) og fra sider med nukleotid og genom ved hjælp af links til ‘genom for arter’ og ‘andre INSDC-genomsekvenser’ (52).

taksonomi er et stort problem for viral genomik, da der er 3186 virale arter, der officielt er anerkendt af International Committee on taksonomi of virus (ICTV) (53) og 4834 komplette genomer fra både officielle og midlertidige virale arter tilgængelige fra INSDC-databaser. NCBI parvis Sekvenssammenligning (PASC) værktøj blev udviklet til at hjælpe med klassificeringen af virale genomer baseret på globale og/eller lokale justeringer mellem genomer (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Omfanget af dette værktøj er blevet udvidet til at omfatte en række virusfamilier og andre taksonomiske grupper, og det er blevet brugt til at støtte afgrænsningen af nye taksonomiske kriterier (54-57).

et andet voksende problem i viral genomik er inkonsekvent og/eller unøjagtig annotation blandt relaterede virale genomsekvenser. Dette problem afspejler ofte forskellige annotationsprocesser og løbende eksperimentelt arbejde og kan føre til forvirring blandt dataforbrugere og vanskeliggøre sammenlignende analyse mellem genomer. Dette problem løses inden for NCBI-Virusvariationsressourcen (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/), hvor beregningsrørledninger anvendes til at give opdateret, standardiseret annotation for flere vira (58). I øjeblikket, disse rørledninger beregner standardiserede gen-og proteingrænser for alle virus -, Dengue-virus, og vestnilvirussekvenser og standardiserede gen-og proteinnavne og metadataudtryk for disse og to andre vira, Mellemøsten respiratorisk coronavirus og Ebolavirus. Disse standardiserede data udnyttes derefter inden for en specialiseret, metadata-centreret søgegrænseflade, der letter let hentning af sekvenser baseret på specifikke biologiske kriterier.

opretholdelse af ajourførte, bredt accepterede annotationsstandarder kræver kontinuerligt samarbejde med det større videnskabelige samfund. NCBI Viral Genome Annotation arbejdsgruppe blev oprettet for at udnytte konsortier af offentlige databaser, sekventeringscentre og forskningsgrupper til at udvikle standardiseret sekvensnotation samt isolere navngivningsordninger for forskellige grupper af vira (59-63). Denne tilgang fastlægger ikke kun standarder for viral annotation, men repræsenterer også disse standarder inden for den aktuelle Refsekspost, hvilket sikrer tilgængelighed for alle databasebrugere og indsendere. Lignende samarbejder er også nødvendige for at understøtte værditilvækst, fortolkende ressourcer såsom HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/hiv-1/interaktioner/) (64). Samarbejdspartnere fra Southern Research Institute leverer dokumenteret HIV-1, humane molekylære interaktioner kurateret fra litteraturen, og NCBI opretholder en brugervenlig ressource, hvor brugerne kan forespørge efter specifikke typer interaktioner og finde mere information om de involverede gener.

fremtidige retninger

projektet er unikt i at tilbyde et referencesekvensdatasæt af udskrifter, proteiner og genomer, der omfatter alle livets kongeriger og er blevet aktivt vedligeholdt og opdateret over tid for at inkorporere forbedrede beregningsstrategier, nye datatyper og ny viden. Vi har demonstreret evnen og kapaciteten til at reagere på nylige hurtige stigninger i antallet af sekventerede genomer, der sendes til INSDC-databaser. Vi har defineret et forskelligt sæt politikker og strategier til kuration og annotation af eukaryote, prokaryote, og virale arter for at imødekomme de forskellige behov hos organismerspecifikke samfund. Datasættet bruges i vid udstrækning som referencestandard til mange forskellige analyser, herunder kliniske anvendelser hos mennesker og patogener, komparativ genomik, ekspressionsanalyser, fortolkning af sekvensvariation, og både array-og probekonstruktion. På NCBI er datasættet integreret i flere ressourcer, herunder samling, BLAST, Epigenomik, gen (hvor Refseks annotation er det primære grundlag for de fleste Genindgange), genom, dbSNP, dbVar, Variation seer og meget mere.

Vi vil fortsætte med at målrette manuel kuration for at forbedre strukturel og funktionel information til humane og andre hvirveldyr genomer. Vores konservative manuelle kurateringsmetode sikrer den fortsatte høje kvalitet og pålidelighed af menneske -, mus-og andre ‘kendte’ refseks-poster, der tjener behovene hos dem, der har brug for en velunderstøttet definition af alternative eksoner (færre falske positive). Tilføjelsen af RNA-Sekv-data til vores annotationspipeline øgede vores annotation af alternative splejsningsvarianter markant som Modelrefseks for at imødekomme behovene hos dem, der ønsker en mere omfattende, men stadig godt understøttet definition af eksomet (færre falske negativer). Mens både kendte og modelrefseks rapporterer støttebeviset på sekvensposten, bruger de forskellige tilgange til at gøre det. Fremtidige bestræbelser vil blive rettet mod at harmonisere evidensrapportering for både ‘kendte’ og ‘model’ Refseks, så brugerne lettere kan identificere disse oplysninger. Vi vil også i den nærmeste fremtid tilføje en ny datatype til samlingen af mennesker og mus for at repræsentere eksperimentelt rapporterede regulatoriske og funktionelle elementer med kendte (eller med rimelighed udledte) funktionelle konsekvenser.

for prokaryote genomer fortsætter vi med at raffinere aspekter af den strukturelle annotation, der genereres af den prokaryote genom Annotation Pipeline. Vores arbejde hen imod en ny tilgang til styring af funktionel information forbedres stadig og vil blive beskrevet andetsteds. Vi forventer at kommentere hele datasættet for prokaryote genomer, når nye versioner af vores prokaryote annotationspipeline bliver tilgængelige (for at forbedre strukturel annotation). Beslutningen om at kommentere alle refseks prokaryoter ved hjælp af en enkelt metode sammen med det store volumen af dette datasæt nødvendiggør en anden tilgang, der udnytter flere kilder til bevis for at give funktionel information. Proteinnavne opdateres løbende som organiseret af proteinfamilier eller kategorier af bevistype. Vores mål for det kommende år omfatter større integration af Rfam (65) i vores annotation pipeline, udvidet samarbejde, forbedrede protein navne, og rapportering støtte beviser på protein sekvens rekord.

Vi vil gerne takke det videnskabelige samfund for konstruktiv feedback, forslag, fejlrapporter og samarbejde i løbet af de sidste 15 år, der har bidraget til kvaliteten og nøjagtigheden af den repræsenterede sekvens, strukturel annotation og funktionel annotation.

finansiering

Intramural forskningsprogram for NIH, National Library of Medicine. Finansiering til Open access charge: det intramurale forskningsprogram fra National Institutes of Health, National Library of Medicine.

interessekonflikt erklæring. Ingen erklæret.

Nosek
banker
G. C.

Borsboom
S. D.
breckler
S. J.
buck
S.

buck

S.

Chambers
C. D.
Kina
Christensen
G.

et al.

videnskabelige standarder. Fremme af en åben forskningskultur
videnskab
2015
1422

K. A.

Yates
B.
R. L.
Bruford
E. A.

Genenames.org: hgnc-ressourcerne i 2015
nukleinsyrer Res.
2015
43
D1079

Bradford
Y. M.
K.
D. G.
paddock
H.

D. G.

paddock
H.
Ramachandran
S.
singer
Bull
Van Slyke
C. E.

Eagle
A. E.

et al.

ZFIN, Den zebrafish model organisme database: Opdateringer og nye retninger
Genesis
2015
53
498
509

UniProt
C

UniProt: en hub for protein information
Nucleic acids Res.
2015
43
D204
212

Kozomara
A.

Griffiths-Jones
S.

miRBase: anmærkning høj tillid microRNAs ved hjælp af dybe sequencer-data
Nucleic Acids Res.
2014
42
D68
73

McGarvey
K. M.

Goldfarb
T.

Cox
E.

Farrell
C. M.

Gupta
T.

Joardar
V. S.

Kodali
V. K.

Murphy
M. R.

O ‘ Leary
N. A.

Pujar
S.
Muse genom annotation af Refseks projekt
Mamm. Genom
2015
26
379

Dalgleish
R.

Dalgleish
R.

flicek
P.
Cunningham
astashyn
Tully
R. E.

A.

Tully
R. E.

Proctor
G.

Y.
McLaren
Larsson
P.
Vaughan
B. V.

et al.

Locus Reference genomiske sekvenser: det forbedrede grundlag for at beskrive humane DNA-varianter
genom Med.
2010
2

Schoch

Robbertse
B.

Robert
v.
vu
D.

Cardinali
L.
Meyer
Nilsson
R. H.
Hughes
K.
Miller
A. N.

et al.

Finde nåle i branchen: sammenkædning af videnskabelige navne, reference-prøver og molekylære data for Svampe
Database
2014
1
21

Zhang
G.

Det
C.

it
it
B.
Larkin
D. M.

Lee
C.
J. F.
Antunes
A.
M. J.
Meredith
R. V.

et al.

Komparativ genomforskning afslører indsigt i aviær genom evolution og tilpasning
Videnskab
2014
346
1311
1320

Jarvis
E. D.

Mirarab
S.

Aberer
A. J.

Det
B.

Houde
S

Det
C

Ho
S. Y.

Klikken
B. C.

B.
J. T.

et al.

Hel-genom analyser løse begyndelsen af grene på livets træ af moderne fugle
Videnskab
2014
346
1320
1331

Farrell
C. M.

olsen
N. A.

Harte
R. A.

Loveland
J. E.

Wilming
L. G.C.

Barrell
D.
Searle
S. M.

Aken
B.

et al.

Aktuelle status og nye funktioner på Konsensus Kodende Sekvens database
Nucleic Acids Res.
2014
42
D865
D872

Pruitt
K. D.

Tatusova
T.

Maglott
D.R.

NCBI reference sekvenser (RefSeq): en kurateret ikke-redundante sekvens database af genomer, afskrifter og proteiner
Nucleic Acids Res.
2007
35
D61
D65

Hopkins
B. D.

Fin
B.

Steinbach
N.

Dendy
M.

Rapp
Z.

Shaw
J.

Ross
K.

Yu
J. S.

Hodakoski
C.
Mense
S.

et al.

Den, der udskilles PTEN fosfatase, der kommer ind celler til at ændre signaler og overlevelse
Videnskab
2013
341
399
402

Liang
H.

Han
S.

Yang
J.

Jia
X

Wang
S.

McNutt
M. A.

Sheng
H. H.

et al.

PTENalpha, PTEN-isoformen oversat gennem alternativ initiering, regulerer mitokondriefunktion og energimetabolisme
Cellemetab.
2014
19
836
Bolouri
H.

modellering af genomregulerende netværk med store data
Trends Genet.: TIG
2014
30
182

Fagerberg
L.

div>

Hallstrom
B. M.

oksvold
Kampf
C.
djureinovic
D.
odeberg
J.
habuka
tahmasebpoor
S.

Danielsson
A.

Edlund
K.

et al.

scanning af det humane vævs-specifikke udtryk ved genom-dækkende integration af transcriptomics og antistof-baserede proteomics
Mol. Celle. Proteomics : MCP
2014
13
397

Bernstein
B. E.
div>

stamatoyannopoulos
J. A.

Costello
J. F.

talje
B.

Milosavljevic
Kellis

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.