Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeq-prosjektet utnytter dataene som sendes Inn Til INTERNATIONAL Nucleotid Sequence Database Collaboration (INSDC) mot en kombinasjon av beregning, manuell kurering og samarbeid for å produsere et standard sett med stabile, ikke-redundante referansesekvenser. RefSeq-prosjektet forsterker disse referansesekvensene med aktuell kunnskap, inkludert publikasjoner, funksjonelle funksjoner og informativ nomenklatur. Databasen representerer for tiden sekvenser fra mer enn 55 000 organismer (>4800 virus, >40 000 prokaryoter og >10 000 eukaryoter; RefSeq release 71), alt fra en enkelt post til komplett genomer. Dette papiret oppsummerer den nåværende statusen til de virale, prokaryote og eukaryote grenene Av RefSeq-prosjektet, rapporterer om forbedringer av datatilgang og detaljer innsats for å ytterligere utvide den taksonomiske representasjonen av samlingen. Vi fremhever også ulike funksjonelle kureringsinitiativer som støtter flere bruksområder Av RefSeq-data, inkludert taksonomisk validering, genomannotasjon, komparativ genomikk og klinisk testing. Vi oppsummerer vår tilnærming til å utnytte tilgjengelige RNA-Seq og andre datatyper i vår manuelle kureringsprosess for vertebrate, plante og andre arter, og beskriver en ny retning for prokaryote genomer og proteinnavnbehandling.

INTRODUKSJON

I de siste 15 årene Har National Center For Biotechnology Information (NCBI) RefSeq database fungert som en viktig ressurs for genomisk, genetisk og proteomisk forskning. RefSeq-prosjektets levering av kuraterte og stabile annoterte referansegenomer, transkripsjoner og proteiner for utvalgte virus, mikrober, organeller og eukaryote organismer, har gjort det mulig for forskere å fokusere på de beste representative sekvensdataene i motsetning Til de overflødige dataene I GenBank, og å entydig referere til spesifikke genetiske sekvenser. RefSeq-samlingen gir eksplisitt koblede genom -, transkripsjons-og proteinsekvensposter som inneholder publikasjoner, informativ nomenklatur og standardiserte og utvidede funksjonsanmerkninger. RefSeq-poster er integrert I NCBIS ressurser, inkludert Nukleotid -, Protein-Og BLAST-databasene, og kan enkelt identifiseres ved søkeordet ‘RefSeq’ og ved deres distinkte tiltredelsesprefikser som definerer deres type (Tabell 1). Alle RefSeq-data er underlagt kvalitetssikringskontroller med noen spesialiserte QA-tester utviklet for forskjellige taxa – eller datatyper. For eksempel gjennomgår alle virale RefSeqs taksonomisk gjennomgang av NCBI-ansatte før offentlig utgivelse. RefSeq tiltredelser er mye sitert i vitenskapelige publikasjoner og genetiske databaser fordi de gir et stabilt og konsistent koordinatsystem som kan brukes som en baseline for rapportering av genspesifikke data, klinisk variasjon og kryss-arter sammenligninger. Disse referansesekvensstandardene blir stadig viktigere fordi nøyaktig rapportering og reproduserbarhet er viktige komponenter for beste praksis innen biomedisinsk forskning (1).

RefSeq tiltredelsesprefikser

Tabell 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer
AP_3	protein	Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost	XP_3, 5	protein	Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring
yp_3	protein	proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring
wp_6	protein	Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom

prefiks .	Molekyltype.	Bruk kontekst .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer
AP_3	protein	Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost	XP_3, 5	protein	Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring
yp_3	protein	proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring
wp_6	protein	Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom

1det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 tall etterfulgt av sekvensversjonsnummeret.

2det komplette tiltredelsesformatet består av prefikset etterfulgt av INSDC-tiltredelsesnummeret Som RefSeq-posten er basert på, etterfulgt av RefSeq-sekvensversjonsnummeret.

3det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 eller 9 tall etterfulgt av sekvensversjonsnummeret.

4poster med dette tiltredelsesprefikset er kuratert av NCBI-ansatte eller en modellorganismedatabase, eller er i samlingen av tiltredelser som kuratorer jobber med. Disse postene er referert til som’ kjent ‘ RefSeq datasett.

5poster med dette tiltredelsesprefikset genereres gjennom enten eukaryote genome annotation pipeline eller small eukaryote genome annotation pipeline. Poster generert via den første metoden er referert til som ‘modell’ RefSeq datasett.

6det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 9 tall etterfulgt av versjonsnummeret. Versjonsnummeret er alltid’.1 ‘ disse postene er ikke gjenstand for oppdatering. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer
AP_3	protein	Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost	XP_3, 5	protein	Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring
yp_3	protein	proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring
wp_6	protein	Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom

prefiks .	Molekyltype.	Bruk kontekst .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer
AP_3	protein	Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost	XP_3, 5	protein	Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring
yp_3	protein	proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring
wp_6	protein	Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom

1det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 tall etterfulgt av sekvensversjonsnummeret.

2det komplette tiltredelsesformatet består av prefikset etterfulgt av INSDC-tiltredelsesnummeret Som RefSeq-posten er basert på, etterfulgt av RefSeq-sekvensversjonsnummeret.

3det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 eller 9 tall etterfulgt av sekvensversjonsnummeret.

6det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 9 tall etterfulgt av versjonsnummeret. Versjonsnummeret er alltid’.1 ‘ disse postene er ikke gjenstand for oppdatering. Se online dokumentasjon for mer informasjon: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

i de senere år har avanserte sekvenseringsteknikker muliggjort en betydelig økning i hele genommonteringsinnlegg til de offentlige databasene. Som et resultat Har RefSeq-prosjektet utvidet dybden og bredden av taxa som inngår i datasettet, hovedsakelig gjennom forbedringer av flere interne annotasjonsrørledninger. Alle taxa er i omfang For RefSeq inkludering; imidlertid er annotasjon ofte begrenset til de organismer som en høy kvalitet primærgenom-samling er tilgjengelig med ubestridt organisasjonsinformasjon. Vi kan derfor ekskludere noen kategorier av data som ikke oppfyller våre kvalitetsstandarder. Ekskluderte datasett inkluderer: metagenomer, forsamlinger med lave contig n50-verdier eller spesielt høyt antall uplasserte stillas / contigs(dvs. høy fragmentering), eller genomer som har betydelig mismatch eller indel variasjon sammenlignet med andre nært beslektede genomer for arten (f.eks. noen prokaryoter).Et unikt aspekt Av RefSeq datasettet er den kombinerte tilnærmingen til å utnytte beregning, samarbeid og kurering av NCBI vitenskapelige ansatte. SOM et stort bioinformatikkanlegg har NCBI investert i å utvikle robuste prosessflyter for å generere merknad og utføre kvalitetssikringstester for eukaryote og prokaryote genomer, transkripsjoner og proteiner. Forbedringer i viral genomer prosessflyten pågår. RefSeq-gruppen samarbeider med en rekke ekspertgrupper, inkludert offisielle nomenklaturmyndigheter (f. eks. HUGO Gene Nomenclature Committee (HGNC) og Zebrafish Information Network (ZFIN) for henholdsvis menneske-og sebrafiskgenavn), UniProtKB (proteinnavn) og miRBase (microRNAs) (2-5). Disse og andre samarbeidene bidrar til å opprettholde Og forbedre Kvaliteten på RefSeq-datasettet gjennom QA-rapporter, utveksling av gen-og sekvensinformasjon og utveksling av funksjonell informasjon. NCBI-ansatte gir også kureringsstøtte for virus, prokaryoter, eukaryoter, organeller, plasmider og målrettede prosjekter, inkludert kuratering av gener og sekvenser For Homo sapiens, Mus musculus og andre organismer. RefSeq kuratorer forbedre kvaliteten på databasen gjennom gjennomgang AV QA testresultater, involvering i valg av visse innganger for genom annotasjon behandling, sekvensanalyse, taksonomisk analyse, og funksjonell gjennomgang. Curation støtter også forbedringer av genom annotasjon rørledninger som innhold eksperter bidra til å definere programmatiske tilnærminger for å modellere både typisk og atypisk biologi. For eukaryoter, spesielt pattedyr, definerer transkriptbasert kurering «beste» sekvensrepresentanter (som «kjent» RefSeqs; Tabell 1 fotnote) som brukes som et primært inngangsreagens til eukaryotisk genom-annotasjonsrørledning (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Forbedringer i input reagens kvalitet i sin tur legge betydelig kvalitet og reproduserbarhet til den resulterende genom merknad. Denne typen manuell konservering har historisk vært fokusert på menneske og mus på grunn av deres unike biomedisinske betydning (6). Mer nylig har disse kureringsinnsatsene gitt større oppmerksomhet Til Rattus norvegicus, Danio rerio, Bos taurus og Gallus gallus. Disse artene er relevante for menneskers helse så vel som landbruksbærbarhet.i dette papiret rapporterer vi om vår fremgang i å utvide RefSeq-datasettet til å inkludere mer varierte organismer, beskrive forbedringer i datatilgang og gi eksempler som illustrerer økt fokus på å gi fylogenetisk nyttige datasett samt funksjonell funksjonsannonsering på RefSeq-transkripsjon og proteinregistre. Vi forventer at disse anstrengelsene og forbedringene I RefSeq-datasettet vil fortsette å bidra til fremme av medisinsk translasjonsforskning, landbruksforbedringer, fylogenetisk identifikasjon og evolusjonære studier.

GENERERING AV REFSEQ-DATASETTET

RefSeq-sekvensposter genereres ved forskjellige metoder avhengig av sekvensklassen og organismen. Archaeal og bakterielle genomer (Se prokaryoter seksjon) er annotert VED HJELP AV NCBIS prokaryote genome annotation pipeline (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mens et lite antall referanse bakterielle genomer støttes av samarbeid og manuell kurering. RefSeq eukaryote genomer er gitt ved hjelp av to prosessflyter. Flertallet av plante -, dyr -, insekt-og leddyrgenomer er annotert av eukaryote genome annotation pipeline. Denne rørledningen genererer annoteringsresultater basert på tilgjengelige transkriptdata (inkludert RNA-Seq og transcriptome shotgun assembly (tsa) data), samt proteinhomologi, ab initio-prediksjon (i stor grad når transkriptomdata er utilgjengelige) og tilgjengelige kjente (kuraterte) RefSeq-transkripsjoner og proteiner (Se Tabell 1). Pipeline-generated annotation (modell RefSeqs) kan eller ikke har støtte for den komplette exon-kombinasjonen fra en enkelt bevisjustering, men kan ha RNA-Seq-støtte for exon-par. De eukaryotiske genomene som har blitt kommentert av denne rørledningen, rapporteres offentlig med lenker for å laste ned dataene VIA FTP, for å vise eller utføre EN BLASTSPØRRING mot det annoterte genomet, eller for å få tilgang til en detaljert annotasjonsrapporteringsoversikt (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rørledningen for en delmengde av eukaryoter, inkludert sopp, protozoer og nematoder, innebærer forplantning av merknader som Har blitt sendt Til International Nucleotid Sequence Database Collaboration (INSDC), med formatstandardisering, til En RefSeq-kopi av den innsendte genomsamlingen (se Alger, Sopp, Nematoder og Protozoer).NCBI ansatte gir mesteparten Av RefSeq organelle genom annotasjon gjennom forplantning FRA INSDC innsending. Mammalian mitokondrier annotasjon er ofte supplert med manuell kurering. RefSeq-prosjektet opprettholder også referansesekvenser for målrettede loci-prosjekter Som RefSeqGene, som er medlem Av Locus Reference Genomic (Lrg) collaboration (7), for bakterie-og sopp ribosomal rrna loci, og for sopp interne transkriberte spacer-sekvenser (ITS) (8). I tillegg er et betydelig antall mennesker, mus og andre transkripsjoner og proteiner gitt gjennom samarbeid og manuell kurering som inkluderer sekvensanalyse og litteraturvurdering.NCBIS prokaryote (se nedenfor) og eukaryote annotasjonsrørledninger har holdt tritt med det økende antall genomsamlinger sendt TIL INSDC ved å gi konsekvent merknad På RefSeq-kopier av utvalgte høykvalitets innleverte genomsamlinger. Hittil har 245 eukaryotiske genomer, inkludert 170 vertebrate genomer, blitt annotert av denne rørledningen, hvorav mer enn 120 arter ble annotert de siste 20 årene. Blant denne gruppen er 52 fuglearter som inkluderer representative arter av de fleste fugleordener (9,10). Det har også vært en betydelig utvidelse i antall RefSeq-annoterte samlinger for ikke-menneskelige primater, andre pattedyr, fisk, planter og leddyr.

TILGANG TIL REFSEQ-DATASETTET

RefSeq-hjemmesiden http://www.ncbi.nlm.nih.gov/refseq/ er et sentralt knutepunkt for Alle aspekter Av RefSeq-datasettet. Dette nettstedet inneholder lenker som veileder brukerne gjennom en generell beskrivelse av prosjektet, samt faktaark, vekststatistikk og informasjon om mer fokuserte RefSeq-prosjekter som prokaryote genome re-annotation initiative, Consensus Coding Sequence (CCDS) project (11) RefSeqGene project, Og Targeted Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) prosjekter. Lenker til den nyeste omfattende FTP utgivelsen og detaljert dokumentasjon på format og innhold av utgivelsen kan bli funnet i ‘Kunngjøringer’ delen Av RefSeq hjemmeside. Tidligere RefSeq kunngjøringer er også tilgjengelig fra denne siden. Vi oppfordrer på det sterkeste til å laste Ned RefSeq-data direkte fra NCBI, da nedlastinger fra andre bioinformatikk-og genomleserressurser kanskje ikke inneholder alle tilgjengelige data, eller kan bare gjenspeile justeringer Av RefSeq-transkripsjoner til et genom i stedet for genommerkningsresultatene som genereres av NCBI.RefSeq-sekvensdata kan nås interaktivt ved Hjelp Av NCBIs Nukleotid-og Proteindatabaser, I BLASTDATABASER, GJENNOM NCBIS programmatiske grensesnitt (E-verktøy) eller via FILE transfer protocol (FTP). E-utilities støtter skripttilgang for å laste Ned RefSeq-data i en rekke formater basert på enten søkeord eller tiltredelseslister. www.ncbi.nlm.nih.gov/books/NBK25501/) og opplæringsvideoer er tilgjengelige fra NCBIS YouTube-kanal (https://www.youtube.com/user/NCBINLM). Både Nukleotid – Og Proteindatabasene tillater at spørringsresultater begrenses til Bare RefSeq-poster ved å velge ‘RefSeq’ under ‘Kildedatabasen’ i filter-sidepanelet. RefSeq-data kan også nås fra ANDRE NCBI-databaser, inkludert Assembly, BioProject, Gene og Genome ved å følge koblingene som er gitt Til Nukleotid -, Protein-eller FTP-ressurser Informasjon Om kureringsendringer i RefSeq-gruppen eller NCBI-oppdateringer som påvirker RefSeq-databasen, rapporteres gjennom Flere kilder, inkludert REFSEQ FTP-utgivelsesnotater, periodiske publiserte rapporter, NCBI-Kunngjøringene News feed http://www.ncbi.nlm.nih.gov/news/ og GJENNOM NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Brukere kan også abonnere på refseq-announce mail-listen for å motta periodiske oppdateringer om prosjektet og et sammendrag av innholdet i Hver RefSeq FTP-utgivelse (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq data distribueres VIA FTP gjennom to nettsteder, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) og genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes refseq FTP-siden gir daglige oppdateringer av alle nye Og oppdaterte RefSeq-poster, ukentlige oppdateringer av enkelte datatyper og en bi-månedlig omfattende RefSeq-utgivelse (/refseq/release/). I tillegg oppdateres utvalgte organisasjonsspesifikke transkripsjoner og proteindatasett, inkludert menneske og mus, ukentlig. Den RefSeqGene underkatalog oppdateres daglig, med justeringer til genomet utgitt med hver merknad kjøre. Den omfattende bi-månedlige RefSeq utgivelsen er organisert av taksonomiske (f. eks virveldyr pattedyr) eller andre grupperinger (f.eks mitokondrier). Data kan også lastes ned for Hele RefSeq samlingen fra/refseq/release/ complete / katalogen. RefSeq-utgivelsen gir en fordel for de som ønsker å opprettholde periodiske oppdateringer av enten hele samlingen eller en enkelt gruppe. Det inkluderer også poster som ikke er tilgjengelige FRA ftp-området companion genomes, for eksempel transkripsjoner i samlingen som vedlikeholdes uavhengig av, og kanskje ikke er merket på, en genomsamling. Utgivelsen er utstyrt med betydelig dokumentasjon av filene installert (/refseq/release/ release-catalog/) inkludert MD5 sjekksummer, en liste over alle installerte filer, samt versjonsmerknader og kunngjøringer (/refseq/release/release-notes/).

RefSeq data kan også lastes ned fra GENOMES FTP-området. I August 2014 NCBI annonsert en større omorganisering av DETTE FTP-området som nå gir montering og organisme-basert tilgang Til Både GenBank og RefSeq genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Denne katalogen er videre delt inn i underkataloger basert på de samme gruppene som brukes I RefSeq-utgivelsen, som hver gir flere underavdelinger etter art. Genomes FTP-området gir filer som representerer Alle RefSeq genom samlinger rapportert I NCBI Assembly resource (www.ncbi.nlm.nih.gov/assembly/). fordelen med genomes nettstedet er at dataene kan nås på en assembly – eller organismespesifikk måte. Data som leveres inkluderer genom og produkt (transkript/protein) sekvens, merknad, assembly rapporter og statistikk, OG MD5 sjekksummer; disse dataene oppdateres når genommonteringen og / eller merknaden oppdateres. Dette området omfatter Ikke RefSeq sekvenser som er utenfor rammen av et genom montering eller produkter som ikke er merket på et genom.

VEKST og STATISTIKK

RefSeq FTP release 71 (juli 2015) inneholder mer enn 77 millioner sekvensposter for mer enn 55 000 organismer. Tabell 2 oppsummerer Veksten Av RefSeq datasett i det siste året i form av organismer og antall sekvens poster representert per Hver REFSEQ utgivelse FTP katalogområde. Bakterielle genomer og proteiner utgjør hoveddelen Av RefSeq-datasettet(56% av de totale tiltredelsene og 76% av > 52 millioner proteintiltak). Betydelig økning i antall organismer, proteiner, og totale poster er sett for virvelløse, plante, og eukaryote organismer som er i samsvar med økt antall og gjennomstrømning av genom sekvensering prosjekter. En viktig faktor for Fortsatt høy vekst Av RefSeq data er forbedringer i genom rørledninger som genererer annoterte RefSeq genomer. Spesielt inkluderer dette økt kapasitet i NCBIS prokaryote genome annotation pipeline, re-utvikling av prosessflyten som forplanter annotasjon fra eukaryote GenBank genomer til RefSeq genomer, og inkorporering AV RNA-Seq-bevis i NCBIS eukaryote genome annotation pipeline og dens innvirkning på generering av Modell RefSeqs (XM_, XR_ og XP_ accessions, Tabell 1).

Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq-utgivelsen, Per FTP-utgivelseskatalog

Tabell 2.

Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq utgivelsen, PER FTP utgivelse katalog

Utgivelse Katalog .	Organismer .	% Endring .	Transkripsjoner .	% Endring .	Proteiner .	% Endring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Endring .	Transkripsjoner .	% Endring .	Proteiner .	% Endring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (f. eks archaea.acc_taxid_growth.txt og relaterte filer). Den prosentvise årlige endringen er basert på sammenligning av datatellinger For RefSeq release 71 (juli 2015) og RefSeq release 66 (juli 2014).

Tabell 2.

Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq utgivelsen, PER FTP utgivelse katalog

Utgivelse Katalog .	Organismer .	% Endring .	Transkripsjoner .	% Endring .	Proteiner .	% Endring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Endring .	Transkripsjoner .	% Endring .	Proteiner .	% Endring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

den dramatiske nedgangen i antall plasmid protein poster, og dermed i antall totale tiltredelser, gjenspeiler ferdigstillelse Av En RefSeq bakteriegenom re-annotation prosjekt (http://www.ncbi.nlm.nih.gov/refseq/ om / prokaryoter / reannotation/) og vedtakelsen av den nye datamodellen for prokaryoter, inkludert deres plasmider. I denne nye datamodellen kan En Enkelt RefSeq-ikke-redundant proteintilgang bli annotert på mer enn en genomisk sekvensrekord når oversettelse av disse genomiske proteinkodende regionene resulterer i et identisk protein (se http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteiner/). Redundans i alle bakterielle proteiner ble også betydelig redusert; det er imidlertid ikke tydelig her på grunn av fortsatte signifikante økninger i antall bakterielle genomer som er inkludert i datasettet. Disse endringene resulterte også i en samlet nedgang i antall archaeal protein poster.

VIRVELDYR

En utvalgt gruppe virveldyr inkludert Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bim taurus og Danio rerio er hovedfokus i vårt transkripsjons-og litteraturbaserte manuelle kureringsarbeid. Kuratorer arbeider generelt fra lister over gener med datakonflikter identifisert ved kvalitetssikringstester( QA), hvorav noen tidligere ble beskrevet (12). De følger et detaljert sett med retningslinjer når de analyserer hvert gen for å sikre konsistens på tvers av personer i det kuraterte datasettet. Denne analysen innebærer grundig sekvensvurdering og litteraturgjennomgang for å lage referanseutskrifter, proteiner, pseudogener og RefSeqGene-poster. RefSeq-kuratorer genererer transkripsjonsvarianter, løser sekvensfeil, fjerner unøyaktig informasjon, oppdaterer poster for å korrekt representere lokusens biologi og legge til verdifull funksjonell informasjon til Noen RefSeq-poster, for eksempel forbedrede proteinnavn, et sammendrag av funksjonen til genproduktet, funksjonelle egenskaper av genet og/eller relevante publikasjoner. Manuell kurering og litteraturgjennomgang Av RefSeq-gruppen kan resultere i representasjon av unike varianter og isoformer som ikke ville bli spådd når de bare var basert på beregningsanalyse. For eksempel viste litteraturgjennomgang av det humane tumorsuppressorgenet, pten (fosfatase og tensin homolog, GeneID: 5728) eksistensen av en lengre proteinisoform som følge av bruk av et alternativt in-frame oppstrøms CUG initieringskodon funnet i midten av en palindromisk sekvens oppstrøms for det kanoniske mRNA-oversettelseskodonet startkodon (13). Sterke eksperimentelle data indikerte at denne mitokondrielle-spesifikke isoformen initierer med et leucin, snarere enn et metionin (14). RefSeq-datamodellen for eukaryoter gir ett transkripsjon eksplisitt knyttet til ett protein. Derfor ble to identiske transkripsjonsposter gitt for å reflektere oversettelse fra de alternative initieringskodonene; NP_000305. 3 representerer 403 aminosyreproteinet som bruker det kanoniske metioninstartkodonet, mens NP_001291646. 2 representerer det mitokondrielle lokaliserte 576 aminosyreproteinet som initierer med leucin. Dermed tjener kurasjonsprosessen et dobbelt formål med å gi nøyaktige referansesekvenser som letter presis og reproduserbar genomannotasjon og gir poster som inneholder relevant biologisk informasjon. I denne delen diskuterer vi nylige oppdateringer, forbedringer vi har gjort i vår manuelle kureringsprosess, og eksempler på fokuserte kureringsprosjekter.

RefSeqGene project

RefSeqGene-delprosjektet definerer menneskelige genomiske sekvenser som skal brukes som referansestandarder for godt karakteriserte gener, spesielt for bruk av det kliniske genetikkmiljøet. Disse sekvensene tjener som et stabilt grunnlag for rapportering av patogene varianter, for å etablere konvensjoner for nummerering av eksoner og introner, og for å definere koordinatene til andre varianter. Hver Refseqgen-post fokuserer på en genspesifikk genomisk region og er typisk annotert med En delmengde Av RefSeq-transkripsjoner og proteiner valgt av domeneeksperter. Disse valgene bestemme exon funksjoner. Justeringer av eldre versjoner Av den kanoniske RefSeq transkripsjon / protein, samt andre kjente RefSeqs, er inkludert. Disse postene inkluderer vanligvis 5 kilobaser (kb) sekvens oppstrøms av focus genet, og 2 kb sekvens nedstrøms, for å støtte representasjon av potensielle regulatoriske områder eller slettinger som strekker seg utover genet funksjonen. En RefSeqGene-post kan inneholde annotasjonsinformasjon for andre gener som befinner seg innenfor sine grenser. RefSeqGene poster gjennomgås først av locus-spesifikke databaser og NCBI ansatte. RefSeqGene er medlem AV lrg-samarbeidet (7) som gir ytterligere gjennomgang av sekvensdataene før man legger TIL en lrg-tiltredelse. Et nylig arbeidsfokus utvidet antall RefSeqGene-poster til å representere alle gener som minst to kliniske tester har blitt sendt TIL NIH Genetic Testing Registry (GTR). På denne tiden er det 5596 RefSeqGene poster, hvorav 633 har EN LRG tiltredelse. RefSeqGene-poster kan hentes ved å søke I Nukleotiddatabasen med ‘refseqgene’, ved DERES lrg-tiltredelser, ved Å bla Gjennom RefSeqGene-nettstedet (www.ncbi.nlm.nih.gov/refseq/rsg/), ELLER VIA FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

Inkorporering AV RNA-Seq og andre datatyper i transkriptbasert kurering

Et hovedmål For RefSeq-kurasjonsprosjektet er å representere transkript-og proteinreferansesekvenser av høy kvalitet og full lengde. Som sådan er våre kurasjonskriterier primært basert på konvensjonelt transkripsjon (mRNA og ESTs) og proteinjusteringer og publisert bevis. Imidlertid har vertebrate transkriptome prosjekter blitt stadig mer komplekse med de fleste nye transkriptdata som for tiden genereres av kortlesesekvenseringsteknologi. Genomfattende studier som ser på globale mønstre av promotorassosierte epigenetiske merker, gir også bevis på aktive promotorer og / eller aktiv transkripsjon. RefSeq-gruppen har justert kurasjonspraksis for å innlemme disse nye datatypene for å forbedre vår manuelle merknad, spesielt i tilfeller der et gen eller en variant mangler rikelig konvensjonell transkripsjonsstøtte. Disse rna-Seq-og epigenomiske studiene har generert enorme datasett som gir en utfordring for genannotasjonsgrupper for eksempel gjennom potensielle falske positiver og mangel på støtte for langtrekkende eksonkombinasjoner (15). RefSeq kuratorer redusere mot falske positiver ved selektivt å innlemme bare høy kvalitet datasett for vurdering i vår genom annotasjon rørledning og i manuell annotasjon prosessen. RefSeq-kuratorer visualiserer transkripsjonsjusteringer, variasjonsdata og filtrerte rna-Seq-data i tilpassede skjermer i et internt justeringsverktøy innlemmet i NCBI Genome Workbench-plattformen (http://www.ncbi.nlm.nih.gov/tools/gbench/). Kurering av humane gener benytter analysert RNA-Seq leser Fra Illumina BodyMap 2 (BioProject: PRJEB2445) og Human Protein Atlas prosjekter (BioProject: PRJEB4337) (16). I tillegg kuratorer bruke promoter-assosiert histon modifikasjon merker Som H3K4me3 FRA NIH Veikart Epigenomic Mapping Consortium (REMC; (17) OG ENCODE (Encyclopedia OF DNA Elements) prosjekt (18) for å verifisere tilstedeværelsen av en aktiv promoter. RefSeq-kuratorer vurderer også polyA-seq-data for å bekrefte 3 ‘ fullstendighet av transkripsjoner som mangler en polyA-hale (19). Andre datatyper, inkludert PhyloCSF (20), CpGIslands, RepeatMasker (21) og Cap analyse av genuttrykk (CAGE) data (22), brukes noen ganger som ekstra støtte.

Lange ikke-kodende Rna (lncrna)

RefSeq-gruppen fortsetter å utvide seg betydelig på representasjonen av ikke – kodende strukturelle og mikro-rna, transkriberte pseudogener og de stort sett ukarakteriserte lncrna. Denne klassen av gener er generelt definert som transkripsjoner >200 nt i lengde som mangler sterkt proteinkodingspotensial (23). lncRNA RefSeq-poster genereres ved kurering og gjennom eukaryotisk genomannotasjonsrørledning for lncRNA-gener. NCBI opprettholder for tiden over 540 000 eukaryote Lncrna RefSeq-poster, hvorav over 6700 har blitt kuratert og bare noen få hundre har blitt funksjonelt karakterisert. Av disse har mange vært involvert i menneskelig sykdom,SOM BACE1-AS som kan spille en rolle i Patofysiologien Til Alzheimers sykdom, OG HOTAIR som har vært assosiert med flere kreftformer (24,25). De aller fleste lncrna har ukjente funksjoner, og fraværet av lange åpne leserammer gir en utfordring når det gjelder å bekrefte transkripsjonens fullstendighet. Dessuten, lncRNA innleveringer TIL INSDC er i stor grad basert På Tsa fra kort lese datasett som kan omfatte artifactual exon kombinasjoner. RefSeq-kuratorer tar en konservativ tilnærming til å representere lncRNA-gener, bare manuelt opprette RefSeqs (med ET NR_ tiltredelsesprefiks) for transkripsjoner av høy kvalitet som vi har viss sikkerhet for exon-strukturen. Ideelt sett bør transkripsjonsstøtten spleises med minst tre eksoner, men to ekson-og intronløse transkripsjoner kan representeres hvis de støttes av promotorassosiert epigenomikk, poly (A)-bevis, ekstra cdna-er og/eller RNA-Seq-data. RefSeq lncRNA-poster for ikke-kodende gener kan hentes fra NCBIS Nukleotiddatabase ved hjelp av søkestrengen ‘biomol ncrna lncrna’ og velge RefSeq-filteret fra venstre kolonne.

Funksjonell merknad

det unike bidraget fra kuraterte eukaryotiske RefSeq-transkripsjonsposter er at de integrerer funksjonell informasjon med en referansesekvens. RefSeq curation staff legger til gensammendrag, nomenklatur, transkripsjonsvarianttekst, gen-og sekvensattributter og funksjonelle funksjoner som er tilgjengelige På RefSeq-posten og / eller Gjennom Genressursen (http://www.ncbi.nlm.nih.gov/gene). I det siste året Har RefSeq-ansatte fulgt flere dyptgående annotasjonsprosjekter, hvorav noen er kort beskrevet i de følgende avsnittene, for å legge til funksjonelle data til bestemte sett med gener der beregningsverktøy ikke er i stand til å representere biologisk kunnskap nøyaktig. Disse prosjektene inkluderer annotering av antimikrobielle peptider, endogene retrovirus, replikasjonsavhengige histoner, regulatoriske uorfer og antizymer.

Antimikrobielle peptider (Ampere)

Forsterkere var et nylig herdingsfokus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Forsterkere er naturlig forekommende peptider som finnes i et mangfoldig utvalg av arter og har vært involvert i mange immunroller, inkludert bakteriedrepende, antivirale, antifungale og til og med antitumoraktiviteter. En liste over over 130 menneskelige gener som koder for en Eller flere eksperimentelt beviste Forsterkere ble samlet fra flere offentlig TILGJENGELIGE AMP datasett og også utvunnet fra publikasjoner. De fleste Av Disse Forsterkerne hadde ikke tidligere blitt identifisert I RefSeq-databasen, og ingen AV AMP-databasene koblet peptidene til deres kodende gen. RefSeq-kuratorer kommenterte Manuelt RefSeq-postene for hvert amp-kodende humant gen for å sikre at det funksjonelle peptidet ble kommentert, for å inkludere en publikasjon som beskriver peptidets antimikrobielle aktivitet, for å legge til en kort oppsummering som beskriver den antimikrobielle aktiviteten til den kodede AMP, og å lagre en ny RefSeq-attributt ‘Protein has antimicrobial activity’ som er inkludert I RefSeq-attributtstrukturert kommentar (F. EKS. NM_001124. 2 FOR ADM; GeneID: 133). For å få tilgang til alle de kuraterte humane transkript-eller protein AMP-postene, søk i nukleotid-eller proteindatabasen ved hjelp Av ‘Protein has antimicrobial activity’. For tiden vil dette søket finne 191 RefSeq-poster, inkludert spleisevarianter og proteinisoformer.

Endogene retrovirus (Erv)

Endogene retrovirus (Erv) er genomiske loci som er avledet fra forfedrenes innføring av et eksogent retrovirus i vertsgenomet. Erv loci er generelt ute Av omfang For RefSeq; imidlertid annoterer vi full lengde erv-proteinkodende loci som kartlegger til et enkelt genomisk sted hvis de har utviklet seg til å tjene en vertsfunksjon, er forbundet med en kjent sykdom, og/eller hvis de har blitt tildelt nomenklatur av en offisiell nomenklaturkomite. Omtrent 8% av det menneskelige genomet er av retroviral opprinnelse (27); men på grunn av deres gamle opprinnelse har de fleste menneskelige erv loci akkumulert nonsensmutasjoner og kan ikke lenger kode et protein. Syncytinproteiner, som er involvert i placentautvikling (28), er et velkjent unntak fra dette. Humane syncytin-1-og syncytin-2-proteiner er kodet av GENENE ERVW-1 (NM_001130925.1, NM_014590.3) og ERVFRD-1 (NM_207582.2). Til dags dato har vi opprettet 67 RefSeqs FOR erv loci, som inkluderer poster som representerer ERV-gener fra et mangfoldig sett av pattedyr. En Ny RefSeq attributt kategori med tittelen ‘endogen retrovirus’ ble opprettet for disse postene og vises i en strukturert kommentar På RefSeq posten. Disse postene kan hentes fra Nukleotiddatabasen ved å søke etter ‘endogent retrovirus’.

Replikasjonsavhengige histoner

en rask syntese av histon mrna er nødvendig under celledeling for å produsere store mengder histonproteiner. Kritisk for denne prosessen er de replikasjonsavhengige histongener som oppreguleres under G1 / S-fasen av cellesyklusen (29). Et Spesifikt RefSeq-prosjekt ble gjennomført med sikte på å kuratere hele settet av replikasjonsavhengige histonproteinkodende gener i menneske og mus. Disse genene har en kanonisk 3 ‘ histon nedstrøms element (HDE) – sekvens i den genomiske sekvensen, og de resulterende modne mrna mangler karakteristisk poly(A) haler og slutter i stedet kort tid etter EN rna-stem-loop-struktur (30). Hde-elementet er funnet på forløperutskriften, men er ikke inkludert på det behandlede transkripsjonen representert Av RefSeq. Plasseringen av konserverte 16 nukleotid stem-loop struktur sekvens er angitt På RefSeq posten som en funksjon merknad med tittelen ‘stem-loop’. Et eksempel kan ses PÅ RefSeq-oppføringen NM_003539. 3 FOR HIST1H4D (GeneID: 8360). Til dags dato, 127 menneske og mus replikering-avhengige histone RefSeq poster har blitt kuratert og En RefSeq attributt lagt som kan brukes til å hente disse postene fra Nukleotid database ved hjelp av søkestrengen ‘replikering-avhengige histone’.

Regulatoriske oppstrøms åpne leserammer (uorf)

Oversettelse av en oppstrøms åpen leseramme (uORF) kan negativt påvirke oversettelsen av den primære proteinkodende åpne leserammen (pORF) (31). Denne effekten er ikke alltid helt stille pORF oversettelse og kan være avhengig av celletype, utviklingsstatus eller cellulær tilstand. Derfor, selv om uORFs kan forutsies fra seks-ramme oversettelse av en transkripsjon, den regulatoriske effekten av dette elementet må bestemmes gjennom eksperimentell validering. RefSeq-kuratorer gjennomgikk litteraturen for å finne transkripsjoner med eksperimentelle bevis på regulatoriske uorfer og oppdaterte de tilsvarende RefSeq-transkripsjonene for å legge til en misc_feature som betegner plasseringen av disse uorfene. Et eksempel er RefSeq-oppføringen NM_000392.4 for ABCC2 (GeneID: 1244). En Ny RefSeq attributt kategori med tittelen ‘regulatory uORF’ ble opprettet og vises i en strukturert kommentar på Disse RefSeq poster. Både annotert funksjonen og attributtet sitere støtte publikasjonen Av PubMed ID. Hittil har 260 poster blitt annotert med dette attributtet, og disse postene kan hentes fra Nukleotiddatabasen ved å søke etter ‘ regulatory uORF ‘

Antizyme gener

Et Av Målene Med RefSeq-prosjektet er å representere gener med eksepsjonell biologi som ikke følger standard dekodingsregler for proteinsyntese. Ornithin decarboxylase antizyme genet er et slikt eksempel, hvor en programmert + 1 ribosomal frameshifting mekanisme oppstår og kan ikke forutsies av konvensjonelle beregningsverktøy. Et sett med vertebrate antizyme transkripsjon og protein poster ble nylig gjenstand for en manuell annotasjonsinnsats for å skape standarder for å forbedre annotering av disse genproduktene ved eukaryote genome annotation pipeline (32). RefSeq-postene ble manuelt annotert med split CDS-funksjonen for å gjenspeile ribosomal glidning, og inkluderer en ‘ribosomal glidning’ – attributt med publisert bevis, ulike diverse funksjonsanmerkninger (for eksempel plasseringen av frameshift-siden) og en kort oppsummering som beskriver funksjonen OG nye egenskaper av genet (F.EKS.NM_139081. 2). Disse postene kan hentes fra Enten Nukleotid eller Protein database med søket: virveldyr refseq ribosomal glidning antizyme. Dette søket finner for tiden 242 RefSeq-poster (NM eller NP), som inkluderer transkripsjonsvarianter og proteinisoformer.

VIRVELLØSE DYR

virvelløse arter representerer de aller fleste eksisterende metazoans (33); imidlertid er bare et relativt lite antall representert av sekvenserte genomer. Dette til tross for at mange arter har kritisk biomedisinsk betydning Som Anopheles gambiae, en vektor for malaria og Biomphalaria glabrata, en vektor for schistosomiasis (34,35). Andre virvelløse dyr, Inkludert Apis mellifera, Bombyx mori og Crassostrea gigas, har betydelig kommersiell verdi (36-38). RefSeq gruppen har gjort en innsats for å øke antallet og omfanget av virvelløse genomer representert i datasettet ved å gi merknad via eukaryote genome merknad rørledning eller ved å spre merknad FRA INSDC innleveringer På RefSeq kopi av disse genomene. For begge prosessflyter er vi avhengige av offentlig tilgjengelighet av høykvalitets genomer I INSDC databaser og NCBIS Assembly database (www.ncbi.nlm.nih.gov/assembly/). til dags dato 46 virvelløse genomer har blitt kommentert AV NCBI inkludert representative arter av insekter, edderkoppdyr, bløtdyr og basal akkordater. Vi forventer en betydelig utvidelse i antall insekter og andre invertebrate genomer annotert som følge av genominitiativer som i5k (39), 1kite (1k Insect Transcriptome Evolution, http://www.1kite.org/) og Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

PLANTER

RefSeq fortsetter å utvide mangfoldet av plantearter representert i datasettet. Hittil har 61 plantearter blitt inkludert I RefSeq genomes datasett (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ plant/) hvorav 33 arter ble annotert gjennom eukaryote genome annotation pipeline; resten Er RefSeq kopier av annoterte genomer sendt TIL INSDC. I fremtiden vil flere plantegenomer valgt For RefSeq-inkludering bli behandlet av eukaryote annotation pipeline, i stedet for å spre annotasjon fra INSDC-innsendingen. Dette er en endring av politikken For RefSeq plant genomer og vil resultere i større samlet konsistens av plante annotasjon data innenfor RefSeq datasett. Flertallet Av RefSeq transkripsjoner og proteiner tilgjengelig for plantearter er ‘modell’ poster (XM_, XP_ Og Xr_ tiltredelser; Tabell 1), med en mindre undergruppe av ‘kjente’ poster (NM_, NR_, NP_) som opprettholdes uavhengig av annotasjonsprosessen ved en kombinasjon av automatisert behandling og manuell gjennomgang. Manuell konservering av planteutskrift og proteindata er for tiden gitt For Zea mays og Solanum lycopersicum. Den nåværende kurering fokus innebærer omfattende sekvens gjennomgang og er rettet mot å løse QA bekymringer i dagens sett av transkripsjoner. Feiloppløsning er fokusert på å identifisere og fjerne kimære transkripsjoner, overflødige transkripsjoner og gener, og forbedre kvaliteten på den representerte sekvensen ved å vurdere indels og mismatches blant RefSeq-transkripsjonen, den genomiske sekvensen og orthologe data. For planter, streber vi etter å gi en kuratert transkripsjon og protein datasett som er i samsvar med sorten valgt for genomsekvensering og montering. Kurasjonsprotokollen som brukes til vertebrate data brukes også til planter. Dermed Kan RefSeq transkripsjon poster oppdateres til å være basert på en annen INSDC kilde sekvens, eller kan settes sammen fra mer ENN EN INSDC sekvens posten for å gi en transkripsjon fra den foretrukne sorten. HVIS INSDC-transkripsjonsdata ikke er tilgjengelige for den genomiske sorten, kan En RefSeq-transkripsjon genereres fra den samlede genomiske sekvensen basert på en kombinasjon av transkripsjon eller proteinjusteringer, RNA-Seq og/eller publiserte data. Et annet fokusområde er å øke antall støttede kjente proteinkodende transkripsjoner og proteiner, da dette gir et kuratert reagens som kan brukes når man annoterer andre plantegenomer. Til slutt lager vi Flere RefSeqs som representerer splice varianter når det er tilstrekkelig støtte bevis. Dette arbeidet vil forbedre kvaliteten på anlegget RefSeq datasett og vil bidra til forbedringer i fremtidige genom merknader. Det nåværende settet av plantegenomer annotert av rørledningen kan nås på NCBIS eukaryote genome annotation pipeline nettsted http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ med lenker til detaljert annotasjonsrapport og andre ressurser som species BLAST og FTP.

ALGER, SOPP, NEMATODER og PROTOZOER

NCBI liten eukaryote genom rørledningen er en ny automatisert rørledning designet for generering Av RefSeq poster som et resultat av direkte forplantning AV kommenterte INSDC poster. RefSeq poster dermed generert er kopier Av GenBank data med noen formatendringer å overholde RefSeq krav. Den mest bemerkelsesverdige forskjellen mellom DEN opprinnelige INSDC-posten og RefSeq-posten er tillegget Av RefSeq-transkripsjonsproduktet. Selv om den ikke er designet for å generere de novo genom annotasjon, trekker den lille eukaryote genom rørledningen fra flere AV NCBI eukaryote genom annotasjon rørledningsmoduler og deres kode (http://www.ncbi.nlm.nih.gov/books/NBK169439/).Betegnelsen ‘Små Eukaryoter’ refererer til rørledningens primære bruk for å generere RefSeq-genomer for relativt mindre eukaryotiske genomer (sammenlignet med planter og virveldyr) som alger, protozoer, sopp, nematoder og noen leddyr. Imidlertid behandles noen store plantegenomer også ved hjelp av denne rørledningen. Denne rørledningen behandler høykvalitets forsamlinger bestående av kromosomer og / eller stillas og deres komponenter. Disse forsamlingene med høy contig Og stillas N50, høy kvalitet sekvens, og rimelig god INSDC-innsendt merknad prioriteres. Denne rørledningen, som erstatter en historisk prosessflyt som krevde mer manuell støtte, har nylig nådd en offentlig produksjonsfase og gir allerede et økt antall ‘ små ‘ eukaryote genomer representert I RefSeq. Arbeid pågår for å optimalisere rørledningens gjennomstrømning og å legge til mer automatisering og ytterligere minimere kuratorbehandlingsoppgaver. Langsiktige planer inkluderer implementering av et protein-navn styringssystem for å gi, korrigere, eller forbedre PÅ INSDC innsendt navn over tid. Mange av genomene som er i omfang for den lille eukaryoter-rørledningen, kan for tiden ikke behandles av den (store) eukaryotiske genomannotasjonsrørledningen på grunn av taksonomisk mangfold og begrenset tilgjengelighet av transkripsjonsdata som trengs for å trene de novo-annotasjonsrørledningen.

Fungal targeted loci

Fungal morfologi er svært variert, alt fra komplekse multicellulære strukturer til svært enkle enkeltceller. En rekke morfologiske strukturer og sporetyper kan produseres av en enkelt art. Omvendt produserer mange arter lignende morfologier (morphs), men er faktisk genetisk svært fjernt. Inntil nylig kunne en enkelt art være gyldig beskrevet med mer enn ett binomisk navn basert på seksuelle eller aseksuelle morfer. I mange tilfeller, bare en enkelt morph har blitt beskrevet og registrert for en gitt art, selv om arter nært knyttet til det kunne ha flere morphs beskrevet og registrert. Følgelig har sekvenssammenligninger blitt brukt i soppsamfunnet for å skille mellom arter, for å spore arter når de går gjennom komplekse livssykluser og å identifisere kryptiske arter. Som en del av den dynamiske prosessen med taksonomisk revurdering, er mange sopparter korreksjoner ikke alltid oppdatert I GenBank sekvensdata.

for Å være en mer pålitelig ressurs FOR DNA-basert identifikasjon, må referansesekvenser avledet fra typeprøver (som fungerer som referanser for arter) merkes med det riktige og mest oppdaterte artsnavnet. Fungi RefSeq målrettede loci databaser gir denne verdifulle ressursen. FOR EKSEMPEL ER PRJNA177353 Et Bioprojekt som spesielt fokuserer på de interne transkriberte avstandsregionene (ITS) i det nukleære ribosomale cistron som har blitt brukt i mange år som en fylogenetisk markør og nylig godkjent som den formelle strekkodesekvensen Av Sopp (41). ITS RefSeq-databasen startet som et samarbeid med Index Fungorum, MycoBank og UNITE, samt en stor gruppe taksonomiske spesialister. Sekvenser ble valgt, hovedsakelig fra typeprøver med gyldige beskrivelser, og deretter ble nåværende korrekte artsnavn knyttet til sekvensene med sikte på å representere de fleste aksepterte soppordrene (8). Resultater fra denne kureringsinnsatsen har blitt brukt og sitert i ulike publikasjoner (42-46)og har bidratt til ytterligere innsats for å validere undergrupper av referansesekvenser, for eksempel medisinsk signifikante arter (47).målet, med fortsatt kurering, er å legge til sekvenser fra nylig beskrevne ordrer og utvide representasjonen til å omfatte de fleste aksepterte familier med fokus på medisinsk viktige Sopp. Prosessen inkluderer også å gjøre rettelser, erstatte sekvens fra verifisert materiale med sekvens fra type materiale som det blir tilgjengelig og redigere definisjonslinjer eller fjerne RefSeq poster som taksonomiske klassifikasjoner endringer. Dette sikrer AT BLAST søkeresultater riktig vise gjeldende navn. RefSeq sine poster har blitt utvidet til å representere 3,060 sekvenser som representerer 270 familier fra 39 klasser. Under den første samarbeids SIN RefSeq innsats, et mindre sett av sekvens tiltredelser FRA 28s nuclear large subunit ribosomal gen (LSU) ble også samlet, men ikke verifisert. En arbeidsflyt som ligner på its record curation-prosessen ble fulgt, og under fortsatt kurering har DISSE LSU-postene blitt verifisert for sekvenskvalitet, korrekt identifikasjon og nøyaktige kildedata. Nær 500 poster (fra 800 potensielle poster) som representerer >100 familier fra 21 klasser ble verifisert og nylig utgitt. 28s datasettet kan hentes fra BioProject PRJNA51803 (48).

PROKARYOTER

NCBI RefSeq prokaryote genome collection representerer sammensatte prokaryote genomer med ulike nivåer av kvalitet og samplingstetthet. For prokaryoter, basert på tidligere tilbakemeldinger fra samfunnet, er vår nåværende policy å gi genomannotasjon for alle prokaryotiske genomer som oppfyller våre kvalitetskriterier. I de senere år har vi møtt to store utfordringer: (i) å holde tritt med den raske eskaleringen av innsendte prokaryote genomer; og (ii) adressere en økende inkonsekvens i genomannotasjon på grunn av bruken av både EN INSDC-forplantningsbasert rørledning og forskjellige versjoner av EN NCBI de novo-genomannotasjonsrørledning som utviklet over tid.Med den økende interessen for humane patogener og utvikling AV DNA-sekvenseringsteknologi, har antall sekvenserte prokaryotiske genomer økt raskt det siste tiåret. Noen bakteriestammer er ofte uutslettelige ved bruk av nåværende genotypingsmetoder, men mindre genetiske forskjeller kan detekteres på grunnlag av helgenomsekvensering, noe som er nyttig for å karakterisere overføringsveier, identifisere antibiotikaresistens og kartlegge utbrudd. For å undersøke matbårne patogener eller infeksjonsutbrudd, har et stort antall nesten identiske bakterielle genomer blitt sekvensert og annotert de siste årene, noe som resulterer i mange identiske proteiner, som hver har et tydelig tiltredelsesnummer. I 2013 INTRODUSERTE NCBI en ny proteindatamodell og tiltredelsesprefiks (wp_) for RefSeq-samlingen. Denne endringen reduserte redundansen I RefSeq prokaryote proteiner og muliggjorde identifisering av proteiner som var identisk funnet på mer enn ett genom. Det er også tillatt for en forbedret strategi for å håndtere prokaryote protein navn. Disse ikke-redundante postene representerer unike prokaryotiske proteinsekvenser som er uavhengige av et bestemt bakteriegenom og kan annoteres på flere stammer eller arter (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).Historisk Sett ble RefSeq bakteriell genom annotasjon forplantet fra INSDC innleveringer, når tilgjengelig, eller generert ved hjelp av forskjellige versjoner AV NCBIS Prokaryote Genome Annotation Pipeline (som også tilbys som en tjeneste For GenBank innleveringer). Dette resulterte i akkumulerte uoverensstemmelser i både strukturelle og funksjonelle merknader I RefSeq prokaryote datasett. I løpet av de siste to årene NCBI forbedret flere aspekter Av Prokaryote Genome Merknad Rørledningen for å øke kapasiteten og ytterligere standardisere merknad regler. Vår rørledning kombinerer en genkallingsalgoritme, GeneMarkS+ (49,50), med en justeringsbasert gendeteksjonstilnærming og er i stand til å annotere både komplette OG utkast TIL wgs-genomer. Rørledningen forutser for tiden proteinkodende gener, strukturelle Rna (5S, 16S og 23S), trna og små ikke-kodende Rna.I 2015 lanserte Vi en omfattende annotasjonsoppdatering For RefSeq prokaryote genomer for å harmonisere genomannotasjon og fullføre overgangen til den nye proteindatamodellen. En ny prokaryotisk proteinnavndatabase, navnespesifikasjoner og en bevisbasert strategi ble utviklet og er for tiden i ferd med å bli distribuert. Så langt, over 3 millioner protein poster har oppdatert navn i en første demonstrasjon av tilnærmingen. Den nye prokaryote datamodellen gir en betydelig fordel å navngi ledelsen som protein navnet bæres med protein sekvens posten; oppdatere navnet på at protein posten resulterer i automatisk forplante oppdateringen til alle genomer som er kommentert med at tiltredelse nummer.RefSeq prokaryote genomer er organisert i flere nye kategorier som referanse genomer og representative genomer basert på kuraterte attributter og montering og annotasjon kvalitet tiltak (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referanse genomer er manuelt valgt ‘gold standard’ komplette genomer med høy kvalitet merknad og det høyeste nivået av eksperimentell støtte for strukturelle og funksjonelle merknader. For tiden er et lite datasett av 122 referansegenomer manuelt annotert av samarbeidende grupper og NCBI-ansatte. Referansegenomene er tilgjengelige på: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Representative genomer er beregningsmessig beregnet og valgt for å representere ulike arter. De representative genomene er tilgjengelige på: www.ncbi.nlm.nih.gov/genome/browse/representative RefSeq prokaryote genome data kan nås I BLAST databaser, web-ressurser (Assembly, BioProject, Genome, Nucleotide og Protein), GJENNOM NCBI programmering verktøy, eller kan lastes ned fra genomer eller refseq FTP-områder. En tilpasset ‘Mikrober’ BLAST side, åpnes FRA BLAST hjemmesiden, gir muligheter for å søke mot Alle RefSeq prokaryote genomer, Referanse og Representative genomer undergruppe, eller for å begrense søket til en bestemt taxa. En undergruppe av prokaryote genomer er annotert MED EN NCBI Gene ID og kan hentes I NCBI Gen ressurs eller Fra Gene FTP-området. For archaea er dette gitt for mest komplette genomer. For bakterier er dette gitt for referansegenomer og representative genomer for arter som har minst 10 genominnlegg.

prokaryote målrettede loci

i prokaryoter har 16s ribosomal RNA-sekvensen blitt en standard molekylær markør for beskrivelsen av en ny art. Selv om disse markørsekvensene har blitt mye brukt, varierer kvaliteten på sekvensdataene og tilhørende metadata som sendes TIL insdc-databaser betydelig. Å anerkjenne viktigheten av tilgang til data av høy kvalitet for disse markørene, HAR NCBI utvidet sitt målrettede loci-prosjekt for å gi en oppdatert kilde til kuraterte data. Det målrettede loci-prosjektet opprettholder for tiden nesten 18 000 16s ribosomale rna-referansesekvenser hvorav over 95% er fra typestammer. Typestammene anses som eksemplar av arten, og det er viktig at typestammedata blir annotert med riktige metadata og være fri for forurensning.

dette arbeidet innebar en uttømmende gjennomgang og oppdatering av den underliggende taksonomi-databasen som ble brukt sammen MED NCBIS Type strain Entrez filter for å hente kandidatsekvenser. Sekvensdataene og tilhørende taksonomi / metadata er gjennomgått og korrigert for å inkludere den mest oppdaterte informasjonen. Hvis en sekvens mislyktes validering eller ikke kunne valideres nøyaktig, ble den ekskludert. Disse referansesekvensene kan nå brukes som ‘gullstandarder’ for analyse av eksisterende og nye rrna-sekvenser.

Bakterielle og Archaeal 16s rRNA datasett er tilgjengelig Fra BioProject (HENHOLDSVIS PRJNA33175 og PRJNA33317). En tilpasset BLAST database er også tilgjengelig(‘ 16s ribosomale RNA-sekvenser(Bakterier og Archaea)’).

VIRUS

RefSeq-datamodellen for virus skiller seg fra andre organismer. Generelt er bare ett Komplett RefSeq-genom opprettet for hver viral art. Av Og Til opprettes Flere RefSeq-poster innenfor en gitt viral art for å gjenspeile veldefinerte genotyper eller viktige laboratorie-og/eller villstammer. Ytterligere genomer for en gitt art er validert for taksonomi og fullstendighet og deretter indeksert som sekvens ‘naboer’ (52). Både RefSeq og nabo genomer er gjenfinnbare gjennom den spesialiserte Virale Genomressursen (http://www.ncbi.nlm.nih.gov/genome/viruses/) og Fra Entrez Nukleotid og Genomsider ved hjelp Av ‘RefSeq Genom For Arter ‘og’ Andre INSDC Genomsekvenser ‘ lenker (52).Taksonomi er et stort problem for viral genomikk, da det er 3186 virale arter som er offisielt anerkjent av International Committee on Taxonomy Of Virus (ICTV) (53) og 4834 komplette genomer fra både offisielle og foreløpige virale arter tilgjengelig fra INSDC-databaser. NCBI Pairwise Sequence Comparison (PASC) – verktøyet ble utviklet for å hjelpe til med klassifisering av virale genomer basert på globale og/eller lokale tilpasninger mellom genomene (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Omfanget av dette verktøyet har blitt utvidet til å omfatte en rekke virusfamilier og andre taksonomiske grupper ,og det har blitt brukt til å støtte avgrensningen av nye taksonomiske kriterier (54-57).Et annet fremvoksende problem i viral genomikk er inkonsekvent og / eller unøyaktig merknad blant relaterte virale genomsekvenser. Dette problemet gjenspeiler ofte ulike annoteringsprosesser og pågående eksperimentelt arbeid og kan føre til forvirring blant datakonsumenter og gjøre komparativ analyse mellom genomer vanskelig. Dette problemet er løst i NCBI Virus Variasjon Ressurs (http://www.ncbi.nlm.nih.gov/genome/viruses/ variasjon/) der beregnings rørledninger er ansatt for å gi up-to-date, standardisert merknad for flere virus (58). For tiden beregner disse rørledningene standardiserte gen-og proteingrenser for Alle Influensavirus, Dengue-virus og West Nile – virussekvenser og standardiserte gen-og proteinnavn og metadatabetmer for disse og to andre virus, Middle East respiratory coronavirus og Ebolavirus. Disse standardiserte dataene blir deretter utnyttet i et spesialisert, metadata-sentrisk søkegrensesnitt som muliggjør enkel gjenfinning av sekvenser basert på spesifikke biologiske kriterier.Å Opprettholde oppdaterte, allment aksepterte annotasjonsstandarder krever kontinuerlig samarbeid med det større vitenskapelige samfunn. NCBI Viral Genome Annotation Working Group ble etablert for å utnytte konsortier av offentlige databaser, sekvenseringssentre og forskningsgrupper for å utvikle standardisert sekvensannotasjon samt isolere navneordninger for ulike grupper av virus (59-63). Denne tilnærmingen etablerer ikke bare standarder for viral annotasjon, men representerer også disse standardene i Den nåværende RefSeq-posten, noe som sikrer tilgjengelighet for alle databasebrukere og sendere. Lignende samarbeid er også nødvendig for å støtte verdiskapende, fortolkende ressurser som HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/hiv-1/interaksjoner/) (64). Samarbeidspartnere Fra Southern Research Institute gi dokumentert HIV-1, menneskelige molekylære interaksjoner kuratert fra litteraturen OG NCBI opprettholder en brukervennlig ressurs der brukerne kan søke etter bestemte typer interaksjoner og finne mer informasjon om gener involvert.

FUTURE DIRECTIONS

RefSeq-prosjektet er unikt ved å tilby et referansesekvensdatasett av transkripsjoner, proteiner og genomer som omfatter alle livets riker og har blitt aktivt vedlikeholdt og oppdatert over tid for å innlemme forbedrede beregningsstrategier, nye datatyper og ny kunnskap. Vi har vist evne og kapasitet til å svare på de siste raske økninger i antall sekvenserte genomer sendt TIL INSDC databaser. Vi har definert et mangfoldig sett med retningslinjer og strategier for kurering og annotering av eukaryote, prokaryote og virale arter for å møte de ulike behovene til organismespesifikke samfunn. RefSeq-datasettet er mye brukt som referansestandard for mange forskjellige analyser, inkludert kliniske anvendelser av mennesker og patogener, komparativ genomikk, ekspresjonsanalyser, sekvensvariasjonstolkning og både array-og sondekonstruksjon. VED NCBI er RefSeq-datasettet integrert i flere ressurser, inkludert Assembly, BLAST, Epigenomics, Gene( Hvor RefSeq-merknad er det primære grunnlaget for De fleste Genoppføringer), Genom, Dbsnp, dbVar, Variasjonsviser og mer.Vi vil fortsette å målrette manuell kurering for å forbedre strukturell og funksjonell informasjon for menneskelige og andre vertebrate genomer. Vår konservative manuell curation tilnærming sikrer fortsatt høy kvalitet og pålitelighet av menneske, mus, og andre ‘kjente’ RefSeq poster som tjener behovene til de som trenger en godt støttet definisjon av alternative exons (færre falske positiver). Tilsetningen AV RNA-Seq-data til vår annotasjonsrørledning økte vår annotasjon av alternative spleisevarianter som Modellrefseqs for å betjene behovene til de som ønsker en mer omfattende, men fortsatt godt støttet, definisjon av exome (færre falske negativer). Mens både kjente Og modellrefseqs rapporterer støttebeviset på sekvensposten, bruker de forskjellige tilnærminger for å gjøre det. Fremtidig innsats vil være rettet mot å harmonisere evidensrapportering for både ‘kjente’ Og ‘modell’ RefSeqs, slik at brukerne lettere kan identifisere denne informasjonen. Vi vil også legge til en ny datatype Til human and mouse RefSeq-samlingen i nær fremtid for å representere eksperimentelt rapporterte regulatoriske og funksjonelle elementer med kjente (eller rimelig utledede) funksjonelle konsekvenser.

for prokaryote genomer fortsetter vi å jobbe med å raffinere aspekter av den strukturelle annotasjonen som genereres av Prokaryote Genome Annotation Pipeline. Vårt arbeid mot en ny tilnærming til å håndtere funksjonell informasjon blir fortsatt raffinert og vil bli beskrevet andre steder. Vi forventer å annotere Hele RefSeq prokaryote genom datasett når nye versjoner av vår prokaryote annotasjon rørledning blir tilgjengelige (for å forbedre strukturelle annotasjon). Beslutningen om å annotere Alle RefSeq prokaryoter ved hjelp Av en enkelt metode, sammen med selve volumet av dette datasettet, nødvendiggjør en annen tilnærming som utnytter flere kilder til bevis for å gi funksjonell informasjon. Protein navn vil bli oppdatert fortløpende som organisert av protein familier eller kategorier av bevis type. Våre mål for det kommende året inkluderer større integrering Av Rfam (65) i vår annotasjonsrørledning, utvidet samarbeid, forbedrede proteinnavn og rapportering av støttebevis på proteinsekvensregistreringen.Vi vil gjerne takke det vitenskapelige samfunnet for konstruktive tilbakemeldinger, forslag, feilrapporter og samarbeid i løpet av de siste 15 årene som har bidratt til kvaliteten og nøyaktigheten av den representerte sekvensen, strukturell merknad og funksjonell merknad.

FINANSIERING

Intramural Forskningsprogram AV NIH, National Library Of Medicine. Finansiering for open access charge: Det Intramurale Forskningsprogrammet Til National Institutes Of Health, National Library Of Medicine.

Interessekonflikt. Ingen erklært.

– >

Nosek

B. A.

Endre

Banker

G. C.

Borsboom

Bowman

S. D.

Breckler

S. J.

Buck

Kamre

C. D.

Kina

Christensen

et al.

VITENSKAPELIGE STANDARDER. Å fremme en åpen forskning kultur

Vitenskap

2015

348

1422

1425

– >

– Grå

K. A.

Yates

Seal

R. L.

Wright

M. W.

Bruford

E. A.

Genenames.org: den HGNC ressurser i 2015

nukleinsyrer Res.

2015

D1079

Ruzicka

div >

eagle

a. e.

Et Al.

ZFIN, sebrafisk modell organisme database: Oppdateringer og nye retninger

Genesis

2015

498

509

div> uniprot

uniprot: et knutepunkt for proteininformasjon

nukleinsyrer res.

2015

d204

212

mirbase: merknader høy tillit microRNAs bruker dype sekvenseringsdata

Nukleinsyrer Res.

2014

> m. r. Mus genom merknad Av RefSeq prosjektet

Mamm. 2015

379

390

proctor

w. et al.

Locus Reference Genomiske sekvenser: det forbedrede grunnlaget for å beskrive humane DNA-varianter

Genome Med.

2010

Schoch

div>b.

d. h. Et al.

Finne nåler i høystakker: knytte vitenskapelige navn, referanse prøver og molekylære data For Sopp

Database

2014

Zhang

det

div> r. w. et al.

Comparative genomics avslører innsikt i avian genom evolusjon og tilpasning

Vitenskap

2014

346

1311

div> b. c. Et al.

Hel-genom analyser løse tidlig grener i livets tre av moderne fugler

Vitenskap

2014

346

1320

1331

– >

Farrell

C. M.

O ‘ leary

N. A.

Harte

R. A.

Loveland

J. E.

Wilming

L. G.

S. m.

et al.

Nåværende status Og nye funksjoner I Konsensuskodingssekvensdatabasen

Nukleinsyrer Res.

2014

D865

D872

div>

d.R.

NCBI referanse sekvenser (RefSeq): en kuratert ikke-redundant sekvens database av genomer, transkripsjoner og proteiner

Nukleinsyrer Res.

2007

D61

D65

du kan velge mellom følgende kategorier: b. d.

et al.

2013

341

399

402

div >

Mcnutt M. A.

Sheng

W. h.

et al.

PTENalpha, PTEN-isoformen oversatt gjennom alternativ initiering, regulerer mitokondriell funksjon og energimetabolisme

Cellemetabolisme.

2014

836

848

Bolouri

Modellering genom regulatoriske nettverk med store data

Trender Genet. 2014

182

191

div >

s. et al.

Skanning av det humane vevsspesifikke uttrykket ved genom-bred integrasjon av transkriptomikk og antistoffbasert proteomikk

Mol. Celle. Proteomikk : MCP

2014

397

406

Bernstein

div>

div> et al.

NIH roadmap epigenomics mapping consortium

Nat. Bioteknologi.

2010

1045

Hoffman

div>

ernst

et Al.

Integrativ annotering av kromatinelementer fra KODEDATA

Nukleinsyrer Res.

2013

827

841

div>

den kvantitative atlas av polyadenylering i fem pattedyr

Genom Res.

2012

1173

i. : den komparative genomiske metoden for å skille mellom proteinkoding og ikke-kodende regioner

Bioinformatikk

2011

i275

282

pris

pevzner

p. a.

ny identifikasjon av gjentatte familier i store genomer

Bioinformatikk

2005

21 Suppl 1

i351

358

div > k. Et al.

CAGE: cap analyse av genuttrykk

Nat. Metoder

2006

211

222

Morris

div>mattick

j. s.

stigningen av regulatorisk rna

nat. Pastor Genet.

2014

423

Hince

BACE1 som et terapeutisk mål I Alzheimers sykdom: begrunnelse og nåværende status

Legemidler Aldring

2013

755

764

mol. Med. 2015

5611

5618

Zasloff

Antimikrobielle peptider i helse og sykdom

N. Engl. J. Med.

2002

347

1199

Lander

E. S.

div>

div >

W. et al.

første sekvensering og analyse av det menneskelige genomet

Natur

2001

409

860

921

Vegger div

Et al.

Syncytin Er et fanget retroviralt konvoluttprotein involvert i human placental morfogenese

2000

403

785

Maltais

Lj genomics

2002

487

498

div>

Johnsen

undergruppen av histon h2b-gener produserer polyadenylerte mrnaer under en rekke cellulære forhold

PLoS One

2013

e63745

/ div>

genuttrykk regulering av oppstrøms åpne leserammer og Menneskelig Sykdom

Plos Genet.

2013

e1003529

Murphy

pruitt

refseq kurering og annotering av antizyme og antizyme inhibitor gener i virveldyr

nukleinsyrer res.

2015

7270

7279

zhang

z. q.

dyr biologisk mangfold: Oversikt over høyere nivå taksonomi og undersøkelse av taksonomisk rikdom (Addenda 2013)

Zootaxa

2013

3703

div >

a. g. Et al.

genomet sekvensen av malaria mygg Anopheles gambiae

Vitenskap

2002

298

129

149

Div >

Miller

a. n.

bridger

j. m.

Schistosomer og snegler: et molekylært møte

Foran. Genet.

2014

230

Genomet Sekvensering, C.

Innsikt i sosiale insekter fra genomet av den voksende apis mellifera

Natur

2006

443

931

949

xia

zhou

c. dette er en av de mest populære variantene i verden, og du kan også velge en av de mest populære variantene i verden.

et utkast sekvens for genomet av tamme silkeorm (Bombyx mori)

Vitenskap

2004

306

1937

div>

zhang

/ div >

et al.

østersgenomet avslører stresstilpasning og kompleksitet av skalldannelse

Natur

2012

490

i5K, Konsortium

i5k initiativ: fremme leddyr genomikk for kunnskap, helse, Landbruk og miljø

j. arv

2013

104

595

600

forskere

g. c. o.

Collins

A. G.

Collins

Crandall

Distel

Dunn ‘

Giribet

Hyse

Knowlton

et al.

Global Invertebrate Genomics Alliance (GIGA): utvikle fellesskapets ressurser for å studere ulike invertebrate genomer

J. 2014

105

Schoch

div>

crous

p. w.

et al.

nuclear ribosomal intern transkribert spacer (ITS) region som en universell DNA strekkode markør For Sopp

Proc. Natl. Acad. Sci. U. S. a.

2012

109

6241

Visagie

C. M. div

klaassen

c. H.

k. a. >

stud. Mycol.

2014

343

div>si cagno

Gobbetti

Cardinali

Fenotypisk og molekylært mangfold Av Meyerozyma guilliermondii stammer en isolert fra mat og andre miljømessige nisjer, hint for begynnende spesiering

Mat mikrobiol.

2015

206

215

Federhen

materiale i ncbi taksonomi database

nukleinsyrer res.

2015

D1086

Nilsson

de sousa

et al. den omfattende, automatisk oppdatert sopp sin sekvens datasett for referansebasert chimera kontroll i miljø sekvensering innsats

Mikrob. 2015

145

150

/ div >

begerow

Nektar sukker og fugl besøk definere floral slikking for basidiomycetous gjær På Kanariøyene

BMC Ecol.

2015

– >

Irinyi

Serena

Garcia-Hermoso

Arabatzis

Desnos-Ollivier

Cardinali

G.I.

Et al. THE International Society Of Human And Animal Mykologi (ISHAM) – sin referanse DNA barcoding database-kvalitetskontrollert standard verktøy for rutinemessig identifisering av menneske – og dyrepatogene sopp

Med. Mycol.

2015

313

Schoch

seifert

k. a.

chen

svamp barcoding consortium forfatter, l.

den nukleære ribosomale interne transkriberte spacer (dens) region som En Universell dna strekkodemarkør for sopp

proc. Natl. Acad. Sci. USA.

2012

109

6241

lomsadze

borodovsky

genemarks: en selv-trening metode for prediksjon av genet starter i mikrobielle genomer. Implikasjoner for å finne sekvensmotiver i regulatoriske regioner

Nukleinsyrer Res.

2001

2607

2618

Borodovsky

Lomsadze

Gen identifikasjon i prokaryote genomer, fager, metagenomer, OG EST sekvenser Med GeneMarkS suite

Curr. Protokoll. Mikrobiol.

2014

Enhet 1 7

Tatusova

Ciufo

div >

Tolstoy

Zaslavsky

L. Oppdatering På RefSeq mikrobielle genomer ressurser

Nukleinsyrer Res.

2015

d599

d605

j. r.

blinkova ncbi virale genomer ressurs

nukleinsyrer res.

2015

D571

Adams

lefkowitz

i tillegg til dette er det viktig å være oppmerksom på at det ikke er nødvendig å være oppmerksom på at det ikke er nødvendig å være sikker på at det ikke er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig. j.

krell

et al. Ratifikasjon stemme på taksonomiske forslag Til Den Internasjonale Komiteen For Taksonomi Av Virus (2015)

Arch. Ferrule.

2015

160

1837

Bao

chetvernin

tatusova

Parvis Sekvens Sammenligning (PASC) og dens anvendelse i taksonomi av filovirus

2012

1318

1327

forbedringer av parvis sekvens sammenligning (pasc): genomet-basert web verktøy for virus taksonomi

Arch. Ferrule.

2014

159

3293

Kuhn

J. H.

div>

/ div >

kolodziejek

et al.

Taksonomisk omorganisering av Familien Bornaviridae

Arch. Ferrule.

2015

160

621

Radoshitzky

S. R.

s. et al.

fortid, nåtid og fremtid for arenavirus taksonomi

Arch. Ferrule.2015

160

1851

1874

J. R.

div>

kiryutin

Zaslavsky

Kimelman Tatusova Virus Variasjon Ressurs–siste oppdateringer og fremtidige retninger

nukleinsyrer res.

2014

d660

665

medlemmer av adenovirus forskning, C.

Ved hjelp av helgenomsekvensen for å karakterisere og navngi humane adenovirus

J. Ferrule.

2011

5701

div>

esona

m. d.

Et al.

Ensartethet av rotavirus stamme bom foreslått Av Rotavirus Taksonomi Working Group (RCWG)

Arch. Ferrule.

2011

156

1397

1413

– >

Brister

J. R.

Bao

Kuiken

Lefkowitz

E. J.

Le Mercier

div > s.

seto

d. et al.

Mot viral genom merknad standarder, rapport fra 2010 NCBI Merknad Workshop

Virus

2010

2258

2268

div>brister

j. r.

le mercier

J. C.

Mikrobiell virus genom kommentar-mustering tropper til å kjempe sekvensen angrep

Virologi

2012

434

175

180

– >

Kuhn

J. H.

Andersen

K. G.

Bao

Bavari

Becker

Bennett

R. S.

Bergman

N. H.

Et al.

Filovirus RefSeq oppføringer: verdivurdering og valg av filovirus type varianter, typiske sekvenser og navn

Virus

2014

3663

3682

div>

katz

k. s.

pruitt

hiv-1, menneskelig interaksjon database: nåværende Status og nye funksjoner

nukleinsyrer res.

2015

d566

570

div > a. div> j. et al.

Rfam 12.0: oppdateringer til rna familier database

Nukleinsyrer Res.

2015

D130

D137

Publisert Av Oxford University Press på vegne Av Nukleinsyreforskning 2015. Dette arbeidet er skrevet av(A) us Government employee (s) og er i det offentlige området I USA.

Abstract

INTRODUKSJON

RefSeq tiltredelsesprefikser

GENERERING AV REFSEQ-DATASETTET

TILGANG TIL REFSEQ-DATASETTET

VEKST og STATISTIKK

Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq-utgivelsen, Per FTP-utgivelseskatalog

VIRVELDYR

RefSeqGene project

Inkorporering AV RNA-Seq og andre datatyper i transkriptbasert kurering

Lange ikke-kodende Rna (lncrna)

Funksjonell merknad

Antimikrobielle peptider (Ampere)

Endogene retrovirus (Erv)

Replikasjonsavhengige histoner

Regulatoriske oppstrøms åpne leserammer (uorf)

Antizyme gener

VIRVELLØSE DYR

PLANTER

ALGER, SOPP, NEMATODER og PROTOZOER

Fungal targeted loci

PROKARYOTER

prokaryote målrettede loci

VIRUS

FUTURE DIRECTIONS

FINANSIERING

Legg igjen en kommentar Avbryt svar