Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeq-projektet utnyttjar data som skickas till International Nucleotide Sequence Database Collaboration (INSDC) mot en kombination av beräkning, Manuell curation och samarbete för att producera en standarduppsättning stabila, icke-redundanta referenssekvenser. RefSeq-projektet förstärker dessa referenssekvenser med aktuell kunskap inklusive publikationer, funktionella funktioner och informativ nomenklatur. Databasen representerar för närvarande sekvenser från mer än 55 000 organismer (>4800 virus, >40 000 prokaryoter och >10 000 eukaryoter; RefSeq release 71), allt från en enda post till kompletta genom. Denna uppsats sammanfattar den aktuella statusen för viral, prokaryota, och eukaryota grenar av RefSeq projektet, rapporter om förbättringar av dataåtkomst och detaljer ansträngningar för att ytterligare utöka taxonomiska representation av samlingen. Vi lyfter också fram olika funktionella curationinitiativ som stöder flera användningar av RefSeq-data inklusive taxonomisk validering, genomanteckning, jämförande genomik och klinisk testning. Vi sammanfattar vårt tillvägagångssätt för att använda tillgängliga RNA-Seq och andra datatyper i vår manuella curationsprocess för ryggradsdjur, växter och andra arter och beskriver en ny riktning för prokaryota genom och proteinnamnhantering.

Inledning

under de senaste 15 åren National Center for Biotechnology Information (NCBI) RefSeq databas har fungerat som en viktig resurs för genomisk, genetisk och proteomisk forskning. RefSeq-projektets tillhandahållande av kuraterade och stabila kommenterade referensgenom, transkript och proteiner för utvalda virus, mikrober, organeller och eukaryota organismer har gjort det möjligt för forskare att fokusera på de bästa representativa sekvensdata i motsats till de överflödiga data i GenBank och att entydigt referera till specifika genetiska sekvenser. RefSeq-samlingen tillhandahåller uttryckligen länkade genom -, transkript-och proteinsekvensposter som innehåller publikationer, informativ nomenklatur och standardiserade och utökade funktionsanteckningar. RefSeq-poster är integrerade i NCBI: s resurser inklusive nukleotid -, Protein-och BLAST-databaserna och kan lätt identifieras med nyckelordet ’RefSeq’ och genom deras distinkta anslutningsprefix som definierar deras typ (Tabell 1). Alla RefSeq-data är föremål för kvalitetskontroller (QA) med några specialiserade QA-tester som utvecklats för olika taxa-eller datatyper. Till exempel genomgår alla virala RefSeqs taxonomisk granskning av NCBI-personal före offentliggörande. RefSeq-anslutningar Citeras allmänt i vetenskapliga publikationer och genetiska databaser eftersom de ger ett stabilt och konsekvent koordinatsystem som kan användas som baslinje för rapportering av genspecifika data, klinisk variation och jämförelser mellan arter. Dessa referenssekvensstandarder blir allt viktigare eftersom korrekt rapportering och reproducerbarhet är viktiga komponenter för bästa praxis inom biomedicinsk forskning (1).

RefSeq anslutningsprefix

Tabell 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiner annoterade på nm_ transkriptanslutningar eller annoterade på genomiska molekyler utan ett instantierat transkript (t. ex. vissa mitokondriella genomer, virala genomer och referensbakteriella genomer
AP_3	protein	proteiner annoterade på AC_ genomiska anslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
xp_3, 5	protein	proteiner annoterade på XM_ transkriptionsanslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
yp_3	protein	proteiner annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
wp_6	protein	proteiner som inte är överflödiga över flera stammar och arter. Ett enda protein av denna typ kan kommenteras på mer än ett prokaryot genom

prefix .	Molekyltyp .	använd kontext .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiner annoterade på nm_ transkriptanslutningar eller annoterade på genomiska molekyler utan ett instantierat transkript (t. ex. vissa mitokondriella genomer, virala genomer och referensbakteriella genomer
AP_3	protein	proteiner annoterade på AC_ genomiska anslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
xp_3, 5	protein	proteiner annoterade på XM_ transkriptionsanslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
yp_3	protein	proteiner annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
wp_6	protein	proteiner som inte är överflödiga över flera stammar och arter. Ett enda protein av denna typ kan kommenteras på mer än ett prokaryot genom

1Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 6 nummer följt av sekvensversionsnumret.

2Det fullständiga anslutningsformatet består av prefixet följt av INSDC-anslutningsnumret som RefSeq-posten baseras på följt av RefSeq-sekvensversionsnumret.

3Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 6 eller 9 nummer följt av sekvensversionsnumret.

4poster med detta anslutningsprefix har kuraterats av NCBI-personal eller en modellorganismdatabas, eller finns i poolen av anslutningar som kuratorer arbetar med. Dessa poster kallas’ känd ’ RefSeq dataset.

5poster med detta anslutningsprefix genereras antingen genom eukaryotic genome annotation pipeline eller den lilla eukaryotic genome annotation pipeline. Poster som genereras via den första metoden kallas’ model ’ RefSeq dataset.

6Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 9 nummer följt av versionsnumret. Versionsnumret är alltid’.1 ’ eftersom dessa poster inte är föremål för uppdatering. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiner annoterade på nm_ transkriptanslutningar eller annoterade på genomiska molekyler utan ett instantierat transkript (t. ex. vissa mitokondriella genomer, virala genomer och referensbakteriella genomer
AP_3	protein	proteiner annoterade på AC_ genomiska anslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
xp_3, 5	protein	proteiner annoterade på XM_ transkriptionsanslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
yp_3	protein	proteiner annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
wp_6	protein	proteiner som inte är överflödiga över flera stammar och arter. Ett enda protein av denna typ kan kommenteras på mer än ett prokaryot genom

prefix .	Molekyltyp .	använd kontext .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiner annoterade på nm_ transkriptanslutningar eller annoterade på genomiska molekyler utan ett instantierat transkript (t. ex. vissa mitokondriella genomer, virala genomer och referensbakteriella genomer
AP_3	protein	proteiner annoterade på AC_ genomiska anslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
xp_3, 5	protein	proteiner annoterade på XM_ transkriptionsanslutningar eller annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
yp_3	protein	proteiner annoterade på genomiska molekyler utan en instansierad transkriptionsrekord
wp_6	protein	proteiner som inte är överflödiga över flera stammar och arter. Ett enda protein av denna typ kan kommenteras på mer än ett prokaryot genom

1Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 6 nummer följt av sekvensversionsnumret.

2Det fullständiga anslutningsformatet består av prefixet följt av INSDC-anslutningsnumret som RefSeq-posten baseras på följt av RefSeq-sekvensversionsnumret.

3Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 6 eller 9 nummer följt av sekvensversionsnumret.

6Det fullständiga anslutningsnummerformatet består av prefixet, inklusive understrecket, följt av 9 nummer följt av versionsnumret. Versionsnumret är alltid’.1 ’ eftersom dessa poster inte är föremål för uppdatering. Se onlinedokumentation för ytterligare information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

under de senaste åren har avancerade sekvenseringstekniker underlättat en väsentlig ökning av hela genomsammansättningsinlämningar till de offentliga databaserna. Som ett resultat har RefSeq-projektet konsekvent utökat djupet och bredden av taxa som ingår i datasetet, främst genom förbättringar av flera interna annoteringsrörledningar. Alla taxa finns i utrymme för RefSeq inkludering; annotering är emellertid ofta begränsad till de organismer för vilka en högkvalitativ primär genommontering är tillgänglig med obestridd organisminformation. Således kan vi utesluta vissa kategorier av data som inte uppfyller våra kvalitetsstandarder. Uteslutna dataset inkluderar: metagenomer, sammansättningar med låga contig N50-värden eller särskilt högt antal oplacerade byggnadsställningar/contigs (dvs. hög fragmentering) eller genom som har betydande missanpassning eller indel-variation jämfört med andra närbesläktade genom för arten (t.ex. vissa prokaryoter).

en unik aspekt av RefSeq dataset är den kombinerade metoden att utnyttja beräkning, samarbete och curation av NCBI vetenskaplig personal. Som en stor bioinformatikanläggning har NCBI investerat i att utveckla robusta processflöden för att generera anteckningar och utföra kvalitetssäkringstester för eukaryota och prokaryota genom, transkript och proteiner. Förbättringar av virusgenomets processflöde pågår. RefSeq-gruppen samarbetar med många expertgrupper, inklusive officiella nomenklaturmyndigheter (t. ex. HUGO Gene Nomenclature Committee (HGNC) och Zebrafish Information Network (ZFIN) för humana respektive zebrafiskgennamn), UniProtKB (proteinnamn) och miRBase (mikroRNA) (2-5). Dessa och andra samarbeten hjälper till att upprätthålla och förbättra kvaliteten på RefSeq-datamängden genom QA-rapporter, utbyte av gen-och sekvensinformation och utbyte av funktionell information. NCBI personal ger också curation stöd för virus, prokaryoter, eukaryoter, organeller, plasmider, och riktade projekt inklusive curating gener och sekvenser för Homo sapiens, Mus musculus och andra organismer. RefSeq-kuratorer förbättrar databasens kvalitet genom granskning av QA-testresultat, engagemang i valet av vissa ingångar för bearbetning av genomanteckningar, sekvensanalys, taxonomisk analys och funktionell granskning. Curation stöder också förbättringar av Genome annotation pipelines eftersom innehållsexperter hjälper till att definiera programmatiska metoder för att modellera både typisk och atypisk biologi. För eukaryoter, särskilt däggdjur, definierar transkriptbaserad curation ”bästa” sekvensrepresentanter (som”kända”RefSeqs; Tabell 1 fotnot) som används som ett primärt ingångsreagens till den eukaryota genomanmärkningsrörledningen (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Förbättringar i input reagens kvalitet i sin tur lägga betydande kvalitet och reproducerbarhet till den resulterande genom annotation. Denna typ av manuell curation har historiskt varit inriktad på människa och mus på grund av deras unika biomedicinska betydelse (6). På senare tid dessa curation insatser har gett större uppmärksamhet åt Rattus norvegicus, Danio rerio, BIM taurus, och Gallus gallus. Dessa arter är relevanta för människors hälsa såväl som jordbrukets hållbarhet.

i detta dokument rapporterar vi om våra framsteg när det gäller att utöka RefSeq-datasetet för att inkludera mer olika organismer, beskriva förbättringar i dataåtkomst och ge exempel som illustrerar ett ökat fokus på att tillhandahålla fylogenetiskt användbara dataset samt funktionell funktionsanteckning på RefSeq-transkript och proteinposter. Vi förutser dessa ansträngningar och förbättringar i RefSeq dataset kommer att fortsätta att bidra till utvecklingen av medicinsk translationell forskning, jordbruksförbättringar, fylogenetisk identifiering och evolutionära studier.

generering av REFSEQ-DATASET

RefSeq-sekvensposter genereras med olika metoder beroende på sekvensklass och organism. Arkaeala och bakteriella genom (Se prokaryoter avsnitt) kommenteras med hjälp av NCBI: s prokaryota genomanmärkningsrörledning (http://www.ncbi.nlm.nih.gov/books/NBK174280/), medan ett litet antal referensbakteriegenom stöds av samarbete och manuell curation. RefSeq eukaryota genom tillhandahålls med två processflöden. Majoriteten av växt -, djur -, insekts-och leddjurgenomer kommenteras av eukaryotic genome annotation pipeline. Denna pipeline genererar annoteringsresultat baserat på tillgängliga transkriptionsdata (inklusive RNA-Seq och transkriptom Hagelgevär (tsa) data), såväl som proteinhomologi, ab initio-förutsägelse (till stor del när transkriptomdata inte är tillgängliga) och tillgängliga kända (kuraterade) RefSeq-transkript och proteiner (se Tabell 1). Pipeline-genererad annotation (model RefSeqs) kanske eller kanske inte har stöd för den fullständiga exon-kombinationen från en enda bevisinriktning men kan ha RNA-Seq-stöd för exonpar. De eukaryota genom som har kommenterats av denna pipeline rapporteras offentligt med länkar för att ladda ner data via FTP, för att visa eller utföra en BLAST-fråga mot det annoterade genomet eller för att få tillgång till en detaljerad sammanfattningsrapport för annotation (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rörledningen för en delmängd av eukaryoter inklusive svampar, protozoer och nematoder innefattar förökningsannotering som har lämnats in till International Nucleotide Sequence Database Collaboration (INSDC), med formatstandardisering, till en RefSeq-kopia av den inlämnade genomenheten (se alger, svampar, nematoder och protozoer).

NCBI-personal tillhandahåller huvuddelen av RefSeq organelle genome annotation genom förökning från INSDC-inlämningen. Mammalian mitochondria annotation kompletteras ofta med manuell curation. RefSeq-projektet upprätthåller också referenssekvenser för riktade loci-projekt som RefSeqGene, som är medlem i Locus Reference Genomic (LRG) collaboration (7), för bakteriell och svampribosomal rRNA loci och för svampintern transkriberade distanssekvenser (ITS) (8). Dessutom tillhandahålls ett betydande antal mänskliga, mus-och andra transkript och proteiner genom samarbete och manuell curation som inkluderar sekvensanalys och litteraturöversikt.

NCBI: s prokaryota (se nedan) och eukaryota annoteringsrörledningar har hållit jämna steg med det ökande antalet genomenheter som lämnats in till INSDC genom att tillhandahålla konsekvent anteckning på RefSeq-kopior av utvalda högkvalitativa inlämnade genomenheter. Hittills har 245 eukaryota genom, inklusive 170 ryggradsgenom, kommenterats av denna rörledning, varav mer än 120 arter har kommenterats under de senaste 20 åren. Bland denna grupp finns 52 fågelarter som inkluderar representativa arter av de flesta fågelbeställningar (9,10). Det har också skett en betydande expansion i antalet RefSeq-annoterade församlingar för icke-mänskliga primater, andra däggdjur, fisk, växter och leddjur.

åtkomst till REFSEQ-DATASET

RefSeq-hemsidan http://www.ncbi.nlm.nih.gov/refseq/ är ett centralt nav för alla aspekter av RefSeq-dataset. Den här webbplatsen innehåller länkar som guidar användarna genom en allmän beskrivning av projektet samt faktablad, tillväxtstatistik och information om mer fokuserade RefSeq-projekt som Prokaryotic genome re-annotation initiative, Consensus Coding Sequence (CCDS) project (11) RefSeqGene-projektet och riktade Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) – projekt. Länkar till den senaste omfattande FTP-utgåvan och detaljerad dokumentation om formatet och innehållet i utgåvan finns i avsnittet Meddelanden på RefSeq-hemsidan. Tidigare RefSeq-meddelanden finns också tillgängliga från den här sidan. Vi uppmuntrar starkt att ladda ner RefSeq-data direkt från NCBI, eftersom nedladdningar från andra bioinformatik-och genomwebbläsarresurser kanske inte innehåller alla tillgängliga data, eller kan bara återspegla anpassningar av RefSeq-transkript till ett genom snarare än genomannoteringsresultaten som genereras av NCBI.RefSeq-sekvensdata kan nås interaktivt med hjälp av NCBIs-nukleotid-och Proteindatabaser, I BLAST-databaser, via NCBIS programmatiska gränssnitt (E-utilities) eller via file transfer protocol (FTP). E-verktyg stöder skriptåtkomst för att ladda ner RefSeq-data i en mängd olika format baserat på antingen söktermer eller anslutningslistor; omfattande dokumentation finns i NCBI-handboken (www.ncbi.nlm.nih.gov/books/NBK25501/) och träningsvideor finns tillgängliga från Ncbis YouTube-kanal (https://www.youtube.com/user/NCBINLM). Både nukleotid-och Proteindatabaserna tillåter att frågeresultat begränsas till endast RefSeq-poster genom att välja ’RefSeq’ under ’källdatabas’ i sidofältet filter. RefSeq-data kan också nås från andra NCBI-databaser, inklusive montering, Bioprojekt, gen och genom genom att följa länkarna till nukleotid -, Protein-eller FTP-resurser Information om curationsförändringar inom RefSeq-gruppen eller NCBI-uppdateringar som påverkar RefSeq-databasen rapporteras via flera källor, inklusive RefSeq FTP release notes, periodiska publicerade rapporter, NCBI-meddelandena nyhetsflöde http://www.ncbi.nlm.nih.gov/news/ och genom NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Användare kan också prenumerera på refseq-announce-postlistan för att få periodiska uppdateringar om projektet och en sammanfattning av innehållet i varje RefSeq FTP-utgåva (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq data distribueras via FTP via två platser, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) och genom (ftp://ftp.ncbi.nlm.nih.gov/genomes/). den refseq FTP-plats ger dagliga uppdateringar av alla nya och uppdaterade RefSeq poster, veckovisa uppdateringar av vissa datatyper, och en varannan månad omfattande RefSeq release (/refseq/release/). Dessutom uppdateras utvalda organismspecifika transkript-och proteindataset, inklusive människa och mus, varje vecka. Underkatalogen RefSeqGene uppdateras dagligen, med anpassningar till genomet som släpps med varje annoteringskörning. Den omfattande varannan månad RefSeq frisättning organiseras av taxonomiska (t.ex. ryggradsdjur däggdjur) eller andra grupperingar (t. ex. mitokondrier). Data kan också laddas ner för hela RefSeq-samlingen från katalogen/refseq/release/ complete/. RefSeq-utgåvan erbjuder en fördel för dem som vill behålla periodiska uppdateringar av antingen hela samlingen eller en enda grupp. Den innehåller också poster som inte är tillgängliga från companion genomes FTP-plats, till exempel transkript i samlingen som underhålls oberoende av, och kanske inte för närvarande kommenteras på, en genomenhet. Utgåvan är försedd med betydande dokumentation av de installerade filerna (/refseq/release/ release-catalog/) inklusive MD5-kontrollsummor, en lista över alla installerade filer, samt release notes och meddelanden (/refseq/release/release-notes/).

RefSeq-data kan också laddas ner från genomens FTP-plats. I augusti 2014 tillkännagav NCBI en större omorganisation av denna FTP-plats som nu ger montering och organismbaserad tillgång till både GenBank och RefSeq genom (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Denna katalog är vidare uppdelad i underkataloger baserade på samma grupper som används i RefSeq-utgåvan, som var och en ger ytterligare underavdelningar efter art. Genomens FTP-plats tillhandahåller filer som representerar alla RefSeq – genomsammansättningar rapporterade i NCBI: s Monteringsresurs (www.ncbi.nlm.nih.gov/assembly/). fördelen med genomplatsen är att data kan nås på ett monterings – eller organismspecifikt sätt. Data som tillhandahålls inkluderar genom-och produktsekvens (transkript/protein), annotering, monteringsrapporter och statistik och MD5-kontrollsummor; dessa data uppdateras när genomenheten och/eller anteckningen uppdateras. Detta område inkluderar inte RefSeq-sekvenser som ligger utanför ramen för en genomenhet eller produkter som inte är annoterade på ett genom.

tillväxt och statistik

RefSeq FTP release 71 (juli 2015) innehåller mer än 77 miljoner sekvensposter för mer än 55 000 organismer. Tabell 2 sammanfattar tillväxten av RefSeq-dataset under det senaste året när det gäller organismerna och antalet sekvensposter representerade per varje REFSEQ-release FTP-katalogområde. Bakteriegenom och proteiner utgör huvuddelen av RefSeq-datasetet (56% av de totala anslutningarna och 76% av >52 miljoner proteinanslutningar). Betydande ökningar av antalet organismer, proteiner och totala register ses för ryggradslösa, växt-och eukaryota organismer som överensstämmer med det ökade antalet och genomströmningen av genomsekvenseringsprojekt. En viktig faktor för den fortsatta höga tillväxten av RefSeq-data är förbättringar i genomledningar som genererar kommenterade RefSeq-genom. Framför allt inkluderar detta ökad kapacitet i NCBI: s prokaryota genomanteckningsrörledning, återutveckling av processflödet som sprider anteckning från eukaryota Genbankgenom på RefSeq-genom och införlivandet av RNA-Seq-bevis i NCBI: s eukaryota genomanteckningsrörledning och dess inverkan på generering av Modellrefseqs (Xm_, XR_ och XP_ accessions, Tabell 1).

årlig tillväxt i antalet organismer, proteiner och transkript som representeras i den omfattande RefSeq-utgåvan, per FTP-utgivningskatalog

Tabell 2.

årlig tillväxt i antalet organismer, proteiner och transkript som representeras i den omfattande RefSeq-utgåvan, per FTP-release directory

Release Directory .	organismer .	% förändring .	transkript .	% förändring .	proteiner .	% förändring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% förändring .	transkript .	% förändring .	proteiner .	% förändring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (t.ex. archaea.acc_taxid_growth.txt och relaterade filer). Den procentuella årliga förändringen baseras på att jämföra dataantal för RefSeq release 71 (juli 2015) och RefSeq release 66 (juli 2014).

Tabell 2.

årlig tillväxt i antalet organismer, proteiner och transkript som representeras i den omfattande RefSeq-utgåvan, per FTP-release directory

Release Directory .	organismer .	% förändring .	transkript .	% förändring .	proteiner .	% förändring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% förändring .	transkript .	% förändring .	proteiner .	% förändring .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

den dramatiska minskningen av antalet plasmidproteinposter, och därmed i antalet totala anslutningar, återspeglar slutförandet av ett RefSeq-bakteriegenomet re-annotation project (http://www.ncbi.nlm.nih.gov/refseq/om/prokaryoter/reannotation/) och antagandet av den nya datamodellen för prokaryoter, inklusive deras plasmider. I denna nya datamodell kan en enda RefSeq icke-redundant proteinanslutning kommenteras på mer än en genomisk sekvensrekord när översättning av dessa genomiska proteinkodande regioner resulterar i ett identiskt protein (se http://www.ncbi.nlm.nih.gov/refseq/om/nonredundantproteiner/). Redundans i alla bakterieproteiner minskade också signifikant; det är emellertid inte uppenbart här på grund av fortsatt signifikanta ökningar av antalet bakteriella genom som ingår i datasetet. Dessa förändringar resulterade också i en total minskning av antalet archaeal proteinposter.

VERTEBRATES

en utvald grupp av ryggradsdjur inklusive Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus och Danio rerio är huvudfokus för våra transkript – och litteraturbaserade manuella curationinsatser. Curatorer arbetar i allmänhet från listor över gener med datakonflikter identifierade genom kvalitetssäkringstest (QA), varav några tidigare beskrivits (12). De följer en detaljerad uppsättning riktlinjer när de analyserar varje gen för att säkerställa korspersonskonsistens i den kuraterade datamängden. Denna analys innefattar djupgående sekvensbedömning och litteraturöversikt för att skapa referensavskrifter, proteiner, pseudogener och RefSeqGene-poster. RefSeq-kuratorer genererar transkriptionsvarianter, löser sekvensfel, tar bort felaktig information, uppdaterar poster för att korrekt representera locus biologi och lägger till värdefull funktionell information till vissa RefSeq-poster, såsom förbättrade proteinnamn, en sammanfattning av genproduktens funktion, funktionella egenskaper hos genen och/eller relevanta publikationer. Manuell curation och litteraturgranskning av RefSeq-gruppen kan resultera i representation av unika varianter och isoformer som inte skulle förutsägas när de enbart baserades på beräkningsanalys. Exempelvis avslöjade litteraturöversikt av den mänskliga tumörsuppressorgenen, PTEN (fosfatas och tensinhomolog, GeneID: 5728) förekomsten av en längre proteinisoform som härrör från användning av ett alternativt in-frame uppströms CUG-initieringskodon som finns i mitten av en palindromisk sekvens uppströms den kanoniska mRNA-översättningen startkodon (13). Starka experimentella data indikerade att denna mitokondriella specifika isoform initierar med en leucin, snarare än en metionin (14). RefSeq-datamodellen för eukaryoter ger ett transkript som uttryckligen är kopplat till ett protein. Därför tillhandahölls två identiska transkriptposter för att återspegla översättning från de alternativa initieringskodonerna; NP_000305.3 representerar det 403 aminosyraproteinet som använder det kanoniska metioninstartkodonet, medan NP_001291646.2 representerar det mitokondriella lokaliserade 576 aminosyraproteinet som initierar med en leucin. Således tjänar curationsprocessen ett dubbelt syfte att tillhandahålla exakta referenssekvenser som underlättar exakt och reproducerbar genomanteckning och tillhandahåller register som innehåller relevant biologisk information. I det här avsnittet diskuterar vi de senaste uppdateringarna, förbättringar vi har gjort i vår manuella curation process, och exempel på fokuserade curation projekt.

RefSeqGene project

RefSeqGene sub-project definierar mänskliga genomiska sekvenser som ska användas som referensstandarder för väl karakteriserade gener, särskilt för användning av den kliniska genetikgemenskapen. Dessa sekvenser fungerar som en stabil grund för rapportering av patogena varianter, för att upprätta konventioner för numrering av exoner och introner och för att definiera koordinaterna för andra varianter. Varje RefSeqGene-post fokuserar på en genspecifik genomregion och kommenteras vanligtvis med en delmängd av RefSeq-transkript och proteiner utvalda av domänexperter. Dessa val bestämmer exon-funktioner. Justeringar av äldre versioner av canonical RefSeq transcript/protein, liksom andra kända RefSeqs, ingår. Dessa poster innefattar typiskt 5 kilobaser (kb) sekvens uppströms om fokusgenen och 2 kb sekvens nedströms för att stödja representation av potentiella regleringsställen eller raderingar som sträcker sig bortom genfunktionen. En RefSeqGene-post kan innehålla annoteringsinformation för andra gener som ligger inom dess gränser. RefSeqGene-poster granskas initialt av locus-specifika databaser och NCBI-personal. RefSeqGene är medlem i lrg-samarbetet (7) som ger ytterligare granskning av sekvensdata innan en lrg-anslutning läggs till. Ett nytt arbetsfokus utvidgade antalet RefSeqGene-poster för att representera alla gener för vilka minst två kliniska tester har lämnats in till NIH Genetic Testing Registry (GTR). För närvarande finns det 5596 RefSeqGene-poster, varav 633 har en lrg-anslutning. RefSeqGene-poster kan hämtas genom att söka i Nukleotiddatabasen med ’refseqgene’ , genom deras lrg-anslutningar, genom att surfa på Refseqgenes webbplats (www.ncbi.nlm.nih.gov/refseq/rsg/), eller via FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

inkorporering av RNA-Seq och andra datatyper i transkriptbaserad curation

ett huvudmål för RefSeq curation-projektet är att representera högkvalitativa och fullängds transkript-och proteinreferenssekvenser. Som sådan är våra curationskriterier huvudsakligen baserade på konventionellt transkript (mRNA och ESTs) och proteinjusteringar och publicerade bevis. Men vertebrattranscriptomprojekt har blivit allt mer komplexa med majoriteten av nya transkriptdata som för närvarande genereras av kortläst sekvenseringsteknik. Genomomfattande studier som tittar på globala mönster av promotorassocierade epigenetiska märken ger också bevis på aktiva promotorer och/eller aktiv transkription. RefSeq-gruppen har justerat kurationspraxis för att införliva dessa nya datatyper för att förbättra vår manuella anteckning, särskilt i fall där en gen eller variant saknar rikligt konventionellt transkriptstöd. Dessa RNA-Seq och epigenomiska studier har genererat enorma datamängder som utgör en utmaning för genanteckningsgrupper till exempel genom potentiella falska positiva effekter och bristen på stöd för exonkombinationer med lång räckvidd (15). RefSeq-kuratorer mildrar mot falska positiva genom att selektivt integrera endast högkvalitativa dataset för övervägande i vår genomannoteringsrörledning och i den manuella annoteringsprocessen. RefSeq-kuratorer visualiserar transkriptinriktningar, variationsdata och filtrerade RNA-Seq-data i anpassade skärmar inom ett internt justeringsverktyg införlivat i NCBI Genome Workbench platform (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation av mänskliga gener använder analyserade RNA-Seq läser från Illumina BodyMap 2 (BioProject: PRJEB2445) och Human Protein Atlas projects (BioProject: PRJEB4337) (16). Dessutom använder kuratorer promotorassocierade histonmodifieringsmärken som H3K4me3 från NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) och projektet ENCODE (Encyclopedia of DNA Elements) (18) för att verifiera förekomsten av en aktiv promotor. RefSeq-kuratorer utvärderar också polyA-seq-data för att bekräfta 3′ fullständighet av transkript som saknar en polyA-svans (19). Ytterligare datatyper, inklusive PhyloCSF (20), CpGIslands, RepeatMasker (21) och Cap analys av genuttryck (CAGE) data (22), används ibland som ytterligare stöd.

långa icke-kodande RNA (lncRNAs)

RefSeq-gruppen fortsätter att avsevärt expandera på representationen av icke – kodande strukturella och mikro-RNA, transkriberade pseudogener och de i stort sett okarakteriserade lncRNA. Denna klass av gener definieras generellt som transkript >200 nt i längd som saknar stark proteinkodningspotential (23). lncRNA RefSeq-poster genereras av curation och genom eukaryotic genome annotation pipeline för lncRNA-gener. NCBI upprätthåller för närvarande över 540 000 eukaryota lncRNA RefSeq-poster, varav över 6700 har kuraterats och endast några hundra har karaktäriserats funktionellt. Av dessa har många varit inblandade i mänsklig sjukdom, såsom BACE1-AS som kan spela en roll i patofysiologin för Alzheimers sjukdom och HOTAIR som har associerats med flera cancerformer (24,25). De allra flesta lncRNA har okända funktioner och frånvaron av långa öppna läsramar utgör en utmaning när det gäller att bekräfta transkriptets fullständighet. Dessutom är lncRNA-inlagor till INSDC till stor del baserade på TSAs från korta lästa dataset som kan inkludera artifactual exon-kombinationer. RefSeq-kuratorer tar ett konservativt tillvägagångssätt för att representera lncRNA-gener, bara manuellt skapa RefSeqs (med ett Nr_-anslutningsprefix) för högkvalitativa transkript för vilka vi har viss säkerhet om exon-strukturen. Helst bör transkriptstödet skarvas med minst tre exoner men två-exon och intronlösa transkript kan representeras om de stöds av promotorassocierad epigenomik, poly(a) bevis, ytterligare cDNA och/eller RNA-Seq-data. RefSeq lncRNA-poster för icke-kodande gener kan hämtas från NCBI: s Nukleotiddatabas med hjälp av söksträngen ’biomol ncrna lncrna’ och välja RefSeq-filtret från den vänstra kolumnen.

funktionell anteckning

det unika bidraget från curated eukaryotic RefSeq transcript records är att de integrerar funktionell information med en referenssekvens. RefSeq curation staff lägger till gensammanfattningar, nomenklatur, transkriptionsvarianttext, gen-och sekvensattribut och funktionella funktioner som finns tillgängliga på RefSeq-posten och/eller genom Genresursen (http://www.ncbi.nlm.nih.gov/gene). Under det senaste året har RefSeq-personal bedrivit flera djupgående annoteringsprojekt, av vilka några beskrivs kortfattat i följande stycken, för att lägga till funktionella data till specifika uppsättningar gener där beräkningsverktyg inte kan exakt representera biologisk kunskap. Dessa projekt inkluderar annotering av antimikrobiella peptider, endogena Retrovirus, replikationsberoende histoner, regulatoriska uorf och antizymer.

antimikrobiella peptider (ampere)

ampere var en nyligen curation fokus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Ampere är naturligt förekommande peptider som finns i en mångfald av arter och har varit inblandade i många immunroller inklusive bakteriedödande, antivirala, antifungala och till och med antitumöraktiviteter. En lista med över 130 mänskliga gener som kodar för en eller flera experimentellt beprövade förstärkare samlades in från flera offentligt tillgängliga AMP-dataset och bryts också från publikationer. De flesta av dessa förstärkare hade inte tidigare identifierats i RefSeq-databasen, och ingen av AMP-databaserna kopplade peptiderna till deras kodningsgen. RefSeq-kuratorer kommenterade RefSeq-posterna manuellt för varje AMP-kodande humangen för att säkerställa att den funktionella peptiden antecknades, för att inkludera en publikation som beskriver peptidens antimikrobiella aktivitet, för att lägga till en kort sammanfattning som beskriver den kodade AMP: s antimikrobiella aktivitet och för att lagra ett nytt RefSeq-attribut ’Protein har antimikrobiell aktivitet’ som ingår i RefSeq-attributets strukturerade kommentar (t.ex.Nm_001124. 2 för ADM; GeneID: 133). För att komma åt alla curated human transcript eller protein AMP-Poster, sök i nukleotid-eller proteindatabasen med ’Protein har antimikrobiell aktivitet’. För närvarande hittar denna sökning 191 RefSeq-poster, inklusive skarvvarianter och proteinisoformer.

endogena Retrovirus (ERV)

endogena Retrovirus (ERV) är genomiska loci som härrör från förfädernas införande av ett exogent retrovirus i värdgenomet. ERV loci är i allmänhet utanför räckvidden för RefSeq; vi kommenterar emellertid ERV-proteinkodande loci i full längd som kartlägger till en enda genomisk plats om de har utvecklats för att tjäna en värdfunktion, är associerade med en känd sjukdom och/eller om de har tilldelats nomenklatur av en officiell nomenklaturutskott. Cirka 8% av det mänskliga genomet är av retroviralt ursprung (27); men på grund av deras forntida ursprung har de flesta mänskliga ERV-loci ackumulerat nonsensmutationer och kan inte längre koda ett protein. Syncytinproteinerna, som är involverade i placentautveckling (28), är ett välkänt undantag från detta. Humana syncytin-1-och syncytin-2-proteiner kodas av generna ERVW-1 (NM_001130925.1, NM_014590.3) och ERVFRD-1 (NM_207582.2). Hittills har vi skapat 67 RefSeqs för ERV loci, som inkluderar register som representerar ERV-gener från en mängd olika däggdjur. En ny RefSeq-attributkategori med titeln ’endogen retrovirus’ skapades för dessa poster och visas i en strukturerad kommentar till RefSeq-posten. Dessa poster kan hämtas från Nukleotiddatabasen genom att söka efter ’endogent retrovirus ’.

Replikationsberoende histoner

en snabb syntes av histon-mRNA krävs under celldelning för att producera stora mängder histonproteiner. Kritisk till denna process är de replikationsberoende histongenerna som uppregleras under G1/S-fasen av cellcykeln (29). Ett specifikt RefSeq-projekt genomfördes i syfte att kurera hela uppsättningen av replikationsberoende histonproteinkodande gener i människa och mus. Dessa gener har en kanonisk 3 ’ Histon nedströms element(HDE) sekvens i den genomiska sekvensen och de resulterande mogna mRNA saknar karakteristiskt poly (A) svansar och slutar istället kort efter en RNA-stam-loopstruktur (30). Hde-elementet finns på prekursoravskriften men ingår inte i det bearbetade transkriptet som representeras av RefSeq. Placeringen av den konserverade 16 nukleotidstam-loop-struktursekvensen anges på RefSeq-posten som en funktionsanteckning med titeln ’stem-loop’. Ett exempel kan ses på RefSeq-posten NM_003539. 3 för HIST1H4D (GeneID: 8360). Hittills har 127 humana och musreplikationsberoende Histon RefSeq-poster kuraterats och ett RefSeq-attribut lagts till som kan användas för att hämta dessa poster från Nukleotiddatabasen med hjälp av söksträngen ’replikationsberoende Histon’.

Regulatory upstream open reading frames (uORFs)

översättning av en upstream open reading frame (uORF) kan negativt påverka översättningen av den primära proteinkodande open reading frame (pORF) (31). Denna effekt tystnar inte alltid porf-översättning helt och kan vara beroende av celltyp, utvecklingstillstånd eller cellulärt tillstånd. Därför, även om uorf: er kan förutsägas från sex-ramöversättningen av ett transkript, måste den regulatoriska effekten av detta element bestämmas genom experimentell validering. RefSeq-kuratorer granskade litteraturen för att hitta transkript med experimentella bevis på regulatoriska uORFs och uppdaterade motsvarande RefSeq-transkriptposter för att lägga till en misc_feature som anger platsen för dessa uORFs. Ett exempel är RefSeq-posten NM_000392.4 för ABCC2 (GeneID: 1244). En ny RefSeq-attributkategori med titeln ’regulatory uORF’ skapades och visas i en strukturerad kommentar till dessa RefSeq-poster. Både den kommenterade funktionen och attributet citerar den stödjande publikationen av PubMed ID. Hittills har 260 poster kommenterats med detta attribut och dessa poster kan hämtas från Nukleotiddatabasen genom att söka efter ’regulatorisk uORF ’

Antizyme gener

ett av målen med RefSeq-projektet är att representera gener med exceptionell biologi som inte följer standardavkodningsregler för proteinsyntes. Ornitindekarboxylasantizymegenen är ett sådant exempel, där en programmerad +1 ribosomal ramskiftningsmekanism inträffar och inte kan förutsägas med konventionella beräkningsverktyg. En uppsättning av ryggradsdjur antizyme transkript och protein register var nyligen föremål för en manuell annotering ansträngning för att skapa standarder för att förbättra annotering av dessa genprodukter av eukaryotic genome annotation pipeline (32). RefSeq-posterna antecknades manuellt med split CDS-funktionen för att återspegla ribosomal glidning och inkluderar ett attribut ’ribosomal glidning’ med publicerade bevis, olika Diverse funktionsanteckningar (såsom platsen för frameshift-platsen) och en kort sammanfattning som beskriver genens funktion och nya egenskaper (t.ex.NM_139081. 2). Dessa poster kan hämtas från antingen nukleotid-eller Proteindatabasen med sökfrågan: vertebrates refseq ribosomal slippage antizyme. Denna sökning hittar för närvarande 242 RefSeq-poster (NM eller NP), som inkluderar transkriptionsvarianter och proteinisoformer.

ryggradslösa djur

ryggradslösa arter representerar den stora majoriteten av existerande metazoaner (33); emellertid representeras endast ett relativt litet antal av sekvenserade genom. Detta trots att många arter har kritisk biomedicinsk betydelse som Anopheles gambiae, en vektor för malaria och Biomphalaria glabrata, en vektor för schistosomiasis (34,35). Andra ryggradslösa djur inklusive Apis mellifera, Bombyx mori och Crassostrea gigas har betydande kommersiellt värde (36-38). RefSeq-gruppen har gjort ansträngningar för att öka antalet och omfattningen av ryggradslösa genom som representeras i datasetet genom att tillhandahålla anteckning via eukaryotic genome annotation pipeline eller genom att sprida anteckning från INSDC-inlagor till RefSeq-kopian av dessa genom. För båda processflödena är vi beroende av den allmänna tillgängligheten av högkvalitativa genom i INSDC-databaser och NCBI: s Monteringsdatabas (www.ncbi.nlm.nih.gov/assembly/). hittills har 46 ryggradslösa genom kommenterats av NCBI inklusive representativa arter av insekter, araknider, blötdjur och basalkordater. Vi förutser en betydande expansion i antalet insekter och andra ryggradslösa genomer som kommenteras som ett resultat av genominitiativ som i5k (39), 1kite (1k Insect Transcriptome Evolution, http://www.1kite.org/) och Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

växter

RefSeq fortsätter att utöka mångfalden av växtarter som representeras i datasetet. Hittills har 61 växtarter inkluderats i RefSeq – genomens dataset (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ plant/) varav 33 arter annoterades genom eukaryotic genome annotation pipeline; resten är RefSeq-kopior av annoterade genom som lämnats in till INSDC. I framtiden kommer fler växtgenomer som valts för RefSeq-inkludering att behandlas av eukaryote annotation pipeline, snarare än att sprida annotering från INSDC-inlämningen. Detta är en policyändring för RefSeq-växtgenomerna och kommer att resultera i större övergripande konsistens av växtnoteringsdata inom RefSeq-datasetet. Majoriteten av de RefSeq-transkript och proteiner som är tillgängliga för växtarter är ’Modell’ – poster (xm_, XP_ och XR_-anslutningar; Tabell 1), med en mindre delmängd av ’kända’ poster (NM_, NR_, NP_) som upprätthålls oberoende av annoteringsprocessen genom en kombination av automatiserad bearbetning och manuell granskning. Manuell curation av växtutskrift och proteindata tillhandahålls för närvarande för Zea mays och Solanum lycopersicum. Den nuvarande curation fokus innebär omfattande sekvens översyn och riktar sig mot att lösa QA oro i den aktuella uppsättningen av utskrifter. Felupplösning är inriktad på att identifiera och ta bort chimära transkript, redundanta transkript och gener och förbättra kvaliteten på den representerade sekvensen genom att bedöma indels och felaktigheter bland RefSeq-transkriptet, den genomiska sekvensen och ortologa data. För växter strävar vi efter att tillhandahålla ett kurerat transkript och proteindataset som överensstämmer med sorten som valts för genomsekvensering och montering. Curationsprotokollet som används för ryggradsdata används också för växter. Således kan RefSeq-transkriptposter uppdateras för att baseras på en annan INSDC-källsekvens eller kan monteras från mer än en INSDC-sekvenspost för att ge ett transkript från den föredragna sorten. Om INSDC-transkriptdata inte är tillgängliga för den genomiska sorten kan ett RefSeq-transkript genereras från den sammansatta genomsekvensen baserat på en kombination av transkript-eller proteinjusteringar, RNA-Seq och/eller publicerade data. Ett andra fokusområde är att öka antalet stödda kända proteinkodande transkript och proteiner eftersom detta ger ett kuraterat reagens som kan användas vid annotering av andra växtgenomer. Slutligen gör vi fler RefSeqs som representerar skarvvarianter när det finns tillräckligt med stödjande bevis. Dessa ansträngningar kommer att avsevärt förbättra kvaliteten på anläggningen RefSeq dataset och kommer att bidra till förbättringar i framtida genom anteckningar. Den nuvarande uppsättningen växtgenomer som kommenteras av rörledningen kan nås på NCBI: s eukaryotic genome annotation pipeline webbplats http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ med länkar till den detaljerade annoteringsrapporten och andra resurser som species BLAST och FTP.

alger, svampar, nematoder och protozoer

NCBI small eukaryotic genome pipeline är en ny automatiserad pipeline utformad för generering av RefSeq-poster som ett resultat av direkt förökning av kommenterade INSDC-poster. De RefSeq-poster som sålunda genereras är kopior av GenBank-data med vissa formatändringar för att följa RefSeq-kraven. Den mest anmärkningsvärda skillnaden mellan den ursprungliga INSDC-posten och RefSeq-posten är tillägget av RefSeq-transkriptprodukten. Även om det inte är utformat för att generera de novo-genomanmärkning, drar den lilla eukaryota genomrörledningen från flera av NCBI: s eukaryota genomanmärkningsrörledningsmoduler och deras kod (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

beteckningen ’små eukaryoter’ avser rörledningens primära användning för att generera RefSeq-genom för relativt mindre eukaryota genom (jämfört med växter och ryggradsdjur) som alger, protozoer, svampar, nematoder och vissa Leddjur. Men vissa stora växtgenom bearbetas också med hjälp av denna rörledning. Denna rörledning bearbetar högkvalitativa enheter som består av kromosomer och/eller byggnadsställningar och deras komponenter. Dessa sammansättningar med hög contig och byggnadsställning N50, högkvalitativ sekvens och rimligt bra INSDC-inlämnad anteckning prioriteras. Denna pipeline, som ersätter ett historiskt processflöde som krävde mer manuellt stöd, har nyligen nått en offentlig produktionsfas och ger redan ett ökat antal ’små’ eukaryota genom representerade i RefSeq. Arbetet pågår för att optimera rörledningens genomströmning och för att lägga till mer automatisering och ytterligare minimera curatorbehandlingsuppgifter. Långsiktiga planer inkluderar implementering av ett proteinnamnshanteringssystem för att tillhandahålla, korrigera eller förbättra INSDC-inlämnade namn över tiden. Många av de genom som finns i utrymme för den lilla eukaryoter rörledningen kan för närvarande inte behandlas av den (stora) eukaryota genomanteckningsrörledningen på grund av taxonomisk mångfald och begränsad tillgänglighet av transkriptionsdata som behövs för att träna de novo-annoteringsrörledningen.

Svampinriktad loci

Svampmorfologi är mycket varierande, allt från komplexa multicellulära strukturer till mycket enkla enskilda celler. En mängd morfologiska strukturer och sportyper kan produceras av en enda art. Omvänt producerar många arter liknande morfologier (morfer) men är faktiskt genetiskt mycket avlägsna. Tills nyligen, en enda art kan giltigt beskrivas med mer än ett binomialt namn baserat på sexuella eller asexuella morfer. I många fall har endast en enda morf beskrivits och registrerats för en viss art, även om arter som är nära besläktade med den kan ha flera morfer beskrivna och registrerade. Följaktligen har sekvensjämförelser tillämpats i svampsamhället för att skilja mellan arter, för att spåra arter när de går igenom komplexa livscykler och för att identifiera kryptiska arter. Som en del av den dynamiska processen för taxonomisk omvärdering, många svamparter korrigeringar är inte alltid up-to-date I GenBank sekvensdata.

för att vara en mer tillförlitlig resurs för DNA-baserad identifiering måste referenssekvenser härledda från typprover (som fungerar som referenser för arter) märkas med det korrekta och mest aktuella artnamnet. Svamp RefSeq riktade loci databaser ger denna värdefulla resurs. Till exempel är PRJNA177353 ett Bioprojekt som specifikt fokuserar på de interna transkriberade distansregionerna (ITS) i den nukleära ribosomala cistron som har använts i många år som en fylogenetisk markör och nyligen godkänd som den formella streckkodssekvensen för svampar (41). Its RefSeq-databasen startade som ett samarbete med Index Fungorum, MycoBank och UNITE, samt en stor grupp taxonomiska specialister. Sekvenser valdes, mestadels från typprover av giltiga beskrivningar, och sedan var nuvarande korrekta artnamn associerade med sekvenserna i syfte att representera de flesta accepterade svampordningarna (8). Resultat från denna curation ansträngning har använts och citerats av olika publikationer (42-46) och har hjälpt ytterligare ansträngningar att validera delmängder av referenssekvenser, t.ex. medicinskt signifikanta arter (47).

syftet med fortsatt curation är att lägga till sekvenser från nyligen beskrivna order och att utvidga representationen till att omfatta de flesta av de accepterade familjerna med fokus på medicinskt viktiga svampar. Processen inkluderar också att göra korrigeringar, ersätta sekvens från verifierat material med sekvens från typmaterial när det blir tillgängligt och redigera definitionslinjer eller ta bort RefSeq-poster när taxonomiska klassificeringar ändras. Detta säkerställer att BLAST-sökresultat korrekt visar det aktuella namnet. RefSeq dess Register har utvidgats till att representera 3 060 sekvenser som representerar 270 familjer från 39 klasser. Under det initiala samarbetet dess RefSeq-ansträngning, en mindre uppsättning sekvensaccessioner från 28S nukleär stor subenhet ribosomal gen (LSU) samlades också in men verifierades inte. Ett arbetsflöde som liknar its record curation-processen följdes och under fortsatt curation har dessa LSU-poster verifierats för sekvenskvalitet, korrekt identifiering och exakt källdata. Nära 500 poster (från 800 potentiella poster) som representerar >100 familjer från 21 klasser verifierades och släpptes nyligen. 28S dataset kan hämtas från BioProject PRJNA51803 (48).

prokaryoter

NCBI RefSeq prokaryotisk genomsamling representerar sammansatta prokaryota genom med olika nivåer av kvalitet och provtagningstäthet. För prokaryoter, baserat på tidigare feedback från samhället, är vår nuvarande policy att tillhandahålla genomanteckning för alla prokaryota genom som uppfyller våra kvalitetskriterier. Under de senaste åren har vi mött två stora utmaningar: (i) att hålla jämna steg med den snabba eskaleringen av inlämnade prokaryota genom; och (ii) att ta itu med en växande inkonsekvens i genomanmärkning på grund av användningen av både en INSDC-förökningsbaserad pipeline och olika versioner av en NCBI de novo genomanmärkningspipeline som utvecklats över tiden.

med det ökande intresset för mänskliga patogener och framsteg av DNA-sekvenseringsteknik har antalet sekvenserade prokaryota genom snabbt ökat under det senaste decenniet. Vissa bakteriestammar är ofta oskiljbara med nuvarande genotypningsmetoder, men mindre genetiska skillnader kan detekteras på grundval av helgenomsekvensering, vilket är användbart för att karakterisera överföringsvägar, identifiera antibiotikaresistens och kartlägga utbrott. För att undersöka livsmedelsburna patogener eller infektionsutbrott har ett stort antal nästan identiska bakteriegenom sekvenserats och annoterats de senaste åren, vilket resulterar i många identiska proteiner, var och en har ett distinkt anslutningsnummer. 2013 introducerade NCBI en ny proteindatamodell och anslutningsprefix (WP_) för RefSeq-samlingen. Denna förändring minskade redundansen i RefSeq prokaryota proteiner och underlättade identifiering av proteiner som identiskt hittades på mer än ett genom. Det möjliggjorde också en förbättrad strategi för att hantera prokaryota proteinnamn. Dessa icke-redundanta register representerar unika prokaryota proteinsekvenser som är oberoende av något särskilt bakteriegenom och kan kommenteras på flera stammar eller arter (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

historiskt har RefSeq bakteriegenom annotation förökats från INSDC-inlagor, när de är tillgängliga, eller genererats med olika versioner av NCBI: s prokaryota Genomanmärkningsrörledning (som också erbjuds som en tjänst för GenBank-inlagor). Detta resulterade i ackumulerade inkonsekvenser i både strukturell och funktionell anteckning i RefSeq prokaryota dataset. Under de senaste två åren förbättrade NCBI flera aspekter av Prokaryotic Genome Annotation Pipeline för att öka kapaciteten och ytterligare standardisera annoteringsregler. Vår pipeline kombinerar en genuppringningsalgoritm, GeneMarkS+ (49,50), med en inriktningsbaserad gendetekteringsmetod och kan kommentera både kompletta och utkast till WGS-genom. Rörledningen förutspår för närvarande proteinkodande gener, strukturella rna (5S, 16S och 23s), tRNA och små icke-kodande RNA.

i 2015 släppte vi en omfattande annotationsuppdatering för RefSeq prokaryota genom för att harmonisera genomanmärkning och slutföra övergången till den nya proteindatamodellen. En ny prokaryot protein namn Databas, namn specifikationer, och en evidensbaserad strategi utvecklades och är för närvarande i färd med att distribueras. Hittills har över 3 miljoner proteinposter uppdaterat namn i en första demonstration av tillvägagångssättet. Den nya prokaryota datamodellen erbjuder en betydande fördel för namnhantering eftersom proteinnamnet bärs med proteinsekvensposten; uppdatering av namnet på den proteinposten resulterar i att uppdateringen automatiskt sprids till alla genom som är annoterade med det anslutningsnumret.

RefSeq prokaryota genom är organiserade i flera nya kategorier som referensgenom och representativa genom baserat på kuraterade attribut och monterings-och annoteringskvalitetsåtgärder (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referensgenom är manuellt valda ’gold standard’ kompletta genom med högkvalitativ anteckning och den högsta nivån av experimentellt stöd för strukturell och funktionell anteckning. För närvarande kommenteras en liten dataset med 122 referensgenom manuellt av samarbetsgrupper och NCBI-personal. Referensgenomerna finns på: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Representativa genom beräknas och väljs ut för att representera olika arter. De representativa genomerna finns på: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq prokaryota genomdata kan nås I BLAST-databaser, webbresurser (montering, Bioprojekt, genom, nukleotid och Protein), genom NCBI: s programmeringsverktyg, eller kan laddas ner från genomerna eller refseq FTP-platser. En anpassad ’Microbes’ BLAST sida, nås från BLAST hemsida, ger alternativ för att söka mot alla RefSeq prokaryota genom, referens och representativa genom delmängd, eller för att begränsa sökningen till en specifik taxa. En delmängd av prokaryota genom kommenteras med ett NCBI-Gen-ID och kan hämtas i NCBIS Genresurs eller från Gen FTP-platsen. För archaea tillhandahålls detta för de flesta kompletta genomerna. För bakterier tillhandahålls detta för referensgenom och de representativa genomerna för arter som har minst 10 genominlagor.

prokaryota riktade loci

i prokaryoter har 16S ribosomal RNA-sekvensen blivit en standardmolekylmarkör för beskrivningen av en ny art. Även om dessa markörsekvenser har blivit allmänt använda, varierar kvaliteten på sekvensdata och tillhörande metadata som skickas till INSDC-databaser avsevärt. Erkänner vikten av tillgång till högkvalitativa data för dessa markörer, NCBI har utökat sin riktade loci projekt för att ge en up-to-date källa till curated data. Det riktade loci-projektet upprätthåller för närvarande nästan 18 000 16S ribosomala RNA-referenssekvenser av vilka över 95% är från typstammar. Typstammarna betraktas som exempel på arten och det är viktigt att typstamdata antecknas med korrekta metadata och är fria från kontaminering.

detta arbete innebar en uttömmande granskning och uppdatering av den underliggande taxonomidatabasen som användes i samband med NCBI: s typstam Entrez-filter för att hämta kandidatsekvenser. Sekvensdata och tillhörande taxonomi/metadata har granskats och korrigerats för att inkludera den mest aktuella informationen. Om en sekvens misslyckades validering eller inte kunde valideras korrekt, det uteslöts. Dessa referenssekvenser kan nu användas som’ guldstandarder ’ för analys av befintliga och nya rRNA-sekvenser.

bakteriella och Archaeala 16S rRNA-dataset är tillgängliga från BioProject (PRJNA33175 respektive PRJNA33317). En anpassad BLAST-databas finns också tillgänglig (’16S ribosomala RNA-sekvenser (bakterier och Archaea)’).

virus

RefSeq-datamodellen för virus skiljer sig från andra organismer. I allmänhet skapas endast ett komplett RefSeq-genom för varje virusart. Ibland skapas flera RefSeq-poster inom en given viral art för att återspegla väldefinierade genotyper eller viktiga laboratorie-och/eller vilda stammar. Ytterligare genom för en viss art valideras för taxonomi och fullständighet och indexeras sedan som sekvens ’grannar’ (52). Både RefSeq-och granngenom kan återvinnas genom den specialiserade virala Genomresursen (http://www.ncbi.nlm.nih.gov/genome/viruses/) och från Entrez-nukleotid-och Genomsidor med länkar till ”RefSeq-genom för arter” och ”andra INSDC-genomsekvenser” (52).

taxonomi är ett stort problem för viral genomik eftersom det finns 3186 virala arter officiellt erkända av International Committee on Taxonomy of Viruses (ICTV) (53) och 4834 kompletta genom från både officiella och provisoriska virala arter tillgängliga från INSDC-databaser. NCBI Pairwise Sequence Comparison (PASC) – verktyget utvecklades för att hjälpa till vid klassificering av virala genom baserat på globala och/eller lokala anpassningar mellan genom (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Omfattningen av detta verktyg har utökats till att omfatta ett antal virusfamiljer och andra taxonomiska grupper, och det har använts för att stödja avgränsningen av nya taxonomiska kriterier (54-57).

ett annat framväxande problem i viral genomik är inkonsekvent och / eller felaktig anteckning bland relaterade virala genomsekvenser. Denna fråga återspeglar ofta olika annoteringsprocesser och pågående experimentellt arbete och kan leda till förvirring bland datakonsumenter och göra jämförande analys mellan genom svårt. Detta problem behandlas inom NCBI Virus Variation Resource (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) där beräkningspipelines används för att tillhandahålla aktuell, standardiserad anteckning för flera virus (58). För närvarande beräknar dessa rörledningar standardiserade gen-och proteingränser för alla influensavirus, denguevirus och West Nile-virussekvenser och standardiserade gen-och proteinnamn och metadatatermer för dessa och två andra virus, Mellanöstern respiratorisk coronavirus och Ebolavirus. Denna standardiserade data utnyttjas sedan inom ett specialiserat, metadatacentrerat sökgränssnitt som underlättar enkel hämtning av sekvenser baserade på specifika biologiska kriterier.

att upprätthålla uppdaterade, allmänt accepterade anteckningsstandarder kräver kontinuerligt samarbete med det större vetenskapliga samfundet. NCBI Viral Genome Annotation Working Group inrättades för att utnyttja konsortier av offentliga databaser, sekvenseringscentra och forskargrupper för att utveckla standardiserad sekvensanteckning samt isolera namngivningsscheman för olika grupper av virus (59-63). Detta tillvägagångssätt fastställer inte bara standarder för viral annotering utan representerar också dessa standarder inom den nuvarande RefSeq-posten, vilket säkerställer tillgänglighet för alla databasanvändare och inlämnare. Liknande samarbeten är också nödvändiga för att stödja mervärde, tolkningsresurser som HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-1/interactions/) (64). Medarbetare från Southern Research Institute ger dokumenterad HIV-1, human molecular interactions curated från litteraturen och NCBI upprätthåller en användarvänlig resurs där användare kan fråga efter specifika typer av interaktioner och hitta mer information om de involverade generna.

framtida riktningar

RefSeq-projektet är unikt när det gäller att erbjuda en referenssekvensdataset av transkript, proteiner och genom som omfattar alla livets riken och har aktivt underhållits och uppdaterats över tid för att införliva förbättrade beräkningsstrategier, nya datatyper och ny kunskap. Vi har visat förmågan och förmågan att svara på de senaste snabba ökningarna av antalet sekvenserade genom som lämnats in till INSDC-databaser. Vi har definierat en mångsidig uppsättning policyer och strategier för curation och annotering av eukaryota, prokaryota och virala arter för att möta de olika behoven hos organismspecifika samhällen. RefSeq-datasetet används ofta som referensstandard för många olika analyser inklusive kliniska tillämpningar för människa och patogen, jämförande genomik, expressionsanalyser, sekvensvariationstolkning och både array-och sondkonstruktion. På NCBI är RefSeq-datasetet integrerat i flera resurser inklusive montering, BLAST, Epigenomik, Gen (där RefSeq-annotering är den primära grunden för de flesta genposter), genom, dbSNP, dbVar, Variationsvisare och mer.

Vi kommer att fortsätta att rikta in Manuell curation för att förbättra strukturell och funktionell information för mänskliga och andra ryggradsdjur. Vår konservativa Manuell curation tillvägagångssätt säkerställer fortsatt hög kvalitet och tillförlitlighet av den mänskliga, mus, och andra ’kända’ RefSeq poster som tjänar behoven hos dem som behöver en väl stödd definition av alternativa exons (färre falska positiva). Tillägget av RNA-Seq-data till vår annoteringsrörledning ökade avsevärt vår annotering av alternativa skarvvarianter som Modellrefseqs för att tillgodose behoven hos dem som vill ha en mer omfattande men ändå välstödd definition av exomen (färre falska negativa). Medan både kända och modellrefseqs rapporterar stödbeviset på sekvensposten, använder de olika metoder för att göra det. Framtida insatser kommer att inriktas på att harmonisera bevisrapportering för både’ kända ’och’ modell ’ RefSeqs så att användarna lättare kan identifiera denna information. Vi kommer också att lägga till en ny datatyp till human and mouse RefSeq-samlingen inom en snar framtid för att representera experimentellt rapporterade reglerande och funktionella element med kända (eller rimligt härledda) funktionella konsekvenser.

För prokaryota genom fortsätter vi att arbeta med att förfina aspekter av den strukturella annoteringen som genereras av den prokaryota Genomanmärkningsrörledningen. Vårt arbete mot ett nytt tillvägagångssätt för att hantera funktionell information förfinas fortfarande och kommer att beskrivas någon annanstans. Vi förutser att vi kommenterar hela RefSeq prokaryota genomdataset när nya versioner av vår prokaryota annoteringspipeline blir tillgängliga (för att förbättra strukturell annotering). Beslutet att kommentera alla RefSeq-prokaryoter med en enda metod, tillsammans med den stora volymen av denna dataset, kräver ett annat tillvägagångssätt som utnyttjar flera beviskällor för att ge funktionell information. Protein namn kommer att uppdateras löpande som organiseras av proteinfamiljer eller kategorier av bevis typ. Våra mål för det kommande året inkluderar ökad integration av Rfam (65) i vår annoteringspipeline, utökat samarbete, förbättrade proteinnamn och rapportering av stödbevis på proteinsekvensrekordet.

vi vill tacka det vetenskapliga samfundet för konstruktiv feedback, förslag, felrapporter och samarbeten under de senaste 15 åren som har bidragit till kvaliteten och noggrannheten i den representerade sekvensen, strukturell anteckning och funktionell anteckning.

finansiering

Intramural forskningsprogram för NIH, National Library of Medicine. Finansiering för Open access charge: det intramurala forskningsprogrammet för National Institutes of Health, National Library of Medicine.

intressekonflikt uttalande. Ingen deklarerad.

Nosek

B. A.

ändra

banker

G. C.

borsboom

Bowman

S. D.

breckler

S. J.

Buck

kammare

C. D.

Kina

Christensen

et al.

vetenskapliga standarder. Främja en öppen forskningskultur

vetenskap

2015

348

1422

1425

grå

K. A.

Yates

försegla

R. L.

Wright

M. W.

div > E. A.

Genenames.org: hgnc-resurserna i 2015

nukleinsyror Res.

2015

D1079

D1085

Ruzicka

Bradford

Y. M.

Frazer

Howe

D. G.

paddock

Ramachandran

sångare

Bull

Van Slyke

C. E.

örn

A. E.

et al.

ZFIN, den zebrafisk modell organism databas: uppdateringar och nya riktningar

Genesis

2015

498

509

div>uniprot

uniprot: ett nav för proteininformation

nukleinsyror res.

2015

d204

212

kozomara

Griffiths-Jones

mirbase: kommentera mikroRNA med hög konfidensnivå med hjälp av djupa sekvenseringsdata

nukleinsyror Res.

2014

D68

McGarvey

Goldfarb

Cox

Gupta

joardar

V. S.

Kodali

V. K.

Murphy

M. R.

O ’ Leary

N. A.

Pujar

musgenomanmärkning av RefSeq-projektet

Mamm. Genom

2015

379

390

Dalgleish

flicek

Cunningham

astashyn

Tully

R. E.

Proctor

hund

McLaren

W. M.

Larsson

Vaughan

B. W.

et al.

Locus referens genomiska sekvenser: den förbättrade grunden för att beskriva humana DNA-varianter

genom Med.

2010

Schoch

C. L.

Robbertse

Robert

Cardinali

Irinyi

Meyer

Nilsson

R. H.

Hughes

Miller

A. N.

et al.

hitta nålar i höstackar: länka vetenskapliga namn, referensprover och molekylära data för svampar

databas

2014

Zhang

det

Larkin

Lee

Storz

J. F.

Antunes

greenwold

M. J.

Meredith

R. W.

et al.

jämförande genomik avslöjar insikter i aviär genomutveckling och anpassning

vetenskap

2014

346

1311

1320

Jarvis

E. D.

mirarab

aberer

A. J.

det

div> Houde

S. Y.

lauch

B. C.

Nabholz

Howard

J. T.

et al.

helgenomanalyser löser tidiga grenar i livets träd för moderna fåglar

vetenskap

2014

346

1320

1331

Farrell

O ’ Leary

N. A.

harte

R. A.

Loveland

J. E.

wilming

L. G.

Wallin

Diekhans

Barrell

Searle

S. M.

Aken

et al.

aktuell status och nya funktioner i Konsensuskodningssekvensdatabasen

nukleinsyror Res.

2014

D865

D872

Pruitt

K. D.

tatusova

maglott

D.R.

NCBI reference sequences (RefSeq): en kurerad icke-redundant sekvensdatabas av genom, transkript och proteiner

nukleinsyror Res.

2007

D61

D65

Hopkins

B. D.

bra

Steinbach

Dendy

Rapp

Shaw

Ross

J. S.

Hodakoski

Mense

et al.

det utsöndrade PTEN-fosfatas som kommer in i celler för att förändra signalering och överlevnad

vetenskap

2013

341

399

402

Liang

yang

Wang

hund

Zhang

Zoo

McNutt

M. A.

Sheng

W. H.

et al.

PTENalpha, PTEN-isoformen översatt genom alternativ initiering, reglerar mitokondriell funktion och energimetabolism

Cellmetab.

2014

836

848

Bolouri

modellering genom regulatoriska nätverk med big data

trender Genet.: TIG

2014

182

191

Fagerberg

Hallstrom

B. M.

oksvold

Kampf

djureinovic

Odeberg

habuka

tahmasebpoor

Danielsson

Edlund

et al.

skanning av det humana vävnadsspecifika uttrycket genom genomomfattande integration av transkriptomik och antikroppsbaserade proteomik

Mol. Cell. Proteomik : MCP

2014

397

406

Bernstein

B. E.

stamatoyannopoulos

J. A.

Costello

J. F.

midja

Milosavljevic

Meissner

Kellis

Marra

M. A.

Beaudet

A. L.

Ecker

J. R.

et al.

NIH roadmap epigenomics mapping consortium

Nat. Bioteknol.

2010

1045

1048

Hoffman

M. M.

Ernst

Wilder

S. P.

Kundaje

Harris

R. S.

Libbrecht

giardine

Ellenbogen

p.m.

bilmes

J. A.

Birney

et al.

integrativ annotering av kromatinelement från koda data

nukleinsyror Res.

2013

827

841

Derti

Garrett-engele

MacIsaac

Stevens

Sriram

hund

Rohl

C. A.

Johnson

J. M.

Babak

den kvantitativa atlas av polyadenylering i fem däggdjur

genomet Res.

2012

1173

1183

lin

M. F.

jungreis

Kellis

phylocsf: den jämförande genomikmetoden för att särskilja proteinkodande och icke-kodande regioner

bioinformatik

2011

i275

282

pris

A. L.

Jones

N. C.

Pevzner

P. A.

de novo identifiering av upprepade familjer i stora genom

bioinformatik

2005

21 Suppl 1

i351

358

kodzius

Kojima

nishiyori

Nakamura

Fukuda

Tagami

Sasaki

Imamura

Kai

Harbers

et al.

CAGE: cap-analys av genuttryck

Nat. Metoder

2006

211

222

Morris

K. V.

div> Mattick

J. S.

ökningen av reglerande rna

nat. Pastor Genet.

2014

423

437

Evin

Hince

BACE1 som ett terapeutiskt mål vid Alzheimers sjukdom: motivering och aktuell status

läkemedel åldrande

2013

755

764

det

lång icke-kodande RNA hotair:en ny onkogen (recension)

mol. Med. Rep.

2015

5611

5618

Zasloff

antimikrobiella peptider i hälsa och sjukdom

N. Engl. J. Med.

2002

347

1199

1200

Abstract

Inledning

RefSeq anslutningsprefix

generering av REFSEQ-DATASET

åtkomst till REFSEQ-DATASET

tillväxt och statistik

årlig tillväxt i antalet organismer, proteiner och transkript som representeras i den omfattande RefSeq-utgåvan, per FTP-utgivningskatalog

VERTEBRATES

RefSeqGene project

inkorporering av RNA-Seq och andra datatyper i transkriptbaserad curation

långa icke-kodande RNA (lncRNAs)

funktionell anteckning

antimikrobiella peptider (ampere)

endogena Retrovirus (ERV)

Replikationsberoende histoner

Regulatory upstream open reading frames (uORFs)

Antizyme gener

ryggradslösa djur

växter

alger, svampar, nematoder och protozoer

Svampinriktad loci

prokaryoter

prokaryota riktade loci

virus

framtida riktningar

finansiering

Lämna ett svar Avbryt svar