Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). V RefSeq projekt využívá údaje předložené na Mezinárodní Nukleotidové Sekvence Databáze Spolupráci (INSDC) proti kombinaci výpočet, manuální curation, a spolupráci k vytvoření standardní sadu stabilní, non-redundantní referenční sekvence. Projekt RefSeq rozšiřuje tyto referenční sekvence o současné znalosti včetně publikací, funkčních vlastností a informativní nomenklatury. Databáze v současné době představuje sekvence z více než 55 000 organismy (>4800 viry, >40 000 prokaryot a >10 000 eukaryot; RefSeq vydání 71), v rozmezí od jednoho záznamu ke kompletní genomy. Tento dokument shrnuje současný stav virové prokaryotické a eukaryotické větve RefSeq projektu, zprávy o zlepšení přístupu k datům a podrobnosti úsilí k dalšímu rozšíření taxonomické zastoupení kolekce. Jsme také upozornit na různorodé funkční curation iniciativ, které podporují vícenásobné použití z RefSeq dat, včetně taxonomické ověření, anotace genomu, srovnávací genomika a klinické testování. Shrneme náš přístup využívající RNA-Seq a další typy dat, v našem manuální curation procesu obratlovců, rostlin a jiných druhů, a popsat nový směr pro prokaryotické genomy a bílkovin jméno managementu.

ÚVOD

Za posledních 15 let Národního Centra pro Biotechnologické Informace (NCBI) RefSeq databáze sloužil jako základní zdroj pro genomu, genetické a proteomic výzkumu. V RefSeq projektu je poskytování kurátor a stabilní komentovaný referenční genomy, transkripty a proteiny pro vybrané viry, mikroby, organely a eukaryotní organismy, umožnila výzkumníci zaměřit se na nejlepší zástupce sekvence dat, na rozdíl od redundantních dat v GenBank, a jednoznačně referenční specifických genetických sekvencí. Kolekce RefSeq poskytuje explicitně propojený genom, přepis, a záznamy sekvencí proteinů, které obsahují publikace, informativní nomenklatura, a standardizované a rozšířené anotace funkcí. RefSeq záznamy jsou integrovány do NCBI zdroje včetně Nukleotidů, Proteinů, a BLAST databázemi a může být snadno identifikovat klíčové slovo ‚RefSeq a jejich odlišné přistoupení předpony, které definují jejich typu (Tabulka 1). Všechny údaje RefSeq podléhají kontrolám quality assurance (QA) s některými specializovanými QA testy vyvinutými pro různé taxony nebo datové typy. Například, všechny virové RefSeqs podléhají taxonomickému přezkumu zaměstnanci NCBI před veřejným vydáním. RefSeq přistoupení jsou široce citován ve vědeckých publikacích a genetické databáze, protože poskytují stabilní a konzistentní souřadného systému, které mohou být použity jako základ pro hlášení gen konkrétní údaje, klinické rozdíly, a mezidruhového srovnání. Tyto standardy referenční sekvence jsou stále důležitější, protože přesné podávání zpráv a reprodukovatelnost jsou životně důležitými součástmi osvědčených postupů v biomedicínském výzkumu (1).

refseq přístupové předpony

Tabulka 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy
AP_3	bílkovin	Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
XP_3,5	bílkovin	Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
YP_3	bílkovin	Proteiny komentovaný na genomické molekuly bez instance přepis záznamu
WP_6	protein	proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu

Prefix .	typ molekuly .	použít kontext .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy
AP_3	bílkovin	Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
XP_3,5	bílkovin	Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
YP_3	bílkovin	Proteiny komentovaný na genomické molekuly bez instance přepis záznamu
WP_6	protein	proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu

1 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 čísel následuje pořadové číslo verze.

2ο kompletní přistoupení formát se skládá z předčíslí, následuje INSDC přistoupení číslo, které RefSeq záznam je založen na následovaný RefSeq pořadové číslo verze.

3 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 nebo 9 čísel, následuje pořadové číslo verze.

4Records s tímto přistoupení prefix byly kurátorkou NCBI zaměstnance nebo modelový organismus databáze, nebo jsou v bazénu o přistoupení, která se kurátoři pracovat. Tyto záznamy jsou označovány jako „známý“ datový soubor RefSeq.

5Records s tímto přistoupení předpony jsou generovány buď prostřednictvím eukaryotní genom anotace potrubí, nebo malé eukaryotní genom anotace potrubí. Záznamy generované první metodou jsou označovány jako dataset „model“ RefSeq.

6úplný formát přístupového čísla se skládá z předpony, včetně podtržítka, následovaného 9 čísly následovanými číslem verze. Číslo verze je vždy ‚.1‘ protože tyto záznamy nejsou předmětem aktualizace. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy
AP_3	bílkovin	Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
XP_3,5	bílkovin	Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
YP_3	bílkovin	Proteiny komentovaný na genomické molekuly bez instance přepis záznamu
WP_6	protein	proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu

Prefix .	typ molekuly .	použít kontext .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy
AP_3	bílkovin	Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
XP_3,5	bílkovin	Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu
YP_3	bílkovin	Proteiny komentovaný na genomické molekuly bez instance přepis záznamu
WP_6	protein	proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu

1 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 čísel následuje pořadové číslo verze.

2ο kompletní přistoupení formát se skládá z předčíslí, následuje INSDC přistoupení číslo, které RefSeq záznam je založen na následovaný RefSeq pořadové číslo verze.

3 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 nebo 9 čísel, následuje pořadové číslo verze.

6úplný formát přístupového čísla se skládá z předpony, včetně podtržítka, následovaného 9 čísly následovanými číslem verze. Číslo verze je vždy ‚.1‘ protože tyto záznamy nejsou předmětem aktualizace. Viz on-line dokumentace pro další informace: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

V posledních letech pokročilé techniky sekvenování umožnila podstatné zvýšení celého genomu shromáždění podání do veřejných databází. Jako výsledek, RefSeq projekt má concordantly rozšířit hloubku a šíři taxonů zahrnutých v datovém souboru a to především prostřednictvím zlepšení několik in-house anotace potrubí. Všechny taxony jsou v prostoru pro zařazení RefSeq; anotace je však často omezena na ty organismy, pro které je k dispozici vysoce kvalitní sestava primárního genomu s nespornými informacemi o organismu. Můžeme tedy vyloučit některé kategorie údajů, které nesplňují naše standardy kvality. Vyloučit soubory údajů zahrnují: metagenomes, sestavy s nízkými contig N50 hodnoty nebo zejména vysoký počet neumístěných lešení/contigs (tj. vysoká fragmentace), nebo genomy, které mají významný nesoulad nebo indel změna ve srovnání s jinými úzce souvisí genomy druhů (např. některé prokaryot).

jedinečným aspektem datové sady RefSeq je kombinovaný přístup využití výpočtů, spolupráce a kurace vědeckými pracovníky NCBI. Jako velké bioinformatika zařízení, NCBI investovala do rozvojových robustní procesu toků vytvářet anotace a provést zajištění kvality testy pro eukaryotické a prokaryotické genomy, transkripty a proteiny. Zlepšení toku procesu virových genomů probíhá. Skupina RefSeq spolupracuje s řadou odborných skupin včetně úředních nomenklaturních orgánů (např. HUGO Gene Nomenklature Committee (HGNC) a Zebrafish Information Network (Zfin) pro názvy lidských a zebrafish genů), UniProtKB (názvy proteinů) a miRBase (mikroRNA) (2-5). Tyto, a další, spolupráce, pomoci udržet a zlepšovat kvalitu RefSeq soubor dat prostřednictvím QA zpráv, výměny genu a sekvence informace, a výměn funkčních informace. Zaměstnanci NCBI také poskytují kurátorskou podporu pro viry, prokaryoty, eukaryoty,organely, plazmidy a cílené projekty včetně kurátorských genů a sekvencí pro Homo sapiens, Mus musculus a další organismy. Kurátoři RefSeq zlepšují kvalitu databáze prostřednictvím kontroly výsledků testů QA, zapojení do výběru určitých vstupů pro zpracování anotace genomu, analýza sekvencí, taxonomická analýza, a funkční přezkum. Curation také podporuje vylepšení potrubí anotace genomu, protože odborníci na obsah pomáhají definovat programové přístupy k modelování typické i atypické biologie. Pro eukaryot, zejména savců, přepis na bázi curation definuje „nejlepší“ sekvence zástupců (jako „známé“ RefSeqs; Tabulka 1 pozn. pod čarou), které jsou používány jako primární vstup činidla na eukaryotní genom anotace potrubí (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Zlepšení kvality vstupního činidla zase přidává významnou kvalitu a reprodukovatelnost výsledné anotace genomu. Tento typ manuálního kurátorství byl historicky zaměřen na člověka a myši kvůli jejich jedinečnému biomedicínskému významu (6). V poslední době tyto curation úsilí věnována větší pozornost Rattus norvegicus, Danio rerio, Bos taurus, a Gallus gallus. Tyto druhy jsou důležité pro lidské zdraví i zemědělskou udržitelnost.

V této knize, jsme zprávu o našem pokroku v rozšiřování RefSeq dataset zahrnout více různých organismů, popisují zlepšení v přístupu k datům, a poskytnout příklady ilustrující větší zaměření na poskytování fylogeneticky užitečných datových souborů, stejně jako funkční prvek anotace na RefSeq přepis a bílkovin záznamy. Předpokládáme, že toto úsilí a vylepšení v datovém souboru RefSeq budou i nadále přispívat k rozvoji lékařského translačního výzkumu, zemědělská vylepšení, fylogenetická identifikace, a evoluční studie.

generování datové sady REFSEQ

záznamy sekvence RefSeq jsou generovány různými metodami v závislosti na třídě sekvence a organismu. Archaeal a bakteriálních genomů (viz Prokaryot sekce) jsou komentovaný s použitím NCBI je prokaryotického genomu anotace potrubí (http://www.ncbi.nlm.nih.gov/books/NBK174280/), zatímco malý počet referenčních bakteriální genomy jsou podporovány spolupráci a manuální curation. RefSeq eukaryotické genomy jsou poskytovány pomocí dvou procesních toků. Většina genomů rostlin, zvířat, hmyzu a členovců je anotována potrubím pro anotaci eukaryotického genomu. Tento plynovod generuje anotace výsledky na základě dostupných přepis dat (včetně RNA-Seq a transcriptome brokovnice shromáždění (TSA) data), stejně jako protein homologie, ab initio predikce (do značné míry, když transcriptome údaje nejsou k dispozici), a jsou k dispozici známé (kurátor) RefSeq transkriptů a proteinů (viz Tabulka 1). Anotace generovaná potrubím (Model RefSeqs) může nebo nemusí mít podporu pro úplnou kombinaci exon z jediného zarovnání důkazů, ale může mít podporu RNA-Seq pro páry exon. Eukaryotické genomy, které byly anotovány pomocí tohoto plynovodu jsou hlášeny veřejně s odkazy na stažení dat pomocí FTP, zobrazit nebo provést VÝBUCH dotazu proti anotovaného genomu, nebo pro přístup k podrobné anotace souhrnná zpráva (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Potrubí pro podmnožinu eukaryot včetně hub, prvoků a hlístic zahrnuje rozmnožovací anotace, které byly předloženy na Mezinárodní Nukleotidové Sekvence Databáze Spolupráci (INSDC), standardizace formátu, na RefSeq kopie předložených genomu shromáždění (viz Řasy, Houby, Hlístic a Prvoků).

zaměstnanci NCBI poskytují většinu anotace genomu RefSeq organelle prostřednictvím propagace z podání INSDC. Anotace savčích mitochondrií je často doplněna manuální kurací. V RefSeq projekt také udržuje referenční sekvence pro cílené loci projekty jako RefSeqGene, který je členem Locus Referenční Genomové (LRG) spolupráce (7), pro houbové a bakteriální ribozomální rRNA loci, a pro plísňové vnitřní přepisována distanční sekvencí (ITS) (8). Kromě toho, značný počet lidských, myš, a další transkripty a proteiny jsou poskytovány prostřednictvím spolupráce a ruční správu, která zahrnuje sekvence analýzy a přehled literatury.

NCBI je prokaryotické (viz níže) a eukaryotické anotace potrubí drželi krok s rostoucím počtem genomu sestavy předložené INSDC tím, že poskytuje konzistentní anotace na RefSeq kopie z vybrané vysoce kvalitní genom předložených sestav. K dnešnímu dni, 245 eukaryotických genomů, včetně 170 genomy obratlovců, byly poznámkou tohoto potrubí, z nichž více než 120 druhů byly komentovaný v posledních 20 letech. Do této skupiny patří 52 druhů ptáků, které zahrnují reprezentativní druhy většiny ptačích řádů (9,10). Došlo také k významnému rozšíření počtu sestav označených RefSeq pro primáty, jiné savce, ryby, rostliny, a členovci.

přístup k datové sadě REFSEQ

domovská stránka RefSeq http://www.ncbi.nlm.nih.gov/refseq/ je centrálním rozbočovačem pro všechny aspekty datové sady RefSeq. Tato stránka obsahuje odkazy, které vedou uživatele prostřednictvím obecný popis projektu, stejně jako přehledy, statistiky růstu a informace o více zaměřena RefSeq projekty jako Prokaryotického genomu re-anotace iniciativy, Konsensus Kódující Sekvence (CCD) projekt (11) RefSeqGene projektu, a Cílené Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) projektů. Odkazy na nejaktuálnější komplexní FTP vydání a podrobné dokumentace na formátu a obsahu vydání lze nalézt v ‚Oznámení‘ sekce RefSeq domovskou stránku. Předchozí RefSeq oznámení jsou také k dispozici na této stránce. Důrazně doporučujeme, stahování RefSeq data přímo z NCBI, jako stahování z jiných bioinformatika a genome browser zdrojů nemusí obsahovat všechny dostupné údaje, nebo může pouze odrážet zarovnání RefSeq přepisy do genomu spíše než genom anotace výsledky, které jsou generovány pomocí NCBI.

RefSeq sekvenční data lze přistupovat interaktivně pomocí NCBIs Nukleotidových a Proteinových databází, BLAST databází, přes NCBI je programové rozhraní (E-služby), nebo přes FTP (file transfer protocol). E-nástroje podpory skriptů přístup ke stažení RefSeq dat v různých formátech založených na obou vyhledávacích termínů či přistoupení seznamy; rozsáhlá dokumentace je k dispozici v NCBI Příručka (www.ncbi.nlm.nih.gov/books/NBK25501/) a školení videa jsou k dispozici z NCBI YouTube kanál (https://www.youtube.com/user/NCBINLM). Databáze nukleotidů i proteinů umožňují omezit výsledky dotazů pouze na záznamy RefSeq výběrem položky „RefSeq“ pod „zdrojovou databází“ na postranním panelu filtrů. RefSeq data mohou být také přístupné z dalších NCBI databázích včetně Montáže, BioProject, Gen, Genom tím, že tyto odkazy poskytovány Nukleotidů, Bílkovin, nebo FTP zdroje Informací o curation změny v RefSeq skupiny nebo NCBI aktualizace, které mají vliv na RefSeq databáze jsou hlášeny prostřednictvím několika zdrojů, včetně RefSeq FTP poznámky k vydání, pravidelně publikované zprávy, NCBI Oznámení Novinek http://www.ncbi.nlm.nih.gov/news/ a přes NCBI Postřehy Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Uživatelé mohou také přihlásit k odběru refseq-oznámit mailem seznam dostávat pravidelné aktualizace o projektu a shrnutí obsahu jednotlivých RefSeq FTP vydání (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq data jsou distribuována přes FTP přes dvě místa, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) a genomů (ftp://ftp.ncbi.nlm.nih.gov/genomes/). V refseq FTP poskytuje denní aktualizace všech nových a aktualizovaných RefSeq záznamů, týdenní aktualizace některé typy dat, a to bi-měsíční komplexní RefSeq vydání (/refseq/release/). Kromě toho, vybrané transkripce specifické pro organismus a datové sady proteinů, včetně člověka a myši, jsou aktualizovány každý týden. Podadresář RefSeqGene je denně aktualizován, s vyrovnáním genomu uvolněným při každém běhu anotace. Komplexní dvouměsíční vydání RefSeq je organizováno taxonomickými (např. savci obratlovců) nebo jinými seskupeními (např. mitochondrie). Data lze také stáhnout pro celou kolekci RefSeq z adresáře/refseq/release/ complete/. Release RefSeq nabízí výhodu pro ty, kteří chtějí udržovat pravidelné aktualizace buď kompletní kolekce, nebo jedné skupiny. Zahrnuje také záznamy, které nejsou k dispozici na FTP serveru doprovodných genomů, například přepisy ve sbírce, které jsou udržovány nezávisle na, a nemusí být aktuálně anotovány, sestava genomu. Vydání je k dispozici s významným dokumentace soubory nainstalované (/refseq/vydání/release-katalog/) včetně MD5 kontrolní součty, seznam všech nainstalovaných souborů, stejně jako poznámky a oznámení (/refseq/vydání/release-notes/).

RefSeq data lze také stáhnout z FTP serveru genomes. V srpnu 2014 NCBI oznámil zásadní reorganizaci tohoto FTP serveru, který nyní poskytuje montáž a organismu-založený přístup k oběma GenBank a RefSeq genomů (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Tento adresář je dále rozdělen do podadresářů založených na stejných skupinách, které se používají v release RefSeq, z nichž každá poskytuje další dílčí rozdělení podle druhů. Genomy FTP stránky poskytují soubory zastupující všechny RefSeq genomu sestavy hlášeny v NCBI Shromáždění zdrojů (www.ncbi.nlm.nih.gov/assembly/). Výhodou genomů stránky je, že data mohou být zobrazena v sestavě – nebo-organismus specifickým způsobem. Poskytnuté údaje zahrnují sekvenci genomu a produktu (transkript/protein), anotaci, sestavy a statistiky a kontrolní součty MD5; tato data jsou aktualizována, když je aktualizována sestava genomu a / nebo anotace. Tato oblast nezahrnuje RefSeq sekvence, které jsou mimo rozsah sestavy genomu nebo produkty, které nejsou anotovány na genomu.

RŮST A STATISTIKY

RefSeq FTP vydání 71 (červenec 2015) obsahuje více než 77 milionů sekvence záznamů pro více než 55 000 organismů. Tabulka 2 shrnuje růst RefSeq dataset v loňském roce z hlediska organismů a počet pořadí záznamů zastoupeny na každé RefSeq vydání adresáře FTP prostoru. Bakteriální genom a proteiny tvoří většinu RefSeq dataset (56% z celkového přistoupení a 76% >52 milionů bílkovin přistoupení). Významné zvýšení počtu organismů, proteiny, a celkové záznamy jsou pozorovány u bezobratlých, rostlina, a eukaryotické organismy, což je v souladu se zvýšeným počtem a propustností projektů sekvenování genomu. Významným faktorem pro pokračující vysokou rychlost růstu dat RefSeq jsou zlepšení v genomových potrubích, které generují anotované genomy RefSeq. Nejvíce pozoruhodně, to zahrnuje zvýšení kapacity v NCBI je prokaryotického genomu anotace potrubí, re-vývoj procesu tok, který se šíří anotace od eukaryotické genové banky genomů na RefSeq genomů, a začlenění RNA-Seq důkazy v NCBI je eukaryotní genom anotace potrubí a jeho vliv na generování modelu RefSeqs (XM_, XR_ a XP_ přistoupení, Tabulka 1).

meziroční růst počtu organismů, proteinů a transkriptů reprezentovaných v komplexním release RefSeq v adresáři FTP release

Tabulka 2.

Roční růst v počtu organismů, bílkoviny, a přepisy zastoupeny v komplexní RefSeq vydání, na FTP release directory

Release Directory .	organismy .	% Změna .	Přepisy .	% Změna .	proteiny .	% Změna .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Změna .	Přepisy .	% Změna .	proteiny .	% Změna .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (např. archaea.acc_taxid_growth.txt a související soubory). Procentní roční změna je založena na porovnání počtu dat pro RefSeq release 71 (červenec 2015) a RefSeq release 66 (červenec 2014).

Tabulka 2.

Roční růst v počtu organismů, bílkoviny, a přepisy zastoupeny v komplexní RefSeq vydání, na FTP release directory

Release Directory .	organismy .	% Změna .	Přepisy .	% Změna .	proteiny .	% Změna .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Změna .	Přepisy .	% Změna .	proteiny .	% Změna .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

dramatický pokles počtu plazmidových proteinů záznamy, a tak v počtu celkem přistoupení, odráží dokončení RefSeq bakteriální genom re-anotace projektu (http://www.ncbi.nlm.nih.gov/refseq/o/prokaryot/reannotation/) a přijetí nového datového modelu pro prokaryot, včetně jejich plazmidy. V tomto novém modelu dat jeden RefSeq non-nadbytečné bílkoviny přistoupení, mohou být komentovaný na více než jeden genomické sekvence záznamu při překladu z těch genomické protein-kódujících regionů výsledky ve stejné proteinu (viz http://www.ncbi.nlm.nih.gov/refseq/o/nonredundantproteins/). Redundance ve všech bakteriálních proteinech se také významně snížila; nicméně, to zde není patrné kvůli pokračujícímu významnému zvyšování počtu bakteriálních genomů zahrnutých do datové sady. Tyto změny také vedly k celkovému poklesu počtu archaeálních proteinových záznamů.

OBRATLOVCŮ

vyberte skupinu obratlovců, včetně Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus a Danio rerio jsou hlavním zaměřením naší přepis a literatury založené na manuální curation úsilí. Kurátoři obecně pracují na seznamech genů s datovými konflikty identifikovanými testy quality assurance (QA), z nichž některé byly dříve popsány (12). Budou následovat podrobný soubor pokynů při analýze každého genu, s cílem zajistit cross-osoba konzistence v kurátoři dataset. Tato analýza zahrnuje hloubkové hodnocení sekvencí a přehled literatury k vytvoření referenčních transkriptů, proteiny, pseudogeny a záznamy RefSeqGene. RefSeq kurátoři generovat přepis variant, vyřešit sled chyb, odstranit nepřesné informace, aktualizovat záznamy, aby správně reprezentovat biologie locus a přidat cenné praktické informace k některé RefSeq záznamy, jako jsou lepší protein názvy, shrnutí funkce genu výrobku, funkční vlastnosti genu, a/nebo příslušné publikace. Manuální curation a literatury pomocí RefSeq skupiny může vyústit v zastoupení jedinečných variant a izoforem, které by neměly být předpovídal, když pouze na základě výpočtové analýzy. Například, literatury lidský tumor supresorový gen PTEN (fosfatázový a tensin homolog, GeneID: 5728) odhalila existenci delší proteinové izoformy vyplývající z použití alternativního in-frame proti proudu CUG zahájení kodonu našel ve středu palindromní sekvence upstream kanonické mRNA překlad start kodonu (13). Silné experimentální údaje ukázaly, že tato mitochondriální specifická izoforma iniciuje spíše leucinem než methioninem (14). Datový model RefSeq pro eukaryoty poskytuje jeden přepis explicitně spojený s jedním proteinem. Proto, dvě identické přepis záznamů byly poskytnuty, aby odrážely překlad z alternativní iniciační kodony; NP_000305.3 představuje 403 aminokyselin proteinu, který používá kanonické methionin start kodonu, zatímco NP_001291646.2 představuje mitochondriální-lokalizované 576 aminokyselina protein, který iniciuje s leucinu. To znamená, že curation procesu slouží dvojí účel poskytuje přesné referenční sekvence, které usnadňují přesné a reprodukovatelné anotace genomu a poskytuje záznamy, které obsahují relevantní biologické informace. V této části diskutujeme o nedávných aktualizacích, vylepšení, která jsme provedli v našem manuálním kurátorském procesu, a příklady cílených kurátorských projektů.

RefSeqGene projektu

RefSeqGene sub-projektu definuje lidské genomové sekvence mají být použity jako referenční standardy pro dobře charakterizovaných genů, zejména pro použití v klinické genetiky společenství. Tyto sekvence slouží jako stabilní základ pro hlášení patogenních variant, pro stanovení konvencí pro číslování exonů a intronů a pro definování souřadnic jiných variant. Každý záznam RefSeqGene se zaměřuje na genově specifickou genomovou oblast a obvykle je anotován podmnožinou transkriptů RefSeq a proteinů vybraných odborníky na domény. Tyto výběry určují funkce exon. Zarovnání starších verzí kanonického RefSeq transkriptu / proteinu, stejně jako dalších známých Refseq, jsou zahrnuty. Tyto záznamy obvykle zahrnují 5 kilobází (kb) sekvence upstream zaměření genu, a 2 kb pořadí po proudu, na podporu zastoupení potenciálních regulačních míst nebo delece přesahující genové funkce. Záznam RefSeqGene může obsahovat informace o anotaci pro jiné geny, které se nacházejí v jeho hranicích. Záznamy RefSeqGene jsou zpočátku přezkoumávány databázemi specifickými pro locus a zaměstnanci NCBI. RefSeqGene je členem lrg collaboration (7), který poskytuje další přehled sekvenčních dat před přidáním přistoupení LRG. Nedávné pracovní zaměření rozšířilo počet záznamů RefSeqGene tak, aby představovaly všechny geny, pro které byly do registru NIH Genetic Testing Registry (GTR) předloženy alespoň dva klinické testy. V současné době existuje 5596 záznamů RefSeqGene, z nichž 633 má přístup k LRG. RefSeqGene záznamy mohou být vyvolány tím, že prohledává Nukleotidové databáze s refseqgene‘, jejich LRG přistoupení, procházením RefSeqGene webové stránky (www.ncbi.nlm.nih.gov/refseq/rsg/), nebo FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

Inkorporaci RNA-Seq a další typy dat, v přepisu na bázi curation

hlavním cílem RefSeq curation projektu je představovat kvalitní a full-délka transkriptu a proteinu referenční sekvence. Jako taková jsou naše kurátorská kritéria primárně založena na konvenčním transkriptu (mRNA a ESTs) a zarovnání proteinů a publikovaných důkazech. Projekty transkriptomů obratlovců se však staly stále složitějšími s většinou nových přepisových dat v současné době generovaných technologií sekvenování krátkého čtení. Studie v celém genomu zkoumající globální vzorce epigenetických značek spojených s promotory také poskytují důkazy o aktivních promotorech a / nebo aktivní transkripci. V RefSeq skupina upravila curation postupy, jak začlenit tyto nové datové typy, aby posílily naše ruční anotace, a to zejména v případech, kdy gen nebo varianta postrádá bohaté konvenční přepis podporu. Tyto RNA-Seq a epigenomic studie přinesly obrovské soubory dat, které představují výzvu pro gen anotace skupin, například prostřednictvím potenciálních falešných pozitivit a nedostatek podpory pro dlouhý dosah exon kombinace (15). Kurátoři RefSeq zmírňují falešně pozitivní výsledky selektivním začleněním pouze vysoce kvalitních datových souborů pro zvážení do našeho kanálu anotace genomu a do procesu manuální anotace. RefSeq kurátorů představit přepis zarovnání, změna údajů, a filtruje RNA-Seq dat v upravené zobrazuje v rámci in-house alignment tool začleněna do NCBI Genomu Workbench platformy (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation lidských genů od analyzována RNA-Seq čte z Illumina BodyMap 2 (BioProject: PRJEB2445) a Human Protein Atlas projektů (BioProject: PRJEB4337) (16). Navíc kurátoři použití promoter související modifikace histonů značky jako H3K4me3 z NIH Plán Epigenomic Mapování Consortium (REMC; (17) a projektu ENCODE (Encyclopedia of DNA Elements) (18) k ověření přítomnosti aktivního promotoru. Kurátoři RefSeq také hodnotí data polyA-seq, aby potvrdili úplnost 3 ‚ přepisů bez Polya tail (19). Další datové typy, včetně PhyloCSF (20), CpGIslands, RepeatMasker (21) a Cap analýzy genové exprese (KLEC) data (22), se někdy používají jako dodatečná podpora.

Dlouhé nekódující Rna (lncRNAs)

RefSeq skupina i nadále výrazně rozšířit o zastoupení non-kódování strukturální – a mikro-Rna, přepsána pseudogenes, a do značné míry uncharacterized lncRNAs. Tato třída genů je obecně definována jako transkripty > 200 NT na délku, které postrádají silný potenciál kódující proteiny (23). záznamy Lncrna RefSeq jsou generovány kurací a potrubím anotace eukaryotického genomu pro geny lncRNA. NCBI v současné době udržuje více než 540 000 eukaryotické lncRNA RefSeq záznamy, z nichž více než 6700 byly kurátor a jen pár set byly funkčně charakterizovány. Z nich mnohé byly zapojeny do lidských onemocnění, jako jsou BACE1-AS, které mohou hrát roli v patofyziologii Alzheimerovy choroby, a HOTAIR, která byla spojena s více druhy rakoviny (24,25). Drtivá většina lncRNAs neznámé funkce a absence dlouhý otevřený čtecí rámce představuje výzvu, pokud jde o potvrzení úplnosti záznamu. Kromě toho, lncRNA podání INSDC jsou do značné míry založené na Tsa od krátkých číst datové soubory, které mohou zahrnovat artefaktnímu exon kombinace. RefSeq kurátorů zaujmout konzervativní přístup k zastupující lncRNA geny, pouze ruční vytváření RefSeqs (s NR_ přistoupení prefix) pro vysoce kvalitní přepisy pro které máme nějaké jistoty exon struktury. V ideálním případě, přepis, podpora by měla být sestříhané s nejméně třemi exons ale dva-exon a intronless přepisy mohou být zastoupeny, pokud jsou podporovány promotér-spojené epigenomics, poly(A) důkazy, další cDNAs, a/nebo RNA-Seq dat. Záznamy RefSeq lncRNA pro nekódující geny lze získat z nukleotidové databáze NCBI pomocí vyhledávacího řetězce „biomol ncrna lncrna“ a výběrem filtru RefSeq z levého sloupce.

Funkční anotace

jedinečný přínos kurátor eukaryotické RefSeq přepis záznamů je, že se budou integrovat funkční informace s referenční sekvence. RefSeq curation personál přidává gen shrnutí, názvosloví, přepis varianta textu, gene a pořadí atributů, a funkční prvky, které jsou k dispozici na RefSeq záznam a/nebo prostřednictvím Genových zdrojů (http://www.ncbi.nlm.nih.gov/gene). V minulém roce, RefSeq zaměstnanci vykonávali několik hloubkových anotace projektů, z nichž některé jsou stručně popsány v následujících odstavcích, přidat funkční data do konkrétní sady genů, kde výpočetní nástroje, které jsou schopny přesně představují biologické znalosti. Tyto projekty zahrnují anotaci antimikrobiálních peptidů, endogenních retrovirů, histonů závislých na replikaci, regulačních uorf a antisymů.

Antimikrobiální peptidy (AMPs)

Zesilovače byly nedávné curation zaměření (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Zesilovače jsou přirozeně se vyskytující peptidy, které se nacházejí v rozmanité škále druhů a byly zapojeny do mnoha imunitních rolí, včetně baktericidních, antivirových, antifungálních a dokonce protinádorových aktivit. Seznam více než 130 lidské geny kódující jeden nebo více experimentálně prokázáno, Zesilovače byly shromážděny z několika veřejně dostupných AMP soubory dat a také těží z publikací. Většina z těchto zesilovačů nebyla dříve identifikována v databázi RefSeq, a žádná z databází AMP nepřipojila peptidy k jejich kódujícímu genu. RefSeq kurátoři ručně anotovány na RefSeq záznamy pro každou AMP-kódování lidský gen, aby bylo zajištěno, že funkční peptid byl komentovaný, zahrnout publikace popisující antimikrobiální aktivity peptidů, přidat stručný souhrn popisující antimikrobiální aktivitu kódovaného AMP, a ukládat nové RefSeq atribut ‚Protein má antimikrobiální aktivita, která je zahrnuta v RefSeq atribut strukturovaný komentář (např. NM_001124.2 pro ADM; GeneID: 133). Chcete-li získat přístup ke všem kurátorským záznamům lidského transkriptu nebo proteinového AMP, prohledejte databázi nukleotidů nebo proteinů pomocí „Protein má antimikrobiální aktivitu“. V současné době toto vyhledávání najde 191 záznamů RefSeq, včetně variant splice a proteinových izoform.

Endogenní retroviry (ERVs)

Endogenní retroviry (ERVs) jsou genomových lokusů, které jsou odvozeny z rodového vložení exogenního retroviru do hostitelského genomu. ERV loci jsou obecně mimo prostor pro RefSeq; nicméně, my komentovat full-délka ERV protein-kódujících lokusů, které jsou mapovány na jeden genomické umístění v případě, že se vyvinuly sloužit řadu funkcí, jsou spojeny s chorobou, a/nebo pokud byly přiřazeny názvosloví oficiální nomenklatury výboru. Asi 8% lidského genomu je retrovirální původu (27); nicméně vzhledem k jejich prastarý původ, většina lidských ERV loci nahromadily nesmysl mutace a již může kódovat protein. Známou výjimkou jsou syncytinové proteiny, které se podílejí na vývoji placenty (28). Lidské syncytin-1 a syncytin-2 proteiny jsou kódovány ERVW-1 (NM_001130925.1, NM_014590.3) a ERVFRD-1 (NM_207582.2) geny. K dnešnímu dni jsme vytvořili 67 RefSeqs pro ERV loci, který zahrnuje záznamy představující ERV geny z rozmanité sady savců. Pro tyto záznamy byla vytvořena nová kategorie atributů RefSeq s názvem „endogenní retrovirus“ a objevuje se ve strukturovaném komentáři k záznamu RefSeq. Tyto záznamy lze získat z databáze nukleotidů hledáním „endogenního retroviru“.

Replikace závislá histony

rychlé syntéza histonů mRNAs je nutné během buněčného dělení, aby se produkovat velké množství proteinů histonů. Rozhodující pro tento proces jsou histonové geny závislé na replikaci, které jsou upregulovány během fáze G1 / s buněčného cyklu (29). Konkrétní RefSeq projekt byl realizován s cílem kurátorství kompletní sadu replikace závislá histonů protein kódujících genů u člověka a myši. Tyto geny mají kanonický 3′ histonů následný prvek (HDE) sekvence v genomu sekvence a výsledné zralý mRNAs charakteristicky nedostatek poly(A) ocasy a místo toho ukončit krátce po RNA stem-loop struktury (30). Na HDE prvek se nachází na předchůdce přepis ale není zahrnut zpracovaný přepis zastoupena RefSeq. Umístění konzervované 16 nukleotidové sekvence struktury kmenové smyčky je uvedeno na záznamu RefSeq jako anotace vlastností s názvem „kmenová smyčka“. Příklad lze vidět na položce RefSeq NM_003539. 3 pro HIST1H4D (GeneID: 8360). K dnešnímu dni, 127 lidské a myší replikace závislá histonů RefSeq záznamy byly kurátor a RefSeq přidán atribut, který může být použit k načtení těchto záznamů z Nukleotidové databáze pomocí vyhledávací řetězec ‚replikace závislá histonů‘.

Regulační upstream open reading frames (uORFs)

Překlad proudu otevřený čtecí rámec (uORF) může negativně ovlivnit překlad primárního proteinu-kódování otevřený čtecí rámec (pORF) (31). Tento efekt ne vždy úplně umlčí translaci pORF a může být závislý na typu buňky, vývojovém stavu nebo buněčném stavu. Proto, ačkoli uORFs lze předvídat ze šestirámového překladu přepisu, regulační účinek tohoto prvku musí být stanoven experimentální validací. RefSeq kurátoři přezkoumána literatuře najít přepisy s experimentální důkazy o regulační uORFs a aktualizované odpovídající RefSeq přepis záznamů přidat misc_feature označující umístění těchto uORFs. Příkladem je položka RefSeq NM_000392.4 pro ABCC2 (GeneID: 1244). Byla vytvořena nová kategorie atributů RefSeq s názvem „regulační uORF“, která se objevuje ve strukturovaném komentáři k těmto záznamům RefSeq. Jak anotovaný prvek, tak atribut citují podpůrnou publikaci PubMed ID. K dnešnímu dni, 260 záznamy byly komentovaný s tímto atributem a tyto záznamy mohou být vyvolány z Nukleotidové databáze vyhledávání pro regulační uORF ‚

Antizyme geny

Jedním z cílů RefSeq projektu je představují geny s výjimečnou biologie, které nemají následovat standardní dekódování pravidla syntézy proteinů. Je ornitin dekarboxyláza antizyme gen je takový příklad, kde naprogramované +1 ribozomální frameshifting mechanismu dochází a nelze předvídat konvenční výpočetní nástroje. Sada obratlovců antizyme přepis a bílkovin záznamy byly v poslední době předmětem ruční anotace úsilí k vytvoření standardů ke zlepšení anotace těchto genových produktů, které eukaryotní genom anotace potrubí (32). V RefSeq záznamy byly ručně anotovány s split CD funkce, aby odrážely ribozomální skluz, a zahrnují ‚ribozomální skluz‘ atribut s publikovanými důkazy, různé různé funkce anotace (např. umístění posunovými stránky) a stručný souhrn popisující funkce a nové vlastnosti genu (např. NM_139081.2). Tyto záznamy lze získat buď z nukleotidové nebo proteinové databáze pomocí vyhledávacího dotazu: vertebrates refseq ribozomální slippage antistyme. Toto hledání v současné době najde 242 záznamů RefSeq (NM nebo NP), které zahrnují varianty přepisu a izoformy proteinů.

BEZOBRATLÝCH

druhy Bezobratlých představují převážnou většinu dochovaných metazoans (33); nicméně, jen relativně malé množství jsou zastoupeny sekvence genomů. To navzdory skutečnosti, že mnoho druhů kritické biomedicínského významu, jako Anopheles gambiae, vektor pro malárie a Biomphalaria glabrata, vektor pro schistosomózy (34,35). Ostatní bezobratlí včetně Apis mellifera, Bombyx mori a crassostrea gigas mají významnou komerční hodnotu (36-38). V RefSeq skupina vyvinula úsilí na zvýšení počtu a rozsahu genomů bezobratlých zastoupeny v datech tím, že poskytuje anotace prostřednictvím eukaryotní genom anotace potrubí nebo rozmnožovací anotace z INSDC podání na RefSeq kopie těchto genomů. Pro oba toky procesu jsme závislí na veřejné dostupnosti vysoce kvalitních genomů v INSDC databází a NCBI je Sestavení databáze (www.ncbi.nlm.nih.gov/assembly/). K dnešnímu dni 46 bezobratlých genomy byly poznámkou NCBI včetně reprezentativních druhů hmyzu, pavouků, měkkýšů a bazální strunatci. Očekáváme výrazné expanzi v počtu hmyzu a dalších bezobratlých genomů komentovaný jako důsledek genomu iniciativy jako i5k (39), 1KITE (1K Hmyzu Transcriptome Evoluce, http://www.1kite.org/) a Globální Bezobratlých Genomu Aliance (http://giga.nova.edu/) (40).

rostliny

RefSeq pokračuje v rozšiřování rozmanitosti druhů rostlin zastoupených v datovém souboru. K dnešnímu dni bylo do souboru údajů o genomech RefSeq zahrnuto 61 druhů rostlin (ftp://ftp.ncbi.nlm.nih.gov/genomů/refseq/rostliny/), z toho 33 druhů byly komentovaný skrz eukaryotní genom anotace potrubí; zbytek jsou RefSeq kopie komentovaný genomů předložen INSDC. V budoucnu bude více rostlinných genomů vybraných pro zařazení RefSeq zpracováno anotačním potrubím eukaryote, spíše než šíření anotace z podání INSDC. Jedná se o změnu politiky pro genomy rostlin RefSeq a bude mít za následek větší celkovou konzistenci dat anotace rostlin v datovém souboru RefSeq. Většina z RefSeq transkriptů a proteinů k dispozici pro rostlinných druhů jsou „vzorem“ záznamy (XM_, XP_ a XR_ přistoupení; Tabulka 1), s menší podmnožinu „známé“ záznamy (NM_, NR_, NP_), které jsou udržovány nezávisle na popisu procesu pomocí kombinace automatizovaného zpracování a ruční kontrolu. Pro Zea mays a Solanum lycopersicum je v současné době poskytována manuální kurace transkriptu rostlin a údajů o proteinech. Současné kurátorské zaměření zahrnuje rozsáhlou revizi sekvencí a je zaměřeno na řešení problémů QA v současné sadě přepisů. Chyba rozlišení je zaměřena na identifikaci a odstranění chimérických transkriptů, redundantní přepisy a geny, a zlepšení kvality zastoupeny sekvence na základě posouzení indels a nesoulad mezi RefSeq přepis, genomické sekvence, a orthologous data. Pro rostliny, snažíme se poskytnout kurátor přepis a bílkovin dataset, který je v souladu s kultivar vybrány pro sekvenování genomu a montáž. Kurační protokol používaný pro data obratlovců se používá také pro rostliny. Tak, RefSeq přepis záznamy mohou být aktualizovány na základě různých INSDC zdroj sekvence, nebo může být sestaven z více než jednoho INSDC sekvence záznamu s cílem poskytnout přepis preferovaný kultivar. Pokud INSDC přepis údaje nejsou k dispozici pro genomické kultivar pak RefSeq přepis může být generovány z smontované genomické sekvence založené na kombinaci přepis nebo protein zarovnání, RNA-Seq, a/nebo zveřejněné údaje. Druhou oblastí zájmu je zvýšit počet podporovaných známých transkriptů a proteinů kódujících proteiny, protože to poskytuje kurátorské činidlo, které lze použít při anotaci jiných rostlinných genomů. A konečně, provádíme více RefSeqs představujících varianty spojů, pokud existují dostatečné podpůrné důkazy. Toto úsilí výrazně zlepší kvalitu datové sady plant RefSeq a přispěje ke zlepšení budoucích anotací genomu. Aktuální set rostlinných genomů poznámkami potrubí lze přistupovat na NCBI je eukaryotní genom anotace potrubí stránky http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ s odkazy na podrobné anotace, zprávy a další zdroje, jako jsou druhy VÝBUCH a FTP.

ŘASY, HOUBY, HLÍSTIC A PRVOKŮ

NCBI malé eukaryotní genom potrubí je nové automatizované potrubí určené pro generaci RefSeq záznamů jako výsledek přímého šíření komentovaný INSDC záznamy. Takto generované záznamy RefSeq jsou kopiemi dat GenBank s některými změnami formátu, které dodržují požadavky RefSeq. Nejvýznamnějším rozdílem mezi původním záznamem INSDC a záznamem RefSeq je přidání produktu refseq transcript. I když to není navržen tak, aby vytvářet de novo genomové anotace, malé eukaryotní genom potrubí čerpá z několika NCBI eukaryotní genom anotace potrubí moduly a jejich kód (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

‚Malé Eukaryot‘ označení odkazuje na potrubí je primární použití generovat RefSeq genomů pro relativně menší eukaryotické genomy (ve srovnání s těmi, rostlin a obratlovců), jako jsou ty, řas, prvoků, hub, háďátek, a některých členovců. Některé velké rostlinné genomy se však také zpracovávají pomocí tohoto potrubí. Toto potrubí zpracovává vysoce kvalitní sestavy sestávající z chromozomů a / nebo lešení a jejich součástí. Tyto sestavy s vysokou contig a lešení N50, vysoce kvalitní sekvence, a přiměřeně dobré INSDC předložené anotace jsou upřednostňovány. Tento plynovod, který nahrazuje historický proces toku, která vyžaduje více manuální podpora, teprve nedávno dosáhl veřejný výrobní fáze a je již přináší zvýšený počet „malé“ eukaryotické genomy zastoupeny v RefSeq. Probíhají práce na optimalizaci propustnosti potrubí a přidání další automatizace a další minimalizace úkolů zpracování kurátora. Dlouhodobější plány zahrnují implementaci systému správy proteinových názvů s cílem poskytnout, opravit, nebo zlepšit v průběhu času předložená jména INSDC. Mnoho z genomů, které jsou v působnosti pro malé eukaryot potrubí nelze v současné době zpracovány (velké) eukaryotní genom anotace potrubí vzhledem k taxonomické diverzity a omezené dostupnosti přepis údajů potřebných pro vlak de novo anotace potrubí.

plísňové cílené lokusy

morfologie Hub je velmi různorodá, od složitých mnohobuněčných struktur až po velmi jednoduché jednotlivé buňky. Různé morfologické struktury a typy spór mohou být produkovány jediným druhem. Naopak mnoho druhů produkuje podobné morfologie (morfy), ale ve skutečnosti jsou geneticky velmi vzdálené. Až do nedávné doby, jeden druh mohl být platně popsán s více než jedním binomickým názvem založeným na sexuálních nebo asexuálních morfech. V mnoha případech, pro daný druh byl popsán a zaznamenán pouze jeden morf, ačkoli druhy s ním úzce související mohly mít několik morfů popsaných a zaznamenaných. V důsledku toho byla v houbové komunitě použita sekvenční srovnání k rozlišení mezi druhy, ke sledování druhů, jak postupují složitými životními cykly, a k identifikaci kryptických druhů. V rámci dynamického procesu taxonomického přehodnocení, mnoho oprav druhů hub není vždy aktuální v sekvenčních datech GenBank.

aby byly referenční sekvence odvozené z typových vzorků (které slouží jako reference pro druhy) spolehlivějším zdrojem pro identifikaci DNA, musí být označeny správným a nejaktuálnějším názvem druhu. Databáze zaměřené na loci Fungi RefSeq poskytují tento cenný zdroj. Například, PRJNA177353 je BioProject, že se konkrétně zaměřuje na vnitřní přepisována spacer (ITS) regionů jaderné ribozomální cistron, která byla použita pro mnoho let jako fylogenetický marker a nedávno schválen jako oficiální barcode sekvence Hub (41). Databáze ITS RefSeq začala jako spolupráce s Index Fungorum, MycoBank a UNITE, stejně jako velká skupina taxonomických specialistů. Byly vybrány sekvence, většinou z typových vzorků platných popisů, a poté byly se sekvencemi spojeny současné správné názvy druhů s cílem reprezentovat většinu přijatých houbových řádů (8). Výsledky z tohoto curation úsilí byly použity a citovány podle různých publikací (42-46) a pomáhali další úsilí na ověření podskupin referenční sekvence, např. medicínsky významné druhy (47).

cílem, s pokračující curation, je přidat sekvence z nově popsané příkazy a rozšířit zastoupení, aby zahrnovala většinu z uznávané rodiny se zaměřením na medicínsky významných Hub. Proces také zahrnuje provádění oprav, výměna sekvence z autentických materiál s sekvence z typu materiálu, jakmile je k dispozici a editace definice linek nebo odstranění RefSeq záznamy jako taxonomické klasifikace změny. Tím je zajištěno, že výsledky vyhledávání BLAST správně zobrazují aktuální název. V RefSeq JEHO záznamy byly rozšířeny reprezentovat 3,060 sekvence představující 270 rodin z 39 tříd. Během počáteční spolupráce JEHO RefSeq úsilí, menší sadu sekvence přistoupení z 28S jaderné velké podjednotky ribozomální gen (LSU) byly také shromážděny, ale ne ověřit. Pracovní postup podobný k JEHO záznamu curation proces pokračuje a během pokračující curation tyto LSU záznamy byly ověřeny pro sekvence kvalitní, správná identifikace, a přesný zdroj údajů. Téměř 500 záznamů (z 800 potenciálních záznamů) představujících >100 rodin z 21 tříd bylo ověřeno a nedávno vydáno. Soubor dat 28S lze získat z Bioprojektu PRJNA51803 (48).

prokaryoty

kolekce prokaryotického genomu NCBI RefSeq představuje sestavené prokaryotické genomy s různými úrovněmi kvality a hustotou vzorkování. Pro prokaryoty, na základě zpětné vazby z minulé komunity je naší současnou politikou poskytnout anotaci genomu pro všechny prokaryotické genomy, které splňují naše kritéria kvality. V posledních letech jsme čelili dvěma velkým výzvám: (i) udržet krok s rychlým eskalaci předložené prokaryotické genomy; a (ii) řešení rostoucí nesoulad v genomu anotace vzhledem k použití obou INSDC šíření-založeno potrubí a různé verze NCBI de novo genomové anotace potrubí tak, jak se postupem času vyvíjely.

S rostoucím zájmem v lidské patogeny a rozvojem sekvenování DNA technologie, počtu přiřazených prokaryotické genomy se rychle zvýšil v posledním desetiletí. Některé bakteriální kmeny jsou často k nerozeznání pomocí aktuální genotypizace přístupy, ale drobné genetické rozdíly mohou být zjištěny na základě celé sekvenování genomu, což je užitečné pro charakterizaci způsobů přenosu, identifikaci antibiotické rezistence, a mapování ohnisek. K vyšetřování potravin-patogenů nebo infekce ohnisek, velké množství téměř identických bakteriální genomy byly sekvenovány a komentovaný v posledních letech, což vede v mnoha identické proteiny, z nichž každý má odlišné pořadové číslo. V roce 2013 NCBI představil nový proteinový datový model a přístupovou předponu (WP_) pro sběr RefSeq. Tato změna snížila redundanci prokaryotických proteinů RefSeq a usnadnila identifikaci proteinů, které byly identicky nalezeny na více než jednom genomu. To také umožnilo lepší strategii pro správu prokaryotických názvů proteinů. Tyto non-redundantní záznamy představují unikátní prokaryotické proteinových sekvencí, které jsou nezávislé na konkrétním bakteriálním genomu a mohou být komentovaný na více kmeny nebo druhy (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

Historicky, RefSeq bakteriální genomy anotace byla rozšířena z INSDC podání, pokud je k dispozici, nebo vytvořené pomocí různých verzích NCBI je Prokaryotického Genomu Anotace Potrubí (který je také nabízen jako služba pro GenBank podání). To mělo za následek nahromaděné nekonzistence ve strukturální i funkční anotaci v prokaryotickém datovém souboru RefSeq. V průběhu posledních dvou let NCBI zlepšit několik aspektů Prokaryotického Genomu Anotace Potrubí za účelem zvýšení kapacity a dále standardizovat anotace pravidla. Naše potrubí kombinuje algoritmus volání genů, GeneMarkS+ (49,50), s přístupem detekce genů založeným na zarovnání a je schopen anotovat kompletní i návrh genomů WGS. Potrubí v současné době předpovídá geny kódující proteiny, strukturní RNA (5S, 16S a 23S), tRNA a malé nekódující RNA.

v roce 2015 jsme vydali komplexní aktualizaci anotací pro prokaryotické genomy RefSeq s cílem harmonizovat anotaci genomu a dokončit přechod na nový proteinový datový model. Byla vyvinuta nová databáze názvů prokaryotických proteinů, SPECIFIKACE názvu a strategie založená na důkazech, které jsou v současné době v procesu nasazení. Zatím, přes 3 miliony záznamů o proteinech aktualizovaly jména v počáteční demonstraci přístupu. Nové prokaryotické datový model, který nabízí významné výhody pro správu názvů jako protein jméno je prováděna s proteinové sekvence záznamu; aktualizace jméno na bílkoviny rekordní výsledky v automaticky rozmnožovací aktualizace pro všechny genomy, které jsou komentovaný s tím přistoupení číslo.

RefSeq prokaryotické genomy jsou organizovány v několika nových kategorií, jako jsou referenční genomy a zástupce genomů na základě sestaveného atributy a shromažďování a anotace kvalita opatření (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referenční genomy jsou ručně vybrány „zlatý standard“ kompletní genomy s vysokou kvalitou anotace a nejvyšší úrovní experimentální podpory pro strukturální a funkční anotaci. V současné době je malá datová sada 122 referenčních genomů ručně anotována spolupracujícími skupinami a zaměstnanci NCBI. Referenční genomy jsou dostupné na adrese: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Reprezentativní genomy jsou výpočetně vypočteny a vybrány tak, aby reprezentovaly různé druhy. Zástupce genomy jsou k dispozici na adrese: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq prokaryotického genomu, data mohou být přístupné v BLAST databází, webových zdrojů (Montáž, BioProject, Genom, Nukleotidů a Bílkovin), přes NCBI je programovací nástroje, nebo je lze stáhnout z genomů nebo refseq servery FTP. Vlastní ‚Mikroorganismy‘ BLAST stránce, přístupné z VÝBUCHU domovskou stránku, poskytuje možnosti vyhledávání proti všem RefSeq prokaryotické genomy, Referenční a Zástupce genomů podmnožinu, nebo omezit vyhledávání na konkrétní taxony. Podmnožina prokaryotických genomů je anotována genovým ID NCBI a může být získána v genovém zdroji NCBI nebo z genového FTP místa. Pro archaea je to zajištěno pro většinu úplných genomů. Pro bakterie, toto je stanoveno pro referenční genomy a reprezentativní genomy pro druhy, které mají alespoň 10 podání genomu.

Prokaryoticky cílené lokusy

u prokaryot se sekvence ribozomální RNA 16S stala standardním molekulárním markerem pro popis nového druhu. Zatímco tyto markerové sekvence se staly široce používány, kvalita sekvenčních dat a přidružených metadat předkládaných do databází INSDC se značně liší. UZNÁVAJÍCE důležitost přístupu k vysoce kvalitním datům pro tyto markery, NCBI rozšířila svůj cílený projekt loci, aby poskytla aktuální zdroj kurátorských dat. Cílené loci projektu v současné době udržuje téměř 18 000 16S ribozomální RNA referenční sekvence, z nichž více než 95% jsou z kmenů. Typové kmeny jsou považovány za příklad druhu a je nezbytné, aby údaje o kmenech typu byly anotovány správnými metadaty a byly bez kontaminace.

tato práce zahrnovala vyčerpávající přehled a aktualizaci základní databáze taxonomie, která byla použita ve spojení s filtrem NCBI type strain Entrez k načtení kandidátských sekvencí. Sekvenční data a jejich související taxonomie / metadata byly přezkoumány a opraveny tak, aby zahrnovaly nejaktuálnější informace. Pokud sekvence selhala validace nebo nemohla být přesně validována, byla vyloučena. Tyto referenční sekvence lze nyní použít jako „zlaté standardy“ pro analýzu stávajících a nových sekvencí rRNA.

bakteriální a Archaeal 16S rRNA datové sady jsou k dispozici z Bioprojektu (PRJNA33175 a PRJNA33317, v uvedeném pořadí). Vlastní VÝBUCH databáze je také k dispozici (’16S ribozomální RNA sekvence (Bakterie a Archea)‘).

viry

datový model RefSeq pro viry se liší od modelu jiných organismů. Obecně je pro každý virový druh vytvořen pouze jeden kompletní genom RefSeq. Příležitostně se v rámci daného virového druhu vytvoří více záznamů RefSeq, které odrážejí dobře definované genotypy nebo důležité laboratorní a / nebo divoké kmeny. Další genomy pro daný druh jsou validovány z hlediska taxonomie a úplnosti a poté indexovány jako sekvence „sousedé“ (52). Oba RefSeq a soused genomy jsou dohledatelné prostřednictvím specializovaných Virového Genomu Zdrojů (http://www.ncbi.nlm.nih.gov/genome/viruses/) a z Entrez Nukleotidů Genomu a stránky pomocí RefSeq Genomu u Druhů “ a „Ostatní INSDC Genomu Sekvence‘ odkazy (52).

Taxonomie je velkým problémem virové genomika, jak tam jsou 3186 virové druhy, oficiálně uznané Mezinárodní Výbor pro Taxonomii Virů (ICTV) (53) a 4834 kompletní genomy ze oba oficiální a prozatímní virových druhů k dispozici od INSDC databází. Na NCBI Párového Srovnávání Sekvencí (PASC), nástroj byl vyvinut na pomoc v klasifikaci virových genomů na základě globálního a/nebo lokální zarovnání mezi genomy (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Rozsah tohoto nástroje byl rozšířen o řadu virových rodin a dalších taxonomických skupin a byl použit k podpoře vymezení nových taxonomických kritérií (54-57).

dalším vznikajícím problémem virové genomiky je nekonzistentní a / nebo nepřesná anotace mezi příbuznými virovými genomovými sekvencemi. Tento problém často odráží odlišné anotační procesy a probíhající experimentální práci a může vést ke zmatku mezi spotřebiteli dat a ztěžovat srovnávací analýzu mezi genomy. Tento problém je řešen v rámci NCBI Virus Variace Zdrojů (http://www.ncbi.nlm.nih.gov/genome/viruses/variace/), kde výpočetní potrubí jsou zaměstnáni, aby poskytovat up-to-date, standardizované anotace pro několik virů (58). V současné době se tyto potrubí výpočet standardizované gen a protein hranice pro všechny Chřipky virus, Dengue virus, a West Nile virus, standardizované sekvence a gen a protein jména a metadat, podmínky pro tyto a další dva viry, Střední Východ respirační koronavirus a Ebolavirus. Tento standardizovaných dat je pak hybnou silou, v rámci specializované, metadata-centric vyhledávací rozhraní, které umožňuje snadné vyhledání sekvencí na základě specifických biologických kritérií.

udržování aktuálních, široce přijímaných standardů anotace vyžaduje nepřetržitou spolupráci s větší vědeckou komunitou. Na NCBI Virového Genomu Anotace Pracovní Skupina byla založena s cílem využít konsorcií veřejných databází, sekvenování center a výzkumných skupin vyvinout standardizované pořadí anotace, stejně jako izolovat pojmenování schémat pro různé skupiny virů (59-63). Tento přístup nejen stanoví standardy pro virovou anotaci, ale také představuje tyto standardy v rámci aktuálního záznamu RefSeq, zajištění dostupnosti pro všechny uživatele databáze a zadavatele. Podobná spolupráce je také nezbytná pro podporu interpretačních zdrojů s přidanou hodnotou, jako je HIV-1, databáze lidských interakcí (http://www.ncbi.nlm.nih.gov/genome/viruses/retroviry/hiv-1/interakce/) (64). Spolupracovníky z Jižních Výzkumný Ústav zdokumentovaný HIV-1, lidský, molekulární interakce kurátor z literatury a NCBI udržuje uživatelsky přívětivé zdroj, kde mohou uživatelé vyhledávat pro konkrétní typy interakcí a najít více informací o geny zapojené.

BUDOUCÍ SMĚRY

RefSeq projekt je unikátní v tom, že nabízí referenční sekvence dataset přepisů, bílkovin a genů, která zahrnuje všechny království života a aktivně udržovány a aktualizovány v průběhu času, aby se začlenil lepší výpočetní strategie, nové typy dat a nové poznatky. Prokázali jsme schopnost a schopnost reagovat na nedávný rychlý nárůst počtu sekvenovaných genomů předložených do databází INSDC. Definovali jsme řadu různých politik a strategií pro curation a anotace eukaryotické, prokaryotické a virové druhy, pro splnění různých potřeb organismu-konkrétní komunity. Datová sada RefSeq je široce používána jako referenční standard pro mnoho různých analýz, včetně klinických aplikací u lidí a patogenů, srovnávací genomika,testy exprese, interpretace variací sekvence, a konstrukce pole i sondy. V NCBI, RefSeq dataset je integrován do více zdrojů včetně Montáže, VÝBUCH, Epigenomics, Gen (kde RefSeq anotace, je hlavním základem pro většinu Gen položky), Genom, dbSNP, dbVar, Variace Prohlížeč, a další.

budeme se i nadále zaměřovat na manuální kuraci s cílem zlepšit strukturální a funkční informace pro lidské a jiné genomy obratlovců. Naše konzervativní manuální curation přístup zajišťuje pokračující vysokou kvalitu a spolehlivost člověka, myši a dalších „známých“ RefSeq záznamy, které slouží potřebám těch, kteří potřebují dobře podporované definice alternativních exonů (méně falešných poplachů). Kromě RNA-Seq dat do našeho anotace potrubí výrazně zvýšil naše anotace alternativní splice varianty jako model RefSeqs, aby sloužil potřebám těch, kteří chtějí více komplexní, ale stále dobře-podporoval, definice exome (méně falešně negativních). Zatímco známé i modelové RefSeqs hlásí podpůrné důkazy v záznamu sekvence, používají k tomu odlišné přístupy. Budoucí úsilí bude zaměřeno na harmonizaci vykazování důkazů pro „známé“ i „modelové“ Refseq, aby uživatelé mohli tyto informace snadněji identifikovat. Budeme také přidávat nový datový typ pro lidské a myší kolekci RefSeq v blízké budoucnosti představují experimentálně hlásil, regulační a funkční prvky se známou (nebo rozumně odvodit) funkční důsledky.

pro prokaryotické genomy pokračujeme v práci na zdokonalení aspektů strukturní anotace, která je generována Anotačním potrubím prokaryotického genomu. Naše práce na novém přístupu ke správě funkčních informací se stále zdokonaluje a bude popsána jinde. Očekáváme, re-anotace celý RefSeq prokaryotické genomy dataset, když nová verze našich prokaryotické anotace potrubí budou k dispozici (ke zlepšení strukturální anotace). Rozhodnutí anotovat všechny RefSeq prokaryot použití jediné metody, spolu s naprostý objem tohoto dataset, vyžaduje jiný přístup, který využívá více zdrojů důkazů, které zajišťují funkční informace. Názvy proteinů budou průběžně aktualizovány podle skupin proteinů nebo kategorií typu důkazů. Naše cíle pro nadcházející rok zahrnují větší integraci Rfam (65) do našeho anotačního potrubí, rozšířenou spolupráci, vylepšené názvy proteinů a hlášení podpůrných důkazů o záznamu proteinové sekvence.

chtěli Bychom poděkovat vědecké společenství pro konstruktivní zpětnou vazbu, návrhy, chybová hlášení, a spolupráce v průběhu posledních 15 let, které přispěly ke kvalitě a přesnosti zastoupeny sekvence, strukturální anotace a funkční anotace.

financování

intramurální výzkumný Program NIH, Národní lékařská knihovna. Financování poplatku za otevřený přístup: intramurální výzkumný Program národních zdravotnických ústavů, Národní lékařská knihovna.

Prohlášení o střetu zájmů. Žádný deklarován.

Nosek

B. a.

Alter

Banky

G. C.

Borsboom

Bowman

S. D.

Breckler

S. J.

Buck

Komory

C. D.

Čína

Christensen

et al.

vědecké standardy. Podporovat otevřený výzkum kultury

Věda

2015

348

1422

1425

Šedá

K. a.

Yates

Těsnění

R. L.

Wright

M. W.

jedná se celkově

E. a.

Genenames.org: HGNC zdrojů v roce 2015

Nukleové Kyseliny, Res.

2015

D1079

D1085

Růžička

Bradford

Y. M.

Frazer

Howe

D. G.

Výběh

Ramachandran

Zpěvák

Býk

Van Slyke

C. E.

Orel

a. E.

et al.

ZFIN, dania pruhovaného modelu organismus databáze: Aktualizace a nové směry

Genesis

2015

498

509

UniProt

UniProt: centrum pro bílkoviny informace

Nukleových kyselin.

2015

D204

212

Kozomara

Griffiths-Jones

miRBase: anotace vysokou důvěru mikrorna pomocí hluboké sekvenování dat

Nukleových Kyselin.

2014

D68

McGarvey

K. M.

Goldfarb

Cox

Farrell

C M

Gupta

Joardar

V. S.

Kodali

V. K.

Murphy

M. R.

O ‚ leary

N. a.

Pujar

Mouse genome anotace pomocí RefSeq projektu

Mamm. Genom

2015

379

390

Dalgleish

Flicek

Cunningham

Astashyn

Tully

R. E.

Proctor

Pes

McLaren

W. M.

Larsson

Vaughan

B. W.

et al.

Locus Reference Genomic sequences: the improved basis for describing human DNA variant

Genome Med.

2010

Schoch

C. L.

Robbertse

Robert

Irinyi

Meyer

Nilsson

R. H.

Hughes

Miller

A. N.

et al.

Hledání jehly v kupce sena: propojení vědecké názvy, referenční vzorky a molekulární data pro Houby

Databáze

2014

Zhang

Larkin

D. M.

Lee

Storz

J. F.

Antunes

Greenwold

M. J.

Meredith

et al.

Srovnávací genomika odhaluje vhled do ptačího genomu, evoluce a adaptace

Věda

2014

346

1311

1320

Jarvis

E. D.

Mirarab

Aberer

a. J.

Houde

S. Y.

Lauch

B. C.

Nabholz

, Howard

J. T.

et al.

Whole-genome analýz vyřešit brzy větve ve stromu života moderních ptáků

Věda

2014

346

1320

1331

Farrell

C M

O ‚ leary

N. a.

Harte

R. a.

Loveland

J. E.

Wilming

G. L.

Wallin

Diekhans

Barrell

Searle

S. M.

et al.

Aktuální stav a nové funkce Konsensu Kódování Sekvence databáze

Nukleových Kyselin.

2014

D865

D872

Pruitt

K. D.

Tatusova

Maglott

D.R.

NCBI referenční sekvence (RefSeq): kurátor non-redundantní sekvence databáze genomů, transkripty a proteiny

Nukleových Kyselin.

2007

silnice d61

D65

Hopkins

B. D.

Jemně

Steinbach

, N.

Dendy

Rapp

Shaw

Ross

J. S.

Hodakoski

Mense

et al.

vylučován PTEN fosfatázy, že vstupuje do buňky změnit signalizace a přežití

Věda

2013

341

399

402

Liang

Yang

Jia

Wang

Pes

Zhang

Zoo

smělého blázna

M. a.

Sheng

W. H.

et al.

PTENalpha, PTEN izoformy přeloženou přes alternativní zahájení, reguluje mitochondriální funkce a energetický metabolismus

Cell Metab.

2014

836

848

modelování regulačních sítí genomu s velkými daty

trendy Genet.: TIG

2014

182

191

Fagerberg

Hallstrom

B. M.

Oksvold

Kampf

Djureinovic

Odeberg

Habuka

Tahmasebpoor

Danielsson

Edlund

et al.

skenování exprese specifické pro lidskou tkáň pomocí genomové integrace transkriptomik a proteomik na bázi protilátek

Mol. Buňka. Proteomika : MCP

2014

397

406

Bernstein

B. E.

Stamatoyannopoulos

J. a.

Costello

J. F.

v Pase

Milosavljevič

Meissner

Kellis

Marra

M. a.

Beaudet

. a. L.

Ecker

J. r. R

et al.

NIH roadmap epigenomics mapping consortium

Nat. Biotechnol.

2010

1045

1048

Hoffman

M. M.

Ernst

Wilder

S. P.

Kundaje

Harris

R. S.

Libbrecht

Giardine

Ellenbogen

P. M.

Bilmes

J. a.

Birney

et al.

integrační anotace chromatinových prvků z kódovacích dat

nukleové kyseliny Res.

2013

827

841

Derti

Garrett-Engele

Macisaac

K. D.

Stevens

pro. R

Sriram

Pes

Rohl

C. a.

Johnson

J. M.

Babak

kvantitativní atlas polyadenylation v pěti savců

Genome Res.

2012

1173

1183

Lin

M. F.

Jungreis

Kellis

PhyloCSF: srovnávací genomika metody rozlišit protein kódující a nekódující regiony

Bioinformatika

2011

i275

282

Cena

A. L.

Jones

N. C.

Pevzner

P. a.

De novo identifikaci opakovaných rodin ve velkých genomů

Bioinformatika

2005

21. Dodatek 1

i351

358

Kodzius

Kojima

Nishiyori

Nakamura

Fukuda

Tagami

Sasaki

Imamura

Kai

Harbers

et al.

CAGE: cap analýza genové exprese

nat. Metody

2006

211

222

Morris

K. V.

Mattick

J. S.

vzestup regulačních RNA

Nat. Reverend Genet.

2014

423

437

Evin

Hince

BACE1 jako terapeutický cíl u Alzheimerovy choroby: zdůvodnění a současný stav

Drogy Stárnutí

2013

755

764

Dlouhé nekódující RNA HOTAIR:román onkogenu (recenze)

Mol. Med. Rep.

2015

5611

5618

antimikrobiální peptidy ve zdraví a nemoci

N.Engl. J.Med.

2002

347

1199

1200

Modul

E. S.

Linton

L. M.

Birren

Nusbaum

Zody

M. C.

Baldwin

Devon

Dewar

Doyle

FitzHugh

et al.

Počáteční sekvenování a analýzu lidského genomu

Příroda

2001

409

860

921

Stěn

Lee

Veldman

G. M.

Finnerty

Racie

LaVallie

Tanga

X. Y.

Edouard

Howes

et al.

Syncytin je v zajetí retrovirální obálky protein, podílející se na lidské placentární morfogeneze

Příroda

2000

403

785

789

Marzluff

W. F.

Gongidi

les

K. R.

Jin

Maltais

L. J.

lidské a myší replikace závislá histonů geny

Genomika

2002

487

498

Dal

Karpiuk

Tieg

Kriegs

Dikomey

Krebber

Begus-Nahrmann

Johnsen

S. a.

podmnožina histonu H2B genů produkuje polyadenylated mRNAs v různých buněčných podmínky

PLoS One

2013

e63745

Barbosa

Peixeiro

Romao

Genové exprese nařízení o upstream open reading frames a lidské nemoci

PLoS Genet.

2013

e1003529

Rajput

Murphy

T. D.

Pruitt

K. D.

RefSeq curation a anotace antizyme a antizyme inhibitor genů u obratlovců

Nukleových Kyselin.

2015

7270

7279

Zhang

Z. Q.

Živočišné biologické rozmanitosti: Obrys vyšší úrovni taxonomie a průzkum taxonomické bohatství (Dodatky 2013)

Zootaxa

2013

3703

Holt

R. a.

Subramanian

G. M.

Halpern

Sutton

g. G.

Charlab

Nusskern

D. R.

Wincker

Clark

A. G.

Ribeiro

J. M.

Wides

et al.

sekvence genomu malárie komára Anopheles gambiae

Věda

2002

298

129

149

Knight

Arican-Goktas

H. D.

Ittiprasert

Odoemelam

E. C.

Miller

A. N.

Bridger

J. M.

schistosomy a hlemýždi: molekulární setkání

přední. Genete.

2014

230

Sekvenování Genomu, C.

Vhled do sociální hmyz z genomu rostoucí Apis mellifera

Příroda

2006

443

931

949

Xia

Zhou

Cheng

Dai

, Zhao

Zha

Cheng

Čaj

et al.

návrh sekvenci genomu domestikovaného bource morušového (Bombyx mori)

Věda

2004

306

1937

1940

Zhang

Fang

Guo

Luo

Yang

Zhang

Wang

et al.

oyster genomu odhaluje, stres, adaptace a složitosti shell formace

Příroda

2012

490

i5K, Konsorcium

i5K Iniciativy: postupující členovců genomika pro poznání, lidského zdraví, zemědělství, a prostředí

J. Dědičnost

2013

104

595

600

Vědci

G. C. o.

Bracken-Grissom

Collinsová

A. G.

Collinsová

Crandall

Distel

Dunn

Giribet

tresky Jednoskvrnné

Knowlton

, N.

et al.

Globální genomická Aliance Bezobratlých (GIGA): rozvoj komunitních zdrojů pro studium různých genomů Bezobratlých

J. Dědičnost

2014

105

Schoch

C. L.

Seifert

K. a.

Huhndorf

Robert

Spouge

J. L.

Levesque

C. a.

Pes

Bolchacova

Voigt

Crous

P. W.

et al.

jaderná ribozomální vnitřní transkribovaná distanční oblast (ITS) jako univerzální značka čárového kódu DNA pro houby

Proc. Natle. Acad. Věda. U. S. A.

2012

109

6241

6246

Visagie

C M

Houbraken

Frisvad

J. C.

Hong

S. B.

Klaassen

. C. H.

Perrone

Seifert

K. a.

Varga

Yaguchi

Samson

R. a.

Identifikace a kusovníku rodu Penicillium

Stud. Mycol.

2014

343

371

Corte

řekněme, že Cagno

Groenewald

Roscini

Colabella

Gobbetti

Fenotypová a molekulární rozmanitost Meyerozyma guilliermondii kmeny izolované z potravin a dalších ekologických výklenků, rady pro počínající speciace

Jídlo Microbiol.

2015

206

215

Federhen

Sklad materiálu v NCBI Databáze Taxonomie

Nukleové Kyseliny, Res.

2015

D1086

D1098

Nilsson

R. H.

Tedersoo

Ryberg

Kristiansson

Hartmann

Unterseher

Porter

T. M.

Bengtsson-Palme

Walker

D. M.

de Sousa

et al.

komplexní, automaticky aktualizovány plísňové JEHO pořadí údajů pro referenční bázi chiméra řízení v oblasti environmentálního sekvenování úsilí

Microb. Circa/JSME

2015

145

150

Mittelbach

Yurkov

Nocentini

Nepi

Weigend

Begerow

nektarové cukry a návštěva ptáků definují květinové lízání bazidiomycetózních kvasinek na Kanárských ostrovech

BMC Ecol.

2015

Irinyi

Serena

Garcia-Hermoso

Arabatzis

Desnos-Ollivier

Arthur

Normand

a. C.

Giraldo

et al.

Mezinárodní Společnosti Lidských a Zvířecích Mykologie (ISHAM)-JEHO referenční DNA barcoding databáze–kvalita kontrolované standardní nástroj pro rutinní identifikaci lidských a zvířecích patogenních hub

Med. Mycol.

2015

313

337

/div>

k. a.

Huhndorf

Robert

Spouge

J. L.

Levesque

C. a.

Chen

Houbové čárových kódů

Houbové čárových kódů Konsorcium Autor, L.

Jaderné ribozomální vnitřní přepisována spacer (ITS) region jako univerzální DNA barcode marker pro Houby

Proc. Natle. Acad. Věda. USA.

2012

109

6241

6246

Besemer

Lomsadze

Borodovsky

GeneMarkS: self-školení metoda pro predikci genů začíná v mikrobiálních genomů. Důsledky pro nalezení sekvence motivy v regulačních oblastech

Nukleových Kyselin.

2001

2607

2618

Borodovsky

Lomsadze

identifikace Genů v prokaryotické genomy, fágů, metagenomes, a EST sekvencí s GeneMarkS suite

Curr. Protokol. Mikrobiol.

2014

Jednotka 1 7

Tatusova

Ciufo

Federhen

Fedorov

McVeigh

O ‚ neill

Tolstoj

Zaslavsky

Aktualizovat na RefSeq mikrobiální genomy zdrojů

Nukleových Kyselin.

2015

D599

D605

Brister

J. r. R

Ako-Adjei

Bao

Blinkova

NCBI virové genomy zdrojů

Nukleové Kyseliny, Res.

2015

D571

D577

Adams

M. J.

Lefkowitz

E. J.

Král

Bamford

D. H.

Breitbart

Davison

a. J.

Ghabrial

S. a.

Gorbalenya

a. E.

Knowles

N. J.

Krell

et al.

ratifikační hlasování o taxonomických návrzích mezinárodnímu Výboru pro taxonomii virů (2015)

Arch. Objímka.

2015

160

1837

1850

Bao

Chetvernin

Tatusova

Párového Srovnávání Sekvencí (PASC) a jeho aplikace v taxonomii filoviry

Viry

2012

1318

1327

Bao

Chetvernin

Tatusova

Vylepšení párového srovnávání sekvencí (PASC): genom-webový nástroj pro odstranění taxonomie

, Arch. Objímka.

2014

159

3293

3304

Kuhn

J. H.

Durrwald

Bao

Briese

Uhličitý

–

A. N.

deRisi

J. L.

Jahrling

P. B.

Kolodziejek

et al.

taxonomická reorganizace čeledi Bornaviridae

Arch. Objímka.

2015

160

621

632

Radoshitzky

S. R.

Bao

Buchmeier

M. J.

Charrel

zdravotní sestra

–

A. N.

Clegg

C. S.

DeRisi

J. L.

Emonet

Gonzalez

J. P.

Kuhn

J. H.

et al.

minulost, přítomnost a budoucnost arenavirové taxonomie

Arch. Objímka.

2015

160

1851

1874

Brister

J. r. R

Bao

Ždanov

S. a.

Ostapchuck

Chetvernin

Kiryutin

Zaslavsky

Kimelman

Tatusova

T. a.

Virus Variace Zdrojů–nejnovější aktualizace a budoucí směry

Nukleové Kyseliny Res.

2014

D660

665

Seto

Chodosh

Brister

J. r. R

Jones

M. S.

Členové Adenovirus Výzkum, C.

použití sekvence celého genomu k charakterizaci a pojmenování lidských adenovirů

J. Ferrule.

2011

5701

5702

Matthijnssens

Ciarlet

McDonald

S. M.

Attoui

Banyai

Brister

J. R.

Buesa

Esona

M. D.

Estes

M. K.

Gentsch

J. r. R

et al.

uniformita bom kmene rotaviru navržená pracovní skupinou pro taxonomii rotaviru (RCWG)

Arch. Objímka.

2011

156

1397

1413

Brister

J. r. R

Bao

Kuiken

Lefkowitz

E. J.

Le Mercier

Leplae

Madupu

Scheuermann

R. H.

Schobel

Seto

et al.

K virového genomu anotace normy, zpráva z roku 2010 NCBI Anotace Workshop

Viry

2010

2258

2268

Brister

J. r. R

Le Mercier

J. C.

Mikrobiální genom viru anotace-sbírá vojsko k boji pořadí nápor

Virologie

2012

434

175

180

Kuhn

J. H.

Andersen

K. G.

Bao

Bavari

Becker

Bennett

R. S.

Bergman

N. H.

Blinkova

Bravfute

Brister

J. R.

et al.

Filovirus RefSeq položky: ocenění a výběr filovirus typ variant, typické sekvence, a jména

Viry

2014

3663

3682

Ako-Adjei

Wallin

Katz

K. S.

Písnička

Darji

Brister

J. r. R

pták, indispozici

R. G.

Pruitt

K. D.

HIV-1, lidské interakce databáze: aktuální stav a nové funkce

Nukleových Kyselin.

2015

D566

570

Nawrocki

E. P.

Burge

Bateman

Mazanice

Eberhardt

R. Y.

Eddy

S. R.

Floden

E. W.

Gardner

P. P.

Jones

T. a.

Tate

et al.

Rfam 12.0: aktualizace databáze rodin RNA

nukleové kyseliny Res.

2015

D130

D137

Publikoval Oxford University Press jménem Nukleových Kyselin Výzkumu 2015. Tato práce je napsána (a) zaměstnanci vlády USA a je ve veřejné doméně v USA.

Abstract

ÚVOD

refseq přístupové předpony

generování datové sady REFSEQ

přístup k datové sadě REFSEQ

RŮST A STATISTIKY

meziroční růst počtu organismů, proteinů a transkriptů reprezentovaných v komplexním release RefSeq v adresáři FTP release

OBRATLOVCŮ

RefSeqGene projektu

Inkorporaci RNA-Seq a další typy dat, v přepisu na bázi curation

Dlouhé nekódující Rna (lncRNAs)

Funkční anotace

Antimikrobiální peptidy (AMPs)

Endogenní retroviry (ERVs)

Replikace závislá histony

Regulační upstream open reading frames (uORFs)

Antizyme geny

BEZOBRATLÝCH

rostliny

ŘASY, HOUBY, HLÍSTIC A PRVOKŮ

plísňové cílené lokusy

prokaryoty

Prokaryoticky cílené lokusy

viry

BUDOUCÍ SMĚRY

financování

Napsat komentář Zrušit odpověď na komentář