- Abstract
- ÚVOD
- refseq přístupové předpony
- generování datové sady REFSEQ
- přístup k datové sadě REFSEQ
- RŮST A STATISTIKY
- meziroční růst počtu organismů, proteinů a transkriptů reprezentovaných v komplexním release RefSeq v adresáři FTP release
- OBRATLOVCŮ
- RefSeqGene projektu
- Inkorporaci RNA-Seq a další typy dat, v přepisu na bázi curation
- Dlouhé nekódující Rna (lncRNAs)
- Funkční anotace
- Antimikrobiální peptidy (AMPs)
- Endogenní retroviry (ERVs)
- Replikace závislá histony
- Regulační upstream open reading frames (uORFs)
- Antizyme geny
- BEZOBRATLÝCH
- rostliny
- ŘASY, HOUBY, HLÍSTIC A PRVOKŮ
- plísňové cílené lokusy
- prokaryoty
- Prokaryoticky cílené lokusy
- viry
- BUDOUCÍ SMĚRY
- financování
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). V RefSeq projekt využívá údaje předložené na Mezinárodní Nukleotidové Sekvence Databáze Spolupráci (INSDC) proti kombinaci výpočet, manuální curation, a spolupráci k vytvoření standardní sadu stabilní, non-redundantní referenční sekvence. Projekt RefSeq rozšiřuje tyto referenční sekvence o současné znalosti včetně publikací, funkčních vlastností a informativní nomenklatury. Databáze v současné době představuje sekvence z více než 55 000 organismy (>4800 viry, >40 000 prokaryot a >10 000 eukaryot; RefSeq vydání 71), v rozmezí od jednoho záznamu ke kompletní genomy. Tento dokument shrnuje současný stav virové prokaryotické a eukaryotické větve RefSeq projektu, zprávy o zlepšení přístupu k datům a podrobnosti úsilí k dalšímu rozšíření taxonomické zastoupení kolekce. Jsme také upozornit na různorodé funkční curation iniciativ, které podporují vícenásobné použití z RefSeq dat, včetně taxonomické ověření, anotace genomu, srovnávací genomika a klinické testování. Shrneme náš přístup využívající RNA-Seq a další typy dat, v našem manuální curation procesu obratlovců, rostlin a jiných druhů, a popsat nový směr pro prokaryotické genomy a bílkovin jméno managementu.
ÚVOD
Za posledních 15 let Národního Centra pro Biotechnologické Informace (NCBI) RefSeq databáze sloužil jako základní zdroj pro genomu, genetické a proteomic výzkumu. V RefSeq projektu je poskytování kurátor a stabilní komentovaný referenční genomy, transkripty a proteiny pro vybrané viry, mikroby, organely a eukaryotní organismy, umožnila výzkumníci zaměřit se na nejlepší zástupce sekvence dat, na rozdíl od redundantních dat v GenBank, a jednoznačně referenční specifických genetických sekvencí. Kolekce RefSeq poskytuje explicitně propojený genom, přepis, a záznamy sekvencí proteinů, které obsahují publikace, informativní nomenklatura, a standardizované a rozšířené anotace funkcí. RefSeq záznamy jsou integrovány do NCBI zdroje včetně Nukleotidů, Proteinů, a BLAST databázemi a může být snadno identifikovat klíčové slovo ‚RefSeq a jejich odlišné přistoupení předpony, které definují jejich typu (Tabulka 1). Všechny údaje RefSeq podléhají kontrolám quality assurance (QA) s některými specializovanými QA testy vyvinutými pro různé taxony nebo datové typy. Například, všechny virové RefSeqs podléhají taxonomickému přezkumu zaměstnanci NCBI před veřejným vydáním. RefSeq přistoupení jsou široce citován ve vědeckých publikacích a genetické databáze, protože poskytují stabilní a konzistentní souřadného systému, které mohou být použity jako základ pro hlášení gen konkrétní údaje, klinické rozdíly, a mezidruhového srovnání. Tyto standardy referenční sekvence jsou stále důležitější, protože přesné podávání zpráv a reprodukovatelnost jsou životně důležitými součástmi osvědčených postupů v biomedicínském výzkumu (1).
refseq přístupové předpony
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy |
AP_3 | bílkovin | Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
XP_3,5 | bílkovin | Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
YP_3 | bílkovin | Proteiny komentovaný na genomické molekuly bez instance přepis záznamu |
WP_6 | protein | proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu |
Prefix . | typ molekuly . | použít kontext . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy |
AP_3 | bílkovin | Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
XP_3,5 | bílkovin | Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
YP_3 | bílkovin | Proteiny komentovaný na genomické molekuly bez instance přepis záznamu |
WP_6 | protein | proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu |
1 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 čísel následuje pořadové číslo verze.
2ο kompletní přistoupení formát se skládá z předčíslí, následuje INSDC přistoupení číslo, které RefSeq záznam je založen na následovaný RefSeq pořadové číslo verze.
3 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 nebo 9 čísel, následuje pořadové číslo verze.
4Records s tímto přistoupení prefix byly kurátorkou NCBI zaměstnance nebo modelový organismus databáze, nebo jsou v bazénu o přistoupení, která se kurátoři pracovat. Tyto záznamy jsou označovány jako „známý“ datový soubor RefSeq.
5Records s tímto přistoupení předpony jsou generovány buď prostřednictvím eukaryotní genom anotace potrubí, nebo malé eukaryotní genom anotace potrubí. Záznamy generované první metodou jsou označovány jako dataset „model“ RefSeq.
6úplný formát přístupového čísla se skládá z předpony, včetně podtržítka, následovaného 9 čísly následovanými číslem verze. Číslo verze je vždy ‚.1‘ protože tyto záznamy nejsou předmětem aktualizace. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy |
AP_3 | bílkovin | Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
XP_3,5 | bílkovin | Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
YP_3 | bílkovin | Proteiny komentovaný na genomické molekuly bez instance přepis záznamu |
WP_6 | protein | proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu |
Prefix . | typ molekuly . | použít kontext . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiny anotované na nm_ transcript accessions nebo anotované na genomických molekulách bez instantního transkriptu (např. některé mitochondriální genomy, virové genomy a referenční bakteriální genomy |
AP_3 | bílkovin | Proteiny komentovaný na AC_ genomické přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
XP_3,5 | bílkovin | Proteiny komentovaný na XM_ přepis přistoupení nebo komentovaný na genomické molekuly bez instance přepis záznamu |
YP_3 | bílkovin | Proteiny komentovaný na genomické molekuly bez instance přepis záznamu |
WP_6 | protein | proteiny, které nejsou redundantní napříč více kmeny a druhy. Jediný protein tohoto typu mohou být komentovaný na více než jeden prokaryotického genomu |
1 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 čísel následuje pořadové číslo verze.
2ο kompletní přistoupení formát se skládá z předčíslí, následuje INSDC přistoupení číslo, které RefSeq záznam je založen na následovaný RefSeq pořadové číslo verze.
3 kompletní přistoupení číslo formát se skládá z předčíslí, včetně podtržítka, následuje 6 nebo 9 čísel, následuje pořadové číslo verze.
4Records s tímto přistoupení prefix byly kurátorkou NCBI zaměstnance nebo modelový organismus databáze, nebo jsou v bazénu o přistoupení, která se kurátoři pracovat. Tyto záznamy jsou označovány jako „známý“ datový soubor RefSeq.
5Records s tímto přistoupení předpony jsou generovány buď prostřednictvím eukaryotní genom anotace potrubí, nebo malé eukaryotní genom anotace potrubí. Záznamy generované první metodou jsou označovány jako dataset „model“ RefSeq.
6úplný formát přístupového čísla se skládá z předpony, včetně podtržítka, následovaného 9 čísly následovanými číslem verze. Číslo verze je vždy ‚.1‘ protože tyto záznamy nejsou předmětem aktualizace. Viz on-line dokumentace pro další informace: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
V posledních letech pokročilé techniky sekvenování umožnila podstatné zvýšení celého genomu shromáždění podání do veřejných databází. Jako výsledek, RefSeq projekt má concordantly rozšířit hloubku a šíři taxonů zahrnutých v datovém souboru a to především prostřednictvím zlepšení několik in-house anotace potrubí. Všechny taxony jsou v prostoru pro zařazení RefSeq; anotace je však často omezena na ty organismy, pro které je k dispozici vysoce kvalitní sestava primárního genomu s nespornými informacemi o organismu. Můžeme tedy vyloučit některé kategorie údajů, které nesplňují naše standardy kvality. Vyloučit soubory údajů zahrnují: metagenomes, sestavy s nízkými contig N50 hodnoty nebo zejména vysoký počet neumístěných lešení/contigs (tj. vysoká fragmentace), nebo genomy, které mají významný nesoulad nebo indel změna ve srovnání s jinými úzce souvisí genomy druhů (např. některé prokaryot).
jedinečným aspektem datové sady RefSeq je kombinovaný přístup využití výpočtů, spolupráce a kurace vědeckými pracovníky NCBI. Jako velké bioinformatika zařízení, NCBI investovala do rozvojových robustní procesu toků vytvářet anotace a provést zajištění kvality testy pro eukaryotické a prokaryotické genomy, transkripty a proteiny. Zlepšení toku procesu virových genomů probíhá. Skupina RefSeq spolupracuje s řadou odborných skupin včetně úředních nomenklaturních orgánů (např. HUGO Gene Nomenklature Committee (HGNC) a Zebrafish Information Network (Zfin) pro názvy lidských a zebrafish genů), UniProtKB (názvy proteinů) a miRBase (mikroRNA) (2-5). Tyto, a další, spolupráce, pomoci udržet a zlepšovat kvalitu RefSeq soubor dat prostřednictvím QA zpráv, výměny genu a sekvence informace, a výměn funkčních informace. Zaměstnanci NCBI také poskytují kurátorskou podporu pro viry, prokaryoty, eukaryoty,organely, plazmidy a cílené projekty včetně kurátorských genů a sekvencí pro Homo sapiens, Mus musculus a další organismy. Kurátoři RefSeq zlepšují kvalitu databáze prostřednictvím kontroly výsledků testů QA, zapojení do výběru určitých vstupů pro zpracování anotace genomu, analýza sekvencí, taxonomická analýza, a funkční přezkum. Curation také podporuje vylepšení potrubí anotace genomu, protože odborníci na obsah pomáhají definovat programové přístupy k modelování typické i atypické biologie. Pro eukaryot, zejména savců, přepis na bázi curation definuje „nejlepší“ sekvence zástupců (jako „známé“ RefSeqs; Tabulka 1 pozn. pod čarou), které jsou používány jako primární vstup činidla na eukaryotní genom anotace potrubí (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Zlepšení kvality vstupního činidla zase přidává významnou kvalitu a reprodukovatelnost výsledné anotace genomu. Tento typ manuálního kurátorství byl historicky zaměřen na člověka a myši kvůli jejich jedinečnému biomedicínskému významu (6). V poslední době tyto curation úsilí věnována větší pozornost Rattus norvegicus, Danio rerio, Bos taurus, a Gallus gallus. Tyto druhy jsou důležité pro lidské zdraví i zemědělskou udržitelnost.
V této knize, jsme zprávu o našem pokroku v rozšiřování RefSeq dataset zahrnout více různých organismů, popisují zlepšení v přístupu k datům, a poskytnout příklady ilustrující větší zaměření na poskytování fylogeneticky užitečných datových souborů, stejně jako funkční prvek anotace na RefSeq přepis a bílkovin záznamy. Předpokládáme, že toto úsilí a vylepšení v datovém souboru RefSeq budou i nadále přispívat k rozvoji lékařského translačního výzkumu, zemědělská vylepšení, fylogenetická identifikace, a evoluční studie.
generování datové sady REFSEQ
záznamy sekvence RefSeq jsou generovány různými metodami v závislosti na třídě sekvence a organismu. Archaeal a bakteriálních genomů (viz Prokaryot sekce) jsou komentovaný s použitím NCBI je prokaryotického genomu anotace potrubí (http://www.ncbi.nlm.nih.gov/books/NBK174280/), zatímco malý počet referenčních bakteriální genomy jsou podporovány spolupráci a manuální curation. RefSeq eukaryotické genomy jsou poskytovány pomocí dvou procesních toků. Většina genomů rostlin, zvířat, hmyzu a členovců je anotována potrubím pro anotaci eukaryotického genomu. Tento plynovod generuje anotace výsledky na základě dostupných přepis dat (včetně RNA-Seq a transcriptome brokovnice shromáždění (TSA) data), stejně jako protein homologie, ab initio predikce (do značné míry, když transcriptome údaje nejsou k dispozici), a jsou k dispozici známé (kurátor) RefSeq transkriptů a proteinů (viz Tabulka 1). Anotace generovaná potrubím (Model RefSeqs) může nebo nemusí mít podporu pro úplnou kombinaci exon z jediného zarovnání důkazů, ale může mít podporu RNA-Seq pro páry exon. Eukaryotické genomy, které byly anotovány pomocí tohoto plynovodu jsou hlášeny veřejně s odkazy na stažení dat pomocí FTP, zobrazit nebo provést VÝBUCH dotazu proti anotovaného genomu, nebo pro přístup k podrobné anotace souhrnná zpráva (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Potrubí pro podmnožinu eukaryot včetně hub, prvoků a hlístic zahrnuje rozmnožovací anotace, které byly předloženy na Mezinárodní Nukleotidové Sekvence Databáze Spolupráci (INSDC), standardizace formátu, na RefSeq kopie předložených genomu shromáždění (viz Řasy, Houby, Hlístic a Prvoků).
zaměstnanci NCBI poskytují většinu anotace genomu RefSeq organelle prostřednictvím propagace z podání INSDC. Anotace savčích mitochondrií je často doplněna manuální kurací. V RefSeq projekt také udržuje referenční sekvence pro cílené loci projekty jako RefSeqGene, který je členem Locus Referenční Genomové (LRG) spolupráce (7), pro houbové a bakteriální ribozomální rRNA loci, a pro plísňové vnitřní přepisována distanční sekvencí (ITS) (8). Kromě toho, značný počet lidských, myš, a další transkripty a proteiny jsou poskytovány prostřednictvím spolupráce a ruční správu, která zahrnuje sekvence analýzy a přehled literatury.
NCBI je prokaryotické (viz níže) a eukaryotické anotace potrubí drželi krok s rostoucím počtem genomu sestavy předložené INSDC tím, že poskytuje konzistentní anotace na RefSeq kopie z vybrané vysoce kvalitní genom předložených sestav. K dnešnímu dni, 245 eukaryotických genomů, včetně 170 genomy obratlovců, byly poznámkou tohoto potrubí, z nichž více než 120 druhů byly komentovaný v posledních 20 letech. Do této skupiny patří 52 druhů ptáků, které zahrnují reprezentativní druhy většiny ptačích řádů (9,10). Došlo také k významnému rozšíření počtu sestav označených RefSeq pro primáty, jiné savce, ryby, rostliny, a členovci.
přístup k datové sadě REFSEQ
domovská stránka RefSeq http://www.ncbi.nlm.nih.gov/refseq/ je centrálním rozbočovačem pro všechny aspekty datové sady RefSeq. Tato stránka obsahuje odkazy, které vedou uživatele prostřednictvím obecný popis projektu, stejně jako přehledy, statistiky růstu a informace o více zaměřena RefSeq projekty jako Prokaryotického genomu re-anotace iniciativy, Konsensus Kódující Sekvence (CCD) projekt (11) RefSeqGene projektu, a Cílené Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) projektů. Odkazy na nejaktuálnější komplexní FTP vydání a podrobné dokumentace na formátu a obsahu vydání lze nalézt v ‚Oznámení‘ sekce RefSeq domovskou stránku. Předchozí RefSeq oznámení jsou také k dispozici na této stránce. Důrazně doporučujeme, stahování RefSeq data přímo z NCBI, jako stahování z jiných bioinformatika a genome browser zdrojů nemusí obsahovat všechny dostupné údaje, nebo může pouze odrážet zarovnání RefSeq přepisy do genomu spíše než genom anotace výsledky, které jsou generovány pomocí NCBI.
RefSeq sekvenční data lze přistupovat interaktivně pomocí NCBIs Nukleotidových a Proteinových databází, BLAST databází, přes NCBI je programové rozhraní (E-služby), nebo přes FTP (file transfer protocol). E-nástroje podpory skriptů přístup ke stažení RefSeq dat v různých formátech založených na obou vyhledávacích termínů či přistoupení seznamy; rozsáhlá dokumentace je k dispozici v NCBI Příručka (www.ncbi.nlm.nih.gov/books/NBK25501/) a školení videa jsou k dispozici z NCBI YouTube kanál (https://www.youtube.com/user/NCBINLM). Databáze nukleotidů i proteinů umožňují omezit výsledky dotazů pouze na záznamy RefSeq výběrem položky „RefSeq“ pod „zdrojovou databází“ na postranním panelu filtrů. RefSeq data mohou být také přístupné z dalších NCBI databázích včetně Montáže, BioProject, Gen, Genom tím, že tyto odkazy poskytovány Nukleotidů, Bílkovin, nebo FTP zdroje Informací o curation změny v RefSeq skupiny nebo NCBI aktualizace, které mají vliv na RefSeq databáze jsou hlášeny prostřednictvím několika zdrojů, včetně RefSeq FTP poznámky k vydání, pravidelně publikované zprávy, NCBI Oznámení Novinek http://www.ncbi.nlm.nih.gov/news/ a přes NCBI Postřehy Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Uživatelé mohou také přihlásit k odběru refseq-oznámit mailem seznam dostávat pravidelné aktualizace o projektu a shrnutí obsahu jednotlivých RefSeq FTP vydání (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
RefSeq data jsou distribuována přes FTP přes dvě místa, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) a genomů (ftp://ftp.ncbi.nlm.nih.gov/genomes/). V refseq FTP poskytuje denní aktualizace všech nových a aktualizovaných RefSeq záznamů, týdenní aktualizace některé typy dat, a to bi-měsíční komplexní RefSeq vydání (/refseq/release/). Kromě toho, vybrané transkripce specifické pro organismus a datové sady proteinů, včetně člověka a myši, jsou aktualizovány každý týden. Podadresář RefSeqGene je denně aktualizován, s vyrovnáním genomu uvolněným při každém běhu anotace. Komplexní dvouměsíční vydání RefSeq je organizováno taxonomickými (např. savci obratlovců) nebo jinými seskupeními (např. mitochondrie). Data lze také stáhnout pro celou kolekci RefSeq z adresáře/refseq/release/ complete/. Release RefSeq nabízí výhodu pro ty, kteří chtějí udržovat pravidelné aktualizace buď kompletní kolekce, nebo jedné skupiny. Zahrnuje také záznamy, které nejsou k dispozici na FTP serveru doprovodných genomů, například přepisy ve sbírce, které jsou udržovány nezávisle na, a nemusí být aktuálně anotovány, sestava genomu. Vydání je k dispozici s významným dokumentace soubory nainstalované (/refseq/vydání/release-katalog/) včetně MD5 kontrolní součty, seznam všech nainstalovaných souborů, stejně jako poznámky a oznámení (/refseq/vydání/release-notes/).
RefSeq data lze také stáhnout z FTP serveru genomes. V srpnu 2014 NCBI oznámil zásadní reorganizaci tohoto FTP serveru, který nyní poskytuje montáž a organismu-založený přístup k oběma GenBank a RefSeq genomů (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Tento adresář je dále rozdělen do podadresářů založených na stejných skupinách, které se používají v release RefSeq, z nichž každá poskytuje další dílčí rozdělení podle druhů. Genomy FTP stránky poskytují soubory zastupující všechny RefSeq genomu sestavy hlášeny v NCBI Shromáždění zdrojů (www.ncbi.nlm.nih.gov/assembly/). Výhodou genomů stránky je, že data mohou být zobrazena v sestavě – nebo-organismus specifickým způsobem. Poskytnuté údaje zahrnují sekvenci genomu a produktu (transkript/protein), anotaci, sestavy a statistiky a kontrolní součty MD5; tato data jsou aktualizována, když je aktualizována sestava genomu a / nebo anotace. Tato oblast nezahrnuje RefSeq sekvence, které jsou mimo rozsah sestavy genomu nebo produkty, které nejsou anotovány na genomu.
RŮST A STATISTIKY
RefSeq FTP vydání 71 (červenec 2015) obsahuje více než 77 milionů sekvence záznamů pro více než 55 000 organismů. Tabulka 2 shrnuje růst RefSeq dataset v loňském roce z hlediska organismů a počet pořadí záznamů zastoupeny na každé RefSeq vydání adresáře FTP prostoru. Bakteriální genom a proteiny tvoří většinu RefSeq dataset (56% z celkového přistoupení a 76% >52 milionů bílkovin přistoupení). Významné zvýšení počtu organismů, proteiny, a celkové záznamy jsou pozorovány u bezobratlých, rostlina, a eukaryotické organismy, což je v souladu se zvýšeným počtem a propustností projektů sekvenování genomu. Významným faktorem pro pokračující vysokou rychlost růstu dat RefSeq jsou zlepšení v genomových potrubích, které generují anotované genomy RefSeq. Nejvíce pozoruhodně, to zahrnuje zvýšení kapacity v NCBI je prokaryotického genomu anotace potrubí, re-vývoj procesu tok, který se šíří anotace od eukaryotické genové banky genomů na RefSeq genomů, a začlenění RNA-Seq důkazy v NCBI je eukaryotní genom anotace potrubí a jeho vliv na generování modelu RefSeqs (XM_, XR_ a XP_ přistoupení, Tabulka 1).
meziroční růst počtu organismů, proteinů a transkriptů reprezentovaných v komplexním release RefSeq v adresáři FTP release
Release Directory . | organismy . | % Změna . | Přepisy . | % Změna . | proteiny . | % Změna . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Změna . | Přepisy . | % Změna . | proteiny . | % Změna . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (např. archaea.acc_taxid_growth.txt a související soubory). Procentní roční změna je založena na porovnání počtu dat pro RefSeq release 71 (červenec 2015) a RefSeq release 66 (červenec 2014).
Release Directory . | organismy . | % Změna . | Přepisy . | % Změna . | proteiny . | % Změna . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Změna . | Přepisy . | % Změna . | proteiny . | % Změna . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (např. archaea.acc_taxid_growth.txt a související soubory). Procentní roční změna je založena na porovnání počtu dat pro RefSeq release 71 (červenec 2015) a RefSeq release 66 (červenec 2014).
dramatický pokles počtu plazmidových proteinů záznamy, a tak v počtu celkem přistoupení, odráží dokončení RefSeq bakteriální genom re-anotace projektu (http://www.ncbi.nlm.nih.gov/refseq/o/prokaryot/reannotation/) a přijetí nového datového modelu pro prokaryot, včetně jejich plazmidy. V tomto novém modelu dat jeden RefSeq non-nadbytečné bílkoviny přistoupení, mohou být komentovaný na více než jeden genomické sekvence záznamu při překladu z těch genomické protein-kódujících regionů výsledky ve stejné proteinu (viz http://www.ncbi.nlm.nih.gov/refseq/o/nonredundantproteins/). Redundance ve všech bakteriálních proteinech se také významně snížila; nicméně, to zde není patrné kvůli pokračujícímu významnému zvyšování počtu bakteriálních genomů zahrnutých do datové sady. Tyto změny také vedly k celkovému poklesu počtu archaeálních proteinových záznamů.
OBRATLOVCŮ
vyberte skupinu obratlovců, včetně Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus a Danio rerio jsou hlavním zaměřením naší přepis a literatury založené na manuální curation úsilí. Kurátoři obecně pracují na seznamech genů s datovými konflikty identifikovanými testy quality assurance (QA), z nichž některé byly dříve popsány (12). Budou následovat podrobný soubor pokynů při analýze každého genu, s cílem zajistit cross-osoba konzistence v kurátoři dataset. Tato analýza zahrnuje hloubkové hodnocení sekvencí a přehled literatury k vytvoření referenčních transkriptů, proteiny, pseudogeny a záznamy RefSeqGene. RefSeq kurátoři generovat přepis variant, vyřešit sled chyb, odstranit nepřesné informace, aktualizovat záznamy, aby správně reprezentovat biologie locus a přidat cenné praktické informace k některé RefSeq záznamy, jako jsou lepší protein názvy, shrnutí funkce genu výrobku, funkční vlastnosti genu, a/nebo příslušné publikace. Manuální curation a literatury pomocí RefSeq skupiny může vyústit v zastoupení jedinečných variant a izoforem, které by neměly být předpovídal, když pouze na základě výpočtové analýzy. Například, literatury lidský tumor supresorový gen PTEN (fosfatázový a tensin homolog, GeneID: 5728) odhalila existenci delší proteinové izoformy vyplývající z použití alternativního in-frame proti proudu CUG zahájení kodonu našel ve středu palindromní sekvence upstream kanonické mRNA překlad start kodonu (13). Silné experimentální údaje ukázaly, že tato mitochondriální specifická izoforma iniciuje spíše leucinem než methioninem (14). Datový model RefSeq pro eukaryoty poskytuje jeden přepis explicitně spojený s jedním proteinem. Proto, dvě identické přepis záznamů byly poskytnuty, aby odrážely překlad z alternativní iniciační kodony; NP_000305.3 představuje 403 aminokyselin proteinu, který používá kanonické methionin start kodonu, zatímco NP_001291646.2 představuje mitochondriální-lokalizované 576 aminokyselina protein, který iniciuje s leucinu. To znamená, že curation procesu slouží dvojí účel poskytuje přesné referenční sekvence, které usnadňují přesné a reprodukovatelné anotace genomu a poskytuje záznamy, které obsahují relevantní biologické informace. V této části diskutujeme o nedávných aktualizacích, vylepšení, která jsme provedli v našem manuálním kurátorském procesu, a příklady cílených kurátorských projektů.
RefSeqGene projektu
RefSeqGene sub-projektu definuje lidské genomové sekvence mají být použity jako referenční standardy pro dobře charakterizovaných genů, zejména pro použití v klinické genetiky společenství. Tyto sekvence slouží jako stabilní základ pro hlášení patogenních variant, pro stanovení konvencí pro číslování exonů a intronů a pro definování souřadnic jiných variant. Každý záznam RefSeqGene se zaměřuje na genově specifickou genomovou oblast a obvykle je anotován podmnožinou transkriptů RefSeq a proteinů vybraných odborníky na domény. Tyto výběry určují funkce exon. Zarovnání starších verzí kanonického RefSeq transkriptu / proteinu, stejně jako dalších známých Refseq, jsou zahrnuty. Tyto záznamy obvykle zahrnují 5 kilobází (kb) sekvence upstream zaměření genu, a 2 kb pořadí po proudu, na podporu zastoupení potenciálních regulačních míst nebo delece přesahující genové funkce. Záznam RefSeqGene může obsahovat informace o anotaci pro jiné geny, které se nacházejí v jeho hranicích. Záznamy RefSeqGene jsou zpočátku přezkoumávány databázemi specifickými pro locus a zaměstnanci NCBI. RefSeqGene je členem lrg collaboration (7), který poskytuje další přehled sekvenčních dat před přidáním přistoupení LRG. Nedávné pracovní zaměření rozšířilo počet záznamů RefSeqGene tak, aby představovaly všechny geny, pro které byly do registru NIH Genetic Testing Registry (GTR) předloženy alespoň dva klinické testy. V současné době existuje 5596 záznamů RefSeqGene, z nichž 633 má přístup k LRG. RefSeqGene záznamy mohou být vyvolány tím, že prohledává Nukleotidové databáze s refseqgene‘, jejich LRG přistoupení, procházením RefSeqGene webové stránky (www.ncbi.nlm.nih.gov/refseq/rsg/), nebo FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
Inkorporaci RNA-Seq a další typy dat, v přepisu na bázi curation
hlavním cílem RefSeq curation projektu je představovat kvalitní a full-délka transkriptu a proteinu referenční sekvence. Jako taková jsou naše kurátorská kritéria primárně založena na konvenčním transkriptu (mRNA a ESTs) a zarovnání proteinů a publikovaných důkazech. Projekty transkriptomů obratlovců se však staly stále složitějšími s většinou nových přepisových dat v současné době generovaných technologií sekvenování krátkého čtení. Studie v celém genomu zkoumající globální vzorce epigenetických značek spojených s promotory také poskytují důkazy o aktivních promotorech a / nebo aktivní transkripci. V RefSeq skupina upravila curation postupy, jak začlenit tyto nové datové typy, aby posílily naše ruční anotace, a to zejména v případech, kdy gen nebo varianta postrádá bohaté konvenční přepis podporu. Tyto RNA-Seq a epigenomic studie přinesly obrovské soubory dat, které představují výzvu pro gen anotace skupin, například prostřednictvím potenciálních falešných pozitivit a nedostatek podpory pro dlouhý dosah exon kombinace (15). Kurátoři RefSeq zmírňují falešně pozitivní výsledky selektivním začleněním pouze vysoce kvalitních datových souborů pro zvážení do našeho kanálu anotace genomu a do procesu manuální anotace. RefSeq kurátorů představit přepis zarovnání, změna údajů, a filtruje RNA-Seq dat v upravené zobrazuje v rámci in-house alignment tool začleněna do NCBI Genomu Workbench platformy (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation lidských genů od analyzována RNA-Seq čte z Illumina BodyMap 2 (BioProject: PRJEB2445) a Human Protein Atlas projektů (BioProject: PRJEB4337) (16). Navíc kurátoři použití promoter související modifikace histonů značky jako H3K4me3 z NIH Plán Epigenomic Mapování Consortium (REMC; (17) a projektu ENCODE (Encyclopedia of DNA Elements) (18) k ověření přítomnosti aktivního promotoru. Kurátoři RefSeq také hodnotí data polyA-seq, aby potvrdili úplnost 3 ‚ přepisů bez Polya tail (19). Další datové typy, včetně PhyloCSF (20), CpGIslands, RepeatMasker (21) a Cap analýzy genové exprese (KLEC) data (22), se někdy používají jako dodatečná podpora.
Dlouhé nekódující Rna (lncRNAs)
RefSeq skupina i nadále výrazně rozšířit o zastoupení non-kódování strukturální – a mikro-Rna, přepsána pseudogenes, a do značné míry uncharacterized lncRNAs. Tato třída genů je obecně definována jako transkripty > 200 NT na délku, které postrádají silný potenciál kódující proteiny (23). záznamy Lncrna RefSeq jsou generovány kurací a potrubím anotace eukaryotického genomu pro geny lncRNA. NCBI v současné době udržuje více než 540 000 eukaryotické lncRNA RefSeq záznamy, z nichž více než 6700 byly kurátor a jen pár set byly funkčně charakterizovány. Z nich mnohé byly zapojeny do lidských onemocnění, jako jsou BACE1-AS, které mohou hrát roli v patofyziologii Alzheimerovy choroby, a HOTAIR, která byla spojena s více druhy rakoviny (24,25). Drtivá většina lncRNAs neznámé funkce a absence dlouhý otevřený čtecí rámce představuje výzvu, pokud jde o potvrzení úplnosti záznamu. Kromě toho, lncRNA podání INSDC jsou do značné míry založené na Tsa od krátkých číst datové soubory, které mohou zahrnovat artefaktnímu exon kombinace. RefSeq kurátorů zaujmout konzervativní přístup k zastupující lncRNA geny, pouze ruční vytváření RefSeqs (s NR_ přistoupení prefix) pro vysoce kvalitní přepisy pro které máme nějaké jistoty exon struktury. V ideálním případě, přepis, podpora by měla být sestříhané s nejméně třemi exons ale dva-exon a intronless přepisy mohou být zastoupeny, pokud jsou podporovány promotér-spojené epigenomics, poly(A) důkazy, další cDNAs, a/nebo RNA-Seq dat. Záznamy RefSeq lncRNA pro nekódující geny lze získat z nukleotidové databáze NCBI pomocí vyhledávacího řetězce „biomol ncrna lncrna“ a výběrem filtru RefSeq z levého sloupce.
Funkční anotace
jedinečný přínos kurátor eukaryotické RefSeq přepis záznamů je, že se budou integrovat funkční informace s referenční sekvence. RefSeq curation personál přidává gen shrnutí, názvosloví, přepis varianta textu, gene a pořadí atributů, a funkční prvky, které jsou k dispozici na RefSeq záznam a/nebo prostřednictvím Genových zdrojů (http://www.ncbi.nlm.nih.gov/gene). V minulém roce, RefSeq zaměstnanci vykonávali několik hloubkových anotace projektů, z nichž některé jsou stručně popsány v následujících odstavcích, přidat funkční data do konkrétní sady genů, kde výpočetní nástroje, které jsou schopny přesně představují biologické znalosti. Tyto projekty zahrnují anotaci antimikrobiálních peptidů, endogenních retrovirů, histonů závislých na replikaci, regulačních uorf a antisymů.
Antimikrobiální peptidy (AMPs)
Zesilovače byly nedávné curation zaměření (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Zesilovače jsou přirozeně se vyskytující peptidy, které se nacházejí v rozmanité škále druhů a byly zapojeny do mnoha imunitních rolí, včetně baktericidních, antivirových, antifungálních a dokonce protinádorových aktivit. Seznam více než 130 lidské geny kódující jeden nebo více experimentálně prokázáno, Zesilovače byly shromážděny z několika veřejně dostupných AMP soubory dat a také těží z publikací. Většina z těchto zesilovačů nebyla dříve identifikována v databázi RefSeq, a žádná z databází AMP nepřipojila peptidy k jejich kódujícímu genu. RefSeq kurátoři ručně anotovány na RefSeq záznamy pro každou AMP-kódování lidský gen, aby bylo zajištěno, že funkční peptid byl komentovaný, zahrnout publikace popisující antimikrobiální aktivity peptidů, přidat stručný souhrn popisující antimikrobiální aktivitu kódovaného AMP, a ukládat nové RefSeq atribut ‚Protein má antimikrobiální aktivita, která je zahrnuta v RefSeq atribut strukturovaný komentář (např. NM_001124.2 pro ADM; GeneID: 133). Chcete-li získat přístup ke všem kurátorským záznamům lidského transkriptu nebo proteinového AMP, prohledejte databázi nukleotidů nebo proteinů pomocí „Protein má antimikrobiální aktivitu“. V současné době toto vyhledávání najde 191 záznamů RefSeq, včetně variant splice a proteinových izoform.
Endogenní retroviry (ERVs)
Endogenní retroviry (ERVs) jsou genomových lokusů, které jsou odvozeny z rodového vložení exogenního retroviru do hostitelského genomu. ERV loci jsou obecně mimo prostor pro RefSeq; nicméně, my komentovat full-délka ERV protein-kódujících lokusů, které jsou mapovány na jeden genomické umístění v případě, že se vyvinuly sloužit řadu funkcí, jsou spojeny s chorobou, a/nebo pokud byly přiřazeny názvosloví oficiální nomenklatury výboru. Asi 8% lidského genomu je retrovirální původu (27); nicméně vzhledem k jejich prastarý původ, většina lidských ERV loci nahromadily nesmysl mutace a již může kódovat protein. Známou výjimkou jsou syncytinové proteiny, které se podílejí na vývoji placenty (28). Lidské syncytin-1 a syncytin-2 proteiny jsou kódovány ERVW-1 (NM_001130925.1, NM_014590.3) a ERVFRD-1 (NM_207582.2) geny. K dnešnímu dni jsme vytvořili 67 RefSeqs pro ERV loci, který zahrnuje záznamy představující ERV geny z rozmanité sady savců. Pro tyto záznamy byla vytvořena nová kategorie atributů RefSeq s názvem „endogenní retrovirus“ a objevuje se ve strukturovaném komentáři k záznamu RefSeq. Tyto záznamy lze získat z databáze nukleotidů hledáním „endogenního retroviru“.
Replikace závislá histony
rychlé syntéza histonů mRNAs je nutné během buněčného dělení, aby se produkovat velké množství proteinů histonů. Rozhodující pro tento proces jsou histonové geny závislé na replikaci, které jsou upregulovány během fáze G1 / s buněčného cyklu (29). Konkrétní RefSeq projekt byl realizován s cílem kurátorství kompletní sadu replikace závislá histonů protein kódujících genů u člověka a myši. Tyto geny mají kanonický 3′ histonů následný prvek (HDE) sekvence v genomu sekvence a výsledné zralý mRNAs charakteristicky nedostatek poly(A) ocasy a místo toho ukončit krátce po RNA stem-loop struktury (30). Na HDE prvek se nachází na předchůdce přepis ale není zahrnut zpracovaný přepis zastoupena RefSeq. Umístění konzervované 16 nukleotidové sekvence struktury kmenové smyčky je uvedeno na záznamu RefSeq jako anotace vlastností s názvem „kmenová smyčka“. Příklad lze vidět na položce RefSeq NM_003539. 3 pro HIST1H4D (GeneID: 8360). K dnešnímu dni, 127 lidské a myší replikace závislá histonů RefSeq záznamy byly kurátor a RefSeq přidán atribut, který může být použit k načtení těchto záznamů z Nukleotidové databáze pomocí vyhledávací řetězec ‚replikace závislá histonů‘.
Regulační upstream open reading frames (uORFs)
Překlad proudu otevřený čtecí rámec (uORF) může negativně ovlivnit překlad primárního proteinu-kódování otevřený čtecí rámec (pORF) (31). Tento efekt ne vždy úplně umlčí translaci pORF a může být závislý na typu buňky, vývojovém stavu nebo buněčném stavu. Proto, ačkoli uORFs lze předvídat ze šestirámového překladu přepisu, regulační účinek tohoto prvku musí být stanoven experimentální validací. RefSeq kurátoři přezkoumána literatuře najít přepisy s experimentální důkazy o regulační uORFs a aktualizované odpovídající RefSeq přepis záznamů přidat misc_feature označující umístění těchto uORFs. Příkladem je položka RefSeq NM_000392.4 pro ABCC2 (GeneID: 1244). Byla vytvořena nová kategorie atributů RefSeq s názvem „regulační uORF“, která se objevuje ve strukturovaném komentáři k těmto záznamům RefSeq. Jak anotovaný prvek, tak atribut citují podpůrnou publikaci PubMed ID. K dnešnímu dni, 260 záznamy byly komentovaný s tímto atributem a tyto záznamy mohou být vyvolány z Nukleotidové databáze vyhledávání pro regulační uORF ‚
Antizyme geny
Jedním z cílů RefSeq projektu je představují geny s výjimečnou biologie, které nemají následovat standardní dekódování pravidla syntézy proteinů. Je ornitin dekarboxyláza antizyme gen je takový příklad, kde naprogramované +1 ribozomální frameshifting mechanismu dochází a nelze předvídat konvenční výpočetní nástroje. Sada obratlovců antizyme přepis a bílkovin záznamy byly v poslední době předmětem ruční anotace úsilí k vytvoření standardů ke zlepšení anotace těchto genových produktů, které eukaryotní genom anotace potrubí (32). V RefSeq záznamy byly ručně anotovány s split CD funkce, aby odrážely ribozomální skluz, a zahrnují ‚ribozomální skluz‘ atribut s publikovanými důkazy, různé různé funkce anotace (např. umístění posunovými stránky) a stručný souhrn popisující funkce a nové vlastnosti genu (např. NM_139081.2). Tyto záznamy lze získat buď z nukleotidové nebo proteinové databáze pomocí vyhledávacího dotazu: vertebrates refseq ribozomální slippage antistyme. Toto hledání v současné době najde 242 záznamů RefSeq (NM nebo NP), které zahrnují varianty přepisu a izoformy proteinů.
BEZOBRATLÝCH
druhy Bezobratlých představují převážnou většinu dochovaných metazoans (33); nicméně, jen relativně malé množství jsou zastoupeny sekvence genomů. To navzdory skutečnosti, že mnoho druhů kritické biomedicínského významu, jako Anopheles gambiae, vektor pro malárie a Biomphalaria glabrata, vektor pro schistosomózy (34,35). Ostatní bezobratlí včetně Apis mellifera, Bombyx mori a crassostrea gigas mají významnou komerční hodnotu (36-38). V RefSeq skupina vyvinula úsilí na zvýšení počtu a rozsahu genomů bezobratlých zastoupeny v datech tím, že poskytuje anotace prostřednictvím eukaryotní genom anotace potrubí nebo rozmnožovací anotace z INSDC podání na RefSeq kopie těchto genomů. Pro oba toky procesu jsme závislí na veřejné dostupnosti vysoce kvalitních genomů v INSDC databází a NCBI je Sestavení databáze (www.ncbi.nlm.nih.gov/assembly/). K dnešnímu dni 46 bezobratlých genomy byly poznámkou NCBI včetně reprezentativních druhů hmyzu, pavouků, měkkýšů a bazální strunatci. Očekáváme výrazné expanzi v počtu hmyzu a dalších bezobratlých genomů komentovaný jako důsledek genomu iniciativy jako i5k (39), 1KITE (1K Hmyzu Transcriptome Evoluce, http://www.1kite.org/) a Globální Bezobratlých Genomu Aliance (http://giga.nova.edu/) (40).
rostliny
RefSeq pokračuje v rozšiřování rozmanitosti druhů rostlin zastoupených v datovém souboru. K dnešnímu dni bylo do souboru údajů o genomech RefSeq zahrnuto 61 druhů rostlin (ftp://ftp.ncbi.nlm.nih.gov/genomů/refseq/rostliny/), z toho 33 druhů byly komentovaný skrz eukaryotní genom anotace potrubí; zbytek jsou RefSeq kopie komentovaný genomů předložen INSDC. V budoucnu bude více rostlinných genomů vybraných pro zařazení RefSeq zpracováno anotačním potrubím eukaryote, spíše než šíření anotace z podání INSDC. Jedná se o změnu politiky pro genomy rostlin RefSeq a bude mít za následek větší celkovou konzistenci dat anotace rostlin v datovém souboru RefSeq. Většina z RefSeq transkriptů a proteinů k dispozici pro rostlinných druhů jsou „vzorem“ záznamy (XM_, XP_ a XR_ přistoupení; Tabulka 1), s menší podmnožinu „známé“ záznamy (NM_, NR_, NP_), které jsou udržovány nezávisle na popisu procesu pomocí kombinace automatizovaného zpracování a ruční kontrolu. Pro Zea mays a Solanum lycopersicum je v současné době poskytována manuální kurace transkriptu rostlin a údajů o proteinech. Současné kurátorské zaměření zahrnuje rozsáhlou revizi sekvencí a je zaměřeno na řešení problémů QA v současné sadě přepisů. Chyba rozlišení je zaměřena na identifikaci a odstranění chimérických transkriptů, redundantní přepisy a geny, a zlepšení kvality zastoupeny sekvence na základě posouzení indels a nesoulad mezi RefSeq přepis, genomické sekvence, a orthologous data. Pro rostliny, snažíme se poskytnout kurátor přepis a bílkovin dataset, který je v souladu s kultivar vybrány pro sekvenování genomu a montáž. Kurační protokol používaný pro data obratlovců se používá také pro rostliny. Tak, RefSeq přepis záznamy mohou být aktualizovány na základě různých INSDC zdroj sekvence, nebo může být sestaven z více než jednoho INSDC sekvence záznamu s cílem poskytnout přepis preferovaný kultivar. Pokud INSDC přepis údaje nejsou k dispozici pro genomické kultivar pak RefSeq přepis může být generovány z smontované genomické sekvence založené na kombinaci přepis nebo protein zarovnání, RNA-Seq, a/nebo zveřejněné údaje. Druhou oblastí zájmu je zvýšit počet podporovaných známých transkriptů a proteinů kódujících proteiny, protože to poskytuje kurátorské činidlo, které lze použít při anotaci jiných rostlinných genomů. A konečně, provádíme více RefSeqs představujících varianty spojů, pokud existují dostatečné podpůrné důkazy. Toto úsilí výrazně zlepší kvalitu datové sady plant RefSeq a přispěje ke zlepšení budoucích anotací genomu. Aktuální set rostlinných genomů poznámkami potrubí lze přistupovat na NCBI je eukaryotní genom anotace potrubí stránky http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ s odkazy na podrobné anotace, zprávy a další zdroje, jako jsou druhy VÝBUCH a FTP.
ŘASY, HOUBY, HLÍSTIC A PRVOKŮ
NCBI malé eukaryotní genom potrubí je nové automatizované potrubí určené pro generaci RefSeq záznamů jako výsledek přímého šíření komentovaný INSDC záznamy. Takto generované záznamy RefSeq jsou kopiemi dat GenBank s některými změnami formátu, které dodržují požadavky RefSeq. Nejvýznamnějším rozdílem mezi původním záznamem INSDC a záznamem RefSeq je přidání produktu refseq transcript. I když to není navržen tak, aby vytvářet de novo genomové anotace, malé eukaryotní genom potrubí čerpá z několika NCBI eukaryotní genom anotace potrubí moduly a jejich kód (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
‚Malé Eukaryot‘ označení odkazuje na potrubí je primární použití generovat RefSeq genomů pro relativně menší eukaryotické genomy (ve srovnání s těmi, rostlin a obratlovců), jako jsou ty, řas, prvoků, hub, háďátek, a některých členovců. Některé velké rostlinné genomy se však také zpracovávají pomocí tohoto potrubí. Toto potrubí zpracovává vysoce kvalitní sestavy sestávající z chromozomů a / nebo lešení a jejich součástí. Tyto sestavy s vysokou contig a lešení N50, vysoce kvalitní sekvence, a přiměřeně dobré INSDC předložené anotace jsou upřednostňovány. Tento plynovod, který nahrazuje historický proces toku, která vyžaduje více manuální podpora, teprve nedávno dosáhl veřejný výrobní fáze a je již přináší zvýšený počet „malé“ eukaryotické genomy zastoupeny v RefSeq. Probíhají práce na optimalizaci propustnosti potrubí a přidání další automatizace a další minimalizace úkolů zpracování kurátora. Dlouhodobější plány zahrnují implementaci systému správy proteinových názvů s cílem poskytnout, opravit, nebo zlepšit v průběhu času předložená jména INSDC. Mnoho z genomů, které jsou v působnosti pro malé eukaryot potrubí nelze v současné době zpracovány (velké) eukaryotní genom anotace potrubí vzhledem k taxonomické diverzity a omezené dostupnosti přepis údajů potřebných pro vlak de novo anotace potrubí.
plísňové cílené lokusy
morfologie Hub je velmi různorodá, od složitých mnohobuněčných struktur až po velmi jednoduché jednotlivé buňky. Různé morfologické struktury a typy spór mohou být produkovány jediným druhem. Naopak mnoho druhů produkuje podobné morfologie (morfy), ale ve skutečnosti jsou geneticky velmi vzdálené. Až do nedávné doby, jeden druh mohl být platně popsán s více než jedním binomickým názvem založeným na sexuálních nebo asexuálních morfech. V mnoha případech, pro daný druh byl popsán a zaznamenán pouze jeden morf, ačkoli druhy s ním úzce související mohly mít několik morfů popsaných a zaznamenaných. V důsledku toho byla v houbové komunitě použita sekvenční srovnání k rozlišení mezi druhy, ke sledování druhů, jak postupují složitými životními cykly, a k identifikaci kryptických druhů. V rámci dynamického procesu taxonomického přehodnocení, mnoho oprav druhů hub není vždy aktuální v sekvenčních datech GenBank.
aby byly referenční sekvence odvozené z typových vzorků (které slouží jako reference pro druhy) spolehlivějším zdrojem pro identifikaci DNA, musí být označeny správným a nejaktuálnějším názvem druhu. Databáze zaměřené na loci Fungi RefSeq poskytují tento cenný zdroj. Například, PRJNA177353 je BioProject, že se konkrétně zaměřuje na vnitřní přepisována spacer (ITS) regionů jaderné ribozomální cistron, která byla použita pro mnoho let jako fylogenetický marker a nedávno schválen jako oficiální barcode sekvence Hub (41). Databáze ITS RefSeq začala jako spolupráce s Index Fungorum, MycoBank a UNITE, stejně jako velká skupina taxonomických specialistů. Byly vybrány sekvence, většinou z typových vzorků platných popisů, a poté byly se sekvencemi spojeny současné správné názvy druhů s cílem reprezentovat většinu přijatých houbových řádů (8). Výsledky z tohoto curation úsilí byly použity a citovány podle různých publikací (42-46) a pomáhali další úsilí na ověření podskupin referenční sekvence, např. medicínsky významné druhy (47).
cílem, s pokračující curation, je přidat sekvence z nově popsané příkazy a rozšířit zastoupení, aby zahrnovala většinu z uznávané rodiny se zaměřením na medicínsky významných Hub. Proces také zahrnuje provádění oprav, výměna sekvence z autentických materiál s sekvence z typu materiálu, jakmile je k dispozici a editace definice linek nebo odstranění RefSeq záznamy jako taxonomické klasifikace změny. Tím je zajištěno, že výsledky vyhledávání BLAST správně zobrazují aktuální název. V RefSeq JEHO záznamy byly rozšířeny reprezentovat 3,060 sekvence představující 270 rodin z 39 tříd. Během počáteční spolupráce JEHO RefSeq úsilí, menší sadu sekvence přistoupení z 28S jaderné velké podjednotky ribozomální gen (LSU) byly také shromážděny, ale ne ověřit. Pracovní postup podobný k JEHO záznamu curation proces pokračuje a během pokračující curation tyto LSU záznamy byly ověřeny pro sekvence kvalitní, správná identifikace, a přesný zdroj údajů. Téměř 500 záznamů (z 800 potenciálních záznamů) představujících >100 rodin z 21 tříd bylo ověřeno a nedávno vydáno. Soubor dat 28S lze získat z Bioprojektu PRJNA51803 (48).
prokaryoty
kolekce prokaryotického genomu NCBI RefSeq představuje sestavené prokaryotické genomy s různými úrovněmi kvality a hustotou vzorkování. Pro prokaryoty, na základě zpětné vazby z minulé komunity je naší současnou politikou poskytnout anotaci genomu pro všechny prokaryotické genomy, které splňují naše kritéria kvality. V posledních letech jsme čelili dvěma velkým výzvám: (i) udržet krok s rychlým eskalaci předložené prokaryotické genomy; a (ii) řešení rostoucí nesoulad v genomu anotace vzhledem k použití obou INSDC šíření-založeno potrubí a různé verze NCBI de novo genomové anotace potrubí tak, jak se postupem času vyvíjely.
S rostoucím zájmem v lidské patogeny a rozvojem sekvenování DNA technologie, počtu přiřazených prokaryotické genomy se rychle zvýšil v posledním desetiletí. Některé bakteriální kmeny jsou často k nerozeznání pomocí aktuální genotypizace přístupy, ale drobné genetické rozdíly mohou být zjištěny na základě celé sekvenování genomu, což je užitečné pro charakterizaci způsobů přenosu, identifikaci antibiotické rezistence, a mapování ohnisek. K vyšetřování potravin-patogenů nebo infekce ohnisek, velké množství téměř identických bakteriální genomy byly sekvenovány a komentovaný v posledních letech, což vede v mnoha identické proteiny, z nichž každý má odlišné pořadové číslo. V roce 2013 NCBI představil nový proteinový datový model a přístupovou předponu (WP_) pro sběr RefSeq. Tato změna snížila redundanci prokaryotických proteinů RefSeq a usnadnila identifikaci proteinů, které byly identicky nalezeny na více než jednom genomu. To také umožnilo lepší strategii pro správu prokaryotických názvů proteinů. Tyto non-redundantní záznamy představují unikátní prokaryotické proteinových sekvencí, které jsou nezávislé na konkrétním bakteriálním genomu a mohou být komentovaný na více kmeny nebo druhy (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
Historicky, RefSeq bakteriální genomy anotace byla rozšířena z INSDC podání, pokud je k dispozici, nebo vytvořené pomocí různých verzích NCBI je Prokaryotického Genomu Anotace Potrubí (který je také nabízen jako služba pro GenBank podání). To mělo za následek nahromaděné nekonzistence ve strukturální i funkční anotaci v prokaryotickém datovém souboru RefSeq. V průběhu posledních dvou let NCBI zlepšit několik aspektů Prokaryotického Genomu Anotace Potrubí za účelem zvýšení kapacity a dále standardizovat anotace pravidla. Naše potrubí kombinuje algoritmus volání genů, GeneMarkS+ (49,50), s přístupem detekce genů založeným na zarovnání a je schopen anotovat kompletní i návrh genomů WGS. Potrubí v současné době předpovídá geny kódující proteiny, strukturní RNA (5S, 16S a 23S), tRNA a malé nekódující RNA.
v roce 2015 jsme vydali komplexní aktualizaci anotací pro prokaryotické genomy RefSeq s cílem harmonizovat anotaci genomu a dokončit přechod na nový proteinový datový model. Byla vyvinuta nová databáze názvů prokaryotických proteinů, SPECIFIKACE názvu a strategie založená na důkazech, které jsou v současné době v procesu nasazení. Zatím, přes 3 miliony záznamů o proteinech aktualizovaly jména v počáteční demonstraci přístupu. Nové prokaryotické datový model, který nabízí významné výhody pro správu názvů jako protein jméno je prováděna s proteinové sekvence záznamu; aktualizace jméno na bílkoviny rekordní výsledky v automaticky rozmnožovací aktualizace pro všechny genomy, které jsou komentovaný s tím přistoupení číslo.
RefSeq prokaryotické genomy jsou organizovány v několika nových kategorií, jako jsou referenční genomy a zástupce genomů na základě sestaveného atributy a shromažďování a anotace kvalita opatření (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referenční genomy jsou ručně vybrány „zlatý standard“ kompletní genomy s vysokou kvalitou anotace a nejvyšší úrovní experimentální podpory pro strukturální a funkční anotaci. V současné době je malá datová sada 122 referenčních genomů ručně anotována spolupracujícími skupinami a zaměstnanci NCBI. Referenční genomy jsou dostupné na adrese: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Reprezentativní genomy jsou výpočetně vypočteny a vybrány tak, aby reprezentovaly různé druhy. Zástupce genomy jsou k dispozici na adrese: www.ncbi.nlm.nih.gov/genome/browse/representative/.
RefSeq prokaryotického genomu, data mohou být přístupné v BLAST databází, webových zdrojů (Montáž, BioProject, Genom, Nukleotidů a Bílkovin), přes NCBI je programovací nástroje, nebo je lze stáhnout z genomů nebo refseq servery FTP. Vlastní ‚Mikroorganismy‘ BLAST stránce, přístupné z VÝBUCHU domovskou stránku, poskytuje možnosti vyhledávání proti všem RefSeq prokaryotické genomy, Referenční a Zástupce genomů podmnožinu, nebo omezit vyhledávání na konkrétní taxony. Podmnožina prokaryotických genomů je anotována genovým ID NCBI a může být získána v genovém zdroji NCBI nebo z genového FTP místa. Pro archaea je to zajištěno pro většinu úplných genomů. Pro bakterie, toto je stanoveno pro referenční genomy a reprezentativní genomy pro druhy, které mají alespoň 10 podání genomu.
Prokaryoticky cílené lokusy
u prokaryot se sekvence ribozomální RNA 16S stala standardním molekulárním markerem pro popis nového druhu. Zatímco tyto markerové sekvence se staly široce používány, kvalita sekvenčních dat a přidružených metadat předkládaných do databází INSDC se značně liší. UZNÁVAJÍCE důležitost přístupu k vysoce kvalitním datům pro tyto markery, NCBI rozšířila svůj cílený projekt loci, aby poskytla aktuální zdroj kurátorských dat. Cílené loci projektu v současné době udržuje téměř 18 000 16S ribozomální RNA referenční sekvence, z nichž více než 95% jsou z kmenů. Typové kmeny jsou považovány za příklad druhu a je nezbytné, aby údaje o kmenech typu byly anotovány správnými metadaty a byly bez kontaminace.
tato práce zahrnovala vyčerpávající přehled a aktualizaci základní databáze taxonomie, která byla použita ve spojení s filtrem NCBI type strain Entrez k načtení kandidátských sekvencí. Sekvenční data a jejich související taxonomie / metadata byly přezkoumány a opraveny tak, aby zahrnovaly nejaktuálnější informace. Pokud sekvence selhala validace nebo nemohla být přesně validována, byla vyloučena. Tyto referenční sekvence lze nyní použít jako „zlaté standardy“ pro analýzu stávajících a nových sekvencí rRNA.
bakteriální a Archaeal 16S rRNA datové sady jsou k dispozici z Bioprojektu (PRJNA33175 a PRJNA33317, v uvedeném pořadí). Vlastní VÝBUCH databáze je také k dispozici (’16S ribozomální RNA sekvence (Bakterie a Archea)‘).
viry
datový model RefSeq pro viry se liší od modelu jiných organismů. Obecně je pro každý virový druh vytvořen pouze jeden kompletní genom RefSeq. Příležitostně se v rámci daného virového druhu vytvoří více záznamů RefSeq, které odrážejí dobře definované genotypy nebo důležité laboratorní a / nebo divoké kmeny. Další genomy pro daný druh jsou validovány z hlediska taxonomie a úplnosti a poté indexovány jako sekvence „sousedé“ (52). Oba RefSeq a soused genomy jsou dohledatelné prostřednictvím specializovaných Virového Genomu Zdrojů (http://www.ncbi.nlm.nih.gov/genome/viruses/) a z Entrez Nukleotidů Genomu a stránky pomocí RefSeq Genomu u Druhů “ a „Ostatní INSDC Genomu Sekvence‘ odkazy (52).
Taxonomie je velkým problémem virové genomika, jak tam jsou 3186 virové druhy, oficiálně uznané Mezinárodní Výbor pro Taxonomii Virů (ICTV) (53) a 4834 kompletní genomy ze oba oficiální a prozatímní virových druhů k dispozici od INSDC databází. Na NCBI Párového Srovnávání Sekvencí (PASC), nástroj byl vyvinut na pomoc v klasifikaci virových genomů na základě globálního a/nebo lokální zarovnání mezi genomy (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Rozsah tohoto nástroje byl rozšířen o řadu virových rodin a dalších taxonomických skupin a byl použit k podpoře vymezení nových taxonomických kritérií (54-57).
dalším vznikajícím problémem virové genomiky je nekonzistentní a / nebo nepřesná anotace mezi příbuznými virovými genomovými sekvencemi. Tento problém často odráží odlišné anotační procesy a probíhající experimentální práci a může vést ke zmatku mezi spotřebiteli dat a ztěžovat srovnávací analýzu mezi genomy. Tento problém je řešen v rámci NCBI Virus Variace Zdrojů (http://www.ncbi.nlm.nih.gov/genome/viruses/variace/), kde výpočetní potrubí jsou zaměstnáni, aby poskytovat up-to-date, standardizované anotace pro několik virů (58). V současné době se tyto potrubí výpočet standardizované gen a protein hranice pro všechny Chřipky virus, Dengue virus, a West Nile virus, standardizované sekvence a gen a protein jména a metadat, podmínky pro tyto a další dva viry, Střední Východ respirační koronavirus a Ebolavirus. Tento standardizovaných dat je pak hybnou silou, v rámci specializované, metadata-centric vyhledávací rozhraní, které umožňuje snadné vyhledání sekvencí na základě specifických biologických kritérií.
udržování aktuálních, široce přijímaných standardů anotace vyžaduje nepřetržitou spolupráci s větší vědeckou komunitou. Na NCBI Virového Genomu Anotace Pracovní Skupina byla založena s cílem využít konsorcií veřejných databází, sekvenování center a výzkumných skupin vyvinout standardizované pořadí anotace, stejně jako izolovat pojmenování schémat pro různé skupiny virů (59-63). Tento přístup nejen stanoví standardy pro virovou anotaci, ale také představuje tyto standardy v rámci aktuálního záznamu RefSeq, zajištění dostupnosti pro všechny uživatele databáze a zadavatele. Podobná spolupráce je také nezbytná pro podporu interpretačních zdrojů s přidanou hodnotou, jako je HIV-1, databáze lidských interakcí (http://www.ncbi.nlm.nih.gov/genome/viruses/retroviry/hiv-1/interakce/) (64). Spolupracovníky z Jižních Výzkumný Ústav zdokumentovaný HIV-1, lidský, molekulární interakce kurátor z literatury a NCBI udržuje uživatelsky přívětivé zdroj, kde mohou uživatelé vyhledávat pro konkrétní typy interakcí a najít více informací o geny zapojené.
BUDOUCÍ SMĚRY
RefSeq projekt je unikátní v tom, že nabízí referenční sekvence dataset přepisů, bílkovin a genů, která zahrnuje všechny království života a aktivně udržovány a aktualizovány v průběhu času, aby se začlenil lepší výpočetní strategie, nové typy dat a nové poznatky. Prokázali jsme schopnost a schopnost reagovat na nedávný rychlý nárůst počtu sekvenovaných genomů předložených do databází INSDC. Definovali jsme řadu různých politik a strategií pro curation a anotace eukaryotické, prokaryotické a virové druhy, pro splnění různých potřeb organismu-konkrétní komunity. Datová sada RefSeq je široce používána jako referenční standard pro mnoho různých analýz, včetně klinických aplikací u lidí a patogenů, srovnávací genomika,testy exprese, interpretace variací sekvence, a konstrukce pole i sondy. V NCBI, RefSeq dataset je integrován do více zdrojů včetně Montáže, VÝBUCH, Epigenomics, Gen (kde RefSeq anotace, je hlavním základem pro většinu Gen položky), Genom, dbSNP, dbVar, Variace Prohlížeč, a další.
budeme se i nadále zaměřovat na manuální kuraci s cílem zlepšit strukturální a funkční informace pro lidské a jiné genomy obratlovců. Naše konzervativní manuální curation přístup zajišťuje pokračující vysokou kvalitu a spolehlivost člověka, myši a dalších „známých“ RefSeq záznamy, které slouží potřebám těch, kteří potřebují dobře podporované definice alternativních exonů (méně falešných poplachů). Kromě RNA-Seq dat do našeho anotace potrubí výrazně zvýšil naše anotace alternativní splice varianty jako model RefSeqs, aby sloužil potřebám těch, kteří chtějí více komplexní, ale stále dobře-podporoval, definice exome (méně falešně negativních). Zatímco známé i modelové RefSeqs hlásí podpůrné důkazy v záznamu sekvence, používají k tomu odlišné přístupy. Budoucí úsilí bude zaměřeno na harmonizaci vykazování důkazů pro „známé“ i „modelové“ Refseq, aby uživatelé mohli tyto informace snadněji identifikovat. Budeme také přidávat nový datový typ pro lidské a myší kolekci RefSeq v blízké budoucnosti představují experimentálně hlásil, regulační a funkční prvky se známou (nebo rozumně odvodit) funkční důsledky.
pro prokaryotické genomy pokračujeme v práci na zdokonalení aspektů strukturní anotace, která je generována Anotačním potrubím prokaryotického genomu. Naše práce na novém přístupu ke správě funkčních informací se stále zdokonaluje a bude popsána jinde. Očekáváme, re-anotace celý RefSeq prokaryotické genomy dataset, když nová verze našich prokaryotické anotace potrubí budou k dispozici (ke zlepšení strukturální anotace). Rozhodnutí anotovat všechny RefSeq prokaryot použití jediné metody, spolu s naprostý objem tohoto dataset, vyžaduje jiný přístup, který využívá více zdrojů důkazů, které zajišťují funkční informace. Názvy proteinů budou průběžně aktualizovány podle skupin proteinů nebo kategorií typu důkazů. Naše cíle pro nadcházející rok zahrnují větší integraci Rfam (65) do našeho anotačního potrubí, rozšířenou spolupráci, vylepšené názvy proteinů a hlášení podpůrných důkazů o záznamu proteinové sekvence.
chtěli Bychom poděkovat vědecké společenství pro konstruktivní zpětnou vazbu, návrhy, chybová hlášení, a spolupráce v průběhu posledních 15 let, které přispěly ke kvalitě a přesnosti zastoupeny sekvence, strukturální anotace a funkční anotace.
financování
intramurální výzkumný Program NIH, Národní lékařská knihovna. Financování poplatku za otevřený přístup: intramurální výzkumný Program národních zdravotnických ústavů, Národní lékařská knihovna.
Prohlášení o střetu zájmů. Žádný deklarován.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
/div>
et al.
et al.
et al.
et al.
et al.
et al.
et al.