Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). A RefSeq projekt az International Nucleotide Sequence Database Collaboration (Insdc) számára benyújtott adatokat a számítás, a kézi kuráció és az együttműködés kombinációjával használja fel, hogy stabil, nem redundáns referenciaszekvenciákat állítson elő. A RefSeq projekt kiegészíti ezeket a referenciaszekvenciákat a jelenlegi ismeretekkel, beleértve a publikációkat, a funkcionális jellemzőket és az informatív nómenklatúrát. Az adatbázis jelenleg több mint 55 000 organizmus szekvenciáit tartalmazza (>4800 vírus, >40 000 prokarióta és >10 000 eukarióta; RefSeq release 71), egyetlen rekordtól a teljes genomok. Ez a cikk összefoglalja a RefSeq projekt vírusos, prokarióta és eukarióta ágainak jelenlegi állapotát, beszámol az adatokhoz való hozzáférés fejlesztéséről és részletezi a gyűjtemény taxonómiai ábrázolásának további bővítésére irányuló erőfeszítéseket. Kiemeljük a különböző funkcionális kurációs kezdeményezéseket is, amelyek támogatják a RefSeq Adatok Többszörös felhasználását, beleértve a taxonómiai validációt, a genom annotációt, az összehasonlító genomikát és a klinikai vizsgálatokat. Összefoglaljuk a megközelítésünket a rendelkezésre álló RNS-Seq és más adattípusok felhasználására a gerinces, növényi és egyéb fajok kézi kurációs folyamatában, és leírjuk a prokarióta genomok és a fehérje névkezelés új irányát.

bevezetés

az elmúlt 15 évben a National Center for Biotechnology Information (NCBI) RefSeq adatbázis szolgált alapvető erőforrás genomikai, genetikai és proteomikai kutatás. A RefSeq projekt kurált és stabil jegyzetekkel ellátott referencia genomokat, transzkriptumokat és fehérjéket biztosít a kiválasztott vírusok, mikrobák, organellák és eukarióta organizmusok számára, lehetővé tette a kutatók számára, hogy a GenBank redundáns adataival ellentétben a legjobb reprezentatív szekvenciaadatokra összpontosítsanak, és egyértelműen hivatkozzanak a specifikus genetikai szekvenciákra. A RefSeq gyűjtemény kifejezetten összekapcsolt Genom -, transzkriptum-és fehérjeszekvencia-rekordokat tartalmaz, amelyek publikációkat, informatív nómenklatúrát, valamint szabványosított és kibővített jellemzőjegyzeteket tartalmaznak. A RefSeq rekordok integrálva vannak az NCBI erőforrásaiba, beleértve a nukleotid, fehérje és BLAST adatbázisokat, és könnyen azonosíthatók a RefSeq kulcsszóval és a típusukat meghatározó különálló csatlakozási előtagokkal (1.táblázat). Minden RefSeq adatot minőségbiztosítási (QA) ellenőrzésnek vetnek alá néhány speciális QA teszttel, amelyeket különböző taxonok vagy adattípusok számára fejlesztettek ki. Például az összes vírusos Refseq-t az NCBI munkatársai rendszertani felülvizsgálatnak vetik alá a nyilvános megjelenés előtt. A RefSeq-csatlakozásokat széles körben idézik a tudományos publikációk és a genetikai adatbázisok, mert stabil és következetes koordináta-rendszert biztosítanak, amely kiindulási alapként használható a génspecifikus adatok, a klinikai variációk és a fajok közötti összehasonlítások jelentéséhez. Ezek a referenciaszekvencia-szabványok egyre fontosabbak, mivel a pontos jelentéstétel és a reprodukálhatóság létfontosságú elemei az orvosbiológiai kutatások bevált gyakorlatainak (1).

RefSeq csatlakozási előtagok

1.táblázat.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein az NM_ transzkriptumhoz való csatlakozásokon jegyzetelt fehérjék vagy a genomi molekulákon jegyzetelt példányok nélküli transzkriptumok (pl. néhány mitokondriális genom, vírusgenom és Referencia bakteriális genom
AP_3 protein protein Proteins Proteins annotated on AC_ genomic accessions or annotated on genomic molecules without an instantiated transcript record
XP_3, 5 protein protein xm_ transzkriptumhoz való hozzáférés,vagy a genomi molekulákon feljegyzett, példányosított transzkriptumrekord nélkül
yp_3 protein proteineken feljegyzett fehérjék példányosított transzkriptumrekord nélkül
wp_6 protein fehérjék, amelyek nem redundánsak több törzsben és fajban. Egyetlen ilyen típusú fehérje több prokarióta genomon is feljegyezhető
előtag . molekula típusa . kontextus használata .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein az NM_ transzkriptumhoz való csatlakozásokon jegyzetelt fehérjék vagy a genomi molekulákon jegyzetelt példányok nélküli transzkriptumok (pl. néhány mitokondriális genom, vírusgenom és Referencia bakteriális genom
AP_3 protein protein Proteins Proteins annotated on AC_ genomic accessions or annotated on genomic molecules without an instantiated transcript record
XP_3, 5 protein protein xm_ transzkriptumhoz való hozzáférés,vagy a genomi molekulákon feljegyzett, példányosított transzkriptumrekord nélkül
yp_3 protein proteineken feljegyzett fehérjék példányosított transzkriptumrekord nélkül
wp_6 protein fehérjék, amelyek nem redundánsak több törzsben és fajban. Egyetlen ilyen típusú fehérje több prokarióta genomon is feljegyezhető

1a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, majd 6 számot, majd a szekvencia verziószámát.

2a teljes csatlakozási formátum az előtagból áll, amelyet a RefSeq rekord alapjául szolgáló INSDC csatlakozási szám követ, majd a RefSeq sorozat verziószáma.

3a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, amelyet 6 vagy 9 szám követ, majd a sorozat verziószáma követ.

4az ezzel a csatlakozási előtaggal rendelkező feljegyzéseket az NCBI munkatársai vagy egy modellszervezet adatbázis kurálta, vagy a kurátorok által használt csatlakozások készletében vannak. Ezeket a rekordokat ‘ismert’ RefSeq adatkészletnek nevezzük.

5az ezzel a csatlakozási előtaggal rendelkező feljegyzések vagy az eukarióta genom annotációs csővezetéken, vagy a kis eukarióta genom annotációs csővezetéken keresztül jönnek létre. Az első módszerrel létrehozott rekordokat’ model ‘ RefSeq adatkészletnek nevezzük.

6a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, amelyet 9 szám követ, majd a verziószámot. A verziószám mindig ‘.1 ‘ mivel ezek a rekordok nem frissíthetők. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein az NM_ transzkriptumhoz való csatlakozásokon jegyzetelt fehérjék vagy a genomi molekulákon jegyzetelt példányok nélküli transzkriptumok (pl. néhány mitokondriális genom, vírusgenom és Referencia bakteriális genom
AP_3 protein protein Proteins Proteins annotated on AC_ genomic accessions or annotated on genomic molecules without an instantiated transcript record
XP_3, 5 protein protein xm_ transzkriptumhoz való hozzáférés,vagy a genomi molekulákon feljegyzett, példányosított transzkriptumrekord nélkül
yp_3 protein proteineken feljegyzett fehérjék példányosított transzkriptumrekord nélkül
wp_6 protein fehérjék, amelyek nem redundánsak több törzsben és fajban. Egyetlen ilyen típusú fehérje több prokarióta genomon is feljegyezhető
előtag . molekula típusa . kontextus használata .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein az NM_ transzkriptumhoz való csatlakozásokon jegyzetelt fehérjék vagy a genomi molekulákon jegyzetelt példányok nélküli transzkriptumok (pl. néhány mitokondriális genom, vírusgenom és Referencia bakteriális genom
AP_3 protein protein Proteins Proteins annotated on AC_ genomic accessions or annotated on genomic molecules without an instantiated transcript record
XP_3, 5 protein protein xm_ transzkriptumhoz való hozzáférés,vagy a genomi molekulákon feljegyzett, példányosított transzkriptumrekord nélkül
yp_3 protein proteineken feljegyzett fehérjék példányosított transzkriptumrekord nélkül
wp_6 protein fehérjék, amelyek nem redundánsak több törzsben és fajban. Egyetlen ilyen típusú fehérje több prokarióta genomon is feljegyezhető

1a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, majd 6 számot, majd a szekvencia verziószámát.

2a teljes csatlakozási formátum az előtagból áll, amelyet a RefSeq rekord alapjául szolgáló INSDC csatlakozási szám követ, majd a RefSeq sorozat verziószáma.

3a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, amelyet 6 vagy 9 szám követ, majd a sorozat verziószáma követ.

4az ezzel a csatlakozási előtaggal rendelkező feljegyzéseket az NCBI munkatársai vagy egy modellszervezet adatbázis kurálta, vagy a kurátorok által használt csatlakozások készletében vannak. Ezeket a rekordokat ‘ismert’ RefSeq adatkészletnek nevezzük.

5az ezzel a csatlakozási előtaggal rendelkező feljegyzések vagy az eukarióta genom annotációs csővezetéken, vagy a kis eukarióta genom annotációs csővezetéken keresztül jönnek létre. Az első módszerrel létrehozott rekordokat’ model ‘ RefSeq adatkészletnek nevezzük.

6a teljes csatlakozási számformátum az előtagból áll, beleértve az aláhúzást, amelyet 9 szám követ, majd a verziószámot. A verziószám mindig ‘.1 ‘ mivel ezek a rekordok nem frissíthetők. További információkért lásd az online dokumentációt: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

az elmúlt években a fejlett szekvenálási technikák elősegítették a teljes genom összeállításának jelentős növekedését a nyilvános adatbázisok. Ennek eredményeként a RefSeq projekt összehangoltan bővítette az adatkészletben szereplő taxonok mélységét és szélességét, elsősorban több házon belüli annotációs csővezeték fejlesztésével. Az összes taxon a RefSeq felvételére vonatkozik; az annotáció azonban gyakran azokra az organizmusokra korlátozódik, amelyekre kiváló minőségű elsődleges Genom-összeállítás áll rendelkezésre vitathatatlan organizmusinformációkkal. Ezért kizárhatunk olyan adatkategóriákat, amelyek nem felelnek meg minőségi előírásainknak. A kizárt adatkészletek közé tartoznak a következők: metagenomok, alacsony contig N50 értékekkel rendelkező szerelvények vagy különösen nagy számú nem elhelyezett állványzat/kapcsolat (azaz nagy fragmentáció), vagy olyan genomok, amelyek jelentős eltéréssel vagy indel variációval rendelkeznek a faj más, szorosan rokon genomjaival összehasonlítva (például néhány prokarióta).

a RefSeq adatkészlet egyedülálló aspektusa az NCBI tudományos munkatársai által végzett számítás, együttműködés és kuráció együttes megközelítése. Mint egy nagy bioinformatikai létesítmény, az NCBI befektetett a robusztus folyamatáramok fejlesztésébe, hogy annotációt generáljon és minőségbiztosítási teszteket végezzen az eukarióta és prokarióta genomok, átiratok és fehérjék számára. A vírusgenomok folyamatának fejlesztése folyamatban van. A RefSeq csoport számos szakértői csoporttal működik együtt, beleértve a hivatalos nómenklatúra-hatóságokat (pl. HUGO Génnómenklatúra Bizottság (HGNC) és zebrafish Információs Hálózat (ZFIN) az emberi és zebrafish génnevekhez), UniProtKB (fehérjenevek) és miRBase (microrns) (2-5). Ezek és más együttműködések segítenek fenntartani és javítani a RefSeq adathalmaz minőségét a minőségbiztosítási jelentések, a gén-és szekvenciainformációk cseréje, valamint a funkcionális információk cseréje révén. Az NCBI munkatársai kurációs támogatást nyújtanak a vírusok, prokarióták, eukarióták, organellák, plazmidok és célzott projektek számára, beleértve a Homo sapiens, A Mus musculus és más organizmusok génjeinek és szekvenciáinak kurálását. A RefSeq kurátorai javítják az adatbázis minőségét a QA teszt eredményeinek áttekintésével, a genom annotáció feldolgozásához szükséges egyes inputok kiválasztásában való részvétellel, szekvenciaelemzéssel, taxonómiai elemzéssel és funkcionális felülvizsgálattal. A kuráció támogatja a genom annotációs csővezetékek fejlesztését is, mivel a tartalomszakértők segítenek meghatározni a programozási megközelítéseket mind a tipikus, mind az atipikus biológia modellezéséhez. Az eukarióták, különösen az emlősök esetében az átirat – alapú kuráció meghatározza a”legjobb”szekvencia képviselőit (“ismert” Refseq-ként; 1.táblázat lábjegyzet), amelyeket elsődleges bemeneti reagensként használnak az eukarióta genom annotációs csővezetékéhez (http://www.ncbi.nlm.nih.gov/books/NBK169439/). A bemeneti reagens minőségének javulása viszont jelentős minőséget és reprodukálhatóságot eredményez a kapott Genom annotációban. Ez a fajta kézi kuráció történelmileg az emberre és az egérre összpontosított egyedülálló orvosbiológiai jelentőségük miatt (6). Újabban ezek a kurációs erőfeszítések nagyobb figyelmet fordítottak Rattus norvegicus, Danio rerio, Bos taurus és Gallus gallus. Ezek a fajok fontosak az emberi egészség, valamint a mezőgazdasági fenntarthatóság szempontjából.

ebben a cikkben beszámolunk a RefSeq adatkészlet kibővítésének előrehaladásáról, hogy több különböző organizmust is bevonjunk, leírjuk az adathozzáférés javulását, és példákat mutatunk be, amelyek bemutatják a filogenetikailag hasznos adatkészletek, valamint a refseq transzkriptum és fehérje rekordok funkcionális jellemzőinek megjegyzését. Arra számítunk, hogy a RefSeq adatkészlet ezen erőfeszítései és fejlesztései továbbra is hozzájárulnak az orvosi transzlációs kutatások, a mezőgazdasági fejlesztések, a filogenetikai azonosítás és az evolúciós vizsgálatok előrehaladásához.

A REFSEQ adatkészlet létrehozása

a RefSeq szekvenciarekordokat a szekvenciaosztálytól és organizmustól függően különböző módszerekkel állítják elő. Az archeális és bakteriális genomokat (lásd a prokarióták részt) az NCBI prokarióta Genom annotációs csővezetékével jegyezzük fel (http://www.ncbi.nlm.nih.gov/books/NBK174280/), míg kis számú referencia bakteriális genomot támogat az együttműködés és a kézi kuráció. A RefSeq eukarióta genomokat két folyamatáram segítségével biztosítják. A növényi, állati, rovar-és ízeltlábú genomok többségét az eukarióta genom annotációs csővezeték jegyzi fel. Ez a csővezeték annotációs eredményeket hoz létre a rendelkezésre álló transzkriptum adatok (beleértve az RNS-Seq és a transzkriptom shotgun assembly (TSA) adatokat), valamint a fehérje homológia, az ab initio predikció (nagyrészt akkor, ha a transzkriptom adatok nem állnak rendelkezésre), valamint a rendelkezésre álló ismert (kurált) RefSeq transzkriptumok és fehérjék alapján (lásd 1.táblázat). A csővezeték által generált annotáció (modell RefSeqs) támogathatja vagy nem támogatja a teljes exon kombinációt egyetlen bizonyíték összehangolásából, de lehet, hogy RNS-Seq támogatja az exon párokat. Az eukarióta genomokat, amelyeket ez a csővezeték jegyzetelt, nyilvánosan jelentik linkekkel az adatok FTP-n keresztüli letöltéséhez, az annotált genommal szembeni robbanás lekérdezés megtekintéséhez vagy végrehajtásához, vagy egy részletes annotációs jelentés összefoglalójának eléréséhez (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Az eukarióták egy részhalmazának, beleértve a gombákat, protozoákat és fonálférgeket, magában foglalja a nemzetközi nukleotidszekvencia-Adatbázis-együttműködésnek (INSDC) a formátum szabványosításával benyújtott annotáció szaporítását a benyújtott Genom-összeállítás RefSeq másolatához (lásd algák, gombák, fonálférgek és protozoonok).

az NCBI munkatársai a RefSeq organelle Genom annotációjának nagy részét az INSDC benyújtásából származó szaporítással biztosítják. Az emlős mitokondriumok megjegyzését gyakran kézi kurációval egészítik ki. A RefSeq projekt referenciaszekvenciákat tart fenn olyan célzott lokuszprojektekhez is, mint a RefSeqGene, amely a Locus Reference Genomic (lrg) együttműködés tagja (7), a bakteriális és gombás riboszomális rRNS lokuszok, valamint a gombás belső transzkripciós távtartó szekvenciák (its) (8). Emellett jelentős számú ember, egér és más transzkriptum és fehérje is rendelkezésre áll az együttműködés és a kézi kuráció révén, amely magában foglalja a szekvenciaelemzést és az irodalom áttekintését.

az NCBI prokarióta (lásd alább) és eukarióta annotációs csővezetékei lépést tartottak az INSDC-hez benyújtott Genom-összeállítások növekvő számával azáltal, hogy következetes annotációt biztosítottak a kiválasztott, kiváló minőségű benyújtott Genom-összeállítások RefSeq másolataira. A mai napig 245 eukarióta genomot, köztük 170 gerinces genomot jegyeztek fel ezzel a csővezetékkel, amelyek közül több mint 120 fajt jegyeztek fel az elmúlt 20 évben. Ebbe a csoportba tartozik 52 madárfaj, amelyek a legtöbb madárrend reprezentatív fajait tartalmazzák (9,10). A főemlősökre, más emlősökre, halakra, növényekre és ízeltlábúakra vonatkozó RefSeq-jegyzetekkel ellátott összeállítások száma is jelentősen megnőtt.

hozzáférés a REFSEQ adatkészlethez

a RefSeq honlapjahttp://www.ncbi.nlm.nih.gov/refseq/ a RefSeq adatkészlet minden aspektusának központi központja. Ez az oldal linkeket tartalmaz, amelyek végigvezetik a felhasználókat a projekt általános leírásán, valamint tájékoztatókon, növekedési statisztikákon és információkon a fókuszáltabb RefSeq projektekről, mint például a prokarióta Genom újra annotációs kezdeményezés, a Consensus Coding Sequence (CCD) projekt (11) A RefSeqGene projekt, valamint a célzott Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) projektek. A legfrissebb átfogó FTP kiadásra mutató linkek, valamint a kiadás formátumára és tartalmára vonatkozó részletes dokumentáció a RefSeq honlap ‘Közlemények’ részében található. A korábbi RefSeq bejelentések ezen az oldalon is elérhetők. Erősen javasoljuk a RefSeq adatok letöltését közvetlenül az NCBI-ből, mivel más bioinformatikai és Genom böngésző erőforrásokból történő letöltések nem feltétlenül tartalmazzák az összes rendelkezésre álló adatot, vagy csupán a RefSeq átiratok egy genomhoz való igazítását tükrözheti, nem pedig az NCBI által generált Genom annotációs eredményeket.

a RefSeq szekvenciaadatokhoz interaktív módon lehet hozzáférni az NKB-k nukleotid-és Fehérjeadatbázisai segítségével, BLAST adatbázisokban, az NCBI programmatic interface (e-utilities) vagy file transfer protocol (FTP) segítségével. Az E-utilities támogatja a szkriptelt hozzáférést a RefSeq adatok letöltéséhez különféle formátumokban, keresési kifejezések vagy csatlakozási listák alapján; részletes dokumentáció érhető el az NCBI kézikönyvében (www.ncbi.nlm.nih.gov/books/NBK25501/) és az oktatóvideók az NCBI YouTube csatornájáról érhetők el (https://www.youtube.com/user/NCBINLM). Mind a nukleotid, mind a fehérje adatbázis lehetővé teszi, hogy a lekérdezési eredmények csak a RefSeq rekordokra korlátozódjanak, ha a szűrők oldalsávjában a ‘forrásadatbázis’ alatt a ‘RefSeq’ lehetőséget választják. A RefSeq adatok más NCBI adatbázisokból is elérhetők, beleértve az Assembly-t, a BioProject-et, a genomot és a genomot a nukleotidra, a fehérjére vagy az FTP erőforrásokra mutató linkek követésével a refseq csoporton belüli kurációs változásokra vonatkozó információk vagy a RefSeq adatbázist befolyásoló NCBI frissítések több forrásból származnak, beleértve a RefSeq FTP kiadási megjegyzéseit, az időszakos közzétett jelentéseket, az NCBI közlemények hírcsatornáját http://www.ncbi.nlm.nih.gov/news/ és az NCBI Insights blogon keresztül http://ncbiinsights.ncbi.nlm.nih.gov/. A felhasználók feliratkozhatnak a refseq-announce levelezőlistára is, hogy rendszeres frissítéseket kapjanak a projektről és összefoglalják az egyes RefSeq FTP kiadások tartalmát (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

a RefSeq adatokat FTP-n keresztül terjesztik két helyen, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) és genomok (ftp://ftp.ncbi.nlm.nih.gov/genomes/). a refseq FTP oldal naponta frissíti az összes új és frissített RefSeq rekordot, egyes adattípusok heti frissítéseit, valamint kéthavonta átfogó RefSeq kiadást (/refseq/release/). Ezenkívül a kiválasztott organizmus-specifikus transzkriptumokat és fehérjeadatokat, beleértve az embereket és az egereket is, hetente frissítik. A RefSeqGene alkönyvtár naponta frissül, az egyes annotációs futtatásokkal kiadott genomhoz igazítva. Az átfogó kéthavonta RefSeq kiadás rendszertani (pl. gerinces emlősök) vagy más csoportok (pl. mitokondriumok). Az adatok a teljes RefSeq gyűjteményre is letölthetők a / refseq/release/ complete / könyvtárból. A RefSeq kiadás előnyt kínál azok számára, akik a teljes gyűjtemény vagy egyetlen csoport időszakos frissítéseit szeretnék fenntartani. Ez magában foglalja azokat a rekordokat is, amelyek nem érhetők el a társgenomok FTP-helyéről, például a gyűjtemény átiratait, amelyeket a genom-összeállítástól függetlenül tartanak fenn, és amelyeket jelenleg nem lehet kommentálni. A kiadás jelentős dokumentációt tartalmaz a telepített fájlokról (/refseq/release/ release-catalog/), beleértve az MD5 ellenőrző összegeket, az összes telepített fájl listáját, valamint a kiadási megjegyzéseket és bejelentéseket (/refseq/release/release-notes/).

RefSeq adatok is letölthető a genomes FTP oldalon. 2014 augusztusában az NCBI bejelentette ennek az FTP-helynek a jelentős átszervezését, amely most assembly és organizmus alapú hozzáférést biztosít mind a GenBank, mind a RefSeq genomokhoz (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Ez a könyvtár további alkönyvtárakra oszlik ugyanazon csoportok alapján, amelyeket a RefSeq kiadásban használnak, amelyek mindegyike további alosztályokat biztosít fajonként. A genomes FTP webhely olyan fájlokat tartalmaz, amelyek az NCBI Assembly resource-ban jelentett összes RefSeq genomszerelvényt képviselik (www.ncbi.nlm.nih.gov/assembly/). a genomok helyének előnye, hogy az adatokhoz összeszerelés – vagy organizmus-specifikus módon lehet hozzáférni. A megadott adatok magukban foglalják a genom és a termék (transzkriptum/fehérje) szekvenciáját, az annotációt, az összeszerelési jelentéseket és statisztikákat, valamint az MD5 ellenőrző összegeket; ezeket az adatokat a genom összeállítás és/vagy annotáció frissítésekor frissítik. Ez a terület nem foglalja magában azokat a RefSeq szekvenciákat, amelyek kívül esnek a genom összeállításán, vagy azokat a termékeket, amelyeket nem kommentálnak a genomon.

növekedés és statisztika

a RefSeq FTP 71.kiadása (2015. július) több mint 77 millió szekvenciarekordot tartalmaz több mint 55 000 organizmusról. A 2. táblázat összefoglalja a RefSeq adatkészlet növekedését az elmúlt évben az egyes RefSeq release FTP könyvtárterületeken képviselt organizmusok és szekvenciarekordok számát tekintve. A refseq adatkészlet nagy részét a bakteriális genomok és fehérjék alkotják (az összes csatlakozás 56% – A és a >52 millió fehérje csatlakozás 76% – a). A gerinctelen, növényi és eukarióta organizmusok organizmusainak, fehérjéinek és összes rekordjának jelentős növekedése figyelhető meg, ami összhangban van a genomszekvenálási projektek megnövekedett számával és áteresztőképességével. A RefSeq adatok folyamatos magas növekedési ütemének jelentős tényezője a genomvezetékek fejlesztése, amelyek annotált RefSeq genomokat generálnak. Leginkább ez magában foglalja az NCBI prokarióta Genom annotációs csővezetékének megnövekedett kapacitását, az eukarióta GenBank genomokból a refseq genomokba történő annotációt propagáló folyamatáram újbóli fejlesztését, valamint az RNS-Seq bizonyítékok beépítését az NCBI eukarióta genom annotációs csővezetékébe és annak hatását a modell Refseq-k létrehozására (XM_, XR_ és XP_ accessions, 1.táblázat).

az átfogó RefSeq kiadásban képviselt organizmusok, fehérjék és átiratok számának éves növekedése FTP kiadási könyvtáronként

2. táblázat.

az átfogó RefSeq kiadásban képviselt organizmusok, fehérjék és átiratok számának éves növekedése FTP kiadási könyvtáronként

kiadási Könyvtár . organizmusok . % változás . átiratok . % változás . fehérjék . % változás .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % változás . átiratok . % változás . fehérjék . % változás .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (pl. archaea.acc_taxid_growth.txt és kapcsolódó fájlok). A százalékos éves változás a RefSeq release 71 (2015.július) és a RefSeq release 66 (2014. július) adatainak összehasonlításán alapul.

2.táblázat.

az átfogó RefSeq kiadásban képviselt organizmusok, fehérjék és átiratok számának éves növekedése FTP kiadási könyvtáronként

kiadási Könyvtár . organizmusok . % változás . átiratok . % változás . fehérjék . % változás .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % változás . átiratok . % változás . fehérjék . % változás .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (pl. archaea.acc_taxid_growth.txt és kapcsolódó fájlok). A százalékos éves változás a RefSeq release 71 (2015.július) és a RefSeq release 66 (2014. július) adatainak összehasonlításán alapul.

a plazmidfehérje rekordok számának drámai csökkenése, és így a teljes Csatlakozások száma, tükrözi a RefSeq baktériumgenom újbóli annotációs projekt befejezését (http://www.ncbi.nlm.nih.gov/refseq/ about/prokarióták/ reannotation/) és a prokarióták új adatmodelljének elfogadását, beleértve plazmidjaikat is. Ebben az új adatmodellben egyetlen RefSeq nem redundáns fehérje csatlakozás több genomiális szekvenciarekordra is feljegyezhető, amikor ezeknek a genomiális fehérjét kódoló régióknak a transzlációja azonos fehérjét eredményez (lásd http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Az összes baktériumfehérje redundanciája szintén jelentősen csökkent; azonban, itt nem nyilvánvaló az adatkészletben szereplő bakteriális genomok számának folyamatos jelentős növekedése miatt. Ezek a változások az archeális fehérje rekordok számának általános csökkenését is eredményezték.

gerincesek

a gerincesek egy kiválasztott csoportja, beleértve a Homo sapiens, A Mus musculus, a Rattus norvegicus, a Gallus gallus, a Bos taurus és a Danio rerio az átirat – és irodalomalapú kézi kurációs erőfeszítéseink fő fókuszát. A kurátorok általában a minőségbiztosítási (QA) tesztekkel azonosított adatkonfliktusokkal rendelkező gének listájából dolgoznak, amelyek közül néhányat korábban leírtak (12). Az egyes gének elemzésekor részletes iránymutatásokat követnek annak érdekében, hogy biztosítsák a személyek közötti konzisztenciát a kurált adatkészletben. Ez az elemzés mélyreható szekvenciaértékelést és szakirodalmi áttekintést foglal magában a referencia-átiratok, fehérjék, pszeudogének és RefSeqGene rekordok létrehozásához. A RefSeq kurátorok transzkriptumváltozatokat generálnak, megoldják a szekvenciahibákat, eltávolítják a pontatlan információkat, frissítik a rekordokat, hogy helyesen ábrázolják a lokusz biológiáját, és értékes funkcionális információkat adnak néhány RefSeq rekordhoz, például javított fehérjenevekhez, a géntermék funkciójának összefoglalásához, a gén funkcionális jellemzőihez és/vagy releváns publikációkhoz. A RefSeq csoport által végzett manuális kuráció és szakirodalmi áttekintés olyan egyedi változatok és izoformák ábrázolását eredményezheti, amelyeket nem lehet előre jelezni, ha kizárólag számítási elemzésen alapul. Például a humán tumorszuppresszor gén, a PTEN (phosphatase and tensin homolog, GeneID: 5728) szakirodalmi áttekintése feltárta egy hosszabb fehérje izoform létezését, amely egy alternatív in-frame upstream CUG iniciációs kodon használatából származik, amely a kanonikus mRNS transzlációs start kodon előtti palindromikus szekvencia közepén található (13). Erős kísérleti adatok azt mutatták, hogy ez a mitokondriális-specifikus izoform leucinnal iniciálódik, nem pedig metioninnal (14). Az eukarióták RefSeq adatmodellje egy transzkriptumot biztosít, amely kifejezetten egy fehérjéhez kapcsolódik. Ezért két azonos transzkriptumrekordot szolgáltattak az alternatív iniciációs kodonok transzlációjának tükrözésére; az NP_000305.3 a kanonikus metionin start kodont használó 403 aminosav-fehérjét képviseli, míg az NP_001291646.2 a mitokondriális lokalizált 576 aminosav-fehérjét képviseli, amely a leucin. Így a kurációs folyamat kettős célt szolgál: pontos referenciaszekvenciákat biztosít, amelyek megkönnyítik a pontos és reprodukálható Genom annotációt, és olyan nyilvántartásokat szolgáltatnak, amelyek releváns biológiai információkat tartalmaznak. Ebben a részben a legutóbbi frissítéseket, a kézi kurációs folyamatunk fejlesztéseit, valamint a fókuszált kurációs projektek példáit tárgyaljuk.

RefSeqGene projekt

a RefSeqGene alprojekt meghatározza az emberi genomi szekvenciákat, amelyeket referenciaként kell használni a jól jellemzett gének számára, különösen a klinikai genetikai közösség számára. Ezek a szekvenciák stabil alapként szolgálnak a patogén variánsok jelentéséhez, az exonok és intronok számozására vonatkozó konvenciók kialakításához, valamint más változatok koordinátáinak meghatározásához. Minden RefSeqGene rekord egy génspecifikus genomiális régióra összpontosít, és jellemzően a RefSeq transzkriptumok és fehérjék egy részhalmazával van ellátva, amelyet a domain szakértők választanak ki. Ezek a kiválasztások határozzák meg az exon jellemzőit. A kanonikus RefSeq transcript/protein régebbi verzióinak igazítása, valamint más ismert Refseq-k is szerepelnek. Ezek a nyilvántartások általában 5 kilobázist (kb) tartalmaznak a fókuszgén előtt, és 2 kb szekvenciát a későbbiekben, hogy támogassák a lehetséges szabályozó helyek vagy törlések ábrázolását, amelyek túlmutatnak a génjellemzőn. A RefSeqGene rekord tartalmazhat annotációs információkat más génekről, amelyek a határain belül helyezkednek el. A RefSeqGene nyilvántartásokat kezdetben a lokusz-specifikus adatbázisok és az NCBI munkatársai vizsgálják felül. A RefSeqGene tagja az LRG együttműködésnek (7), amely további áttekintést nyújt a szekvenciaadatokról az LRG csatlakozás hozzáadása előtt. Egy nemrégiben végzett munka fókusza kibővítette a RefSeqGene rekordok számát, hogy képviselje az összes olyan gént, amelyre legalább két klinikai tesztet nyújtottak be az NIH genetikai vizsgálati nyilvántartásába (GTR). Jelenleg 5596 RefSeqGene rekord van, ebből 633 rendelkezik LRG csatlakozással. A RefSeqGene rekordok lekérdezhetők a nukleotid adatbázisban a ‘refseqgene’ segítségével, LRG csatlakozásuk alapján, a RefSeqGene webhely böngészésével (www.ncbi.nlm.nih.gov/refseq/rsg/), vagy FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

az RNS-Seq és más adattípusok beépítése a transzkriptum alapú kurációba

a RefSeq kurációs projekt fő célja a magas minőségű és teljes hosszúságú transzkriptum és fehérje referencia szekvenciák ábrázolása. Mint ilyen, kurációs kritériumaink elsősorban a hagyományos transzkriptumokon (mRNS és est), valamint a fehérje összehangolásán és a közzétett bizonyítékokon alapulnak. A gerinces transzkriptóm projektek azonban egyre összetettebbé váltak az új átirat-adatok többségével, amelyeket jelenleg a rövid olvasási szekvenálási technológia generál. A promoterhez kapcsolódó epigenetikai jelek globális mintáit vizsgáló genomszintű vizsgálatok szintén bizonyítják az aktív promotereket és / vagy az aktív transzkripciót. A RefSeq csoport módosította a kurációs gyakorlatokat, hogy beépítse ezeket az új adattípusokat a kézi annotáció javítása érdekében, különösen azokban az esetekben, amikor egy génnek vagy variánsnak nincs bőséges hagyományos transzkriptum-támogatása. Ezek az RNS-Seq és epigenomikus vizsgálatok hatalmas adathalmazokat hoztak létre, amelyek kihívást jelentenek a gén annotációs csoportok számára, például a potenciális hamis pozitív eredmények és a nagy hatótávolságú exon kombinációk támogatásának hiánya miatt (15). A RefSeq kurátorok enyhítik a hamis pozitív eredményeket azáltal, hogy szelektíven csak kiváló minőségű adatkészleteket építenek be a genom annotációs csővezetékünkbe és a kézi annotációs folyamatba. A RefSeq kurátorok az NCBI Genome Workbench platformba beépített házon belüli igazítási eszközben (http://www.ncbi.nlm.nih.gov/tools/gbench/) testreszabott kijelzőkön jelenítik meg az átirati igazításokat, a variációs adatokat és a szűrt RNS-Seq adatokat. Az emberi gének kurálása az Illumina BodyMap 2 (BioProject: PRJEB2445) és az emberi fehérje Atlasz projektek (BioProject: PRJEB4337) (16) elemzett RNS-Seq-leolvasásait használja fel. Ezenkívül a kurátorok promóter-asszociált hisztonmódosító jeleket használnak, például H3K4me3 a NIH ütemterv Epigenomikus térképezési konzorcium (REMC; (17) és a ENCODE (Encyclopedia of DNA Elements) projekt (18) egy aktív promoter jelenlétének igazolására. A RefSeq kurátorok a polyA-seq adatokat is értékelik, hogy megerősítsék a polyA farok nélküli átiratok 3 ‘ teljességét (19). További adattípusokat, köztük a PhyloCSF (20), a CpGIslands, a RepeatMasker (21) és a génexpressziós (CAGE) adatok Cap analysis of gene expression (CAGE) adatokat (22) használnak néha kiegészítő támogatásként.

hosszú, nem kódoló RNS-ek (lncrns-ek)

a RefSeq csoport továbbra is jelentősen bővíti a nem kódoló strukturális és mikro – RNS-ek, az átírt pszeudogének és a nagyrészt nem jellemző lncrns-ek ábrázolását. Ezt a génosztályt általában úgy definiálják átiratok >200 nt hosszúságúak, amelyek nem rendelkeznek erős fehérjekódoló potenciállal (23). az Lncrns RefSeq rekordokat kurációval és az eukarióta genom annotációs csővezetékén keresztül állítják elő az lncrns gének számára. Az NCBI jelenleg több mint 540 000 eukarióta Lncrns RefSeq nyilvántartást vezet, amelyek közül több mint 6700-at kuráltak, és csak néhány százat jellemeztek funkcionálisan. Ezek közül sokan érintettek az emberi betegségekben, mint például a BACE1-AS, amely szerepet játszhat az Alzheimer-kór patofiziológiájában, és a HOTAIR, amely több rákos megbetegedéssel társult (24,25). Az lncrns-ek túlnyomó többségének ismeretlen funkciói vannak, és a hosszú nyitott olvasási keretek hiánya kihívást jelent az átirat teljességének megerősítése szempontjából. Ezenkívül az INSDC-hez benyújtott lncrns-adatok nagyrészt rövid olvasási adatkészletekből származó TSA-kon alapulnak, amelyek tartalmazhatnak mesterséges exon-kombinációkat. A RefSeq kurátorok konzervatív megközelítést alkalmaznak az lncrns gének képviseletében, csak manuálisan hoznak létre Refseq-kat (NR_ csatlakozási előtaggal) a kiváló minőségű átiratokhoz, amelyek esetében bizonyos bizonyossággal rendelkezünk az exon szerkezetéről. Ideális esetben a transzkriptum alátámasztását legalább három exonnal kell összekötni, de a két exon és az intron nélküli transzkriptumok ábrázolhatók, ha azokat promoter-asszociált epigenomika, poly(A) bizonyíték, további cDNS-ek és/vagy RNS-Seq adatok támasztják alá. A nem kódoló gének RefSeq lncrns rekordjai az NCBI nukleotid adatbázisából nyerhetők ki a ‘biomol ncrns lncrns’ keresőszöveg segítségével, majd a bal oldali oszlopból a RefSeq szűrőt választva.

funkcionális annotáció

a kurált eukarióta RefSeq transzkriptumrekordok egyedülálló hozzájárulása az, hogy integrálják a funkcionális információkat egy referencia szekvenciával. A RefSeq kurátor munkatársai hozzáadják a génösszefoglalókat, a nómenklatúrát, a transzkriptum variáns szöveget, a gén-és szekvencia-attribútumokat, valamint a RefSeq rekordban és/vagy a Génforráson keresztül elérhető funkcionális jellemzőket (http://www.ncbi.nlm.nih.gov/gene). Az elmúlt évben, a RefSeq munkatársai számos mélyreható annotációs projektet folytattak, amelyek közül néhányat a következő bekezdések röviden ismertetnek, funkcionális adatok hozzáadása olyan specifikus génkészletekhez, ahol a számítási eszközök nem képesek pontosan képviselni a biológiai ismereteket. Ezek a projektek magukban foglalják az antimikrobiális peptidek, endogén retrovírusok, replikációfüggő hisztonok, szabályozó uorf-ok és antizimek megjegyzését.

antimikrobiális peptidek (amp-K)

Az AMP-k a legutóbbi kurációs fókuszban voltak (http://ncbiinsights.ncbi.nlm.nih.gov/ 2015/05/21/) (26). Az AMP-k a természetben előforduló peptidek, amelyek sokféle fajban megtalálhatók, és számos immunszerepben szerepet játszanak, beleértve a baktericid, antivirális, gombaellenes, sőt daganatellenes tevékenységeket is. A több mint 130 emberi génből álló listát, amelyek egy vagy több kísérletileg bizonyított erősítőt kódolnak, több nyilvánosan elérhető AMP adatkészletből gyűjtötték össze,és publikációkból is bányászták. Ezen amp-k többségét korábban nem azonosították a RefSeq adatbázisban, és egyik AMP-adatbázis sem kapcsolta össze a peptideket a kódoló génjükkel. A RefSeq kurátorok kézzel jegyzetelték a RefSeq rekordokat minden egyes AMP-kódoló humán gén esetében, hogy biztosítsák a funkcionális peptid jegyzetelését, hogy tartalmazzanak egy publikációt, amely leírja a peptid antimikrobiális aktivitását, hogy hozzáadjanak egy rövid összefoglalót a kódolt AMP antimikrobiális aktivitásáról, és tároljanak egy új RefSeq attribútumot ‘Protein has antimicrobial activity’, amely szerepel a RefSeq attribútum strukturált megjegyzésében (pl. NM_001124.2 az ADM-hez; GeneID: 133). Az összes kurált humán transzkriptum vagy protein AMP rekord eléréséhez keressen a nukleotid vagy fehérje adatbázisban a ‘Protein has antimicrobial activity’használatával. Jelenleg ez a keresés 191 RefSeq rekordot talál, beleértve a splice variánsokat és a fehérje izoformákat.

endogén retrovírusok (Erv-k)

az endogén retrovírusok (Erv-k) olyan genomi lókuszok, amelyek egy exogén retrovírus ősi behelyezéséből származnak a gazdaszervezet genomjába. Az ERV lokuszok általában nem tartoznak a RefSeq hatálya alá; azonban feljegyezzük a teljes hosszúságú ERV fehérjét kódoló lokuszokat, amelyek egyetlen genomiális helyre vannak leképezve, ha gazdafunkciót szolgálnak, ismert betegséggel társulnak, és/vagy ha egy hivatalos nómenklatúra Bizottság rendelte hozzájuk a nómenklatúrát. Az emberi genom körülbelül 8% – a retrovírus eredetű (27); azonban ősi eredetük miatt a legtöbb emberi ERV lokusz értelmetlen mutációkat halmozott fel, és már nem képes fehérjét kódolni. A szincitin fehérjék, amelyek részt vesznek a placenta fejlődésében (28), jól ismert kivétel ez alól. A humán syncytin-1 és syncytin-2 fehérjéket az ERVW-1 (NM_001130925.1, NM_014590.3) és az ERVFRD-1 (NM_207582.2) gének kódolják. A mai napig 67 RefSeqs-t hoztunk létre az ERV loci számára, amely magában foglalja a különféle Emlősök ERV génjeit képviselő rekordokat. Egy új RefSeq attribútumkategóriát hoztak létre az endogén retrovírus címmel, amely a RefSeq rekord strukturált megjegyzésében jelenik meg. Ezeket a rekordokat a nukleotid adatbázisból lehet letölteni az endogén retrovírus keresésével.

Replikációfüggő hisztonok

a hiszton mRNS-ek gyors szintézisére van szükség a sejtosztódás során nagy mennyiségű hisztonfehérje előállításához. E folyamat szempontjából kritikusak a replikációtól függő hiszton gének, amelyek a sejtciklus G1/S fázisában vannak szabályozva (29). Egy speciális RefSeq projektet indítottak azzal a céllal, hogy a replikációfüggő hisztonfehérjét kódoló gének teljes készletét kurálják ember és egér. Ezeknek a géneknek kanonikus 3 ‘ hiszton downstream elem(HDE) szekvenciája van a genomi szekvenciában, és az ebből eredő Érett mRNS-ek jellemzően nem rendelkeznek poli (A) farokkal, ehelyett röviddel az RNS szár-hurok szerkezete után végződnek (30). A HDE elem megtalálható a prekurzor átiratán, de nem szerepel a RefSeq által képviselt feldolgozott átiratban. A konzervált 16 nukleotid szár-hurok szerkezeti szekvencia helyét a RefSeq rekord ‘szár-hurok’ című jellemző kommentárként jelzi. Egy példa látható a REFSEQ bejegyzés NM_003539.3 A HIST1H4D (GeneID: 8360). A mai napig 127 humán és egér replikációfüggő hiszton RefSeq rekordot kuráltak, és hozzáadtak egy RefSeq attribútumot, amely felhasználható ezeknek a rekordoknak a lekérdezésére a nukleotid adatbázisból a ‘replikációfüggő hiszton’keresési karakterlánc segítségével.

szabályozó upstream nyitott olvasókeret (uorf)

az upstream nyitott olvasókeret (uORF) fordítása negatívan befolyásolhatja az elsődleges fehérjét kódoló nyitott olvasókeret (pORF) transzlációját (31). Ez a hatás nem mindig teljesen elhallgattatja a pORF transzlációt, és függhet a sejttípustól, a fejlődési állapottól vagy a sejtállapottól. Ezért, bár az uorf-ok megjósolhatók az átirat hatkockás fordításából, ennek az elemnek a szabályozó hatását kísérleti validációval kell meghatározni. A RefSeq kurátorai áttekintették az irodalmat, hogy megtalálják a szabályozó uorf-ok kísérleti bizonyítékait tartalmazó átiratokat, és frissítették a megfelelő RefSeq átirat rekordokat, hogy hozzáadjanak egy misc_feature-t, amely jelzi ezen uorf-ok helyét. Példa erre a RefSeq bejegyzés NM_000392.4 az ABCC2 esetében (GeneID: 1244). Létrehoztunk egy új RefSeq attribútumkategóriát ‘regulatory uORF’ címmel, amely a RefSeq rekordok strukturált megjegyzésében jelenik meg. Mind a jegyzetekkel ellátott funkció, mind az attribútum a PubMed ID támogató kiadványát idézi. A mai napig 260 rekordot jegyeztek fel ezzel a tulajdonsággal, és ezek a rekordok a nukleotid adatbázisból visszakereshetők a ‘szabályozó uORF ‘

Antizim gének keresésével

a RefSeq projekt egyik célja olyan kivételes biológiájú gének ábrázolása, amelyek nem követik a fehérjeszintézis standard dekódolási szabályait. Az ornitin-dekarboxiláz-antizim gén egy ilyen példa, ahol egy programozott +1 riboszomális frameshifting mechanizmus fordul elő, amelyet hagyományos számítási eszközökkel nem lehet megjósolni. Egy sor gerinces antizim transzkriptumot és fehérje nyilvántartást nemrégiben kézi annotációs erőfeszítésnek vetettek alá, hogy olyan szabványokat hozzanak létre, amelyek javítják ezen géntermékek annotációját az eukarióta genom annotációs csővezetéken keresztül (32). A RefSeq rekordokat manuálisan jegyzetelték a Split CDS funkcióval, hogy tükrözzék a riboszomális csúszást, és tartalmaztak egy ‘riboszomális csúszás’ attribútumot közzétett bizonyítékokkal, különféle különféle jellemzőjegyzetekkel (például a kereteltolás helyének helyével), valamint egy rövid összefoglalóval, amely leírja a gén működését és új tulajdonságait (pl. NM_139081.2). Ezeket a rekordokat a nukleotid vagy a fehérje adatbázisból lehet letölteni a keresési lekérdezéssel: gerincesek refseq riboszomális csúszás antizim. Ez a keresés jelenleg 242 RefSeq rekordot (NM vagy NP) talál, amelyek transzkript variánsokat és fehérje izoformákat tartalmaznak.

Gerinctelenek

a gerinctelen fajok képviselik a fennmaradt metazoánok túlnyomó többségét (33); a szekvenált genomok azonban csak viszonylag kis számot képviselnek. Ez annak ellenére, hogy sok faj kritikus orvosbiológiai jelentőséggel bír, mint például az Anopheles gambiae, a malária vektora és a Biomphalaria glabrata, a schistosomiasis vektora (34,35). Más gerinctelenek, köztük az Apis mellifera, a Bombyx mori és a Crassostrea gigas jelentős kereskedelmi értékkel rendelkeznek (36-38). A RefSeq csoport erőfeszítéseket tett az adatkészletben képviselt gerinctelen genomok számának és terjedelmének növelésére azáltal, hogy az eukarióta genom annotációs csővezetéken keresztül kommentárt adott, vagy az INSDC beadványaiból származó annotációt e genomok RefSeq példányára terjesztette. Mindkét folyamatfolyamat esetében függünk a magas minőségű genomok nyilvános elérhetőségétől az INSDC adatbázisokban és az NCBI Assembly adatbázisában (www.ncbi.nlm.nih.gov/assembly/). a mai napig 46 gerinctelen genomot jegyeztek fel az NCBI, beleértve a rovarok, pókok, puhatestűek és bazális akkordok reprezentatív fajait. A rovarok és más gerinctelen genomok számának jelentős bővülésére számítunk olyan Genom kezdeményezések eredményeként, mint az i5k (39), az 1kite (1k rovar transzkriptom evolúció, http://www.1kite.org/) és a globális gerinctelen Genom Szövetség (http://giga.nova.edu/) (40).

növények

a RefSeq tovább bővíti az adatkészletben képviselt növényfajok sokféleségét. A mai napig 61 növényfaj került be a RefSeq genomadatkészletbe (ftp://ftp.ncbi.nlm.nih.gov/genomes / refseq/ plant/), amelyből 33 fajt jegyeztek fel az eukarióta genom annotációs csővezetéken keresztül; a fennmaradó rész az insdc-hez benyújtott annotált genomok RefSeq másolatai. A jövőben a RefSeq felvételére kiválasztott több növényi genomot az eukarióta annotációs csővezeték dolgozza fel, ahelyett, hogy az insdc benyújtásából származó annotációt szaporítaná. Ez a RefSeq növényi genomok politikájának változása, és a növényi annotációs adatok nagyobb általános konzisztenciáját eredményezi a RefSeq adatkészleten belül. A növényfajok számára rendelkezésre álló RefSeq transzkriptumok és fehérjék többsége modellrekord (XM_, XP_ és XR_ csatlakozások; 1.táblázat), az ismert rekordok kisebb részhalmazával (NM_, NR_, NP_), amelyeket az annotációs folyamattól függetlenül tartanak fenn az automatizált feldolgozás és a kézi felülvizsgálat kombinációjával. A Zea mays és a Solanum lycopersicum esetében jelenleg rendelkezésre állnak a növényi transzkriptum és a fehérje adatok kézi kurálása. A jelenlegi kurációs fókusz kiterjedt szekvencia-felülvizsgálatot von maga után, és a jelenlegi átiratok QA-aggályainak megoldására irányul. A hibafeloldás a kiméra átiratok, a redundáns átiratok és gének azonosítására és eltávolítására összpontosít, és javítja a képviselt szekvencia minőségét a refseq átirat, a genomi szekvencia és az ortológ adatok közötti indelek és eltérések értékelésével. A növények esetében arra törekszünk, hogy olyan kurált transzkriptumot és fehérje adatkészletet biztosítsunk, amely összhangban áll a genom szekvenálásához és összeszereléséhez kiválasztott fajtával. A gerinces adatokhoz használt kurációs protokollt növényekre is használják. Így a RefSeq átirati rekordok frissíthetők úgy, hogy egy másik INSDC forrásszekvencián alapuljanak, vagy összeállíthatók egynél több INSDC szekvenciarekordból annak érdekében, hogy átiratot kapjanak az előnyben részesített fajtából. Ha az insdc transzkript adatok nem állnak rendelkezésre a genomi fajtára vonatkozóan, akkor az összeállított genomi szekvenciából RefSeq transzkriptumot lehet előállítani a transzkriptum vagy a fehérje-igazítások, az RNS-Seq és/vagy a közzétett adatok kombinációja alapján. A második fókuszpont a támogatott ismert fehérje-kódoló transzkriptumok és fehérjék számának növelése, mivel ez egy kurált reagenst biztosít, amely felhasználható más növényi genomok megjegyzéséhez. Végül, több Refseq-t készítünk, amelyek az illesztési változatokat képviselik, ha elegendő alátámasztó bizonyíték áll rendelkezésre. Ezek az erőfeszítések jelentősen javítani fogják az üzem RefSeq adatkészletének minőségét, és hozzájárulnak a jövőbeni genomjegyzetek javításához. A csővezeték által feljegyzett jelenlegi növényi genomkészlet az NCBI eukarióta genom annotációs csővezeték weboldalán érhető el http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ a részletes annotációs jelentésre és más forrásokra, például a species BLASTRA és az FTP-re mutató linkekkel.

algák, gombák, fonálférgek és protozoonok

az NCBI small eukarióta genom csővezeték egy új automatizált csővezeték, amelyet RefSeq rekordok létrehozására terveztek az annotált INSDC rekordok közvetlen szaporításának eredményeként. Az így létrehozott RefSeq rekordok a GenBank adatainak másolatai, néhány formátumváltozással, hogy megfeleljenek a RefSeq követelményeinek. A legjelentősebb különbség az eredeti INSDC rekord és a RefSeq rekord között a RefSeq transcript termék hozzáadása. Bár nem a De novo Genom annotáció létrehozására tervezték, a kis eukarióta genom csővezeték az NCBI eukarióta genom annotációs csővezeték számos moduljából és azok kódjából származik (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

A ‘Kis eukarióták’ megnevezés arra utal, hogy a csővezeték elsődleges felhasználása RefSeq genomok előállítására viszonylag kisebb eukarióta genomok számára (összehasonlítva a növények és gerincesek genomjaival), mint például algák, protozoonok, gombák, fonálférgek és egyes ízeltlábúak. Néhány nagy növényi genomot azonban ezzel a csővezetékkel is feldolgoznak. Ez a csővezeték kiváló minőségű szerelvényeket dolgoz fel, amelyek kromoszómákból és / vagy állványokból és azok összetevőiből állnak. Ezek a szerelvények magas contig és állvány N50, kiváló minőségű szekvencia, és ésszerűen jó INSDC benyújtott kommentár prioritást élveznek. Ez a csővezeték, amely felváltja a korábbi folyamatfolyamatot, amely több kézi támogatást igényelt, csak a közelmúltban érte el a nyilvános gyártási fázist, és máris megnövekedett számú ‘kis’ eukarióta genomot eredményez a RefSeq-ben. Folyamatban van a folyamat áteresztőképességének optimalizálása, az automatizálás növelése és a Kurátor feldolgozási feladatainak további minimalizálása. A hosszabb távú tervek között szerepel egy fehérjenév-kezelési rendszer bevezetése annak érdekében, hogy az insdc által benyújtott neveket idővel biztosítsák, javítsák vagy javítsák. A kis eukarióták csővezeték hatálya alá tartozó genomok közül sok jelenleg nem dolgozható fel a (nagy) eukarióta genom annotációs csővezeték rendszertani sokfélesége és a De novo annotációs csővezeték kiképzéséhez szükséges átirat-adatok korlátozott rendelkezésre állása miatt.

gomba célzott lokuszok

a gomba morfológiája nagyon változatos, a komplex többsejtű struktúráktól a nagyon egyszerű egyetlen sejtekig. Egy faj számos morfológiai struktúrát és spóratípust képes előállítani. Ezzel szemben sok faj hasonló morfológiákat (morfológiákat) hoz létre, de valójában genetikailag nagyon távol vannak. Egészen a közelmúltig egyetlen faj érvényesen leírható egynél több binomiális névvel, szexuális vagy aszexuális morfok alapján. Sok esetben csak egyetlen morfiumot írtak le és rögzítettek egy adott fajra vonatkozóan, bár a vele közeli rokonságban álló fajok több morfiumot is leírhatnak és rögzíthetnek. Következésképpen szekvenciaösszehasonlításokat alkalmaztak a gombaközösségben a fajok megkülönböztetésére, a fajok nyomon követésére, miközben bonyolult életciklusokon mennek keresztül, valamint a rejtélyes fajok azonosítására. A taxonómiai újraértékelés dinamikus folyamatának részeként sok gombafaj-korrekció nem mindig naprakész a GenBank szekvencia adataiban.

ahhoz, hogy a DNS-alapú azonosítás megbízhatóbb forrása lehessen, a típusmintákból származó referencia szekvenciákat (amelyek a fajok referenciájaként szolgálnak) a helyes és legfrissebb fajnévvel kell ellátni. A Fungi RefSeq célzott loci adatbázisok biztosítják ezt az értékes erőforrást. Például a PRJNA177353 egy olyan Bioprojekt, amely kifejezetten a nukleáris riboszomális cistron belső transzkripciós távtartó (ITS) régióira összpontosít, amelyet évek óta filogenetikai markerként használnak, és a közelmúltban jóváhagyták a gombák hivatalos vonalkód-szekvenciájaként (41). Az its RefSeq adatbázis az Index Fungorum, a MycoBank és a UNITE, valamint a taxonómiai szakemberek nagy csoportjával való együttműködésként indult. Szekvenciákat választottunk ki, többnyire érvényes leírások típusmintáiból, majd az aktuális helyes fajneveket társítottuk a szekvenciákhoz azzal a céllal, hogy az elfogadott gombarendek többségét képviseljük (8). Ennek a kurációs erőfeszítésnek az eredményeit számos publikáció felhasználta és Idézte (42-46), és további erőfeszítéseket tett a referenciaszekvenciák részhalmazainak, például az orvosilag jelentős fajoknak a validálására (47).

a folyamatos kuráció célja az újonnan leírt rendek szekvenciáinak hozzáadása, valamint a reprezentáció kiterjesztése az elfogadott családok többségére, az orvosilag fontos gombákra összpontosítva. A folyamat magában foglalja a korrekciók elvégzését is, az ellenőrzött anyagból származó szekvencia helyettesítését a típusanyagból származó szekvenciával, amint elérhetővé válik, valamint a definíciós sorok szerkesztését vagy a RefSeq rekordok eltávolítását a rendszertani osztályozások változásakor. Ez biztosítja, hogy a BLAST keresési eredmények helyesen jelenítsék meg az aktuális nevet. A RefSeq nyilvántartásait kibővítették, hogy 3060 szekvenciát képviseljenek, amelyek 270 családot képviselnek 39 osztályból. A kezdeti együttműködés során a RefSeq erőfeszítései során a 28S nukleáris nagy alegység riboszomális génjének (LSU) kisebb szekvenciahalmazát is összegyűjtötték, de nem igazolták. Az ITS rekord kurációs folyamatához hasonló munkafolyamatot követtek, és a folyamatos kurálás során ezeket az LSU rekordokat ellenőrizték a szekvencia minősége, a helyes azonosítás és a pontos forrásadatok szempontjából. Közel 500 rekord (800 lehetséges rekordból), amelyek >100 családot ellenőriztek 21 osztályból, és nemrégiben megjelentek. A 28S adatkészlet a Prjna51803 (48) Bioprojektből tölthető le.

prokarióták

az NCBI RefSeq prokarióta genomgyűjtemény különböző minőségű és mintavételi sűrűségű összeállított prokarióta genomokat képvisel. Prokarióták esetében, a korábbi közösségi visszajelzések alapján jelenlegi politikánk az, hogy genomjegyzetet biztosítsunk minden olyan prokarióta Genom számára, amely megfelel minőségi kritériumainknak. Az elmúlt években két nagy kihívással néztünk szembe: (i) lépést tartani a benyújtott prokarióta genomok gyors eszkalációjával; és (ii) kezelni a genom annotáció növekvő inkonzisztenciáját, mind az INSDC szaporítás-alapú csővezeték, mind az NCBI de novo Genom annotációs csővezeték különböző verzióinak használata miatt.

az emberi kórokozók iránti növekvő érdeklődés és a DNS-szekvenálási technológia fejlődése miatt a szekvenált prokarióta genomok száma gyorsan növekedett az elmúlt évtizedben. Néhány baktériumtörzs gyakran megkülönböztethetetlen a jelenlegi genotipizálási megközelítésekkel, de kisebb genetikai különbségek kimutathatók a teljes genom szekvenálása alapján, amely hasznos az átviteli utak jellemzésére, az antibiotikum-rezisztencia azonosítására és a járványok felmérésére. Az élelmiszer által terjesztett kórokozók vagy fertőzéskitörések kivizsgálására az elmúlt években nagyszámú, közel azonos baktériumgenomot szekvenáltak és kommentáltak, ami számos azonos fehérjét eredményezett, amelyek mindegyikének külön csatlakozási száma van. 2013-ban az NCBI bevezette az új fehérje adatmodellt és csatlakozási előtagot (wp_) a RefSeq gyűjteményhez. Ez a változás csökkentette a RefSeq prokarióta fehérjék redundanciáját, és megkönnyítette azon fehérjék azonosítását, amelyek azonos módon megtalálhatók egynél több genomban. Ez lehetővé tette a prokarióta fehérje nevek kezelésének továbbfejlesztett stratégiáját is. Ezek a nem redundáns feljegyzések egyedi prokarióta fehérjeszekvenciákat képviselnek, amelyek függetlenek egy adott baktérium genomjától, és több törzsre vagy fajra is feljegyezhetők (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

történelmileg a RefSeq bakteriális genomok annotációját az INSDC beadványaiból szaporították, ha rendelkezésre állnak, vagy az NCBI prokarióta Genom annotációs csővezetékének különböző verzióival generálták (amelyet a GenBank beadványok). Ez felhalmozódott következetlenségeket eredményezett mind a szerkezeti, mind a funkcionális annotációban a RefSeq prokarióta adatkészletben. Az elmúlt két évben az NCBI továbbfejlesztette a prokarióta Genom annotációs csővezeték számos aspektusát a kapacitás növelése és az annotációs szabályok további egységesítése érdekében. Vezetékünk egy génhívó algoritmust, a GeneMarkS+ (49,50) kombinál egy összehangoláson alapuló géndetektálási megközelítéssel, és képes mind a teljes, mind a vázlatos WGS genomok megjegyzésére. A csővezeték jelenleg előrejelzi a fehérjét kódoló géneket, a strukturális RNS-eket (5S, 16S és 23S), a tRNS-eket és a kis, nem kódoló RNS-eket.

2015-ben kiadtunk egy átfogó annotációs frissítést a RefSeq prokarióta genomokhoz annak érdekében, hogy harmonizáljuk a genom annotációt és befejezzük az új fehérje adatmodellre való áttérést. Egy új prokarióta fehérje név adatbázist, név specifikációkat és egy bizonyítékokon alapuló stratégiát dolgoztak ki, és jelenleg a telepítés folyamatban van. Eddig, felett 3 millió fehérjerekord frissítette a neveket a megközelítés kezdeti bemutatásakor. Az új prokarióta adatmodell jelentős előnyt kínál a névkezelésben, mivel a fehérje nevét a fehérje szekvenciarekorddal együtt hordozzák; a név frissítése ezen a fehérjerekordon azt eredményezi, hogy a frissítés automatikusan továbbterjed az összes olyan genomra, amelyet az adott csatlakozási számmal jelölnek.

a RefSeq prokarióta genomokat számos új kategóriába sorolják, mint például a referencia genomok és a reprezentatív genomok, amelyek kurált attribútumokon és összeszerelési és annotációs minőségi méréseken alapulnak (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). A referencia genomok kézzel kiválasztott’ gold standard ‘ teljes genomok, kiváló minőségű annotációval és a strukturális és funkcionális annotáció legmagasabb szintű kísérleti támogatásával. Jelenleg egy 122 referencia genomból álló kis adatkészletet manuálisan kommentálnak az együttműködő csoportok és az NCBI munkatársai. A referencia genomok a következő címen érhetők el: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. A reprezentatív genomokat számítási szempontból kiszámítják és kiválasztják a különböző fajok képviseletére. A reprezentatív genomok a következő címen érhetők el: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq prokarióta Genom adatok elérhetők a BLAST adatbázisokban, webes erőforrásokban (Assembly, BioProject, Genome, Nucleotide and Protein), az NCBI programozási segédprogramjain keresztül, vagy letölthetők a genomokról vagy a refseq FTP helyekről. Egy egyedi ‘mikrobák’ BLAST oldal, amely a BLAST kezdőlapjáról érhető el, lehetőséget kínál az összes RefSeq prokarióta Genom, a referencia és a reprezentatív Genom részhalmaz keresésére, vagy a keresés egy adott taxonra korlátozására. A prokarióta genomok egy részét NCBI Génazonosítóval jegyzik fel, és az NCBI Génforrásából vagy a gén FTP helyéről lehet letölteni. Az archaea esetében ez a legteljesebb genomokra vonatkozik. A baktériumok esetében ez a referencia-genomokra, valamint a legalább 10 genommal rendelkező fajok reprezentatív genomjaira vonatkozik.

prokarióta célzott lokuszok

a prokariótákban a 16S riboszomális RNS szekvencia standard molekuláris markerré vált egy új faj leírásához. Bár ezek a marker szekvenciák széles körben használatosak, a szekvenciaadatok minősége és a kapcsolódó metaadatok az INSDC adatbázisokba történő benyújtása jelentősen eltér. Felismerve a kiváló minőségű adatokhoz való hozzáférés fontosságát ezekhez a markerekhez, az NCBI kibővítette célzott loci projektjét, hogy naprakész forrást biztosítson a kurált adatokhoz. A célzott loci projekt jelenleg közel 18 000 16S riboszomális RNS referencia szekvenciát tart fenn, amelyek több mint 95% – a típusú törzsekből származik. A típustörzseket tekintik a faj példájának, és alapvető fontosságú, hogy a típustörzs-adatokat helyes metaadatokkal jelöljék, és szennyeződéstől mentesek legyenek.

Ez a munka magában foglalta az alapul szolgáló taxonómiai adatbázis kimerítő áttekintését és frissítését, amelyet az NCBI típusú törzs Entrez szűrőjével együtt használtak a jelölt szekvenciák lekérésére. A szekvenciaadatokat és a hozzájuk tartozó taxonómiai/metaadatokat felülvizsgálták és korrigálták, hogy a legfrissebb információkat tartalmazzák. Ha egy szekvencia nem sikerült érvényesíteni, vagy nem lehetett pontosan érvényesíteni, kizárták. Ezek a referenciaszekvenciák mostantól aranystandardként használhatók a meglévő és új rRNS szekvenciák elemzéséhez.

bakteriális és Archeális 16S rRNS adatkészletek állnak rendelkezésre a BioProject-től (prjna33175 és PRJNA33317). Egy egyedi BLAST adatbázis is rendelkezésre áll (’16S riboszomális RNS szekvenciák (baktériumok és Archaea)’).

vírusok

a vírusok RefSeq adatmodellje eltér a többi organizmus adatmodelljétől. Általában minden vírusfajhoz csak egy teljes RefSeq Genom jön létre. Esetenként több RefSeq rekordot hoznak létre egy adott vírusfajon belül, hogy jól meghatározott genotípusokat vagy fontos laboratóriumi és/vagy vad törzseket tükrözzenek. Egy adott faj esetében további genomokat validálnak a taxonómia és a teljesség szempontjából, majd indexálják a ‘szomszédok’ szekvenciaként (52). Mind a RefSeq, mind a szomszédos genomok visszakereshetők a speciális vírusgenom erőforráson (http://www.ncbi.nlm.nih.gov/genome/viruses/), valamint az Entrez nukleotid-és Genomoldalakról a “RefSeq Genom a fajok számára” és az “egyéb INSDC Genomszekvenciák” linkek segítségével (52).

a taxonómia komoly aggodalomra ad okot a vírusgenomika szempontjából, mivel 3186 vírusfajt ismer el hivatalosan a vírusok taxonómiájának Nemzetközi Bizottsága (ICTV) (53), valamint 4834 teljes genom áll rendelkezésre mind hivatalos, mind ideiglenes vírusfajokból az INSDC adatbázisaiból. Az NCBI Pairwise Sequence Comparison (PASC) eszközt azért fejlesztették ki, hogy segítse a vírusgenomok osztályozását a genomok közötti globális és/vagy helyi igazítások alapján (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Az eszköz alkalmazási körét számos víruscsaládra és más rendszertani csoportra kiterjesztették, és az új rendszertani kritériumok (54-57) elhatárolásának elősegítésére használták.

egy másik felmerülő probléma a vírusgenomikában az inkonzisztens és/vagy pontatlan annotáció a kapcsolódó vírusgenom szekvenciák között. Ez a kérdés gyakran tükrözi az eltérő annotációs folyamatokat és a folyamatban lévő kísérleti munkát, és zavart okozhat az adatfogyasztók között, és megnehezítheti a genomok közötti összehasonlító elemzést. Ezt a problémát az NCBI Vírusvariációs erőforrás (http://www.ncbi.nlm.nih.gov/genome/viruses/variáció/) kezeli, ahol számítási csővezetékeket alkalmaznak több vírus naprakész, szabványosított annotációjának biztosítására (58). Jelenleg ezek a csővezetékek kiszámítják a standardizált gén-és fehérjehatárokat az összes influenzavírus, A Dengue-vírus és a nyugat-nílusi vírusszekvencia, valamint a standardizált gén-és fehérjenevek és metaadat-kifejezések számára ezekre és két másik vírusra, a Közel-Keleti légúti koronavírusra és az Ebolavírusra. Ezt a szabványosított adatot ezután egy speciális, metaadat-központú Keresési felületen használják fel, amely megkönnyíti a szekvenciák egyszerű visszakeresését meghatározott biológiai kritériumok alapján.

A naprakész, széles körben elfogadott annotációs szabványok fenntartása folyamatos együttműködést igényel a nagyobb tudományos közösséggel. Az NCBI vírusgenom annotációs munkacsoportot azért hozták létre, hogy kihasználja a nyilvános adatbázisok konzorciumait, szekvenáló központokés kutatócsoportok standardizált szekvencia annotáció kidolgozására, valamint izolálja a vírusok különböző csoportjainak elnevezési sémáit (59-63). Ez a megközelítés nem csak szabványokat állapít meg a vírus annotációjára, hanem ezeket a szabványokat is képviseli a jelenlegi RefSeq rekordban, biztosítva az összes adatbázis-felhasználó és beküldő számára a hozzáférést. Hasonló együttműködésre van szükség a hozzáadott érték, értelmező erőforrások, például a HIV-1, az emberi interakciós adatbázis támogatásához is (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovírusok/hiv-1/interakciók/) (64). A déli Kutatóintézet munkatársai dokumentált HIV-1-et, az irodalomból kurált humán molekuláris kölcsönhatásokat nyújtanak, az NCBI pedig felhasználóbarát erőforrást tart fenn, ahol a felhasználók lekérdezhetik az interakciók meghatározott típusait, és további információkat találhatnak az érintett génekről.

jövőbeli irányok

a RefSeq projekt egyedülálló az átiratok, fehérjék és genomok referencia szekvencia-adatkészletének kínálatában, amely magában foglalja az élet minden királyságát, és az idő múlásával aktívan karbantartották és frissítették a továbbfejlesztett számítási stratégiák, az új adattípusok és az új ismeretek beépítése érdekében. Bizonyítottuk, hogy képesek vagyunk reagálni az INSDC adatbázisokba beküldött szekvenált genomok számának közelmúltbeli gyors növekedésére. Különböző politikákat és stratégiákat határoztunk meg az eukarióta, prokarióta és vírusfajok kurálására és kommentálására, hogy kielégítsük a szervezetspecifikus közösségek különböző igényeit. A RefSeq adatkészletet széles körben használják referenciaszabványként számos különböző elemzéshez, beleértve az emberi és kórokozó klinikai alkalmazásokat, az összehasonlító genomikát, az expressziós vizsgálatokat, a szekvencia variáció értelmezését, valamint mind a tömb, mind a szonda felépítését. Az NCBI-nél a RefSeq adatkészlet több erőforrásba van integrálva, beleértve az Assembly, BLAST, Epigenomics, Gene (ahol a RefSeq annotáció a legtöbb Génbejegyzés elsődleges alapja), Genome, Dbsnp, dbVar, Variation Viewer stb.

továbbra is a kézi kurációt célozzuk meg az emberi és más gerinces genomok szerkezeti és funkcionális információinak javítása érdekében. Konzervatív kézi kurációs megközelítésünk biztosítja az emberi, egér és más ismert RefSeq rekordok folyamatos magas minőségét és megbízhatóságát, amely azoknak az igényeit szolgálja, akiknek szükségük van az alternatív exonok jól támogatott meghatározására (kevesebb hamis pozitív). Az RNS-Seq adatok hozzáadása az annotációs csővezetékünkhöz jelentősen megnövelte az alternatív splice variánsok mint modell Refseq-k megjegyzését, hogy kielégítsük azok igényeit, akik átfogóbb, de még mindig jól támogatott, az exome meghatározása (kevesebb hamis negatív). Míg mind az ismert, mind a modell Refseq-k jelentik a sorozatrekord alátámasztó bizonyítékait, erre külön megközelítéseket alkalmaznak. A jövőbeni erőfeszítések a bizonyítékok jelentésének harmonizálására irányulnak mind az ismert, mind a modell referencia-kérdések tekintetében, hogy a felhasználók könnyebben azonosíthassák ezeket az információkat. A közeljövőben egy új adattípust is hozzáadunk az emberi és egér RefSeq gyűjteményhez, hogy bemutassuk a kísérletileg jelentett szabályozási és funkcionális elemeket ismert (vagy ésszerűen következtetett) funkcionális következményekkel.

a prokarióta genomok esetében folytatjuk a prokarióta Genom annotációs csővezeték által generált szerkezeti annotáció szempontjainak finomítását. A funkcionális információk kezelésének új megközelítésére irányuló munkánk még mindig finomítás alatt áll, és máshol ismertetjük. Arra számítunk, hogy a teljes RefSeq prokarióta genomok adatkészletét újra feljegyezzük, amikor a prokarióta annotációs csővezeték új verziói elérhetővé válnak (a strukturális annotáció javítása érdekében). Az a döntés, hogy az összes RefSeq prokariótát egyetlen módszerrel kommentálják, ezen adatkészlet puszta mennyiségével együtt, más megközelítést igényel, amely több bizonyítékforrást használ fel a funkcionális információk biztosításához. A fehérjeneveket folyamatosan frissítik, a fehérjecsaládok vagy a bizonyítéktípus kategóriái szerint. A következő évre vonatkozó céljaink közé tartozik az Rfam (65) nagyobb mértékű integrálása az annotációs folyamatba, a kibővített együttműködés, a jobb fehérjenevek és a támogató bizonyítékok jelentése a fehérje szekvenciarekordon.

szeretnénk köszönetet mondani a tudományos közösségnek az elmúlt 15 év konstruktív visszajelzéseiért, javaslataiért, hibajelentéseiért és együttműködéseiért, amelyek hozzájárultak a bemutatott szekvencia minőségéhez és pontosságához, a szerkezeti kommentárhoz és a funkcionális kommentárhoz.

finanszírozás

az NIH Nemzeti Orvostudományi Könyvtárának intramuralis kutatási programja. A nyílt hozzáférési díj finanszírozása: a Nemzeti Egészségügyi Intézetek intramuralis kutatási programja, Nemzeti Orvostudományi Könyvtár.

összeférhetetlenségi nyilatkozat. Nincs bejelentett.

Nosek
B. A.

Alter
G.

bankok
G. C.
borsboom
D.

Bowman
S. D.
breckler
S. J.
Buck
S.
div>

Chambers
C. D.

Kína
G.
Christensen
G.

et al.

tudományos szabványok. Nyílt kutatási kultúra előmozdítása
tudomány
2015
348
1422
1425

szürke
K. A.

Yates
B.

seal
R. L.

Wright
M. W.
Bruford
E. A.
Genenames.org: a HGNC források 2015-ben
nukleinsavak res.
2015
43
D1079
D1085
Ruzicka
L.
Bradford
Y. M.

Frazer
K.

Howe
D. G.

paddock
H.
Ramachandran
S.
singer
A.

Bull
S.
Van Slyke
C. E.

Eagle
A. E.

et al.

ZFIN, a zebrafish modell organizmus adatbázis: frissítések és új irányok
Genesis
2015
53
498
509

uniprot

C.
uniprot: fehérje információs központ
nukleinsavak res.
2015
43
D204
212
kozomara
A.

Griffiths-Jones
S.

mirbase: nagy megbízhatóságú mikroRNS-ek jegyzetelése mély szekvenálási adatok felhasználásával
nukleinsavak res.
2014
42
D68
73

McGarvey
K. M.
Goldfarb
T.
Cox
E.

Farrell
C. M.

>

Gupta
T.

joardar
V. S.

kodali
V. K.

Murphy
M. R.

O ‘ Leary
N. A.

Pujar
S.

Egérgenom annotáció a RefSeq projekt által
Mamm. Genom
2015
26
379
390

div> Dalgleish
R.
flicek
P.
Cunningham
F.
astashyn
A.
Tully
R. E.

Proctor
G.

kutya
Y.

McLaren
W. M.
Larsson
P.

Vaughan
B. W.

et al.

Locus Reference Genomic sequences: az emberi DNS variánsok leírásának továbbfejlesztett alapja
Genome Med.
2010
2
24

div>Schoch
C. L.

Robbertse
B.

Robert
V.
Vu
D.

Cardinali
G.

Irinyi
L.
Meyer
W.

Nilsson
R. H.
Hughes
K.

Miller
A. N.

et al.

tűk keresése a szénakazalban: tudományos nevek, referencia minták és molekuláris adatok összekapcsolása a gombákra
Adatbázis
2014
1
21

Zhang
Zhang
G.

it
C.

It
Q.

It
B.
Larkin
D. M.

Lee
C.
Storz
J. F.
Antunes
A.
greenwold
M. J.
Meredith
R. W.

et al.

összehasonlító genomika feltárja betekintést madár Genom evolúció és adaptáció
tudomány
2014
346
1311
1320

arvis

E. D.
mirarab
S.

aberer
A. J.

it
B.
div>Houde
P.

it
C.

ho
S. Y.
lauch
B. C.

Nabholz
B.

Howard
J. T.

et al.

A teljes genom elemzése megoldja a modern madarak életfájának korai ágait
tudomány
2014
346
1320
1331

Farrell
C. M.
O ‘ Leary
N. A.

harte
R. A.
Loveland
J. E.
wilming
L. G.

Wallin
C.

Diekhans
M.
Barrell
D.
Searle
S. M.
Aken
B.

et al.

Jelenlegi állapot, illetve új funkciók a Konszenzus Kódoló Szekvencia adatbázis
Nukleinsav Res.
2014
42
D865
D872
Pruitt
K. D.

Tatusova
T.

Maglott
D.R.

NCBI referencia szekvenciák (RefSeq): a genomok, transzkripciók és fehérjék kurált, nem redundáns szekvenciadatbázisa
nukleinsavak res.
2007
35
D61
D65

Hopkins
B. D.
fine
B.

Steinbach
N.

Dendy
M.

Rapp
Z.

Shaw
J.

Ross
K.

Yu
J. S.

Hodakoski
C.
mense
S.

et al.

A szekretált PTEN foszfatáz, amely belép a sejtekbe, hogy megváltoztassa a jelátvitelt és a túlélést
tudomány
2013
341
399
402

Liang

H.
he
S.
yang
J.
Jia
X.
Wang
P.
kutya
X.

Zhang
Z.
Állatkert
X.
McNutt
M. A.
Sheng
W. H.

et al.

A PTENalpha, a PTEN izoforma alternatív iniciációval lefordítva, szabályozza a mitokondriális funkciót és az energia anyagcserét
sejt metabolitja.
2014
19
836
848
Bolouri
H.

Genom szabályozási hálózatok modellezése nagy adatokkal
trendek Genet.: TIG
2014
30
182
191

Fagerberg
L.
Hallstrom
B. M.
oksvold
P.

Kampf
C.
djureinovic
D.

div>

odeberg
J.
habuka
M.

tahmasebpoor
S.

Danielsson
A.
Edlund
K.

et al.

az emberi szövet-specifikus expresszió vizsgálata a transzkriptomika és az antitest-alapú proteomika genomszintű integrálásával
Mol. Cella. Proteomika : MCP
2014
13
397
406
Bernstein
B. E.

stamatoyannopoulos
J. A.

Costello
J. F.

derék
B.

Milosavljevic
A.
Meissner
A.
Kellis
M.

Marra
div> M. A.

Beaudet
A. L.
Ecker
J. R.

et al.

az NIH ütemterve epigenomikai térképezési konzorcium
Nat. Biotechnol.
2010
28
1045
1048
Hoffman
M. M.
div>

Ernst
J.

Wilder
S. P.

kundaje
A.

Harris
R. S.

libbrecht
M.
giardine
B.
Ellenbogen
p.m.
bilmes
J. A.
Birney
E.

et al.

a kromatin elemek integratív annotációja kódolási adatokból
nukleinsavak res.
2013
41
827
841
Derti
A.

div>Garrett-engele
P.

MacIsaac
K. D.

Stevens
R. C.

Sriram
S.
kutya
R.

Rohl
C. A.

Johnson
J. M.

Babak
T.

öt emlős poliadenilezésének kvantitatív atlasza
Genom res.
2012
22
1173
1183

Lin
M. F.

jungreis
I.

Kellis
M.

phylocsf: az összehasonlító genomikai módszer a fehérje kódoló és nem kódoló régiók megkülönböztetésére
bioinformatika
2011
27
i275
282

r

A. L.
Jones
N. C.
Pevzner
P. A.
de novo az ismétlődő családok azonosítása nagy genomokban
bioinformatika
2005
21 Suppl 1
i351
358
kodzius
R.
Kojima
M.

nishiyori
H.

Nakamura
M.
Fukuda
S.
Tagami
M.
Sasaki
D.
Imamura

.

Kai
C.
Harbers
M.

et al.

CAGE: a génexpresszió cap analízise
Nat. Módszerek
2006
3
211
222
Morris
K. V.

div> mattick
J. S.
a szabályozó RNS növekedése
nat. Genet Tiszteletes.
2014
15
423
437
Evin
G.

Hince
C.

BACE1 mint terápiás célpont az Alzheimer-kórban: indoklás és jelenlegi állapot
gyógyszerek öregedése
2013
30
755
764

Yu
X.

it
Z.

hosszú, nem kódoló RNS hotair:egy új onkogén (áttekintés)
mol. Med. REP.
2015
12
5611
5618

Zasloff
M.

antimikrobiális peptidek az egészségügyben és a betegségben
N. Engl. J. Med.
2002
347
1199
1200

Lander
E. S.

Linton
L. M.
birren
B.

Nusbaum
C.
Zody
M. C.
Baldwin
J.

Devon
K.
Dewar
K.

Doyle
M.
FitzHugh
W.

et al.

az emberi genom kezdeti szekvenálása és elemzése
Természet
2001
409
860
921

falak
S.
Lee
X.
it
X.
Veldman
G. M.
Finnerty
H.
racie
L.

lavallie
E.

Tang
X. Y.

Edouard
P.

Howes
S.

et al.

A Syncytin egy fogságban lévő retrovírus burok fehérje, amely részt vesz az emberi placenta morfogenezisében
Természet
2000
403
785
789

Marzluff

W. F.
gongidi
P.
az erdő
K. R.
Jin
J.
Maltais
L. J.

az emberi és egér replikációfüggő hiszton gének
genomika
2002
80
487
498
ad
V.

karpiuk
O.

Tieg
B.

Kriegs
M.

dikomey
E.
krebber
H.
begus-nahrmann
Y.

Johnsen
S. A.

a hiszton H2B gének részhalmaza poliadenilezett mRNS-eket termel különböző celluláris körülmények között
PLoS One
2013
8
e63745

Barbosa
C.
peixeiro
I.
Romao
L.
/div>

génexpresszió szabályozás upstream nyitott olvasási keretek és az emberi betegség
PLOS Genet.
2013
9
e1003529

Rajput
B.

Murphy
T. D.
Pruitt
K. D.
refseq az antizim és antizim inhibitor gének kurációja és annotációja gerincesekben
nukleinsavak res.
2015
43
7270
7279
Zhang
Z. Q.

állati biológiai sokféleség: A magasabb szintű taxonómia vázlata és a taxonómiai gazdagság felmérése (Addenda 2013)
Zootaxa
2013
3703
1
82

Holt
R. A.
Subramanian
G. M.

Halpern
A.

Sutton
G. G.
charlab
R.
nusskern
D. R.
wincker
P.
Clark
A. G.
Ribeiro
J. M.
Wides
R.

et al.

a malária szúnyog genomszekvenciája Anopheles gambiae
tudomány
2002
298
129
149
M.
Arican-goktas
H. D.
ittiprasert
W.

odoemelam
E. C.

Miller
A. N.

Bridger
J. M.
schistoszómák és csigák: molekuláris találkozás
Front. Genet.
2014
5
230
a genom szekvenálása, C.
betekintés a társadalmi rovarokba a növekvő Apis mellifera genomjából
Természet
2006
443
931
949

Xia
Q.

Zhou
Z.

Lu
C.

Cheng
D.

Dai
F.
It
B.
Zhao
P.
Zha
X.

Cheng
T.
Chai
C.

et al.

a háziasított selyemhernyó (Bombyx mori) genomjának vázlatsorozata
tudomány
2004
306
1937
1940
Zhang
G.

Fang
X.

Guo
X.

It
L.

Luo
R.
Xu
F.
yang
P.
Zhang
L.

Wang
X.
Qi
H.

et al.

az osztriga Genom feltárja stressz alkalmazkodás és összetettsége shell kialakulását

Természet
2012
490
49
54
I5k konzorcium>

az i5k kezdeményezés: az ízeltlábúak genomikájának előmozdítása a tudás, az emberi egészség, a mezőgazdaság és a környezet számára
J. öröklődés
2013
104
595
600
tudósok
G. C. O.
Bracken-Grissom
H.

Collins
A. G.
Collins
T.
Crandall

.

Distel
D.
Dunn
C.

giribet
G.
Haddock
S.
Knowlton
N.

et al.

A globális gerinctelen genomikai Szövetség (GIGA): közösségi források fejlesztése a különféle gerinctelen genomok tanulmányozására
J. Öröklődés
2014
105
1
18
div>Schoch
C. L.
div> Seifert
K. A.
huhndorf
S.
Robert
V.

spouge
J. L.
Levesque
C. A.
kutya
W.

bolchacova
E.
Voigt
K.
Crous
P. W.

et al.

nukleáris riboszomális belső átírt távtartó (its) régió, mint univerzális DNS vonalkód marker a gombák számára
Proc. NAT. Acad. Sci. USA
2012
109
6241
6246
Visagie
C. M.

Houbraken
J.

frisvad
J. C.

Hong
S. B.

Klaassen
C. H.
Perrone
G.
Seifert
K. A.

Varga
J.

Yaguchi
T.

Samson
R. A.

a Penicillium nemzetség azonosítása és bom-ja
Stud. Mycol.
2014
78
343
371
Corte
L.
div>say Cagno
R.
Groenewald
M.
Roscini
L.
colabella

.

gobbetti
M.
Cardinali
G.
a Meyerozyma guilliermondii törzsek fenotípusos és molekuláris sokfélesége élelmiszerekből és más környezeti fülkékből izolálva, tippek a kezdeti speciációhoz
Élelmiszer mikrobiol.
2015
48
206
215
div> Federhen
S.

Stock anyag az NCBI taxonómiai adatbázisban
nukleinsavak res.
2015
43
D1086
D1098

Nilsson
R. H.

tedersoo
L.

Ryberg
M.
kristiansson
E.

Hartmann
M.
unterseher
M.
porter
T. M.
Bengtsson-Palme
J.

Walker
D. M.
de Sousa
F.

et al.

az átfogó, automatikusan frissített gombás its szekvencia adatkészlet a referencia-alapú kiméra-szabályozáshoz a környezeti szekvenálási erőfeszítések során
Microb. Circa/JSME
2015
30
145
150
Mittelbach
M.

div>

YURKOV
A. M.
Nocentini
D.
NEPI
M.
weigend
M.
Begerow
D.

a Nektárcukor és a madárlátogatás határozza meg a Kanári-szigeteken található bazidiomycetes élesztő virágnyalását
BMC Ecol.
2015
15
2

Irinyi
L.

Serena
C.

Garcia-hermoso
D.
Arabatzis
M.

Desnos-Ollivier
M.
Vu
D.
cardinali
G.
Arthur
I.
Normand
A. C.
Giraldo
A.

et al.

az International Society of Human and Animal Mycology (ISHAM)-a referencia DNS vonalkód adatbázis–a minőség-ellenőrzött standard eszköz rutin azonosítása az emberi és állati patogén gombák
Med. Mycol.
2015
53
313
337
div> Schoch
C. L.
Seifert
K. A.

Huhndorf
St.

Robert
V.

Spouge
J. L.

Levesque
C. A.

Chen
W.

gomba vonalkódolás
C.

gomba vonalkódolás konzorcium szerző, L.
a nukleáris riboszomális belső átírt távtartó (its) régió, mint egy univerzális DNS vonalkód marker gombák
proc. NAT. Acad. Sci. U. S. A.
2012
109
6241
6246

Besemer
J.
lomsadze
A.
borodovsky
M.
genemarks: a gén előrejelzésére szolgáló önképzési módszer mikrobiális genomokban kezdődik. A szekvencia motívumok megtalálásának következményei a szabályozási régiókban
nukleinsavak res.
2001
29
2607
2618

Borodovsky
M.

lomsadze
A.
Génazonosítás prokarióta genomokban, fágokban, metagenomokban és EST szekvenciákban GeneMarkS suite
Curr. Protokoll. Mikrobiol.
2014
32
1. egység 7
Tatusova
T.

ciufo
S.

federhen
S.

Fedorov
B.

McVeigh
R.

O ‘ Neill
K.

Tolsztoj
I.
Zaslavsky
L.
frissítés a RefSeq mikrobiális genomokról
nukleinsavak res.
2015
43
d599
d605
brister
J. R.

ako-Adji
D.

bao
Y.

blinkova
O.

NCBI vírusgenomok forrás
nukleinsavak res.
2015
43
D571
D577

Adams
M. J.

Lefkowitz
E. J.

King
A. M.

Bamford
D. H.

Breitbart
M.

Davison
A. J.

ghabrial
S. A.

gorbalenya
A. E.
Knowles
N. J.
Krell
P.

et al.

ratifikációs szavazás a vírusok taxonómiájának nemzetközi Bizottságához intézett taxonómiai javaslatokról (2015)
Arch. Ferrule.
2015
160
1837
1850

Bao
Y.

chetvernin
V.

tatusova
T.

páronkénti szekvencia összehasonlítás (PASC) és alkalmazása a filovírusok taxonómiájában
vírusok
2012
4
1318
1327

Bao
Y.
chetvernin
V.
tatusova
T.

a páronkénti szekvencia-összehasonlítás (PASC) fejlesztése: a genom alapú webes eszköz a vírus taxonómia
Arch. Ferrule.
2014
159
3293
3304

Kuhn
J. H.
durrwald
R.
Bao
Y.
Briese
T.
dioxidot
K.

Clawson
A. N.
derisi
J. L.
Garten
W.

jahrling
P. B.

kolodziejek
J.

et al.

A Bornaviridae család taxonómiai átszervezése
Arch. Ferrule.
2015
160
621
632

Radoshitzky
S. R.

Bao
Y.

buchmeier
M. J.
charrel
R. N.
Clawson
A. N.

Clegg
C. S.

derisi
J. L.
emonet
S.
Gonzalez
J. P.
Kuhn
J. H.

et al.

az arenavirus taxonómia múltja, jelene és jövője
Arch. Ferrule.
2015
160
1851
1874
Brister
J. R.
Bao
Y.
Zhdanov
S. A.
ostapchuck
Y.

chetvernin
V.
kiryutin
B.

Zaslavsky
L.

Kimelman
M.
Tatusova
T. A.
Virus Variation Resource–legújabb frissítések és jövőbeli irányok
nukleinsavak res.
2014
42
d660
665
Seto
D.

chodosh
J.

brister
J. R.

Jones
M. S.

az adenovírus kutatás tagjai, C.
a teljes genom szekvencia használata az emberi adenovírusok jellemzésére és megnevezésére
J. Ferrule.
2011
85
5701
5702

Matthijnssens
J.
ciarlet
M.

McDonald
S. M.
attoui
H.

Banyai
K.

brister
J. R.

Buesa
J.

esona
M. D.
Estes
M. K.
gentsch
J. R.

et al.

A rotavírus törzs BOM egységessége a rotavírus taxonómiai Munkacsoport (Rcwg) által javasolt
Arch. Ferrule.
2011
156
1397
1413
Brister
J. R.
Bao
Y.
kuiken
C.

Lefkowitz
E. J.
le Mercier
P.
Leplae
R.

madupu
R.

Scheuermann
R. H.

Schobel
S.

Seto
D.

et al.

a vírusgenom annotációs szabványai felé, jelentés a 2010-es NCBI annotációs műhelyből
vírusok
2010
2
2258
2268
brister
J. R.
le Mercier
P.

Hu
J. C.

mikrobiális vírusgenom annotáció-a csapatok összegyűjtése a sorozat támadásának leküzdésére
virológia
2012
434
175
180
Kuhn
J. H.

Andersen
K. G.

bao

.

Bavari
S.
Becker
S.
Bennett
R. S.
Bergman
N. H.

Blinkova
O.

bradfute
S.
Brister
J. R.

et al.

Filovirus RefSeq bejegyzések: filovirus típusú variánsok, tipikus szekvenciák és nevek értékelése és kiválasztása
vírusok
2014
6
3663
3682
ako-Adjei
D.
Fu
W.
Wallin
C.
Katz
K. S.
dal
G.

Darji
D.
brister
J. R.
Ptak
R. G.
Pruitt
KD
HIV-1, emberi interakciós adatbázis: aktuális állapot és új funkciók
nukleinsavak res.
2015
43
d566
570
Nawrocki
E. P.

Burge
S. W.

Bateman
A.

Daub
J.

Eberhardt
R. Y.
Eddy
S. R.

Floden
div>E. W.
Gardner
P. P.
Jones
T. A.
Tate
J.

et al.

Rfam 12.0: az RNS családok adatbázisának frissítései
nukleinsavak res.
2015
43
D130
D137
az Oxford University Press kiadta a Nucleic Acid Research 2015 nevében. Ezt a munkát (a) amerikai kormányzati alkalmazott(ok) írta, és az Egyesült Államokban nyilvános.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.