Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract
johdanto
RefSeq accession prefixes
REFSEQ-tietokokonaisuuden generointi
pääsy REFSEQ-TIETOKOKONAISUUTEEN
GROWTH AND STATISTICS
kattavassa RefSeq-julkaisussa esitettyjen eliöiden, proteiinien ja transkriptien vuosittainen kasvu FTP-release-hakemistossa
selkärankaiset
RefSeqGene-projekti
RNA-Seq: n ja muiden tietotyyppien sisällyttäminen transkriptiopohjaiseen kuraatioon
Pitkät koodaamattomat rnat (lncrnas)
funktionaalinen huomautus
Mikrobilääkepeptidit (Ampeerit)
endogeeniset retrovirukset (Ervs)
replikaatiosta riippuvaiset histonit
Regulatory upstream open reading frame (uofs)
Antizyme-geenit
selkärangattomat
kasvit
levät, sienet, Sukkulamadot ja alkueläimet
Sienimorfologia
prokaryootit
prokaryooteilla 16S: n ribosomaalinen RNA-sekvenssi on muodostunut standardimolekyylimarkkeriksi uuden lajin kuvaukseen. Vaikka nämä merkkisekvenssit ovat yleistyneet, insdc: n tietokantoihin toimitettavien sekvenssitietojen ja niihin liittyvien metatietojen laatu vaihtelee huomattavasti. NCBI on laajentanut kohdennettua loci-projektiaan tarjotakseen ajantasaisen kuratoidun tiedon lähteen. Kohdennetussa loci-projektissa säilytetään tällä hetkellä lähes 18 000 16S ribosomaalista RNA-referenssisekvenssiä, joista yli 95% on tyyppikannoista. Tyyppikantoja pidetään lajin esikuvina, ja on tärkeää, että tyyppikantaa koskevat tiedot merkitään oikeilla metatiedoilla ja että ne eivät saastu.
virukset
FUTURE DIRECTIONS
rahoitus

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeq-hankkeessa hyödynnetään International Nucleotide Sequence Database Collaboration (INSDC)-tietokantaan toimitettavia tietoja laskennan, manuaalisen kuratoinnin ja yhteistyön yhdistelmällä, jotta saadaan vakaat, ei-tarpeettomat referenssisekvenssit. RefSeq-projekti täydentää näitä referenssisarjoja nykytiedolla, mukaan lukien julkaisut, toiminnalliset ominaisuudet ja informatiivinen nimikkeistö. Tietokanta edustaa tällä hetkellä yli 55 000 eliön sekvenssejä (>4800 virusta, >40 000 prokaryoottia ja >10 000 eukaryoottia; RefSeq-julkaisu 71), jotka vaihtelevat yhdestä tietueesta täydelliseen genomeja. Tässä asiakirjassa esitetään yhteenveto refseq-hankkeen virus -, prokaryoottinen-ja eukaryoottihaarojen nykytilasta, raportoidaan tiedonsaannin parannuksista ja yksityiskohdista pyrkimyksistä laajentaa kokoelman taksonomista edustusta. Korostamme myös erilaisia toiminnallisia kuratointialoitteita, jotka tukevat RefSeq-datan moninaista käyttöä, mukaan lukien taksonominen validointi, genomihuomautus, vertaileva genomiikka ja kliininen testaus. Tiivistämme lähestymistapamme käytettävissä olevan RNA-Seq: n ja muiden tietotyyppien hyödyntämiseen selkärankaisten, kasvien ja muiden lajien manuaalisessa kuratointiprosessissa ja kuvailemme uutta suuntaa prokaryoottisille genomeille ja proteiinin nimen hallinnalle.

johdanto

viimeisten 15 vuoden ajan National Center for Biotechnology Information (NCBI) RefSeq-tietokanta on toiminut olennaisena resurssina genomisessa, geneettisessä ja proteomisessa tutkimuksessa. RefSeq-hanke tarjoaa kuratoituja ja vakaita selityksin varustettuja viitegenomeja, transkriptejä ja proteiineja valikoiduille viruksille, mikrobeille, organelleille ja eukaryoottisille organismeille, minkä ansiosta tutkijat ovat voineet keskittyä parhaisiin edustaviin sekvenssitietoihin verrattuna genbankin tarpeettomiin tietoihin ja yksiselitteisesti viitata tiettyihin geneettisiin sekvensseihin. RefSeq collection tarjoaa nimenomaisesti linkitetty genomi, transkriptio, ja proteiini sekvenssi tietueita, jotka sisältävät julkaisuja, informatiivinen nimikkeistö, ja standardoitu ja laajennettu ominaisuus merkinnät. RefSeq-tietueet on integroitu NCBI: n resursseihin, mukaan lukien nukleotidi -, proteiini-ja BLASTITIETOKANNAT, ja ne voidaan helposti tunnistaa hakusanalla ”RefSeq” ja niiden erillisillä liittymis etuliitteillä, jotka määrittelevät niiden tyypin (Taulukko 1). Kaikkiin RefSeq-tietoihin sovelletaan LAADUNVARMISTUSTARKASTUKSIA (quality assurance, QA), joissa on joitakin erikoistuneita LAADUNVARMISTUSTESTEJÄ, jotka on kehitetty eri taksoneille tai tietotyypeille. NCBI: n henkilökunta tarkastelee esimerkiksi kaikkia viruslisäkkeitä taksonomisesti ennen niiden julkistamista. RefSeq-liittymiset mainitaan laajasti tieteellisissä julkaisuissa ja geneettisissä tietokannoissa, koska ne tarjoavat vakaan ja johdonmukaisen koordinaattijärjestelmän, jota voidaan käyttää vertailukohtana geenikohtaisten tietojen raportoinnissa, kliinisessä vaihtelussa ja lajien välisissä vertailuissa. Nämä viitejaksostandardit ovat yhä tärkeämpiä, koska tarkka raportointi ja toistettavuus ovat elintärkeitä tekijöitä biolääketieteen parhaiden käytäntöjen kannalta (1).

RefSeq accession prefixes

Taulukko 1.

RefSeq accession prefixes

Valkuaisaineet, joille on annettu huomautus AC_-genomitarkistuksissa tai jotka on liitetty genomimolekyyleihin ilman instantioitua transkriptiotietuetta

xm_ transkriptioiden liitteet tai merkinnät genomimolekyyleistä ilman instantioitua transkriptiotietuetta

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit
AP_3	proteiini	proteiini
XP_3,5	proteiini
yp_3	proteiini	proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta
wp_6	proteiini	proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäiselle tämän tyyppiselle proteiinille voidaan antaa huomautus useammasta kuin yhdestä prokaryoottisesta genomista

Valkuaisaineet, joille on annettu huomautus AC_-genomitarkistuksissa tai jotka on liitetty genomimolekyyleihin ilman instantioitua transkriptiotietuetta

xm_ transkriptioiden liitteet tai merkinnät genomimolekyyleistä ilman instantioitua transkriptiotietuetta

etuliite .	Molekyylityyppi .	käytä kontekstia .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit
AP_3	proteiini	proteiini
XP_3,5	proteiini
yp_3	proteiini	proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta
wp_6	proteiini	proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäinen tämän tyyppinen proteiini voidaan merkitä useampaan kuin yhteen prokaryoottiseen genomiin

1täydellinen liittymisnumeromuoto koostuu etuliitteestä, mukaan lukien alaviiva, jota seuraa 6 numeroa, joita seuraa järjestysnumero.

2täydellinen liittymismuoto muodostuu etuliitteestä, jota seuraa REFSEQ-tietueen pohjautuva INSDC-liittymisnumero, jota seuraa RefSeq sequence-versionumero.

3täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 6 tai 9 numeroa, jota seuraa järjestysnumero.

4rekisteriä, joilla on tämä liittymäetiketti, on kuratoinut NCBI: n henkilökunta tai malliorganismitietokanta, tai ne ovat liittymäkokoelmassa, jonka kanssa kuraattorit työskentelevät. Näistä tietueista käytetään nimitystä ”tunnettu” RefSeq-tietokokonaisuus.

5rekorttia, joilla on tämä liittymäetiketti, syntyy joko eukaryoottisen genomihuomautusputken tai pienen eukaryoottisen genomihuomautusputken kautta. Ensimmäisen menetelmän avulla tuotetuista tietueista käytetään nimitystä ”model” RefSeq-tietokokonaisuus.

6täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 9 numeroa ja versionumero. Versionumero on aina ”.1 ’ koska näitä tietueita ei päivitetä. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Valkuaisaineet, joille on annettu huomautus AC_-genomitarkistuksissa tai jotka on liitetty genomimolekyyleihin ilman instantioitua transkriptiotietuetta

xm_ transkriptioiden liitteet tai merkinnät genomimolekyyleistä ilman instantioitua transkriptiotietuetta

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit
AP_3	proteiini	proteiini
XP_3,5	proteiini
yp_3	proteiini	proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta
wp_6	proteiini	proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäiselle tämän tyyppiselle proteiinille voidaan antaa huomautus useammasta kuin yhdestä prokaryoottisesta genomista

Valkuaisaineet, joille on annettu huomautus AC_-genomitarkistuksissa tai jotka on liitetty genomimolekyyleihin ilman instantioitua transkriptiotietuetta

xm_ transkriptioiden liitteet tai merkinnät genomimolekyyleistä ilman instantioitua transkriptiotietuetta

etuliite .	Molekyylityyppi .	käytä kontekstia .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit
AP_3	proteiini	proteiini
XP_3,5	proteiini
yp_3	proteiini	proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta
wp_6	proteiini	proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäinen tämän tyyppinen proteiini voidaan merkitä useampaan kuin yhteen prokaryoottiseen genomiin

1täydellinen liittymisnumeromuoto koostuu etuliitteestä, mukaan lukien alaviiva, jota seuraa 6 numeroa, joita seuraa järjestysnumero.

2täydellinen liittymismuoto muodostuu etuliitteestä, jota seuraa REFSEQ-tietueen pohjautuva INSDC-liittymisnumero, jota seuraa RefSeq sequence-versionumero.

3täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 6 tai 9 numeroa, jota seuraa järjestysnumero.

6täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 9 numeroa ja versionumero. Versionumero on aina ”.1 ’ koska näitä tietueita ei päivitetä. Katso lisätietoja verkkodokumentaatiosta: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

viime vuosina kehittyneet sekvensointitekniikat ovat helpottaneet julkisten tietokantojen koko genomin kokoonpanohakemusten huomattavaa lisääntymistä. Tämän seurauksena RefSeq-hanke on yhtenäisesti laajentanut aineistoon sisältyvien taksonien syvyyttä ja leveyttä pääasiassa parantamalla useita talon sisäisiä merkintäputkistoja. Kaikki taksonit ovat RefSeq-sisällyttämisen piirissä; huomautus on kuitenkin usein rajattu niihin organismeihin, joista on saatavilla korkeatasoinen primaarinen genomikokoelma, jossa on riidatonta organismitietoa. Näin ollen saatamme sulkea pois joitakin tietoluokkia, jotka eivät täytä laatustandardejamme. Poissuljettuja tietokokonaisuuksia ovat metagenomit, kokoonpanot, joiden contig N50-arvo on alhainen tai erityisen suuri määrä asentamattomia telineitä/kontigeja (eli suuri sirpaloituminen), tai genomit, joissa on merkittävää epäsuhtaa tai Indel-vaihtelua verrattuna lajin muihin läheistä sukua oleviin genomeihin (esim.jotkin prokaryootit).

ainutlaatuinen näkökulma RefSeq-aineistossa on yhdistetty lähestymistapa, jossa NCBI: n tieteellinen henkilöstö hyödyntää laskentaa, yhteistyötä ja kuratointia. Suurena bioinformatiikan laitoksena NCBI on investoinut vankkojen prosessivirtojen kehittämiseen, jotta voidaan tuottaa merkintöjä ja suorittaa laadunvarmistustestejä eukaryoottisille ja prokaryoottisille genomeille, transkripteille ja proteiineille. Parannukset viruksen genomien prosessivirtaan ovat käynnissä. RefSeq-ryhmä tekee yhteistyötä lukuisten asiantuntijaryhmien kanssa, mukaan lukien virallisen nimikkeistön viranomaiset (esim. HUGO Gene Nomenclature Committee (hgnc) ja zebrafish Information Network (ZFIN) for human and seebrafish gene names), UniProtKB (protein names) ja miRBase (microRNAs) (2-5). Nämä ja muut yhteistyöt auttavat ylläpitämään ja parantamaan RefSeq-tietojen laatua LAADUNVARMISTUSRAPORTTIEN, geeni-ja sekvenssitietojen sekä toiminnallisten tietojen vaihdon avulla. NCBI: n henkilökunta tarjoaa myös kuratointitukea viruksille, prokaryooteille, eukaryooteille, organelleille, plasmideille ja kohdennetuille projekteille, mukaan lukien Homo sapiensin, Mus musculuksen ja muiden organismien geenien ja sekvenssien kuratointi. RefSeq-kuraattorit parantavat tietokannan laatua tarkastelemalla LAADUNVARMISTUSTESTIEN tuloksia, osallistumalla tiettyjen perimän merkintöjen käsittelyyn, sekvenssianalyysiin, taksonomiseen analyysiin ja toiminnalliseen tarkasteluun. Kuraatio tukee myös genomihuomautusputkistojen parantamista, sillä sisältöasiantuntijat auttavat määrittelemään ohjelmallisia lähestymistapoja sekä tyypillisen että epätyypillisen biologian mallintamiseen. Eukaryooteille, erityisesti nisäkkäille, transkriptiopohjainen kuraatio määrittelee ”parhaat” sekvenssin edustajat (kuten ”tunnetut” Refseqit; taulukon 1 alaviite), joita käytetään ensisijaisena syöttöreagenssina eukaryoottisessa genomihuomautusputkessa (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Syöttöreagenssin laadun paraneminen puolestaan lisää merkittävästi tuloksena olevan genomihuomautuksen laatua ja toistettavuutta. Tämäntyyppisessä manuaalisessa kuratoinnissa on perinteisesti keskitytty ihmiseen ja hiireen niiden ainutlaatuisen biolääketieteellisen merkityksen vuoksi (6). Viime aikoina nämä kuratointiponnistelut ovat kiinnittäneet enemmän huomiota Rattus norvegicukseen, Danio rerioon, Bos Taurukseen ja Gallus gallukseen. Näillä lajeilla on merkitystä ihmisten terveyden ja maatalouden kestävyyden kannalta.

tässä asiakirjassa raportoimme edistymisestämme RefSeq-tietokokonaisuuden laajentamisessa monipuolisempiin organismeihin, kuvaamme tiedonsaannin parannuksia ja annamme esimerkkejä fylogeneettisesti hyödyllisten tietokokonaisuuksien lisääntyneestä keskittymisestä sekä RefSeq-transkriptioiden ja proteiinitietokantojen toiminnallisista merkinnöistä. Ennakoimme nämä ponnistelut ja parannukset RefSeq-aineistossa edistävät edelleen lääketieteellisen translaatiotutkimuksen, maatalouden parannusten, fylogeneettisen tunnistamisen ja evoluutiotutkimusten etenemistä.

REFSEQ-tietokokonaisuuden generointi

RefSeq-sekvenssitietoja tuotetaan eri menetelmillä sekvenssiluokasta ja organismista riippuen. Arkaaiset ja bakteerien genomit (Katso prokaryoottien kohta) merkitään NCBI: n prokaryoottisen genomihuomautusputken avulla (http://www.ncbi.nlm.nih.gov/books/NBK174280/), kun taas pieni määrä vertailubakteerien genomeja tuetaan yhteistyöllä ja manuaalisella kuratoinnilla. RefSeq eukaryoottiset genomit toimitetaan kahden prosessivirran avulla. Suurin osa kasvien, eläinten, hyönteisten ja niveljalkaisten genomeista on eukaryoottisen genomin merkintäputken selittämiä. Tämä putki tuottaa merkintätuloksia, jotka perustuvat saatavilla oleviin transkriptiotietoihin (mukaan lukien RNA-Seq-ja transkriptome shotgun assembly (TSA) – tietoihin) sekä proteiinihomologiaan, ab initio-ennustukseen (suurelta osin silloin, kun transkriptiotietoja ei ole saatavilla) ja saatavilla oleviin tunnettuihin (kuratoituihin) RefSeq-transkriptioihin ja proteiineihin (KS.Taulukko 1). Pipeline-generated annotation (model RefSeqs) voi tai ei voi olla tuki koko eksoniyhdistelmälle yhdestä todistusaineiston linjauksesta, mutta voi olla RNA-Seq tuki eksonipareille. Eukaryoottiset genomit, joihin tämä putki on merkinnyt, ilmoitetaan julkisesti linkkien kanssa, joiden avulla tiedot voidaan ladata FTP: n avulla, tarkastella tai tehdä BLASTIKYSELY merkittyä genomia vastaan tai saada yksityiskohtainen selontekoraportin Yhteenveto (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Putki osa eukaryootit, mukaan lukien sienet, alkueläimet, ja sukkulamatoja liittyy lisäyshuomautus, joka on toimitettu International Nucleotide Sequence Database Collaboration (INSDC), formaatin standardointi, RefSeq kopio toimitetun genomi kokoonpano (katso levät, sienet, sukkulamatoja ja alkueläimet).

NCBI: n henkilökunta toimittaa INSDC: n toimittamasta aineistosta suurimman osan RefSeq organelle-genomihuomautuksesta lisäyksen kautta. Nisäkkäiden mitokondrioiden merkintää täydennetään usein manuaalisella kuratoinnilla. RefSeq-projekti ylläpitää myös refseqgenea (Locus Reference Genomic (lrg) collaboration (7)), bakteerin ja sienen ribosomaalista rRNA locia sekä fungal internal transkribed spacer sequences (ITS) (8). Lisäksi merkittävä määrä ihmisen, hiiren ja muiden transkriptioita ja proteiineja saadaan yhteistyöllä ja manuaalisella kuratoinnilla, joka sisältää sekvenssianalyysin ja kirjallisuuskatsauksen.

NCBI: n prokaryoottiset (katso alla) ja eukaryoottiset merkintäputket ovat pysyneet INSDC: lle toimitettujen genomikokoonpanojen lisääntyvän määrän tahdissa tarjoamalla johdonmukaista merkintää RefSeq-kopioihin valituista korkealaatuisista lähetetyistä genomikokoonpanoista. Tähän mennessä putken kautta on merkitty 245 eukaryoottista genomia, joista 170 selkärankaisten genomia, joista yli 120 lajia on merkitty 20 viime vuoden aikana. Tähän ryhmään kuuluu 52 lintulajia, jotka sisältävät useimpien lintulahkojen (9,10) edustavia lajeja. Myös kädellisille, muille nisäkkäille, kaloille, kasveille ja niveljalkaisille tarkoitettujen RefSeq-merkinnöillä varustettujen kokoonpanojen määrä on kasvanut merkittävästi.

pääsy REFSEQ-TIETOKOKONAISUUTEEN

Refseqin Kotisivu http://www.ncbi.nlm.nih.gov/refseq/ on keskeinen keskus RefSeq-tietokokonaisuuden kaikille osa-alueille. Tämä sivusto tarjoaa linkkejä, jotka ohjaavat käyttäjiä hankkeen yleisen kuvauksen sekä tiedotteita, kasvutilastoja ja tietoa kohdennetummista RefSeq-hankkeista, kuten Prokaryotic genome re-annotation initiative, Consensus Coding Sequence (CCDS) project (11) The RefSeqGene project, ja kohdennetut Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) – hankkeet. Linkit uusimpaan kattavaan FTP-julkaisuun ja yksityiskohtaiset tiedot julkaisun muodosta ja sisällöstä löytyvät Refseqin kotisivun ”ilmoitukset” – osiosta. Myös aiemmat RefSeq-ilmoitukset ovat saatavilla tältä sivulta. Kannustamme vahvasti lataamaan RefSeq-tiedot suoraan NCBI: stä, koska lataukset muista bioinformatiikan ja genomiselaimen resursseista eivät välttämättä sisällä kaikkia saatavilla olevia tietoja, tai ne voivat vain heijastaa refseq-transkriptien linjauksia genomiin NCBI: n tuottamien genomin merkintätulosten sijaan.

RefSeq-sekvenssitietoja voidaan käyttää vuorovaikutteisesti NCBIs-nukleotidi-ja Proteiinitietokannoissa, BLAST-tietokannoissa, NCBI: n ohjelmallisen käyttöliittymän (E-utilities) tai file transfer Protocolin (FTP) kautta. E-apuohjelmat tukevat skriptattua pääsyä RefSeq-tietojen lataamiseen eri muodoissa joko hakusanojen tai liittymisluetteloiden perusteella; laaja dokumentaatio on saatavilla NCBI: n Käsikirjassa (www.ncbi.nlm.nih.gov/books/NBK25501/) ja treenivideot ovat katsottavissa NCBI: n YouTube-kanavalta (https://www.youtube.com/user/NCBINLM). Sekä nukleotidi-että Proteiinitietokannat mahdollistavat kyselytulosten rajoittamisen vain RefSeq-tietueisiin valitsemalla ”RefSeq” suodattimien sivupalkista ”Lähdetietokannan” alta. RefSeq-tietoja voidaan käyttää myös muista NCBI: n tietokannoista, mukaan lukien Assembly, BioProject, geeni ja genomi, seuraamalla nukleotidi -, proteiini-tai FTP-resursseihin annettuja linkkejä tietoa refseq-ryhmän kuratointimuutoksista tai NCBI: n päivityksistä, jotka vaikuttavat RefSeq-tietokantaan, raportoidaan useista lähteistä, kuten RefSeq FTP release notes, periodic published reports, the NCBI Releasings News feed http://www.ncbi.nlm.nih.gov/news/ ja NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Käyttäjät voivat myös tilata refseq-announce-sähköpostilistan saadakseen säännöllisiä päivityksiä projektista ja tiivistelmän jokaisen RefSeq FTP-julkaisun sisällöstä (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq-tiedot jaetaan FTP: n kautta kahden sivuston, refseq: n (ftp://ftp.ncbi.nlm.nih.gov/refseq/) ja genomit (ftp://ftp.ncbi.nlm.nih.gov/genomes/). refseq FTP sivusto tarjoaa päivittäisiä päivityksiä kaikki uudet ja päivitetyt RefSeq tietueet, viikoittain päivityksiä joidenkin tietotyypit, ja joka toinen kuukausi kattava RefSeq julkaisu (/refseq/release/). Lisäksi valikoituja eliökohtaisia transkriptioita ja proteiiniaineistoja, mukaan lukien ihminen ja hiiri, päivitetään viikoittain. RefSeqGene-alihakemisto päivittyy päivittäin, ja jokaisen merkintäajon yhteydessä vapautuu perimää. Kattava joka toinen kuukausi tapahtuva RefSeq-julkaisu on järjestetty taksonomisten (esimerkiksi selkärankaisten nisäkkäiden) tai muiden ryhmittymien (esimerkiksi mitokondrioiden) mukaan. Tiedot voidaan ladata myös koko RefSeq-kokoelmasta / refseq / release/ complete / – hakemistosta. RefSeq-julkaisu tarjoaa edun niille, jotka haluavat ylläpitää joko koko kokoelman tai yhden ryhmän määräaikaisia päivityksiä. Se sisältää myös tietueita, joita ei ole saatavilla companion genomes FTP-sivustolta, kuten kokoelman transkriptejä, joita ylläpidetään riippumatta genomikokoonpanosta, eikä niitä saa tällä hetkellä merkitä siihen. Julkaisun mukana toimitetaan merkittävä dokumentaatio asennetuista tiedostoista (/refseq/release/ release-catalog/), mukaan lukien MD5-tarkistussummat, luettelo kaikista asennetuista tiedostoista sekä julkaisutiedot ja ilmoitukset (/refseq/release/release-notes/).

RefSeq-tietoja voi ladata myös genomesin FTP-sivustolta. Elokuussa 2014 NCBI ilmoitti tämän FTP-sivuston suuresta uudelleenjärjestelystä, joka tarjoaa nyt kokoonpano-ja organismipohjaisen pääsyn sekä GenBank-että RefSeq-genomeihin (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Tämä hakemisto on jaettu edelleen alikansioihin, jotka perustuvat RefSeq-julkaisussa käytettäviin samoihin ryhmiin, joista jokainen tarjoaa lisäjakoja lajeittain. Genomes FTP-sivusto tarjoaa tiedostoja kaikista RefSeq genome-kokoonpanoista, jotka on ilmoitettu NCBI: n Assembly resourcessa (www.ncbi.nlm.nih.gov/assembly/). genomes – sivuston etuna on, että tietoja voidaan käyttää kokoonpano-tai eliökohtaisesti. Toimitettuihin tietoihin kuuluvat genomin ja tuotteen (transkriptio/proteiini) sekvenssi, merkinnät, kokoonpanoraportit ja tilastot sekä MD5-tarkistussummat; nämä tiedot päivitetään, kun genomin kokoonpano ja/tai merkintöjen päivitetään. Tämä alue ei sisällä RefSeq-sekvenssejä, jotka eivät kuulu genomikokoonpanon piiriin, tai tuotteita, joita ei ole merkitty genomiin.

GROWTH AND STATISTICS

RefSeq FTP-julkaisu 71 (heinäkuu 2015) sisältää yli 77 miljoonaa sekvenssitietuetta yli 55 000 eliöltä. Taulukossa 2 on yhteenveto RefSeq-tietokokonaisuuden kasvusta viimeisen vuoden aikana kunkin RefSeq release FTP-hakemistoalueen eliöiden ja sekvenssitietueiden lukumäärän osalta. Bakteerien genomit ja proteiinit muodostavat pääosan RefSeq-aineistosta (56% kaikista liittymisistä ja 76% >52 miljoonaa proteiinin liittymistä). Selkärangattomien, kasvien ja eukaryoottisten organismien määrä kasvaa merkittävästi, mikä on yhdenmukaista genomin sekvensointihankkeiden määrän ja läpimenon lisääntymisen kanssa. Merkittävä tekijä RefSeq-datan korkean kasvuvauhdin jatkumiselle ovat parannukset genomiputkistoissa, jotka tuottavat annotoituja RefSeq-genomeja. Erityisesti tähän sisältyy lisääntynyt kapasiteetti NCBI: n prokaryoottisessa genomihuomautusputkessa, eukaryoottisista Genomihuomautuksista RefSeq-genomeihin lisättävän prosessivirran kehittäminen uudelleen ja RNA-Seq-todistusaineiston sisällyttäminen NCBI: n eukaryoottiseen genomihuomautusputkeen ja sen vaikutus mallien RefSeqs tuottamiseen (Xm_, XR_ ja XP_ liittymiset, Taulukko 1).

kattavassa RefSeq-julkaisussa esitettyjen eliöiden, proteiinien ja transkriptien vuosittainen kasvu FTP-release-hakemistossa

Taulukko 2.

kattavassa RefSeq-julkaisussa edustettujen lukumääräeliöiden, proteiinien ja transkriptien vuotuinen kasvu FTP-julkaisuhakemistossa

Release Directory .	organismit .	% muutos .	selostuksia .	% muutos .	proteiinit .	% muutos .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% muutos .	selostuksia .	% muutos .	proteiinit .	% muutos .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/ (esim.acc_taxid_growth.txt ja siihen liittyvät tiedostot). Vuotuinen prosenttimuutos perustuu RefSeq release 71: N (heinäkuu 2015) ja RefSeq release 66: n (heinäkuu 2014) tietojen vertailuun.

Taulukko 2.

kattavassa RefSeq-julkaisussa edustettujen lukumääräeliöiden, proteiinien ja transkriptien vuotuinen kasvu FTP-julkaisuhakemistossa

Release Directory .	organismit .	% muutos .	selostuksia .	% muutos .	proteiinit .	% muutos .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% muutos .	selostuksia .	% muutos .	proteiinit .	% muutos .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

plasmidiproteiinitietojen määrän dramaattinen väheneminen ja siten myös totaaliliittymien määrän väheneminen kuvastaa refseq-bakteerin genomin uudelleenliittymishankkeen (http://www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/ reannotation/) loppuunsaattamista ja uuden tietomallin käyttöönottoa prokaryooteille, mukaan lukien niiden plasmidit. Tässä uudessa tietomallissa yksittäinen refseq non-redundant protein accession-merkintä voidaan merkitä useampaan kuin yhteen genomisekvenssitietueeseen, kun näiden genomiproteiinia koodaavien alueiden translaatio johtaa identtiseen proteiiniin (KS. http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Redundanssi kaikissa bakteeriproteiineissa myös väheni merkittävästi; se ei kuitenkaan näy tässä, koska aineistoon sisältyvien bakteerien genomien määrä on jatkuvasti kasvanut merkittävästi. Nämä muutokset johtivat myös arkaaliproteiinitietojen määrän yleiseen laskuun.

selkärankaiset

valikoitu selkärankaisten ryhmä, johon kuuluvat Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus ja Danio rerio, ovat transkriptiopohjaisen ja kirjallisuuteen perustuvan manuaalisen kuratointityömme pääpaino. Kuraattorit työskentelevät yleensä sellaisten geenien luetteloista, joiden datakonfliktit on tunnistettu quality assurance (QA) – testeissä, joista osa on kuvattu aiemmin (12). He noudattavat yksityiskohtaisia ohjeita analysoidessaan jokaista geeniä varmistaakseen kuratoidun aineiston yhdenmukaisuuden eri henkilöiden välillä. Tämä analyysi sisältää perusteellisen sekvenssin arvioinnin ja kirjallisuuskatsauksen referenssitranskriptien, proteiinien, pseudogenes-ja RefSeqGene-tietueiden luomiseksi. RefSeq-kuraattorit tuottavat transkriptiovariantteja, selvittävät sekvenssivirheitä, poistavat epätarkkoja tietoja, päivittävät tietueita edustamaan lokuksen biologiaa oikein ja lisäävät arvokasta toiminnallista tietoa joihinkin RefSeq-tietueisiin, kuten parannettuihin proteiininimiin, tiivistelmään geenituotteen toiminnasta, geenin toiminnallisista ominaisuuksista ja/tai asiaankuuluviin julkaisuihin. Refseq-ryhmän manuaalinen kuratointi ja kirjallisuuskatsaus voivat johtaa sellaisten ainutlaatuisten varianttien ja isoformien esittämiseen, joita ei ennustettaisi pelkästään laskennallisen analyysin perusteella. Esimerkiksi, kirjallisuuskatsaus ihmisen tuumorisuppressorigeeni, PTEN (fosfataasi ja tensin homolog, GeneID: 5728) paljasti olemassaolon enää proteiini isoformi johtuvat käytöstä vaihtoehtoisen kehyksessä ylävirtaan CUG aloituskoodoni löytyy keskellä palindrominen sekvenssi ylävirtaan kanoninen mRNA käännös alku kodoni (13). Vahvat kokeelliset tiedot osoittivat, että tämä mitokondriospesifinen isoformi alkaa leusiinilla eikä metioniinilla (14). Eukaryoottien refseq-tietomalli tarjoaa yhden transkription, joka on nimenomaisesti liitetty yhteen proteiiniin. Siksi kaksi identtistä transkriptiotietuetta toimitettiin heijastamaan käännös vaihtoehtoisista initiaatiokodoneista; NP_000305.3 edustaa 403 aminohappoproteiinia, joka käyttää kanonista metioniinin start-kodonia, kun taas NP_001291646.2 edustaa mitokondrio-lokalisoitua 576 aminohappoproteiinia, joka aloittaa leusiinilla. Kuratointiprosessilla on siis kaksitahoinen tarkoitus tarjota tarkkoja vertailusekvenssejä, jotka helpottavat tarkkaa ja toistettavissa olevaa genomin merkintää, ja tuottaa tietueita, jotka sisältävät asiaankuuluvaa biologista tietoa. Tässä osiossa käsitellään viimeaikaisia päivityksiä, manuaaliseen kuratointiprosessiimme tekemiämme parannuksia ja esimerkkejä kohdennetuista kuratointiprojekteista.

RefSeqGene-projekti

RefSeqGene-alahanke määrittelee ihmisen genomisekvenssit, joita käytetään vertailustandardeina hyvin luonnehdituille geeneille, erityisesti kliinisen genetiikan yhteisön käyttöön. Nämä sekvenssit toimivat vakaana perustana patogeenisten varianttien ilmoittamiselle, eksonien ja intronien numerointikäytäntöjen laatimiselle ja muiden varianttien koordinaattien määrittämiselle. Jokainen RefSeqGene-tietue keskittyy geenispesifiseen genomialueeseen, ja tyypillisesti siihen liitetään alijoukko RefSeq-transkriptejä ja-proteiineja, jotka toimialueen Asiantuntijat ovat valinneet. Nämä valinnat määrittävät eksonin piirteitä. Kanonisen RefSeq-transkription/proteiinin sekä muiden tunnettujen Refseqien vanhempien versioiden linjaukset ovat mukana. Nämä tietueet sisältävät tyypillisesti 5 kilobaasia (kb) sekvenssiä focus-geenin yläpuolelta ja 2 kb sekvenssiä alavirtaan tukemaan mahdollisten säätelypaikkojen tai poistumien esittämistä geeniominaisuuden ulkopuolelle. RefSeqGene-tietueeseen voi sisältyä merkintöjä muista geeneistä, jotka sijaitsevat sen rajojen sisällä. RefSeqGene-tietueet tarkistetaan aluksi lokuskohtaisten tietokantojen ja NCBI: n henkilökunnan toimesta. RefSeqGene on lrg-yhteistyön (7) jäsen, joka tarjoaa lisätarkastelun sekvenssitiedoista ennen lrg-liittymisen lisäämistä. Tuore tutkimuskohde laajensi RefSeqGene-tietueiden määrää niin, että ne edustavat kaikkia geenejä, joille on toimitettu vähintään kaksi kliinistä testiä NIH Genetic Testing Registriin (GTR). Tällä hetkellä on 5596 Refseqgenen kirjaa, joista 633: lla on lrg-liittyminen. RefSeqGene-tietueita voidaan hakea etsimällä Nukleotiditietokannasta ”refseqgene” – ohjelmalla, niiden lrg-liittymillä, selaamalla RefSeqGene-verkkosivustoa (www.ncbi.nlm.nih.gov/refseq/rsg/) tai FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

RNA-Seq: n ja muiden tietotyyppien sisällyttäminen transkriptiopohjaiseen kuraatioon

RefSeq-kuratointiprojektin päätavoite on edustaa korkealaatuisia ja täyspitkiä transkriptio-ja proteiinivertailusekvenssejä. Kuratointikriteerimme perustuvat ensisijaisesti perinteisiin transkriptioihin (mRNA ja ESTs) ja proteiinilähetyksiin sekä julkaistuun näyttöön. Selkärankaisten transkriptome-projektit ovat kuitenkin monimutkaistuneet entisestään, kun suurin osa uusista transkriptiotiedoista syntyy tällä hetkellä lyhyen lukusekvenssitekniikalla. Genomin laajuiset tutkimukset, joissa tarkastellaan promoottoreihin liittyvien epigeneettisten merkkien maailmanlaajuisia malleja, antavat myös näyttöä aktiivisista promoottoreista ja/tai aktiivisesta transkriptiosta. RefSeq group on mukauttanut kuratointikäytäntöjä sisällyttääkseen nämä uudet tietotyypit parantaakseen manuaalista merkintäämme, erityisesti tapauksissa, joissa geeni tai muunnos ei ole runsaasti perinteistä transkriptiotukea. Nämä RNA-Seq-ja epigenomiset tutkimukset ovat tuottaneet valtavia aineistoja, jotka haastavat geenien merkintäryhmiä esimerkiksi mahdollisten väärien positiivisten ja pitkän kantaman eksoniyhdistelmien tuen puutteen vuoksi (15). RefSeq kuraattorit lieventää vääriä positiivisia sisällyttämällä valikoivasti vain laadukkaita tietokokonaisuuksia harkittavaksi meidän genomin merkintäputkeen ja manuaaliseen merkintäprosessiin. RefSeq-kuraattorit visualisoivat transkriptiot, muunnostiedot ja suodatetut RNA-Seq-tiedot räätälöidyissä näytöissä sisäisessä kohdistustyökalussa, joka on sisällytetty NCBI Genome Workbench-alustaan (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation of human genes utilizes analysed RNA-Seq reades from the Illumina BodyMap 2 (BioProject: PRJEB2445) and Human Protein Atlas projects (BioProject: PRJEB4337) (16). Lisäksi kuraattorit käyttävät promoottoreihin liittyviä histonin modifiointimerkkejä, kuten nih Roadmap Epigenomic Mapping Consortiumin H3k4me3 (REMC; (17) ja ENCODE (Encyclopedia of DNA Elements) – hanke (18) aktiivisen promoottorin olemassaolon todentamiseksi. RefSeq-kuraattorit arvioivat myös polyA-seq-tietoja vahvistaakseen 3′: n täydellisyyden transkripteissä, joista puuttuu polyA-pyrstö (19). Lisätukena käytetään joskus muita tietotyyppejä, kuten PhyloCSF (20), CpGIslands, Toistomasker (21) ja Cap analysis of gene expression (CAGE) data (22).

Pitkät koodaamattomat rnat (lncrnas)

RefSeq-ryhmä laajentaa edelleen merkittävästi koodaamattomien rakenne-ja mikro – Rnojen, litteroitujen pseudogeenien ja suurelta osin luokittelemattomien lncrnojen edustusta. Tämä geeniluokka määritellään yleensä transkripteiksi >200 nt pituudeltaan, joilta puuttuu vahva proteiinikoodauspotentiaali (23). lncRNA RefSeq-tietueet syntyvät kuratoimalla ja eukaryoottisen genomihuomautusputken kautta lncRNA-geeneille. NCBI ylläpitää tällä hetkellä yli 540 000 eukaryotic Lncrna RefSeq kirjaa, joista yli 6700 on kuratoitu ja vain muutama sata on toiminnallisesti luonnehdittu. Näistä monet ovat sekaantuneet ihmisten sairauksiin, kuten BACE1-sillä voi olla merkitystä Alzheimerin taudin patofysiologiassa, ja HOTAIRIIN, joka on yhdistetty useisiin syöpiin (24,25). Suurimmalla osalla lncrnoista on tuntemattomia toimintoja, ja pitkien avoimien lukukehysten puuttuminen on haaste transkriptin täydellisyyden vahvistamisen kannalta. Lisäksi, lncrna toimitukset INSDC perustuvat suurelta osin TSAs lyhyitä lukea aineistoja, jotka voivat sisältää artifactual eksoniyhdistelmiä. RefSeq-kuraattorit edustavat lncrna-geenejä konservatiivisesti ja luovat vain manuaalisesti Refseq-geenejä (Nr_-liittymisen etuliitteellä) korkealaatuisille transkripteille, joiden eksonirakenteesta on jonkin verran varmuutta. Parhaassa tapauksessa transkriptiotukeen pitäisi liittää vähintään kolme eksonia, mutta kahden eksonin ja intronittomien transkriptien voidaan esittää, jos niitä tukevat promoottoreihin liittyvät epigenomiikka, poly(a)-todisteet, cdnas-lisätiedot ja/tai RNA-Seq-tiedot. RefSeq lncRNA-tietueita ei-koodaavista geeneistä voidaan hakea NCBI: n Nukleotiditietokannasta hakusanalla ’biomol ncrna lncrna’ ja valitsemalla RefSeq-suodatin vasemmasta sarakkeesta.

funktionaalinen huomautus

kuratoitujen eukaryoottisten RefSeq-transkriptiotietojen ainutlaatuinen anti on se, että ne integroivat funktionaalisen informaation referenssisarjaan. RefSeq: n kuraattori lisää geenien tiivistelmät, nimikkeistön, transkription variantin tekstin, geeni-ja sekvenssiominaisuudet sekä toiminnalliset ominaisuudet, jotka ovat käytettävissä RefSeq: n tietueessa ja/tai Geeniresurssin kautta (http://www.ncbi.nlm.nih.gov/gene). Viimeisen vuoden aikana Refseqin henkilökunta on toteuttanut useita syvällisiä merkintähankkeita, joista osa kuvataan lyhyesti seuraavissa kohdissa, lisätäkseen toiminnallista tietoa tiettyihin geenijoukkoihin, joissa laskentatyökalut eivät pysty edustamaan tarkasti biologista tietoa. Näihin hankkeisiin kuuluu mikrobilääkkeiden peptidien, endogeenisten retrovirusten, replikaatiosta riippuvien histonien, säätelevien urfien ja antitsyymien merkintä.

Mikrobilääkepeptidit (Ampeerit)

Ampeerit olivat tuore curation focus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Amp: t ovat luonnossa esiintyviä peptidejä, joita esiintyy monenlaisissa lajeissa ja jotka ovat osallistuneet moniin immuunirooleihin, mukaan lukien bakterisidiset, antiviraaliset, sienilääkkeet ja jopa kasvainten vastaiset toimet. Luettelo yli 130 ihmisen geenit koodaavat yksi tai useampi kokeellisesti todistettu amp koottiin useista julkisesti saatavilla AMP aineistoja ja louhitaan myös julkaisuista. Useimpia näistä ampeeria ei ollut aiemmin tunnistettu RefSeq-tietokannassa, eikä yksikään AMP-tietokannoista yhdistänyt peptidejä koodausgeeniinsä. RefSeq-kuraattorit lisäsivät manuaalisesti RefSeq-tietueet kunkin AMP-koodaavan ihmisen geenin osalta varmistaakseen, että funktionaalinen peptidi merkittiin muistiin, sisällyttääkseen julkaisun, jossa kuvataan peptidin antimikrobista aktiivisuutta, lisätäkseen lyhyen yhteenvedon koodatun AMP: n antimikrobisesta aktiivisuudesta ja tallentaakseen uuden RefSeq-attribuutin ”proteiinilla on antimikrobista aktiivisuutta”, joka sisältyy RefSeq-attribuutin jäsenneltyyn kommenttiin (esim.NM_001124.2 adm: lle; GeneID: 133). Päästäksesi kaikkiin kuratoituihin ihmisen transkriptioihin tai proteiinivahvistimien tietueisiin, etsi nukleotidi-tai proteiinitietokannasta käyttäen ”proteiinilla on antimikrobista vaikutusta”. Tällä hetkellä tämä haku löytää 191 RefSeq-tietuetta, mukaan lukien splice-muunnokset ja proteiini-isoformit.

endogeeniset retrovirukset (Ervs)

endogeeniset retrovirukset (ERVs) ovat genomisia lokuksia, jotka ovat peräisin eksogeenisen retroviruksen esiasteesta isäntägenomiin. ERV loci ovat yleensä soveltamisalan ulkopuolella RefSeq; kuitenkin, me kirjata täyspitkä ERV proteiini koodaus lokukset että kartta yhteen genomiseen paikkaan, jos ne ovat kehittyneet palvelemaan isäntäfunktio, liittyvät tunnettu tauti, ja / tai jos ne on määritetty nimikkeistön virallisen nimikkeistön komitea. Noin 8% ihmisen genomista on retroviraalista alkuperää (27); Kuitenkin johtuen niiden muinaisesta alkuperästä useimmat ihmisen ERV lokit ovat kertyneet hölynpölyä mutaatioita ja voi enää koodata proteiinia. Istukan kehitykseen osallistuvat syncytiniproteiinit (28) ovat tästä tunnettu poikkeus. Ihmisen syncytin-1-ja syncytin-2-proteiineja koodaavat ervw-1 (NM_001130925.1, NM_014590.3) ja ERVFRD-1 (NM_207582.2) – geenit. Tähän mennessä olemme luoneet 67 Refseqiä ERV locille, joka sisältää eri nisäkkäiden ERV-geenejä edustavia tietueita. Näitä tietueita varten luotiin uusi RefSeq-attribuuttiluokka ”endogeeninen retrovirus”, joka esiintyy refseq-tietuetta koskevassa jäsennellyssä kommentissa. Nämä tiedot voidaan hakea Nukleotiditietokannasta etsimällä endogeenista retrovirusta.

replikaatiosta riippuvaiset histonit

solunjakautumisen aikana tarvitaan nopea histonin mRNAs-synteesi, jotta voidaan tuottaa suuria määriä histoniproteiineja. Tämän prosessin kannalta ratkaisevia ovat replikaatiosta riippuvaiset histonigeenit, jotka reguloituvat solusyklin G1/s-vaiheen aikana (29). Erityinen RefSeq-projekti toteutettiin tavoitteena kuratoida kaikki replikaatiosta riippuvaiset histoniproteiinia koodaavat geenit ihmisellä ja hiirellä. Näillä geeneillä on kanoninen 3 ’ Histoni-alkuainesarja (hde) genomisessa sekvenssissä, ja tuloksena olevilla kypsillä mrnoilla ei tyypillisesti ole Poly(a) – häntää, vaan ne päättyvät pian RNA: n varren ja silmukan rakenteen jälkeen (30). Hde-elementti löytyy prekursorisesta transkriptiosta, mutta sitä ei sisällytetä RefSeq: n edustamaan jalostettuun transkriptioon. Säilyneen 16 nukleotidin varren ja silmukan rakennesarjan sijainti ilmoitetaan RefSeq-tietueessa ominaishuomautuksena ”stem-loop”. Esimerkki voidaan nähdä REFSEQ-merkinnässä nm_003539.3 HIST1H4D: lle (GeneID: 8360). Tähän mennessä on kuratoitu 127 ihmisen ja hiiren replikaatiosta riippuvaa histone RefSeq-tietuetta ja lisätty RefSeq-attribuutti, jolla nämä tietueet voidaan hakea Nukleotiditietokannasta hakusanalla ”replikaatiosta riippuva Histoni”.

Regulatory upstream open reading frame (uofs)

translation of an upstream open reading frame (uORF) voi vaikuttaa negatiivisesti translation of the primary protein-coding open reading frame (porf) (31). Tämä vaikutus ei aina täysin hiljennä pORF-translaatiota ja voi olla riippuvainen solutyypistä, kehitystilasta tai solutilasta. Vaikka uurfs voidaan ennustaa transkription kuuden kuvan käännöksestä, tämän elementin sääntelyvaikutus on määritettävä kokeellisen validoinnin avulla. RefSeq-kuraattorit tarkastelivat kirjallisuutta löytääkseen transkriptejä, joilla oli kokeellista näyttöä sääntelevistä urfs: istä, ja päivittivät vastaavat RefSeq transkriptiot lisätäkseen misc_feature: n, joka ilmaisee näiden urfs: n sijainnin. Esimerkki on refseq-merkintä NM_000392.4 abcc2: lle (GeneID: 1244). Uusi RefSeq-attribuuttiluokka ”regulatory uof” luotiin, ja se esiintyy jäsennellyssä kommentissa näistä RefSeq-tietueista. Sekä merkinnällä varustettu ominaisuus että attribuutti viittaavat PubMed ID: n julkaisuun. Tähän mennessä 260 tietuetta on liitetty tähän attribuuttiin, ja nämä tietueet voidaan hakea Nukleotiditietokannasta etsimällä ”regulatory uof”

Antizyme-geenit

yksi RefSeq-projektin tavoitteista on edustaa geenejä, joilla on poikkeuksellinen biologia ja jotka eivät noudata proteiinisynteesin tavanomaisia dekoodaussääntöjä. Ornitiinidekarboksylaasin antitsymegeeni on tällainen esimerkki, jossa esiintyy ohjelmoitu + 1 ribosomaalinen kehyksensiirtomekanismi, jota ei voida ennustaa tavanomaisilla laskennallisilla työkaluilla. Joukko selkärankaisten antizyme transkripti ja proteiini kirjaa äskettäin aiheena manuaalinen merkintä pyrkimys luoda standardeja parantaa merkintää näiden geenituotteiden eukaryotic genome annotation pipeline (32). RefSeq-tietueisiin tehtiin manuaalisesti merkintä split CDS-ominaisuudella ribosomaalisen poikkeaman heijastamiseksi, ja niihin sisältyi ”ribosomaalinen lipsahdus” – attribuutti julkaistuine todisteineen, erilaisia sekalaisia ominaisuushuomautuksia (kuten kehyksensiirtokohteen sijainti) ja lyhyt yhteenveto geenin toiminnasta ja uusista ominaisuuksista (esim.NM_139081.2). Nämä tietueet voidaan hakea joko nukleotidi-tai Proteiinitietokannasta hakukyselyllä: selkärankaiset refseq ribosomal slipage antizyme. Tällä haulla löydetään tällä hetkellä 242 RefSeq-tietuetta (NM tai NP), jotka sisältävät transkriptiovariantteja ja proteiini-isoformeja.

selkärangattomat

selkärangattomat lajit edustavat valtaosaa jäljellä olevista metatsoaaneista (33); kuitenkin vain suhteellisen pientä määrää edustavat sekvensoidut genomit. Tämä siitä huolimatta, että monilla lajeilla on kriittinen biolääketieteellinen merkitys, kuten malarian vektori Anopheles gambiae ja skistosomiaasin vektori Biomfalaria glabrata (34,35). Muilla selkärangattomilla, kuten Apis mellifera, Bombyx mori ja Crassostrea gigas, on merkittävää kaupallista arvoa (36-38). RefSeq-ryhmä on pyrkinyt lisäämään aineistossa edustettavien selkärangattomien genomien määrää ja laajuutta lisäämällä merkintöjä eukaryoottisen genomihuomautusputken kautta tai lisäämällä merkintöjä INSDC: n toimittamista tiedoista näiden genomien RefSeq-kopioon. Molempien prosessivirtojen osalta olemme riippuvaisia korkealaatuisten genomien julkisesta saatavuudesta INSDC-tietokannoissa ja NCBI: n Kokoonpanotietokannassa (www.ncbi.nlm.nih.gov/assembly/). tähän mennessä NCBI on antanut huomautuksen 46 selkärangattoman genomista, mukaan lukien edustavat hyönteislajit, hämähäkkieläimet, nilviäiset ja basaaliskordaatit. Odotamme merkittävää kasvua hyönteisten ja muiden selkärangattomien genomien määrässä genomialoitteiden kuten i5k (39), 1kite (1k Insect Transkriptome Evolution, http://www.1kite.org/) ja Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40) seurauksena.

kasvit

RefSeq jatkaa aineiston edustamien kasvilajien monimuotoisuuden laajentamista. RefSeq genomes-aineistoon on tähän mennessä sisällytetty 61 kasvilajia (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ plant/), josta 33 lajia merkittiin eukaryoottisen genomin merkintäputken kautta; loput ovat RefSeq-kopioita INSDC: lle toimitetuista merkinnöistä. Tulevaisuudessa enemmän refseq-sisällyttämiseen valittuja kasvigenomeja käsitellään eukaryote-merkintäputkessa sen sijaan, että lisättäisiin insdc: n toimittamasta merkinnästä. Tämä on refseq-kasvigenomien käytäntöjen muutos ja johtaa refseq-tietokokonaisuuden sisältämien kasvien merkintätietojen parempaan yhdenmukaisuuteen. Suurin osa kasvilajeille saatavilla olevista RefSeq-transkripteistä ja-proteiineista on ”mallitietueita” (xm_, XP_ ja Xr_ liittymiä; Taulukko 1), ja pienempi ”tunnettujen” tietueiden osajoukko (NM_, NR_, NP_), joita ylläpidetään annotaatioprosessista riippumatta automaattisen käsittelyn ja manuaalisen tarkastelun yhdistelmällä. Zea Maysin ja Solanum lycopersicumin kasvien transkriptio-ja proteiinitietojen manuaalinen kuratointi on tällä hetkellä saatavilla. Nykyinen kuraatio painopiste edellyttää laaja sekvenssi tarkastelu ja on suunnattu ratkaisemaan QA huolenaiheita nykyisessä joukko transkriptien. Virheresoluutio keskittyy tunnistamaan ja poistamaan kimeeriset transkriptit, tarpeettomat transkriptit ja geenit ja parantamaan edustetun sekvenssin laatua arvioimalla Indel-ja yhteensopimattomuuksia RefSeq-transkriptin, genomisen sekvenssin ja ortologisen datan välillä. Kasveille pyrimme tarjoamaan kuratoidun transkription ja proteiinin aineiston, joka vastaa genomin sekvensointiin ja kokoamiseen valittua lajiketta. Selkärankaisten tiedoissa käytettävää kuraatioprotokollaa käytetään myös kasveille. RefSeq-transkriptiotiedot voidaan päivittää siten, että ne perustuvat eri INSDC-lähdesekvenssiin, tai ne voidaan koota useammasta kuin yhdestä INSDC-sekvenssitiedotteesta, jotta transkriptio saadaan suositellusta lajikkeesta. Jos INSDC: n transkriptiotietoja ei ole saatavilla genomisesta lajista, kootusta genomisarjasta voidaan luoda RefSeq-transkripti, joka perustuu transkriptioiden tai proteiinilähetysten, RNA-Seq: n ja/tai julkaistujen tietojen yhdistelmään. Toinen painopiste on lisätä tuettujen tunnettujen proteiinia koodaavien transkriptien ja proteiinien määrää, koska tämä tarjoaa kuratoidun reagenssin, jota voidaan käyttää muiden kasvien genomien kirjaamisessa. Lopuksi, teemme enemmän RefSeqs edustavat liitos vaihtoehtoja, kun on riittävästi näyttöä. Nämä toimet parantavat merkittävästi laitoksen RefSeq-aineiston laatua ja auttavat parantamaan tulevia genomihuomautuksia. Nykyisin putkilinjan antamiin kasvien genomeihin voi tutustua NCBI: n eukaryotic genome annotation pipeline-verkkosivustolla http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/, jossa on linkit yksityiskohtaiseen merkintäraporttiin ja muihin resursseihin, kuten species BLAST ja FTP.

levät, sienet, Sukkulamadot ja alkueläimet

NCBI: n pieni eukaryoottinen genomiputki on uusi automatisoitu putki, joka on suunniteltu RefSeq-tietueiden tuottamista varten INSDC-tietueiden suoran lisäyksen tuloksena. Näin syntyvät RefSeq-tietueet ovat kopioita Genbankin tiedoista, joissa on joitakin formaattimuutoksia RefSeq-vaatimusten noudattamiseksi. Merkittävin ero alkuperäisen INSDC-levyn ja RefSeq-levyn välillä on RefSeq-transkriptiotuotteen lisääminen. Vaikka pientä eukaryoottista genomiputkea ei ole suunniteltu tuottamaan de novo-genomihuomautusta, se ammentaa useista NCBI: n eukaryoottisten genomihuomautusten putkimoduuleista ja niiden koodista (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

”Pienet eukaryootit” – nimitys viittaa putken ensisijaiseen käyttötarkoitukseen tuottaa RefSeq-genomeja suhteellisen pienemmille eukaryoottisille genomeille (verrattuna kasvien ja selkärankaisten genomeihin), kuten levien, alkueläinten, sienten, sukkulamatojen ja joidenkin niveljalkaisten genomeille. Tätä putkea pitkin jalostetaan kuitenkin myös joitakin suuria kasvigenomeja. Tämä putki käsittelee korkealaatuisia kokoonpanoja, jotka koostuvat kromosomeista ja / tai telineosista ja niiden osista. Ne kokoonpanot, joissa on korkea kontig ja teline N50, korkealaatuinen sekvenssi ja kohtuullisen hyvä INSDC: n toimittama huomautus, priorisoidaan. Tämä putki, joka korvaa historiallisen prosessivirran, joka vaati enemmän manuaalista tukea, on vasta äskettäin saavuttanut julkisen tuotantovaiheen, ja se tuottaa jo lisääntyvää määrää ”pieniä” eukaryoottisia genomeja, jotka ovat edustettuina RefSeq: ssa. Putkiston läpimenon optimointi ja automaation lisääminen sekä kuraattorien käsittelytehtävien minimointi on käynnissä. Pidemmän aikavälin suunnitelmiin kuuluu proteiinin nimenhallintajärjestelmän toteuttaminen INSDC: n toimittamien nimien tarjoamiseksi, korjaamiseksi tai parantamiseksi ajan mittaan. Monia pienen eukaryotes-putken piirissä olevia genomeja ei voida tällä hetkellä käsitellä (suuren) eukaryoottisen genomihuomautusputken avulla, koska ne ovat taksonomisesti monimuotoisia ja koska de novo-merkintäputken kouluttamiseen tarvittavat transkriptiotiedot ovat rajallisesti saatavilla.

Sienimorfologia

Sienimorfologia on hyvin monimuotoista ja vaihtelee monimutkaisista monisoluisista rakenteista hyvin yksinkertaisiin yksittäissoluihin. Yksi laji voi tuottaa erilaisia morfologisia rakenteita ja itiötyyppejä. Toisaalta monet lajit tuottavat samanlaisia morfologioita (morpheja), mutta ovat itse asiassa geneettisesti hyvin etäisiä. Viime aikoihin asti yhdestä lajista on voitu pätevästi kuvata useampi kuin yksi binominimi, joka perustuu suvullisiin tai suvuttomiin muotoihin. Monesti tietylle lajille on kuvattu ja kirjattu vain yksi morphi, vaikka sille läheistä sukua olevilla lajeilla voi olla useita kuvattuja ja tallennettuja morpheja. Tämän vuoksi sieniyhteisössä on sovellettu sekvenssivertailuja lajien erottamiseksi toisistaan, lajien seuraamiseksi niiden edetessä monimutkaisten elinkaarien läpi ja kryptisten lajien tunnistamiseksi. Osana taksonomisen uudelleenarvioinnin dynaamista prosessia monet sienilajikorjaukset eivät aina ole ajan tasalla GenBank-sekvenssitiedoissa.

ollakseen luotettavampi resurssi DNA-pohjaisen tunnistamisen kannalta, tyyppinäytteistä (jotka toimivat viitteinä lajeille) johdettuihin viitesarjoihin on merkittävä oikea ja ajanmukaisin lajinimi. Sienet RefSeq kohdennettuja loci tietokannat tarjoavat tämän arvokkaan resurssin. Esimerkiksi PRJNA177353 on Bioprojekti, joka keskittyy erityisesti sisäisiin transkriboituihin spacer (ITS) – alueisiin ydinribosomaalisessa cistronissa, jota on käytetty monien vuosien ajan fylogeneettisenä merkkiaineena ja joka on äskettäin hyväksytty sienten muodolliseksi viivakoodisarjaksi (41). Its RefSeq-tietokanta aloitti yhteistyön Index Fungorumin, Mycobankin ja Uniten sekä suuren taksonomisten asiantuntijoiden kanssa. Sekvenssit valittiin, enimmäkseen tyyppiyksilöistä, joilla oli päteviä kuvauksia, ja sitten sekvensseihin liitettiin nykyiset oikeat lajinimet, joiden tarkoituksena oli edustaa suurinta osaa hyväksytyistä sienilajeista (8). Tämän tutkimuksen tuloksia on käytetty ja siteerattu eri julkaisuissa (42-46), ja ne ovat auttaneet lisäponnisteluja viitesarjojen osajoukkojen, esimerkiksi lääketieteellisesti merkittävien lajien, validoinnissa (47).

tavoitteena on, jatkuvalla kuratoinnilla, lisätä sekvenssejä vasta kuvatuista lahkoista ja laajentaa edustus koskemaan useimpia hyväksyttyjä sukuja keskittyen lääketieteellisesti tärkeisiin sieniin. Prosessiin kuuluu myös korjausten tekeminen, sekvenssin korvaaminen todennetusta aineistosta tyyppiaineiston sekvenssillä sen tullessa saataville ja määrittelyrivien muokkaaminen tai RefSeq-tietueiden poistaminen taksonomisten luokitusten muuttuessa. Näin varmistetaan, että BLAST search results näyttää nykyisen nimen oikein. RefSeq sen tietueet on laajennettu edustamaan 3,060 sekvenssit edustavat 270 perheet 39 luokat. Alkuperäisen yhteistyön aikana sen RefSeq vaivaa, pienempi joukko sekvenssin liittymiä 28S nuclear large subunit ribosomal geeni (LSU) kerättiin myös, mutta ei tarkistettu. Sen tietuekuratointiprosessin kaltaista työnkulkua noudatettiin ja jatkuvan kuratoinnin aikana nämä LSU-tietueet on tarkistettu sekvenssin laadun, oikean tunnistamisen ja tarkkojen lähdetietojen osalta. Lähes 500 äänitettä (800 mahdollisesta äänitteestä), jotka edustavat >100 perhettä 21 luokasta, tarkistettiin ja julkaistiin äskettäin. 28S-aineisto voidaan hakea BioProject PRJNA51803: sta (48).

prokaryootit

NCBI RefSeq Prokaryoottisen genomin kokoelma edustaa koottuja prokaryoottisia genomeja, joiden laatu ja näytteenottotiheys vaihtelevat. Prokaryooteille, perustuen aiempaan yhteisön palautteeseen, nykyinen politiikkamme on tarjota genomihuomautus kaikille prokaryoottisille genomeille, jotka täyttävät laatukriteerimme. Viime vuosina olemme kohdanneet kaksi suurta haastetta: (i) pysyä mukana esitettyjen prokaryoottisten genomien nopeassa lisääntymisessä; ja (ii) puuttumalla kasvavaan epäjohdonmukaisuuteen genomin merkinnässä, joka johtuu sekä INSDC: n leviämispohjaisen putken että ajan myötä kehitetyn NCBI de novo-genomihuomautusputken eri versioista.

kiinnostus ihmisen patogeeneihin ja DNA: n sekvensointitekniikan kehittyminen ovat lisänneet kiinnostusta, joten sekvensoitujen prokaryoottisten genomien määrä on kasvanut nopeasti viimeisen vuosikymmenen aikana. Jotkut bakteerikannat ovat usein mahdotonta erottaa käyttämällä nykyisiä genotyypitys lähestymistapoja, mutta pieniä geneettisiä eroja voidaan havaita perusteella koko genomin sekvensointi, joka on hyödyllinen luonnehditaan siirtoreittejä, tunnistaa antibioottiresistenssi, ja kartoittaa puhkeamisen. Elintarvikkeiden välityksellä leviävien patogeenien tai infektiopesäkkeiden tutkimiseksi on viime vuosina sekvensoitu ja merkitty muistiin suuri määrä lähes identtisiä bakteerien genomeja, mikä on johtanut lukuisiin identtisiin proteiineihin, joista jokaisella on erillinen liittymisnumero. Vuonna 2013 NCBI esitteli RefSeq-mallistoon uuden proteiinidatamallin ja liittymisliitteen (WP_). Tämä muutos vähensi refseq prokaryoottisten proteiinien redundanssia ja helpotti sellaisten proteiinien tunnistamista, joita löytyi identtisesti useammasta kuin yhdestä genomista. Se mahdollisti myös paremman strategian prokaryoottisten proteiinien nimien hallitsemiseksi. Nämä ei-redundantit tietueet edustavat ainutlaatuisia prokaryoottisia proteiinisekvenssejä, jotka ovat riippumattomia mistään tietystä bakteerien genomista ja jotka voidaan merkitä useisiin kantoihin tai lajeihin (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

historiallisesti RefSeq-bakteerien genomien merkintätapa on propagoitu INSDC: n toimittamista tiedoista, jos niitä on saatavilla, tai tuotettu käyttäen NCBI: n Prokaryoottisen Genomihuomautusputken eri versioita (joita tarjotaan myös Genbankin toimittamien tietojen palveluna). Tämä johti siihen, että RefSeq prokaryotic-aineiston rakenteellisissa ja toiminnallisissa merkinnöissä on kertynyt epäjohdonmukaisuuksia. Kahden viime vuoden aikana NCBI paransi useita prokaryoottisen genomin Merkintäputken näkökohtia kapasiteetin lisäämiseksi ja edelleen yhdenmukaistaa merkintäsääntöjä. Meidän putki yhdistää geen calling algoritmi, GeneMarkS+ (49,50), kohdistus-pohjainen geenin tunnistus lähestymistapa ja pystyy kirjaamaan sekä täydellinen ja luonnos WGS genomit. Putki ennustaa tällä hetkellä proteiinia koodaavia geenejä, rakenteellisia RNAs (5S, 16S ja 23s), tRNAs ja pieniä koodaamattomia RNAs.

vuonna 2015 julkaisimme RefSeq prokaryoottisten genomien kattavan merkintäpäivityksen, jonka tarkoituksena on yhtenäistää genomin merkintää ja saattaa päätökseen siirtyminen uuteen proteiinitietomalliin. Kehitettiin uusi prokaryoottiproteiinin nimitietokanta, nimimääritykset ja näyttöön perustuva strategia, ja niitä ollaan parhaillaan ottamassa käyttöön. Tähän mennessä yli 3 miljoonaa proteiinitietuetta on päivittänyt nimiä lähestymistavan alustavassa demonstraatiossa. Uusi prokaryoottinen tietomalli tarjoaa merkittävän edun nimenhallintajärjestelmälle, koska proteiinin nimi on mukana proteiinisekvenssitietueessa; nimen päivittäminen kyseiseen proteiinitietueeseen johtaa siihen, että päivitys lisätään automaattisesti kaikkiin genomeihin, joihin liittymisnumero merkitään.

RefSeq prokaryoottiset genomit on järjestetty useisiin uusiin kategorioihin, kuten referenssigenomeihin ja edustaviin genomeihin, jotka perustuvat kuratoituihin attribuutteihin sekä kokoamis-ja merkintälaatumittareihin (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes) (51). Referenssigenomit ovat käsin valittuja ”gold standard” – täydellisiä genomeja, joissa on korkea laatu ja korkein kokeellinen tuki rakenteelliselle ja toiminnalliselle merkinnälle. Tällä hetkellä pieni 122 referenssigenomien aineisto merkitään manuaalisesti yhteistyössä toimivien ryhmien ja NCBI: n henkilökunnan toimesta. Viitegenomit löytyvät osoitteesta http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Edustavat genomit lasketaan laskennallisesti ja valitaan edustamaan erilaisia lajeja. Edustavat genomit ovat saatavilla osoitteessa: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq prokaryoottista genomitietoa voi käyttää BLAST-tietokannoissa, web-resursseissa (Assembly, BioProject, Genome, Nucleotide and Protein), NCBI: n ohjelmointityökalujen kautta tai sitä voi ladata genomeista tai refseq FTP-sivustoilta. Mukautettu ’Microbes’ BLAST-sivu, jota käytetään BLAST-kotisivulta, tarjoaa vaihtoehtoja etsiä kaikkia RefSeq prokaryoottisia genomeja, viite-ja edustavia genomeja, tai rajoittaa haku tiettyyn taksoniin. Osajoukko prokaryoottisia genomeja merkitään NCBI-Geenitunnuksella ja ne voidaan hakea NCBI: n Geeniresurssista tai geenin FTP-sivustolta. Arkhaian kohdalla tämä on säädetty useimmille täydellisille genomeille. Bakteerien osalta tämä ilmoitetaan viitegenomeista ja edustavista genomeista lajeilla, joilla on vähintään 10 genomia.

prokaryooteilla 16S: n ribosomaalinen RNA-sekvenssi on muodostunut standardimolekyylimarkkeriksi uuden lajin kuvaukseen. Vaikka nämä merkkisekvenssit ovat yleistyneet, insdc: n tietokantoihin toimitettavien sekvenssitietojen ja niihin liittyvien metatietojen laatu vaihtelee huomattavasti. NCBI on laajentanut kohdennettua loci-projektiaan tarjotakseen ajantasaisen kuratoidun tiedon lähteen. Kohdennetussa loci-projektissa säilytetään tällä hetkellä lähes 18 000 16S ribosomaalista RNA-referenssisekvenssiä, joista yli 95% on tyyppikannoista. Tyyppikantoja pidetään lajin esikuvina, ja on tärkeää, että tyyppikantaa koskevat tiedot merkitään oikeilla metatiedoilla ja että ne eivät saastu.

tähän työhön sisältyi perusteellinen katsaus ja päivitys taustalla olevaan taksonomiatietokantaan, jota käytettiin yhdessä NCBI: n type strain Entrez-suodattimen kanssa hakijasekvenssien hakemiseen. Sekvenssitiedot ja niihin liittyvät taksonomia / metatiedot on tarkistettu ja korjattu sisältämään ajantasaisimmat tiedot. Jos sekvenssin validointi epäonnistui tai sitä ei voitu validoida tarkasti, se suljettiin pois. Näitä referenssisekvenssejä voidaan nyt käyttää ”kultastandardeina” olemassa olevien ja uusien rRNA-sekvenssien analysoinnissa.

Bacterial 16s rRNA-aineistot ovat saatavilla Bioprojektilla (PRJNA33175 ja Prjna33317). Käytössä on myös mukautettu BLASTITIETOKANTA (”16S ribosomal RNA sequences (bacteries and Archaea)”).

virukset

virusten RefSeq-tietomalli eroaa muiden eliöiden mallista. Yleensä kullekin viruslajille luodaan vain yksi täydellinen RefSeq-genomi. Joskus tietyn viruslajin sisällä luodaan useita RefSeq-tietueita, jotka kuvastavat tarkoin määriteltyjä genotyyppejä tai tärkeitä laboratorio-ja/tai luonnonvaraisia kantoja. Tietyn lajin lisägenomit validoidaan taksonomian ja täydellisyyden osalta, minkä jälkeen ne indeksoidaan sekvenssiksi ”naapurit” (52). Sekä RefSeq – että naapurigenomit ovat haettavissa viruksen genomiresurssin (http://www.ncbi.nlm.nih.gov/genome/viruses/) kautta ja Entrez-nukleotidi-ja Genomisivuilta käyttäen linkkejä ”RefSeq Genome for Species” ja ”Other INSDC Genome Sequences” (52).

taksonomia on suuri huolenaihe virusten genomitutkimukselle, sillä International Committee on Taxonomy of Viruses (ICTV) on virallisesti tunnustanut 3186 viruslajia (53) ja INSDC: n tietokannoista on saatavilla 4834 täydellistä genomia sekä virallisista että väliaikaisista viruslajeista. NCBI: n pairwise Sequence Comparison (PASC) – työkalu kehitettiin auttamaan virusten genomien luokittelussa genomien maailmanlaajuisten ja/tai paikallisten yhdenmukaisuuksien perusteella (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Työkalun soveltamisalaa on laajennettu koskemaan useita virussukuja ja muita taksonomisia ryhmiä, ja sitä on käytetty tukemaan uusien taksonomisten kriteerien rajaamista (54-57).

toinen viruksen genomitutkimuksessa ilmenevä ongelma on epäjohdonmukainen ja / tai epätarkka huomautus viruksen genomisekvensseissä. Tämä kysymys heijastaa usein erilaisia merkintäprosesseja ja käynnissä olevaa kokeellista työtä, ja se voi aiheuttaa sekaannusta tietojen kuluttajien keskuudessa ja tehdä vertailevan analyysin genomien välillä vaikeaksi. Tätä ongelmaa käsitellään NCBI-viruksen Variaatioresurssissa (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/), jossa käytetään laskennallisia putkistoja, jotka tarjoavat ajantasaisen, standardoidun huomautuksen useille viruksille (58). Tällä hetkellä nämä putkistot laskevat standardoidut geeni-ja proteiinirajat kaikille influenssaviruksille, Denguevirukselle ja Länsi-Niilin virussekvensseille sekä standardoidut geeni-ja proteiininimet ja metatermit näille ja kahdelle muulle virukselle, Lähi-idän hengitystiekonavirukselle ja Ebolavirukselle. Tätä standardoitua tietoa hyödynnetään erikoistuneessa metatietokeskeisessä hakuliittymässä, joka helpottaa sekvenssien hakemista tiettyihin biologisiin kriteereihin perustuen.

ajan tasalla olevien, laajalti hyväksyttyjen merkintästandardien ylläpitäminen edellyttää jatkuvaa yhteistyötä suuremman tiedeyhteisön kanssa. NCBI: n Viral Genome Annotation-työryhmä perustettiin hyödyntämään julkisten tietokantojen, sekvensointikeskusten ja tutkimusryhmien yhteenliittymiä standardoidun sekvenssihuomautuksen kehittämiseksi sekä eri virusryhmien (59-63) nimeämisjärjestelmien eristämiseksi. Tämä lähestymistapa ei ainoastaan luo standardeja virushuomautuksille, vaan se edustaa myös näitä standardeja nykyisessä RefSeq-tietueessa, mikä varmistaa kaikkien tietokannan käyttäjien ja lähettäjien saavutettavuuden. Samanlainen yhteistyö on tarpeen myös lisäarvon, tulkinnallisten resurssien, kuten HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovires/hiv-1/interactions/) (64) tukemiseksi. Southern Research Instituten yhteistyökumppanit tarjoavat dokumentoituja HIV-1: tä, ihmisen molekyylien vuorovaikutuksia, jotka on kuratoitu kirjallisuudesta, ja NCBI ylläpitää käyttäjäystävällistä resurssia, jossa käyttäjät voivat tiedustella tietyntyyppisiä vuorovaikutuksia ja löytää lisätietoja mukana olevista geeneistä.

FUTURE DIRECTIONS

RefSeq-projekti on ainutlaatuinen, sillä se tarjoaa kaikki elämän valtakunnat kattavan referenssisekvenssitietokannan, jota on aktiivisesti ylläpidetty ja päivitetty ajan mittaan sisällyttämään siihen parempia laskentastrategioita, uusia tietotyyppejä ja uutta tietoa. Olemme osoittaneet kykymme ja kykymme vastata INSDC: n tietokantoihin toimitettujen sekvensoitujen genomien määrän viimeaikaiseen nopeaan kasvuun. Olemme määritelleet erilaisia politiikkoja ja strategioita eukaryoottisten, prokaryoottisten ja viruslajien kuratoimiseksi ja merkitsemiseksi eliökohtaisten yhteisöjen erilaisiin tarpeisiin. RefSeq-aineistoa käytetään laajalti vertailustandardina monissa eri analyyseissä, mukaan lukien ihmisen ja patogeenin kliiniset Sovellukset, vertaileva genomiikka, ekspressiomääritykset, sekvenssivaihtelun tulkinta ja sekä array-että probe-rakenne. NCBI: ssä RefSeq-tietokokonaisuus on integroitu useisiin resursseihin, mukaan lukien Assembly, BLAST, Epigenomics, geeni (jossa RefSeq-merkintä on ensisijainen perusta useimmille Geenimerkinnöille), genomi, Dbsnp, dbVar, variaatio Viewer ja paljon muuta.

jatkamme manuaalisen kuratoinnin kohdentamista ihmisen ja muiden selkärankaisten genomien rakenteellisen ja toiminnallisen tiedon parantamiseksi. Konservatiivinen manuaalinen kuraatio-lähestymistapamme takaa ihmisen, hiiren ja muiden ”tunnettujen” RefSeq-tietueiden jatkuvan korkean laadun ja luotettavuuden, mikä palvelee niiden tarpeita, jotka tarvitsevat hyvin tuetun vaihtoehtoisten eksonien määritelmän (vähemmän vääriä positiivisia). RNA-Seq-datan lisääminen merkintäputkistoomme lisäsi merkittävästi vaihtoehtoisten liitosvarianttien merkintää Mallitrefseqeinä palvelemaan niiden tarpeita, jotka haluavat kattavamman, mutta silti hyvin tuetun, exomen määritelmän (vähemmän vääriä negatiiveja). Vaikka molemmat tunnetut ja malli RefSeqs raportoivat tukitodisteet sekvenssitietueen, he käyttävät erillisiä lähestymistapoja tehdä niin. Tulevaisuudessa pyritään yhdenmukaistamaan todistusaineiston raportointia sekä ”tunnettujen” että ”mallien” Refseqien osalta, jotta käyttäjät voivat helpommin tunnistaa nämä tiedot. Lisäämme myös uuden tietotyypin ihmisen ja hiiren RefSeq-kokoelmaan lähitulevaisuudessa edustamaan kokeellisesti raportoituja sääntely-ja toiminnallisia elementtejä, joilla on tunnettuja (tai kohtuullisesti pääteltyjä) toiminnallisia seurauksia.

prokaryoottisten genomien osalta jatkamme työtä prokaryoottisen Genomihuomautusputken tuottaman rakennehuomautuksen piirteiden jalostamiseksi. Työtämme kohti uutta toimintatavan hallinnointia hiotaan edelleen ja kuvataan muualla. Odotamme koko RefSeq prokaryotic genomes-aineiston uudelleenkirjoittamista, kun prokaryotic-merkintäputkiston uudet versiot tulevat saataville (rakenteellisten merkintöjen parantamiseksi). Päätös merkitä kaikki RefSeq prokaryotes yhdellä menetelmällä, yhdessä pelkkä määrä tämän aineiston, edellyttää erilaista lähestymistapaa, joka hyödyntää useita lähteitä todisteita tarjota toiminnallista tietoa. Proteiinien nimiä päivitetään jatkuvasti proteiiniperheiden tai todistetyyppiluokkien mukaan järjestettynä. Tavoitteitamme tulevalle vuodelle ovat rfam: n (65) parempi integrointi merkintäputkeen, laajennettu yhteistyö, parannetut proteiinien nimet ja raportointi proteiinisekvenssitietueen tueksi.

haluamme kiittää tiedeyhteisöä rakentavasta palautteesta, ehdotuksista, virheilmoituksista ja yhteistyöstä viimeisten 15 vuoden aikana, jotka ovat edistäneet edustetun sekvenssin laatua ja tarkkuutta, rakenteellista merkintää ja toiminnallista merkintää.

rahoitus

NIH: n sisäinen tutkimusohjelma, National Library of Medicine. Open access charge: the Intramural Research Program of the National Institutes of Health, National Library of Medicine.

eturistiriitaselvitys. Ei ilmoitettu.

Nosek

B. A.

Alter

pankit

G. C.

borsboom

Bowman

S. D.

breckler

S. J.

buck

Chambers

C. D.

Kiina

Christensen

G. et al.

tieteelliset standardit. Avoimen tutkimuskulttuurin edistäminen

tiede

2015

348

1422

1425

K. A.

Yates

seal

R. L.

Wright

M. W.

Bruford

div>E. A.

Genenames.org: HGNC: n resurssit vuonna 2015

nukleiinihapot Res.

2015

D1079

D1085

Ruzicka

Bradford

Y. M.

Frazer

Howe

D. G.

paddock

Ramachandran

singer

Bull

Van Slyke

C. E.

kotka

A. E.

et al.

ZFIN, the zebrafish model organisation database: Updates and new directions

Genesis

2015

498

uniprot

uniprot: proteiinitietojen napa

nukleiinihapot Res.

2015

d204

212

div >

kozomara

Griffiths-Jones

mirbase: suuren luottamusvälin mikrornat käyttäen syväsekvenssitietoja

nukleiinihapot Res.

2014

D68

McGarvey

K. M.

Goldfarb

Cox

Farrell

C. M.

Gupta

joardar

V. S.

kodali

V. K.

Murphy

M. R.

O ’ Leary

N. A.

Pujar

hiiren genomihuomautus RefSeq-projektin

Mamm. Genomi

2015

379

Dalgleish

flicek

Cunningham

astashyn

Tully

R. E.

div>

Proctor

Dog

McLaren

W. M.

Larsson

Vaughan

B. W.

et al.

Locus Reference Genomic sequences: the improved basis for describing human DNA variants

Genome Med.

2010

Schoch

C. L.

Robbertse

div> B.

Robert

Cardinali

Irinyi

Meyer

Nilsson

R. H.

Hughes

Miller

A. N.

et al.

neulojen löytäminen heinäsuovasta: tieteellisten nimien, vertailuyksilöiden ja sienten Molekyylitietojen yhdistäminen

tietokanta

014

Larkin

D. M.

Lee

Storz

J. F.

Antunes

greenwold

M. J.

Meredith

R. W.

et al.

vertaileva genomiikka paljastaa oivalluksia lintujen genomin evoluutiosta ja sopeutumisesta

tiede

2014

346

1311

1320

Jarvis

E. D.

mirarab

aberer

A. J.

div> Houde

S. Y.

lauch

B. C.

Nabholz

Howard

J. T.

et al.

koko genomianalyysit selvittävät nykyisten lintujen elämänpuun varhaisia oksia

tiede

2014

346

1320

div>Farrell

C. M.

O ’ Leary

N. A.

harte

R. A.

Loveland

J. E.

wilming

L. G.

Wallin

Diekhans

Barrell

Searle

S. M.

aken

et al.

Konsensuskoodaussekvenssitietokannan nykytila ja uudet ominaisuudet

nukleiinihapot Res.

2014

D865

div > Pruitt

K. D.

tatusova

maglott

D.R.

NCBI reference sequences (RefSeq): a curated non-redundant sequence database of genomes, transkripts and proteins

Nukleic Acids Res.

2007

D61

D65

div>

Hopkins

B. D.

fine

Steinbach

Dendy

Rapp

Shaw

Ross

J. S.

Hodakoski

Mense

et al.

eritetty PTEN-fosfataasi, joka kulkeutuu soluihin muuttaakseen signalointia ja eloonjäämistä

tiede

2013

341

399

Liang

yang

Jia

Wang

Dog

Zhang

Zoo

McNutt

M. A.

Sheng

W. H.

et al.

PTENalpha, vaihtoehtoisen initiaation kautta transloituva PTEN-isoformi, säätelee mitokondrioiden toimintaa ja energia-aineenvaihduntaa

solujen metabolia.

2014

836

Bolouri

Modeling genome regulatory networks with big data

Trends Genet.: TIG

2014

182

Fagerberg

div>

Hallstrom

B. M.

oksvold

Kampf

djureinovic

odeberg

habuka

tahmasebpoor

Danielsson

Edlund

et al.

ihmisen kudosspesifisen ekspression skannaus transkriptomiikan ja vasta-ainepohjaisen proteomiikan genomin laajuisen integroinnin avulla

Mol. Solu. Proteomiikka : MCP

2014

397

406

Bernstein

B. E.

stamatoyannopoulos

J. A.

Costello

J. F.

vyötärö

Milosavljevic

Meissner

Kellis

Marra

div> M. A.

Beaudet

A. L.

Ecker

J. R.

et al.

the NIH roadmap epigenomics mapping consortium

nat. Bioteknologiaa.

2010

1045

1048

Hoffman

M. M.

div>

Ernst

Wilder

S. P.

Kundaje

Harris

R. S.

Libbrecht

div>M.

giardine

Ellenbogen

p.m.

bilmes

J. A.

Birney

et al.

Kromatiinielementtien integroiva huomautus koodaustiedoista

nukleiinihapot Res.

2013

827

derti

div> Garrett-engele

MacIsaac

K. D.

Stevens

R. C.

Sriram

Dog

Rohl

C. A.

Johnson

J. M.

Babak

the quantitative atlas of polyadenylation in five mammals

Genome Res.

2012

1173

div>

lin

M. F.

jungreis

kellis

phylocsf: vertaileva genomiikka menetelmä erottaa proteiinia koodaavan ja ei-koodaavan alueilla

Bioinformatiikan

2011

i275

282

Hinta

A. L.

Jones

N. C.

Pevzner

P. A.

de novo toistoperheiden tunnistaminen suurissa genomeissa

bioinformatiikka

2005

21 Suppl 1

i351

kodzius

Kojima

nishiyori

Nakamura

Fukuda

Tagami

Sasaki

Imamura

Kai

Harbers

et al.

CAGE: cap analysis of gene expression

nat. Menetelmät

2006

211

222

Morris

K. V.

div> mattick

J. S.

säätelevän RNA: n nousu

nat. Pastori Genet.

2014

423

Evin

Hince

BACE1 terapeuttisena kohteena Alzheimerin taudissa: rationale and current status

Drugs Aging

2013

755

764

Long non-coding RNA HotAir:a novel Oncogene (review)

mol. Med. REP

2015

5611

5618

Zasloff

antimikrobiset peptidit terveydessä ja taudissa

N. Engl. J. Med.

2002

347

1199

1200

Lander

E. S.

div>

Linton

L. M.

birren

Nusbaum

Zody

M. C.

Baldwin

Devon

Dewar

Doyle

FitzHugh

et al.

ihmisen genomin alustava sekvensointi ja analysointi

luonto

2001

409

860

Lee

Veldman

G. M.

racie

lavallie

Tang

X. Y.

Edouard

Howes

et al.

Syncytin on ihmisen istukan morfogeneesiin osallistuva retrovirusproteiini

luonto

2000

403

785

Marzluff

W. F.

gongidi

the woods

K. R.

Jin

Maltais

L. J.

ihmisen ja hiiren replikaatiosta riippuvat histonigeenit

genomiikka

2002

487

498

antaa

karpiuk

tieg

Kriegs

dikomey

krebber

begus-nahrmann

Johnsen

S. A.

Histoni-H2B-geenien alajoukko tuottaa polyadenyloituja mrnoja erilaisissa soluolosuhteissa

PLoS One

2013

e63745

Barbosa

peixeiro

Romao

/div>

geeniekspression säätely ylävirtaan avoimilla lukukehyksillä ja ihmisen tauti

PLOS Genet.

2013

e1003529

Rajput

Murphy

T. D.

Pruitt

K. D.

refseq antitsyme-ja antitsyme-inhibiittorigeenien käsittely ja huomautus selkärankaisissa

nukleiinihapot Res.

2015

7270

7279

Zhang

Z. Q.

eläinten biodiversiteetti: Outline of higher-level taxonomy and survey of taxonomic richness (Addenda 2013)

Zootaxa

2013

3703

Holt

R. A.

Subramanian

G. M.

Halpern

Sutton

G. G.

charlab

nusskern

D. R.

wincker

Clark

A. G.

Ribeiro

J. M.

Wides

et al.

genomin sekvenssi malaria hyttynen Anopheles gambiae

Tiede

2002

298

129

149

Knight

Arican-Goktas

H. D.

Ittiprasert

Odoemelam

E. C.

Miller

A. N.

Bridger

– J. M.

Schistosomes and snails: a molecular encounter

Front. Genet.

2014

genomin sekvensointi, C.

Insights into social insects from the genome of the growing Apis mellifera

Nature

2006

443

931

Xia

Cheng

dai

Zhao

zha

Cheng

Chai

et al.

luonnos järjestyksessä genomin kesyjä silkkiäistoukkien (Bombyx mori)

Tiede

2004

306

1937

1940

Zhang

– G.

Fang

Guo

Luo

yang

Zhang

Wang

/div>

et al.

oysterin genomi paljastaa stressin sopeutumisen ja kuoren muodostumisen monimutkaisuuden

luonto

2012

490

i5k, konsortio

the i5k Initiative: advancing arthropod genomics for knowledge, human health, Agriculture, and the environment

J. Heredity

2013

104

595

tutkijat

G. C. O.

Bracken-Grissom

Collins

A. G.

Collins

Crandall

div> Distel

/div>

Dunn

giribet

Haddock

Knowlton

N./div>

et al.

the Global Invertebrate Genomics Alliance (GIGA): developing community resources to study diverse invertebrate genomes

J. Heredity

2014

105

Schoch

C. L.

div> Seifert

K. A.

huhndorf

Robert

spouge

J. L.

div>

Levesque

C. A.

Dog

boltšacova

Voigt

Crous

P. W.

et al.

Nuclear ribosomal internal transkribed spacer (ITS) region as a universal DNA barcode marker for fungs

Proc. Natl. Acad. Sci. Yhdysvallat

2012

6241

6246

Visagie

C. M.

houbraken

frisvad

J. C.

Hong

S. B.

Klaassen

C. H.

Perrone

Seifert

K. A.

Varga

Yaguchi

Samson

R. A.

Penicillium-suvun tunnistus ja bom

yo. Mycol.

2014

Corte

div> say Cagno

Groenewald

Roscini

colabella

gobbetti

Cardinali

Meyerozyma guilliermondii-kantojen fenotyyppi-ja molekyylidiversiteetti on eristetty elintarvikkeista ja muista ympäristön lokeroista, vihjeitä alkavasta lajiutumisesta

Food mikrobiolia.

2015

206

Federhen

NCBI: n taksonomiatietokannan

nukleiinihapot Res.

2015

D1086

d1098

Nilsson

R. H.

tedersoo

Ryberg

Kristiansson

Hartmann

unterseher

porter

T. M.

Bengtsson-Palme

Walker

D. M.

de Sousa

et al.

kattava, automaattisesti päivitetty sieni-ITS sequence-tietokokonaisuus referenssipohjaista Khimaira-kontrollia varten ympäristön sekvensointityössä

Microb. Circa/jsme

2015

145

Mittelbach

jurkov

A. M.

Nocentini

Nepi

weigend

/div>

begerow

Mesisokerit ja lintujen visiitti määrittelevät basidiomycetous-hiivan kukkanuolinnan Kanariansaarilla

BMC Ecol.

2015

Irinyi

Serena

Garcia-hermoso

Arabatzis

Desnos-Ollivier

Cardinali

Arthur

Normand

A. C.

Giraldo

et al.

The International Society of Human and Animal Mycology (ISHAM)-ITS reference DNA barcoding database–the quality controlled standard tool for rutinary identification of human and animal pathogenic funges

Med. Mycol.

2015

313

Schoch

C. L.

Seifert

K. A.

Huhndorf

St.

Robert

Spouge

J. L.

Levesque

C. A.

Chen

fungal barcoding

fungal Barcoding Consortium author, L.

the nuclear ribosomal internal transkribed spacer (its) region as a universal DNA barcode marker for fungs

proc. Natl. Acad. Sci. USA.

2012

6241

6246

Besemer

div>

Lomsadze

borodovski

genemarks: mikrobigenomeista alkaa geenin ennustaminen itsekoulutuksella. Vaikutukset löytäminen järjestyksessä motiivit sääntelyn alueilla

nukleiinihapot Res.

2001

2607

2618

Borodovsky

– M.

Lomsadze

geenin tunnistaminen prokaryoottisissa genomeissa, fageissa, metagenomeissa ja EST-sekvensseissä GeneMarkS suite

Curr. Protokolla. Mikrobiolia.

2014

Yksikkö 1 7

Tatusova

Ciufo

federhen

Fedorov

McVeigh

O ’ Neill div

Tolstoi

Zaslavsky

päivitys RefSeq-mikrobigenomiresursseista

nukleiinihapot Res.

2015

d599

d605

brister

J. R.

ako-Adjei

bao

blinkova

NCBI-viruksen genomiresurssi

nukleiinihapot Res.

2015

D571

d577

Adams

M. J.

Lefkowitz

E. J.

King

A. M.

Bamford

D. H.

Breitbart

Davison

A. J.

Ghabrial

S. A.

gorbalenya

A. E.

N. J.

Krell

et al.

Ratifioimisäänestys taksonomisista ehdotuksista kansainväliseen virusten Taksonomiakomiteaan (2015)

Arch. Holkki.

2015

160

1837

1850

bao

tšetvernin

tatusova

Parivertailu (PASC) ja sen soveltaminen filovirusten taksonomiassa

virukset

2012

1318

Bao

tšetvernin

tatusova

parannukset pairwise sequence comparison (PASC): the genome-based web tool viruksen taksonomialle

arch. Holkki.

2014

159

3293

3304

Kuhn

J. H.

div>

durrwald

bao

Briese

didioksidi

div>

Clawson

A. N.

derisi

J. L.

Garten

jahrling

P. B.

kolodziejek

et al.

Bornaviridae-heimon taksonominen uudelleenjärjestely

Arch. Holkki.

2015

160

621

632

Radoshitzky

S. R.

div>

Bao

buchmeier

M. J.

charrel

R. N.

Clawson

A. N.

Clegg

C. S.

derisi

J. L.

emonet

Gonzalez

J. P.

Kuhn

J. H.

et al.

Past, present, and future of arenavirus taksonomy

Arch. Holkki.

2015

160

1851

Brister

J. R.

div>

Bao

Zhdanov

S. A.

ostapchuck

tšetvernin

kiryutin

Zaslavsky

Kimelman

Tatusova

T. A.

Virus Variation Resource–recent updates and future directions

nukleiinihapot Res.

2014

d660

665

Seto

chodosh

brister

J. R.

Jones

M. S.

adenovirustutkimuksen jäsenet, C.

käyttäen koko genomisekvenssiä ihmisen adenovirusten luonnehtimiseen ja nimeämiseen

J. Ferrule.

2011

5701

5702

Matthijnsens

div>

ciarlet

McDonald

S. M.

attoui

Banyai

brister

J. R.

Buesa

esona

M. D.

Estes

M. K.

Gentsch

J. R.

et al.

rotaviruksen Taksonomiatyöryhmän (RCWG) ehdottama Rotaviruskannan BOM yhdenmukaisuus

Arch. Holkki.

2011

1397

1413

Brister

J. R.

div>

Bao

kuiken

Lefkowitz

E. J.

Le Mercier

Leplae

Madupu

Scheuermann

R. H.

Schobel

div> S.

Seto

et al.

Kohti viruksen genomin merkintä standardien, kertomus 2010 NCBI Kommentointi Työpaja

Virukset

2010

2258

2268

Brister

J. R.

Le Mercier

– P.

J. C.

Mikrobiviruksen genomitiedotus-joukkojen kokoaminen sekvenssihyökkäyksen torjumiseksi

virologia

2012

434

175

180

Kuhn

J. H.

Andersen

K. G.

bao

Bavari

Becker

Bennett

R. S.

Bergman

N. H.

Blinkova

Bradfute

Brister

J. R. et al.

Filovirus RefSeq merkinnät: arvostus ja valinta filovirus tyyppi vaihtoehdot, tyypillisiä sekvenssejä, ja nimet

Virukset

2014

3663

3682

Ako-Adjei

Wallin

Katz

K. S.

Song

Darji

Brister

J. R.

Ptak

R. G.

Pruitt

K. D.

HIV-1, ihmisen yhteisvaikutustietokanta: nykytila ja uudet ominaisuudet

nukleiinihapot Res.

2015

d566

570

Nawrocki

E. P.

Burge

S.w.

Bateman

div> A.

Daub

Eberhardt

R. Y.

Eddy

S. R.

Floden

div> E. W.

Gardner

P. P.

Jones

T. A.

Tate

J. et al.

Rfam 12.0: updates to the RNA families database

Nucleic Acids Res.

2015

D130

D137

julkaisi Oxford University Press Nucleic Acids Research 2015: n puolesta. Tämä työ on kirjoittanut(a) Yhdysvaltain hallituksen työntekijä (s) ja on public domain Yhdysvalloissa.

Abstract

johdanto

RefSeq accession prefixes

REFSEQ-tietokokonaisuuden generointi

pääsy REFSEQ-TIETOKOKONAISUUTEEN

GROWTH AND STATISTICS

kattavassa RefSeq-julkaisussa esitettyjen eliöiden, proteiinien ja transkriptien vuosittainen kasvu FTP-release-hakemistossa

selkärankaiset

RefSeqGene-projekti

RNA-Seq: n ja muiden tietotyyppien sisällyttäminen transkriptiopohjaiseen kuraatioon

Pitkät koodaamattomat rnat (lncrnas)

funktionaalinen huomautus

Mikrobilääkepeptidit (Ampeerit)

endogeeniset retrovirukset (Ervs)

replikaatiosta riippuvaiset histonit

Regulatory upstream open reading frame (uofs)

Antizyme-geenit

selkärangattomat

kasvit

levät, sienet, Sukkulamadot ja alkueläimet

Sienimorfologia

prokaryootit

virukset

FUTURE DIRECTIONS

rahoitus

Vastaa Peruuta vastaus