- Abstract
- johdanto
- RefSeq accession prefixes
- REFSEQ-tietokokonaisuuden generointi
- pääsy REFSEQ-TIETOKOKONAISUUTEEN
- GROWTH AND STATISTICS
- kattavassa RefSeq-julkaisussa esitettyjen eliöiden, proteiinien ja transkriptien vuosittainen kasvu FTP-release-hakemistossa
- selkärankaiset
- RefSeqGene-projekti
- RNA-Seq: n ja muiden tietotyyppien sisällyttäminen transkriptiopohjaiseen kuraatioon
- Pitkät koodaamattomat rnat (lncrnas)
- funktionaalinen huomautus
- Mikrobilääkepeptidit (Ampeerit)
- endogeeniset retrovirukset (Ervs)
- replikaatiosta riippuvaiset histonit
- Regulatory upstream open reading frame (uofs)
- Antizyme-geenit
- selkärangattomat
- kasvit
- levät, sienet, Sukkulamadot ja alkueläimet
- Sienimorfologia
- prokaryootit
- prokaryooteilla 16S: n ribosomaalinen RNA-sekvenssi on muodostunut standardimolekyylimarkkeriksi uuden lajin kuvaukseen. Vaikka nämä merkkisekvenssit ovat yleistyneet, insdc: n tietokantoihin toimitettavien sekvenssitietojen ja niihin liittyvien metatietojen laatu vaihtelee huomattavasti. NCBI on laajentanut kohdennettua loci-projektiaan tarjotakseen ajantasaisen kuratoidun tiedon lähteen. Kohdennetussa loci-projektissa säilytetään tällä hetkellä lähes 18 000 16S ribosomaalista RNA-referenssisekvenssiä, joista yli 95% on tyyppikannoista. Tyyppikantoja pidetään lajin esikuvina, ja on tärkeää, että tyyppikantaa koskevat tiedot merkitään oikeilla metatiedoilla ja että ne eivät saastu.
- virukset
- FUTURE DIRECTIONS
- rahoitus
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeq-hankkeessa hyödynnetään International Nucleotide Sequence Database Collaboration (INSDC)-tietokantaan toimitettavia tietoja laskennan, manuaalisen kuratoinnin ja yhteistyön yhdistelmällä, jotta saadaan vakaat, ei-tarpeettomat referenssisekvenssit. RefSeq-projekti täydentää näitä referenssisarjoja nykytiedolla, mukaan lukien julkaisut, toiminnalliset ominaisuudet ja informatiivinen nimikkeistö. Tietokanta edustaa tällä hetkellä yli 55 000 eliön sekvenssejä (>4800 virusta, >40 000 prokaryoottia ja >10 000 eukaryoottia; RefSeq-julkaisu 71), jotka vaihtelevat yhdestä tietueesta täydelliseen genomeja. Tässä asiakirjassa esitetään yhteenveto refseq-hankkeen virus -, prokaryoottinen-ja eukaryoottihaarojen nykytilasta, raportoidaan tiedonsaannin parannuksista ja yksityiskohdista pyrkimyksistä laajentaa kokoelman taksonomista edustusta. Korostamme myös erilaisia toiminnallisia kuratointialoitteita, jotka tukevat RefSeq-datan moninaista käyttöä, mukaan lukien taksonominen validointi, genomihuomautus, vertaileva genomiikka ja kliininen testaus. Tiivistämme lähestymistapamme käytettävissä olevan RNA-Seq: n ja muiden tietotyyppien hyödyntämiseen selkärankaisten, kasvien ja muiden lajien manuaalisessa kuratointiprosessissa ja kuvailemme uutta suuntaa prokaryoottisille genomeille ja proteiinin nimen hallinnalle.
johdanto
viimeisten 15 vuoden ajan National Center for Biotechnology Information (NCBI) RefSeq-tietokanta on toiminut olennaisena resurssina genomisessa, geneettisessä ja proteomisessa tutkimuksessa. RefSeq-hanke tarjoaa kuratoituja ja vakaita selityksin varustettuja viitegenomeja, transkriptejä ja proteiineja valikoiduille viruksille, mikrobeille, organelleille ja eukaryoottisille organismeille, minkä ansiosta tutkijat ovat voineet keskittyä parhaisiin edustaviin sekvenssitietoihin verrattuna genbankin tarpeettomiin tietoihin ja yksiselitteisesti viitata tiettyihin geneettisiin sekvensseihin. RefSeq collection tarjoaa nimenomaisesti linkitetty genomi, transkriptio, ja proteiini sekvenssi tietueita, jotka sisältävät julkaisuja, informatiivinen nimikkeistö, ja standardoitu ja laajennettu ominaisuus merkinnät. RefSeq-tietueet on integroitu NCBI: n resursseihin, mukaan lukien nukleotidi -, proteiini-ja BLASTITIETOKANNAT, ja ne voidaan helposti tunnistaa hakusanalla ”RefSeq” ja niiden erillisillä liittymis etuliitteillä, jotka määrittelevät niiden tyypin (Taulukko 1). Kaikkiin RefSeq-tietoihin sovelletaan LAADUNVARMISTUSTARKASTUKSIA (quality assurance, QA), joissa on joitakin erikoistuneita LAADUNVARMISTUSTESTEJÄ, jotka on kehitetty eri taksoneille tai tietotyypeille. NCBI: n henkilökunta tarkastelee esimerkiksi kaikkia viruslisäkkeitä taksonomisesti ennen niiden julkistamista. RefSeq-liittymiset mainitaan laajasti tieteellisissä julkaisuissa ja geneettisissä tietokannoissa, koska ne tarjoavat vakaan ja johdonmukaisen koordinaattijärjestelmän, jota voidaan käyttää vertailukohtana geenikohtaisten tietojen raportoinnissa, kliinisessä vaihtelussa ja lajien välisissä vertailuissa. Nämä viitejaksostandardit ovat yhä tärkeämpiä, koska tarkka raportointi ja toistettavuus ovat elintärkeitä tekijöitä biolääketieteen parhaiden käytäntöjen kannalta (1).
RefSeq accession prefixes
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit |
AP_3 | proteiini | proteiini |
XP_3,5 | proteiini | |
yp_3 | proteiini | proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta |
wp_6 | proteiini | proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäiselle tämän tyyppiselle proteiinille voidaan antaa huomautus useammasta kuin yhdestä prokaryoottisesta genomista |
etuliite . | Molekyylityyppi . | käytä kontekstia . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit |
AP_3 | proteiini | proteiini |
XP_3,5 | proteiini | |
yp_3 | proteiini | proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta |
wp_6 | proteiini | proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäinen tämän tyyppinen proteiini voidaan merkitä useampaan kuin yhteen prokaryoottiseen genomiin |
1täydellinen liittymisnumeromuoto koostuu etuliitteestä, mukaan lukien alaviiva, jota seuraa 6 numeroa, joita seuraa järjestysnumero.
2täydellinen liittymismuoto muodostuu etuliitteestä, jota seuraa REFSEQ-tietueen pohjautuva INSDC-liittymisnumero, jota seuraa RefSeq sequence-versionumero.
3täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 6 tai 9 numeroa, jota seuraa järjestysnumero.
4rekisteriä, joilla on tämä liittymäetiketti, on kuratoinut NCBI: n henkilökunta tai malliorganismitietokanta, tai ne ovat liittymäkokoelmassa, jonka kanssa kuraattorit työskentelevät. Näistä tietueista käytetään nimitystä ”tunnettu” RefSeq-tietokokonaisuus.
5rekorttia, joilla on tämä liittymäetiketti, syntyy joko eukaryoottisen genomihuomautusputken tai pienen eukaryoottisen genomihuomautusputken kautta. Ensimmäisen menetelmän avulla tuotetuista tietueista käytetään nimitystä ”model” RefSeq-tietokokonaisuus.
6täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 9 numeroa ja versionumero. Versionumero on aina ”.1 ’ koska näitä tietueita ei päivitetä. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit |
AP_3 | proteiini | proteiini |
XP_3,5 | proteiini | |
yp_3 | proteiini | proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta |
wp_6 | proteiini | proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäiselle tämän tyyppiselle proteiinille voidaan antaa huomautus useammasta kuin yhdestä prokaryoottisesta genomista |
etuliite . | Molekyylityyppi . | käytä kontekstia . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | proteiinit, jotka on merkitty nm_-transkriptioiden liittymillä tai jotka on merkitty genomimolekyyleihin ilman instantioitua transkriptiota (esim. jotkut mitokondrio -, virus-ja referenssibakteerien genomit |
AP_3 | proteiini | proteiini |
XP_3,5 | proteiini | |
yp_3 | proteiini | proteiinit, joita on merkitty genomimolekyyleihin ilman instantioitua transkriptiotietuetta |
wp_6 | proteiini | proteiinit, jotka eivät ole redundantteja useissa kannoissa ja lajeissa. Yksittäinen tämän tyyppinen proteiini voidaan merkitä useampaan kuin yhteen prokaryoottiseen genomiin |
1täydellinen liittymisnumeromuoto koostuu etuliitteestä, mukaan lukien alaviiva, jota seuraa 6 numeroa, joita seuraa järjestysnumero.
2täydellinen liittymismuoto muodostuu etuliitteestä, jota seuraa REFSEQ-tietueen pohjautuva INSDC-liittymisnumero, jota seuraa RefSeq sequence-versionumero.
3täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 6 tai 9 numeroa, jota seuraa järjestysnumero.
4rekisteriä, joilla on tämä liittymäetiketti, on kuratoinut NCBI: n henkilökunta tai malliorganismitietokanta, tai ne ovat liittymäkokoelmassa, jonka kanssa kuraattorit työskentelevät. Näistä tietueista käytetään nimitystä ”tunnettu” RefSeq-tietokokonaisuus.
5rekorttia, joilla on tämä liittymäetiketti, syntyy joko eukaryoottisen genomihuomautusputken tai pienen eukaryoottisen genomihuomautusputken kautta. Ensimmäisen menetelmän avulla tuotetuista tietueista käytetään nimitystä ”model” RefSeq-tietokokonaisuus.
6täydellinen liittymisnumeromuoto koostuu etuliitteestä, alaviiva mukaan lukien, jota seuraa 9 numeroa ja versionumero. Versionumero on aina ”.1 ’ koska näitä tietueita ei päivitetä. Katso lisätietoja verkkodokumentaatiosta: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
viime vuosina kehittyneet sekvensointitekniikat ovat helpottaneet julkisten tietokantojen koko genomin kokoonpanohakemusten huomattavaa lisääntymistä. Tämän seurauksena RefSeq-hanke on yhtenäisesti laajentanut aineistoon sisältyvien taksonien syvyyttä ja leveyttä pääasiassa parantamalla useita talon sisäisiä merkintäputkistoja. Kaikki taksonit ovat RefSeq-sisällyttämisen piirissä; huomautus on kuitenkin usein rajattu niihin organismeihin, joista on saatavilla korkeatasoinen primaarinen genomikokoelma, jossa on riidatonta organismitietoa. Näin ollen saatamme sulkea pois joitakin tietoluokkia, jotka eivät täytä laatustandardejamme. Poissuljettuja tietokokonaisuuksia ovat metagenomit, kokoonpanot, joiden contig N50-arvo on alhainen tai erityisen suuri määrä asentamattomia telineitä/kontigeja (eli suuri sirpaloituminen), tai genomit, joissa on merkittävää epäsuhtaa tai Indel-vaihtelua verrattuna lajin muihin läheistä sukua oleviin genomeihin (esim.jotkin prokaryootit).
ainutlaatuinen näkökulma RefSeq-aineistossa on yhdistetty lähestymistapa, jossa NCBI: n tieteellinen henkilöstö hyödyntää laskentaa, yhteistyötä ja kuratointia. Suurena bioinformatiikan laitoksena NCBI on investoinut vankkojen prosessivirtojen kehittämiseen, jotta voidaan tuottaa merkintöjä ja suorittaa laadunvarmistustestejä eukaryoottisille ja prokaryoottisille genomeille, transkripteille ja proteiineille. Parannukset viruksen genomien prosessivirtaan ovat käynnissä. RefSeq-ryhmä tekee yhteistyötä lukuisten asiantuntijaryhmien kanssa, mukaan lukien virallisen nimikkeistön viranomaiset (esim. HUGO Gene Nomenclature Committee (hgnc) ja zebrafish Information Network (ZFIN) for human and seebrafish gene names), UniProtKB (protein names) ja miRBase (microRNAs) (2-5). Nämä ja muut yhteistyöt auttavat ylläpitämään ja parantamaan RefSeq-tietojen laatua LAADUNVARMISTUSRAPORTTIEN, geeni-ja sekvenssitietojen sekä toiminnallisten tietojen vaihdon avulla. NCBI: n henkilökunta tarjoaa myös kuratointitukea viruksille, prokaryooteille, eukaryooteille, organelleille, plasmideille ja kohdennetuille projekteille, mukaan lukien Homo sapiensin, Mus musculuksen ja muiden organismien geenien ja sekvenssien kuratointi. RefSeq-kuraattorit parantavat tietokannan laatua tarkastelemalla LAADUNVARMISTUSTESTIEN tuloksia, osallistumalla tiettyjen perimän merkintöjen käsittelyyn, sekvenssianalyysiin, taksonomiseen analyysiin ja toiminnalliseen tarkasteluun. Kuraatio tukee myös genomihuomautusputkistojen parantamista, sillä sisältöasiantuntijat auttavat määrittelemään ohjelmallisia lähestymistapoja sekä tyypillisen että epätyypillisen biologian mallintamiseen. Eukaryooteille, erityisesti nisäkkäille, transkriptiopohjainen kuraatio määrittelee ”parhaat” sekvenssin edustajat (kuten ”tunnetut” Refseqit; taulukon 1 alaviite), joita käytetään ensisijaisena syöttöreagenssina eukaryoottisessa genomihuomautusputkessa (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Syöttöreagenssin laadun paraneminen puolestaan lisää merkittävästi tuloksena olevan genomihuomautuksen laatua ja toistettavuutta. Tämäntyyppisessä manuaalisessa kuratoinnissa on perinteisesti keskitytty ihmiseen ja hiireen niiden ainutlaatuisen biolääketieteellisen merkityksen vuoksi (6). Viime aikoina nämä kuratointiponnistelut ovat kiinnittäneet enemmän huomiota Rattus norvegicukseen, Danio rerioon, Bos Taurukseen ja Gallus gallukseen. Näillä lajeilla on merkitystä ihmisten terveyden ja maatalouden kestävyyden kannalta.
tässä asiakirjassa raportoimme edistymisestämme RefSeq-tietokokonaisuuden laajentamisessa monipuolisempiin organismeihin, kuvaamme tiedonsaannin parannuksia ja annamme esimerkkejä fylogeneettisesti hyödyllisten tietokokonaisuuksien lisääntyneestä keskittymisestä sekä RefSeq-transkriptioiden ja proteiinitietokantojen toiminnallisista merkinnöistä. Ennakoimme nämä ponnistelut ja parannukset RefSeq-aineistossa edistävät edelleen lääketieteellisen translaatiotutkimuksen, maatalouden parannusten, fylogeneettisen tunnistamisen ja evoluutiotutkimusten etenemistä.
REFSEQ-tietokokonaisuuden generointi
RefSeq-sekvenssitietoja tuotetaan eri menetelmillä sekvenssiluokasta ja organismista riippuen. Arkaaiset ja bakteerien genomit (Katso prokaryoottien kohta) merkitään NCBI: n prokaryoottisen genomihuomautusputken avulla (http://www.ncbi.nlm.nih.gov/books/NBK174280/), kun taas pieni määrä vertailubakteerien genomeja tuetaan yhteistyöllä ja manuaalisella kuratoinnilla. RefSeq eukaryoottiset genomit toimitetaan kahden prosessivirran avulla. Suurin osa kasvien, eläinten, hyönteisten ja niveljalkaisten genomeista on eukaryoottisen genomin merkintäputken selittämiä. Tämä putki tuottaa merkintätuloksia, jotka perustuvat saatavilla oleviin transkriptiotietoihin (mukaan lukien RNA-Seq-ja transkriptome shotgun assembly (TSA) – tietoihin) sekä proteiinihomologiaan, ab initio-ennustukseen (suurelta osin silloin, kun transkriptiotietoja ei ole saatavilla) ja saatavilla oleviin tunnettuihin (kuratoituihin) RefSeq-transkriptioihin ja proteiineihin (KS.Taulukko 1). Pipeline-generated annotation (model RefSeqs) voi tai ei voi olla tuki koko eksoniyhdistelmälle yhdestä todistusaineiston linjauksesta, mutta voi olla RNA-Seq tuki eksonipareille. Eukaryoottiset genomit, joihin tämä putki on merkinnyt, ilmoitetaan julkisesti linkkien kanssa, joiden avulla tiedot voidaan ladata FTP: n avulla, tarkastella tai tehdä BLASTIKYSELY merkittyä genomia vastaan tai saada yksityiskohtainen selontekoraportin Yhteenveto (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Putki osa eukaryootit, mukaan lukien sienet, alkueläimet, ja sukkulamatoja liittyy lisäyshuomautus, joka on toimitettu International Nucleotide Sequence Database Collaboration (INSDC), formaatin standardointi, RefSeq kopio toimitetun genomi kokoonpano (katso levät, sienet, sukkulamatoja ja alkueläimet).
NCBI: n henkilökunta toimittaa INSDC: n toimittamasta aineistosta suurimman osan RefSeq organelle-genomihuomautuksesta lisäyksen kautta. Nisäkkäiden mitokondrioiden merkintää täydennetään usein manuaalisella kuratoinnilla. RefSeq-projekti ylläpitää myös refseqgenea (Locus Reference Genomic (lrg) collaboration (7)), bakteerin ja sienen ribosomaalista rRNA locia sekä fungal internal transkribed spacer sequences (ITS) (8). Lisäksi merkittävä määrä ihmisen, hiiren ja muiden transkriptioita ja proteiineja saadaan yhteistyöllä ja manuaalisella kuratoinnilla, joka sisältää sekvenssianalyysin ja kirjallisuuskatsauksen.
NCBI: n prokaryoottiset (katso alla) ja eukaryoottiset merkintäputket ovat pysyneet INSDC: lle toimitettujen genomikokoonpanojen lisääntyvän määrän tahdissa tarjoamalla johdonmukaista merkintää RefSeq-kopioihin valituista korkealaatuisista lähetetyistä genomikokoonpanoista. Tähän mennessä putken kautta on merkitty 245 eukaryoottista genomia, joista 170 selkärankaisten genomia, joista yli 120 lajia on merkitty 20 viime vuoden aikana. Tähän ryhmään kuuluu 52 lintulajia, jotka sisältävät useimpien lintulahkojen (9,10) edustavia lajeja. Myös kädellisille, muille nisäkkäille, kaloille, kasveille ja niveljalkaisille tarkoitettujen RefSeq-merkinnöillä varustettujen kokoonpanojen määrä on kasvanut merkittävästi.
pääsy REFSEQ-TIETOKOKONAISUUTEEN
Refseqin Kotisivu http://www.ncbi.nlm.nih.gov/refseq/ on keskeinen keskus RefSeq-tietokokonaisuuden kaikille osa-alueille. Tämä sivusto tarjoaa linkkejä, jotka ohjaavat käyttäjiä hankkeen yleisen kuvauksen sekä tiedotteita, kasvutilastoja ja tietoa kohdennetummista RefSeq-hankkeista, kuten Prokaryotic genome re-annotation initiative, Consensus Coding Sequence (CCDS) project (11) The RefSeqGene project, ja kohdennetut Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) – hankkeet. Linkit uusimpaan kattavaan FTP-julkaisuun ja yksityiskohtaiset tiedot julkaisun muodosta ja sisällöstä löytyvät Refseqin kotisivun ”ilmoitukset” – osiosta. Myös aiemmat RefSeq-ilmoitukset ovat saatavilla tältä sivulta. Kannustamme vahvasti lataamaan RefSeq-tiedot suoraan NCBI: stä, koska lataukset muista bioinformatiikan ja genomiselaimen resursseista eivät välttämättä sisällä kaikkia saatavilla olevia tietoja, tai ne voivat vain heijastaa refseq-transkriptien linjauksia genomiin NCBI: n tuottamien genomin merkintätulosten sijaan.
RefSeq-sekvenssitietoja voidaan käyttää vuorovaikutteisesti NCBIs-nukleotidi-ja Proteiinitietokannoissa, BLAST-tietokannoissa, NCBI: n ohjelmallisen käyttöliittymän (E-utilities) tai file transfer Protocolin (FTP) kautta. E-apuohjelmat tukevat skriptattua pääsyä RefSeq-tietojen lataamiseen eri muodoissa joko hakusanojen tai liittymisluetteloiden perusteella; laaja dokumentaatio on saatavilla NCBI: n Käsikirjassa (www.ncbi.nlm.nih.gov/books/NBK25501/) ja treenivideot ovat katsottavissa NCBI: n YouTube-kanavalta (https://www.youtube.com/user/NCBINLM). Sekä nukleotidi-että Proteiinitietokannat mahdollistavat kyselytulosten rajoittamisen vain RefSeq-tietueisiin valitsemalla ”RefSeq” suodattimien sivupalkista ”Lähdetietokannan” alta. RefSeq-tietoja voidaan käyttää myös muista NCBI: n tietokannoista, mukaan lukien Assembly, BioProject, geeni ja genomi, seuraamalla nukleotidi -, proteiini-tai FTP-resursseihin annettuja linkkejä tietoa refseq-ryhmän kuratointimuutoksista tai NCBI: n päivityksistä, jotka vaikuttavat RefSeq-tietokantaan, raportoidaan useista lähteistä, kuten RefSeq FTP release notes, periodic published reports, the NCBI Releasings News feed http://www.ncbi.nlm.nih.gov/news/ ja NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Käyttäjät voivat myös tilata refseq-announce-sähköpostilistan saadakseen säännöllisiä päivityksiä projektista ja tiivistelmän jokaisen RefSeq FTP-julkaisun sisällöstä (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
RefSeq-tiedot jaetaan FTP: n kautta kahden sivuston, refseq: n (ftp://ftp.ncbi.nlm.nih.gov/refseq/) ja genomit (ftp://ftp.ncbi.nlm.nih.gov/genomes/). refseq FTP sivusto tarjoaa päivittäisiä päivityksiä kaikki uudet ja päivitetyt RefSeq tietueet, viikoittain päivityksiä joidenkin tietotyypit, ja joka toinen kuukausi kattava RefSeq julkaisu (/refseq/release/). Lisäksi valikoituja eliökohtaisia transkriptioita ja proteiiniaineistoja, mukaan lukien ihminen ja hiiri, päivitetään viikoittain. RefSeqGene-alihakemisto päivittyy päivittäin, ja jokaisen merkintäajon yhteydessä vapautuu perimää. Kattava joka toinen kuukausi tapahtuva RefSeq-julkaisu on järjestetty taksonomisten (esimerkiksi selkärankaisten nisäkkäiden) tai muiden ryhmittymien (esimerkiksi mitokondrioiden) mukaan. Tiedot voidaan ladata myös koko RefSeq-kokoelmasta / refseq / release/ complete / – hakemistosta. RefSeq-julkaisu tarjoaa edun niille, jotka haluavat ylläpitää joko koko kokoelman tai yhden ryhmän määräaikaisia päivityksiä. Se sisältää myös tietueita, joita ei ole saatavilla companion genomes FTP-sivustolta, kuten kokoelman transkriptejä, joita ylläpidetään riippumatta genomikokoonpanosta, eikä niitä saa tällä hetkellä merkitä siihen. Julkaisun mukana toimitetaan merkittävä dokumentaatio asennetuista tiedostoista (/refseq/release/ release-catalog/), mukaan lukien MD5-tarkistussummat, luettelo kaikista asennetuista tiedostoista sekä julkaisutiedot ja ilmoitukset (/refseq/release/release-notes/).
RefSeq-tietoja voi ladata myös genomesin FTP-sivustolta. Elokuussa 2014 NCBI ilmoitti tämän FTP-sivuston suuresta uudelleenjärjestelystä, joka tarjoaa nyt kokoonpano-ja organismipohjaisen pääsyn sekä GenBank-että RefSeq-genomeihin (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Tämä hakemisto on jaettu edelleen alikansioihin, jotka perustuvat RefSeq-julkaisussa käytettäviin samoihin ryhmiin, joista jokainen tarjoaa lisäjakoja lajeittain. Genomes FTP-sivusto tarjoaa tiedostoja kaikista RefSeq genome-kokoonpanoista, jotka on ilmoitettu NCBI: n Assembly resourcessa (www.ncbi.nlm.nih.gov/assembly/). genomes – sivuston etuna on, että tietoja voidaan käyttää kokoonpano-tai eliökohtaisesti. Toimitettuihin tietoihin kuuluvat genomin ja tuotteen (transkriptio/proteiini) sekvenssi, merkinnät, kokoonpanoraportit ja tilastot sekä MD5-tarkistussummat; nämä tiedot päivitetään, kun genomin kokoonpano ja/tai merkintöjen päivitetään. Tämä alue ei sisällä RefSeq-sekvenssejä, jotka eivät kuulu genomikokoonpanon piiriin, tai tuotteita, joita ei ole merkitty genomiin.
GROWTH AND STATISTICS
RefSeq FTP-julkaisu 71 (heinäkuu 2015) sisältää yli 77 miljoonaa sekvenssitietuetta yli 55 000 eliöltä. Taulukossa 2 on yhteenveto RefSeq-tietokokonaisuuden kasvusta viimeisen vuoden aikana kunkin RefSeq release FTP-hakemistoalueen eliöiden ja sekvenssitietueiden lukumäärän osalta. Bakteerien genomit ja proteiinit muodostavat pääosan RefSeq-aineistosta (56% kaikista liittymisistä ja 76% >52 miljoonaa proteiinin liittymistä). Selkärangattomien, kasvien ja eukaryoottisten organismien määrä kasvaa merkittävästi, mikä on yhdenmukaista genomin sekvensointihankkeiden määrän ja läpimenon lisääntymisen kanssa. Merkittävä tekijä RefSeq-datan korkean kasvuvauhdin jatkumiselle ovat parannukset genomiputkistoissa, jotka tuottavat annotoituja RefSeq-genomeja. Erityisesti tähän sisältyy lisääntynyt kapasiteetti NCBI: n prokaryoottisessa genomihuomautusputkessa, eukaryoottisista Genomihuomautuksista RefSeq-genomeihin lisättävän prosessivirran kehittäminen uudelleen ja RNA-Seq-todistusaineiston sisällyttäminen NCBI: n eukaryoottiseen genomihuomautusputkeen ja sen vaikutus mallien RefSeqs tuottamiseen (Xm_, XR_ ja XP_ liittymiset, Taulukko 1).
kattavassa RefSeq-julkaisussa esitettyjen eliöiden, proteiinien ja transkriptien vuosittainen kasvu FTP-release-hakemistossa
Release Directory . | organismit . | % muutos . | selostuksia . | % muutos . | proteiinit . | % muutos . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % muutos . | selostuksia . | % muutos . | proteiinit . | % muutos . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/ (esim.acc_taxid_growth.txt ja siihen liittyvät tiedostot). Vuotuinen prosenttimuutos perustuu RefSeq release 71: N (heinäkuu 2015) ja RefSeq release 66: n (heinäkuu 2014) tietojen vertailuun.
Release Directory . | organismit . | % muutos . | selostuksia . | % muutos . | proteiinit . | % muutos . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % muutos . | selostuksia . | % muutos . | proteiinit . | % muutos . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/ (esim.acc_taxid_growth.txt ja siihen liittyvät tiedostot). Vuotuinen prosenttimuutos perustuu RefSeq release 71: N (heinäkuu 2015) ja RefSeq release 66: n (heinäkuu 2014) tietojen vertailuun.
plasmidiproteiinitietojen määrän dramaattinen väheneminen ja siten myös totaaliliittymien määrän väheneminen kuvastaa refseq-bakteerin genomin uudelleenliittymishankkeen (http://www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/ reannotation/) loppuunsaattamista ja uuden tietomallin käyttöönottoa prokaryooteille, mukaan lukien niiden plasmidit. Tässä uudessa tietomallissa yksittäinen refseq non-redundant protein accession-merkintä voidaan merkitä useampaan kuin yhteen genomisekvenssitietueeseen, kun näiden genomiproteiinia koodaavien alueiden translaatio johtaa identtiseen proteiiniin (KS. http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Redundanssi kaikissa bakteeriproteiineissa myös väheni merkittävästi; se ei kuitenkaan näy tässä, koska aineistoon sisältyvien bakteerien genomien määrä on jatkuvasti kasvanut merkittävästi. Nämä muutokset johtivat myös arkaaliproteiinitietojen määrän yleiseen laskuun.
selkärankaiset
valikoitu selkärankaisten ryhmä, johon kuuluvat Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus ja Danio rerio, ovat transkriptiopohjaisen ja kirjallisuuteen perustuvan manuaalisen kuratointityömme pääpaino. Kuraattorit työskentelevät yleensä sellaisten geenien luetteloista, joiden datakonfliktit on tunnistettu quality assurance (QA) – testeissä, joista osa on kuvattu aiemmin (12). He noudattavat yksityiskohtaisia ohjeita analysoidessaan jokaista geeniä varmistaakseen kuratoidun aineiston yhdenmukaisuuden eri henkilöiden välillä. Tämä analyysi sisältää perusteellisen sekvenssin arvioinnin ja kirjallisuuskatsauksen referenssitranskriptien, proteiinien, pseudogenes-ja RefSeqGene-tietueiden luomiseksi. RefSeq-kuraattorit tuottavat transkriptiovariantteja, selvittävät sekvenssivirheitä, poistavat epätarkkoja tietoja, päivittävät tietueita edustamaan lokuksen biologiaa oikein ja lisäävät arvokasta toiminnallista tietoa joihinkin RefSeq-tietueisiin, kuten parannettuihin proteiininimiin, tiivistelmään geenituotteen toiminnasta, geenin toiminnallisista ominaisuuksista ja/tai asiaankuuluviin julkaisuihin. Refseq-ryhmän manuaalinen kuratointi ja kirjallisuuskatsaus voivat johtaa sellaisten ainutlaatuisten varianttien ja isoformien esittämiseen, joita ei ennustettaisi pelkästään laskennallisen analyysin perusteella. Esimerkiksi, kirjallisuuskatsaus ihmisen tuumorisuppressorigeeni, PTEN (fosfataasi ja tensin homolog, GeneID: 5728) paljasti olemassaolon enää proteiini isoformi johtuvat käytöstä vaihtoehtoisen kehyksessä ylävirtaan CUG aloituskoodoni löytyy keskellä palindrominen sekvenssi ylävirtaan kanoninen mRNA käännös alku kodoni (13). Vahvat kokeelliset tiedot osoittivat, että tämä mitokondriospesifinen isoformi alkaa leusiinilla eikä metioniinilla (14). Eukaryoottien refseq-tietomalli tarjoaa yhden transkription, joka on nimenomaisesti liitetty yhteen proteiiniin. Siksi kaksi identtistä transkriptiotietuetta toimitettiin heijastamaan käännös vaihtoehtoisista initiaatiokodoneista; NP_000305.3 edustaa 403 aminohappoproteiinia, joka käyttää kanonista metioniinin start-kodonia, kun taas NP_001291646.2 edustaa mitokondrio-lokalisoitua 576 aminohappoproteiinia, joka aloittaa leusiinilla. Kuratointiprosessilla on siis kaksitahoinen tarkoitus tarjota tarkkoja vertailusekvenssejä, jotka helpottavat tarkkaa ja toistettavissa olevaa genomin merkintää, ja tuottaa tietueita, jotka sisältävät asiaankuuluvaa biologista tietoa. Tässä osiossa käsitellään viimeaikaisia päivityksiä, manuaaliseen kuratointiprosessiimme tekemiämme parannuksia ja esimerkkejä kohdennetuista kuratointiprojekteista.
RefSeqGene-projekti
RefSeqGene-alahanke määrittelee ihmisen genomisekvenssit, joita käytetään vertailustandardeina hyvin luonnehdituille geeneille, erityisesti kliinisen genetiikan yhteisön käyttöön. Nämä sekvenssit toimivat vakaana perustana patogeenisten varianttien ilmoittamiselle, eksonien ja intronien numerointikäytäntöjen laatimiselle ja muiden varianttien koordinaattien määrittämiselle. Jokainen RefSeqGene-tietue keskittyy geenispesifiseen genomialueeseen, ja tyypillisesti siihen liitetään alijoukko RefSeq-transkriptejä ja-proteiineja, jotka toimialueen Asiantuntijat ovat valinneet. Nämä valinnat määrittävät eksonin piirteitä. Kanonisen RefSeq-transkription/proteiinin sekä muiden tunnettujen Refseqien vanhempien versioiden linjaukset ovat mukana. Nämä tietueet sisältävät tyypillisesti 5 kilobaasia (kb) sekvenssiä focus-geenin yläpuolelta ja 2 kb sekvenssiä alavirtaan tukemaan mahdollisten säätelypaikkojen tai poistumien esittämistä geeniominaisuuden ulkopuolelle. RefSeqGene-tietueeseen voi sisältyä merkintöjä muista geeneistä, jotka sijaitsevat sen rajojen sisällä. RefSeqGene-tietueet tarkistetaan aluksi lokuskohtaisten tietokantojen ja NCBI: n henkilökunnan toimesta. RefSeqGene on lrg-yhteistyön (7) jäsen, joka tarjoaa lisätarkastelun sekvenssitiedoista ennen lrg-liittymisen lisäämistä. Tuore tutkimuskohde laajensi RefSeqGene-tietueiden määrää niin, että ne edustavat kaikkia geenejä, joille on toimitettu vähintään kaksi kliinistä testiä NIH Genetic Testing Registriin (GTR). Tällä hetkellä on 5596 Refseqgenen kirjaa, joista 633: lla on lrg-liittyminen. RefSeqGene-tietueita voidaan hakea etsimällä Nukleotiditietokannasta ”refseqgene” – ohjelmalla, niiden lrg-liittymillä, selaamalla RefSeqGene-verkkosivustoa (www.ncbi.nlm.nih.gov/refseq/rsg/) tai FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
RNA-Seq: n ja muiden tietotyyppien sisällyttäminen transkriptiopohjaiseen kuraatioon
RefSeq-kuratointiprojektin päätavoite on edustaa korkealaatuisia ja täyspitkiä transkriptio-ja proteiinivertailusekvenssejä. Kuratointikriteerimme perustuvat ensisijaisesti perinteisiin transkriptioihin (mRNA ja ESTs) ja proteiinilähetyksiin sekä julkaistuun näyttöön. Selkärankaisten transkriptome-projektit ovat kuitenkin monimutkaistuneet entisestään, kun suurin osa uusista transkriptiotiedoista syntyy tällä hetkellä lyhyen lukusekvenssitekniikalla. Genomin laajuiset tutkimukset, joissa tarkastellaan promoottoreihin liittyvien epigeneettisten merkkien maailmanlaajuisia malleja, antavat myös näyttöä aktiivisista promoottoreista ja/tai aktiivisesta transkriptiosta. RefSeq group on mukauttanut kuratointikäytäntöjä sisällyttääkseen nämä uudet tietotyypit parantaakseen manuaalista merkintäämme, erityisesti tapauksissa, joissa geeni tai muunnos ei ole runsaasti perinteistä transkriptiotukea. Nämä RNA-Seq-ja epigenomiset tutkimukset ovat tuottaneet valtavia aineistoja, jotka haastavat geenien merkintäryhmiä esimerkiksi mahdollisten väärien positiivisten ja pitkän kantaman eksoniyhdistelmien tuen puutteen vuoksi (15). RefSeq kuraattorit lieventää vääriä positiivisia sisällyttämällä valikoivasti vain laadukkaita tietokokonaisuuksia harkittavaksi meidän genomin merkintäputkeen ja manuaaliseen merkintäprosessiin. RefSeq-kuraattorit visualisoivat transkriptiot, muunnostiedot ja suodatetut RNA-Seq-tiedot räätälöidyissä näytöissä sisäisessä kohdistustyökalussa, joka on sisällytetty NCBI Genome Workbench-alustaan (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation of human genes utilizes analysed RNA-Seq reades from the Illumina BodyMap 2 (BioProject: PRJEB2445) and Human Protein Atlas projects (BioProject: PRJEB4337) (16). Lisäksi kuraattorit käyttävät promoottoreihin liittyviä histonin modifiointimerkkejä, kuten nih Roadmap Epigenomic Mapping Consortiumin H3k4me3 (REMC; (17) ja ENCODE (Encyclopedia of DNA Elements) – hanke (18) aktiivisen promoottorin olemassaolon todentamiseksi. RefSeq-kuraattorit arvioivat myös polyA-seq-tietoja vahvistaakseen 3′: n täydellisyyden transkripteissä, joista puuttuu polyA-pyrstö (19). Lisätukena käytetään joskus muita tietotyyppejä, kuten PhyloCSF (20), CpGIslands, Toistomasker (21) ja Cap analysis of gene expression (CAGE) data (22).
Pitkät koodaamattomat rnat (lncrnas)
RefSeq-ryhmä laajentaa edelleen merkittävästi koodaamattomien rakenne-ja mikro – Rnojen, litteroitujen pseudogeenien ja suurelta osin luokittelemattomien lncrnojen edustusta. Tämä geeniluokka määritellään yleensä transkripteiksi >200 nt pituudeltaan, joilta puuttuu vahva proteiinikoodauspotentiaali (23). lncRNA RefSeq-tietueet syntyvät kuratoimalla ja eukaryoottisen genomihuomautusputken kautta lncRNA-geeneille. NCBI ylläpitää tällä hetkellä yli 540 000 eukaryotic Lncrna RefSeq kirjaa, joista yli 6700 on kuratoitu ja vain muutama sata on toiminnallisesti luonnehdittu. Näistä monet ovat sekaantuneet ihmisten sairauksiin, kuten BACE1-sillä voi olla merkitystä Alzheimerin taudin patofysiologiassa, ja HOTAIRIIN, joka on yhdistetty useisiin syöpiin (24,25). Suurimmalla osalla lncrnoista on tuntemattomia toimintoja, ja pitkien avoimien lukukehysten puuttuminen on haaste transkriptin täydellisyyden vahvistamisen kannalta. Lisäksi, lncrna toimitukset INSDC perustuvat suurelta osin TSAs lyhyitä lukea aineistoja, jotka voivat sisältää artifactual eksoniyhdistelmiä. RefSeq-kuraattorit edustavat lncrna-geenejä konservatiivisesti ja luovat vain manuaalisesti Refseq-geenejä (Nr_-liittymisen etuliitteellä) korkealaatuisille transkripteille, joiden eksonirakenteesta on jonkin verran varmuutta. Parhaassa tapauksessa transkriptiotukeen pitäisi liittää vähintään kolme eksonia, mutta kahden eksonin ja intronittomien transkriptien voidaan esittää, jos niitä tukevat promoottoreihin liittyvät epigenomiikka, poly(a)-todisteet, cdnas-lisätiedot ja/tai RNA-Seq-tiedot. RefSeq lncRNA-tietueita ei-koodaavista geeneistä voidaan hakea NCBI: n Nukleotiditietokannasta hakusanalla ’biomol ncrna lncrna’ ja valitsemalla RefSeq-suodatin vasemmasta sarakkeesta.
funktionaalinen huomautus
kuratoitujen eukaryoottisten RefSeq-transkriptiotietojen ainutlaatuinen anti on se, että ne integroivat funktionaalisen informaation referenssisarjaan. RefSeq: n kuraattori lisää geenien tiivistelmät, nimikkeistön, transkription variantin tekstin, geeni-ja sekvenssiominaisuudet sekä toiminnalliset ominaisuudet, jotka ovat käytettävissä RefSeq: n tietueessa ja/tai Geeniresurssin kautta (http://www.ncbi.nlm.nih.gov/gene). Viimeisen vuoden aikana Refseqin henkilökunta on toteuttanut useita syvällisiä merkintähankkeita, joista osa kuvataan lyhyesti seuraavissa kohdissa, lisätäkseen toiminnallista tietoa tiettyihin geenijoukkoihin, joissa laskentatyökalut eivät pysty edustamaan tarkasti biologista tietoa. Näihin hankkeisiin kuuluu mikrobilääkkeiden peptidien, endogeenisten retrovirusten, replikaatiosta riippuvien histonien, säätelevien urfien ja antitsyymien merkintä.
Mikrobilääkepeptidit (Ampeerit)
Ampeerit olivat tuore curation focus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Amp: t ovat luonnossa esiintyviä peptidejä, joita esiintyy monenlaisissa lajeissa ja jotka ovat osallistuneet moniin immuunirooleihin, mukaan lukien bakterisidiset, antiviraaliset, sienilääkkeet ja jopa kasvainten vastaiset toimet. Luettelo yli 130 ihmisen geenit koodaavat yksi tai useampi kokeellisesti todistettu amp koottiin useista julkisesti saatavilla AMP aineistoja ja louhitaan myös julkaisuista. Useimpia näistä ampeeria ei ollut aiemmin tunnistettu RefSeq-tietokannassa, eikä yksikään AMP-tietokannoista yhdistänyt peptidejä koodausgeeniinsä. RefSeq-kuraattorit lisäsivät manuaalisesti RefSeq-tietueet kunkin AMP-koodaavan ihmisen geenin osalta varmistaakseen, että funktionaalinen peptidi merkittiin muistiin, sisällyttääkseen julkaisun, jossa kuvataan peptidin antimikrobista aktiivisuutta, lisätäkseen lyhyen yhteenvedon koodatun AMP: n antimikrobisesta aktiivisuudesta ja tallentaakseen uuden RefSeq-attribuutin ”proteiinilla on antimikrobista aktiivisuutta”, joka sisältyy RefSeq-attribuutin jäsenneltyyn kommenttiin (esim.NM_001124.2 adm: lle; GeneID: 133). Päästäksesi kaikkiin kuratoituihin ihmisen transkriptioihin tai proteiinivahvistimien tietueisiin, etsi nukleotidi-tai proteiinitietokannasta käyttäen ”proteiinilla on antimikrobista vaikutusta”. Tällä hetkellä tämä haku löytää 191 RefSeq-tietuetta, mukaan lukien splice-muunnokset ja proteiini-isoformit.
endogeeniset retrovirukset (Ervs)
endogeeniset retrovirukset (ERVs) ovat genomisia lokuksia, jotka ovat peräisin eksogeenisen retroviruksen esiasteesta isäntägenomiin. ERV loci ovat yleensä soveltamisalan ulkopuolella RefSeq; kuitenkin, me kirjata täyspitkä ERV proteiini koodaus lokukset että kartta yhteen genomiseen paikkaan, jos ne ovat kehittyneet palvelemaan isäntäfunktio, liittyvät tunnettu tauti, ja / tai jos ne on määritetty nimikkeistön virallisen nimikkeistön komitea. Noin 8% ihmisen genomista on retroviraalista alkuperää (27); Kuitenkin johtuen niiden muinaisesta alkuperästä useimmat ihmisen ERV lokit ovat kertyneet hölynpölyä mutaatioita ja voi enää koodata proteiinia. Istukan kehitykseen osallistuvat syncytiniproteiinit (28) ovat tästä tunnettu poikkeus. Ihmisen syncytin-1-ja syncytin-2-proteiineja koodaavat ervw-1 (NM_001130925.1, NM_014590.3) ja ERVFRD-1 (NM_207582.2) – geenit. Tähän mennessä olemme luoneet 67 Refseqiä ERV locille, joka sisältää eri nisäkkäiden ERV-geenejä edustavia tietueita. Näitä tietueita varten luotiin uusi RefSeq-attribuuttiluokka ”endogeeninen retrovirus”, joka esiintyy refseq-tietuetta koskevassa jäsennellyssä kommentissa. Nämä tiedot voidaan hakea Nukleotiditietokannasta etsimällä endogeenista retrovirusta.
replikaatiosta riippuvaiset histonit
solunjakautumisen aikana tarvitaan nopea histonin mRNAs-synteesi, jotta voidaan tuottaa suuria määriä histoniproteiineja. Tämän prosessin kannalta ratkaisevia ovat replikaatiosta riippuvaiset histonigeenit, jotka reguloituvat solusyklin G1/s-vaiheen aikana (29). Erityinen RefSeq-projekti toteutettiin tavoitteena kuratoida kaikki replikaatiosta riippuvaiset histoniproteiinia koodaavat geenit ihmisellä ja hiirellä. Näillä geeneillä on kanoninen 3 ’ Histoni-alkuainesarja (hde) genomisessa sekvenssissä, ja tuloksena olevilla kypsillä mrnoilla ei tyypillisesti ole Poly(a) – häntää, vaan ne päättyvät pian RNA: n varren ja silmukan rakenteen jälkeen (30). Hde-elementti löytyy prekursorisesta transkriptiosta, mutta sitä ei sisällytetä RefSeq: n edustamaan jalostettuun transkriptioon. Säilyneen 16 nukleotidin varren ja silmukan rakennesarjan sijainti ilmoitetaan RefSeq-tietueessa ominaishuomautuksena ”stem-loop”. Esimerkki voidaan nähdä REFSEQ-merkinnässä nm_003539.3 HIST1H4D: lle (GeneID: 8360). Tähän mennessä on kuratoitu 127 ihmisen ja hiiren replikaatiosta riippuvaa histone RefSeq-tietuetta ja lisätty RefSeq-attribuutti, jolla nämä tietueet voidaan hakea Nukleotiditietokannasta hakusanalla ”replikaatiosta riippuva Histoni”.
Regulatory upstream open reading frame (uofs)
translation of an upstream open reading frame (uORF) voi vaikuttaa negatiivisesti translation of the primary protein-coding open reading frame (porf) (31). Tämä vaikutus ei aina täysin hiljennä pORF-translaatiota ja voi olla riippuvainen solutyypistä, kehitystilasta tai solutilasta. Vaikka uurfs voidaan ennustaa transkription kuuden kuvan käännöksestä, tämän elementin sääntelyvaikutus on määritettävä kokeellisen validoinnin avulla. RefSeq-kuraattorit tarkastelivat kirjallisuutta löytääkseen transkriptejä, joilla oli kokeellista näyttöä sääntelevistä urfs: istä, ja päivittivät vastaavat RefSeq transkriptiot lisätäkseen misc_feature: n, joka ilmaisee näiden urfs: n sijainnin. Esimerkki on refseq-merkintä NM_000392.4 abcc2: lle (GeneID: 1244). Uusi RefSeq-attribuuttiluokka ”regulatory uof” luotiin, ja se esiintyy jäsennellyssä kommentissa näistä RefSeq-tietueista. Sekä merkinnällä varustettu ominaisuus että attribuutti viittaavat PubMed ID: n julkaisuun. Tähän mennessä 260 tietuetta on liitetty tähän attribuuttiin, ja nämä tietueet voidaan hakea Nukleotiditietokannasta etsimällä ”regulatory uof”
Antizyme-geenit
yksi RefSeq-projektin tavoitteista on edustaa geenejä, joilla on poikkeuksellinen biologia ja jotka eivät noudata proteiinisynteesin tavanomaisia dekoodaussääntöjä. Ornitiinidekarboksylaasin antitsymegeeni on tällainen esimerkki, jossa esiintyy ohjelmoitu + 1 ribosomaalinen kehyksensiirtomekanismi, jota ei voida ennustaa tavanomaisilla laskennallisilla työkaluilla. Joukko selkärankaisten antizyme transkripti ja proteiini kirjaa äskettäin aiheena manuaalinen merkintä pyrkimys luoda standardeja parantaa merkintää näiden geenituotteiden eukaryotic genome annotation pipeline (32). RefSeq-tietueisiin tehtiin manuaalisesti merkintä split CDS-ominaisuudella ribosomaalisen poikkeaman heijastamiseksi, ja niihin sisältyi ”ribosomaalinen lipsahdus” – attribuutti julkaistuine todisteineen, erilaisia sekalaisia ominaisuushuomautuksia (kuten kehyksensiirtokohteen sijainti) ja lyhyt yhteenveto geenin toiminnasta ja uusista ominaisuuksista (esim.NM_139081.2). Nämä tietueet voidaan hakea joko nukleotidi-tai Proteiinitietokannasta hakukyselyllä: selkärankaiset refseq ribosomal slipage antizyme. Tällä haulla löydetään tällä hetkellä 242 RefSeq-tietuetta (NM tai NP), jotka sisältävät transkriptiovariantteja ja proteiini-isoformeja.
selkärangattomat
selkärangattomat lajit edustavat valtaosaa jäljellä olevista metatsoaaneista (33); kuitenkin vain suhteellisen pientä määrää edustavat sekvensoidut genomit. Tämä siitä huolimatta, että monilla lajeilla on kriittinen biolääketieteellinen merkitys, kuten malarian vektori Anopheles gambiae ja skistosomiaasin vektori Biomfalaria glabrata (34,35). Muilla selkärangattomilla, kuten Apis mellifera, Bombyx mori ja Crassostrea gigas, on merkittävää kaupallista arvoa (36-38). RefSeq-ryhmä on pyrkinyt lisäämään aineistossa edustettavien selkärangattomien genomien määrää ja laajuutta lisäämällä merkintöjä eukaryoottisen genomihuomautusputken kautta tai lisäämällä merkintöjä INSDC: n toimittamista tiedoista näiden genomien RefSeq-kopioon. Molempien prosessivirtojen osalta olemme riippuvaisia korkealaatuisten genomien julkisesta saatavuudesta INSDC-tietokannoissa ja NCBI: n Kokoonpanotietokannassa (www.ncbi.nlm.nih.gov/assembly/). tähän mennessä NCBI on antanut huomautuksen 46 selkärangattoman genomista, mukaan lukien edustavat hyönteislajit, hämähäkkieläimet, nilviäiset ja basaaliskordaatit. Odotamme merkittävää kasvua hyönteisten ja muiden selkärangattomien genomien määrässä genomialoitteiden kuten i5k (39), 1kite (1k Insect Transkriptome Evolution, http://www.1kite.org/) ja Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40) seurauksena.
kasvit
RefSeq jatkaa aineiston edustamien kasvilajien monimuotoisuuden laajentamista. RefSeq genomes-aineistoon on tähän mennessä sisällytetty 61 kasvilajia (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ plant/), josta 33 lajia merkittiin eukaryoottisen genomin merkintäputken kautta; loput ovat RefSeq-kopioita INSDC: lle toimitetuista merkinnöistä. Tulevaisuudessa enemmän refseq-sisällyttämiseen valittuja kasvigenomeja käsitellään eukaryote-merkintäputkessa sen sijaan, että lisättäisiin insdc: n toimittamasta merkinnästä. Tämä on refseq-kasvigenomien käytäntöjen muutos ja johtaa refseq-tietokokonaisuuden sisältämien kasvien merkintätietojen parempaan yhdenmukaisuuteen. Suurin osa kasvilajeille saatavilla olevista RefSeq-transkripteistä ja-proteiineista on ”mallitietueita” (xm_, XP_ ja Xr_ liittymiä; Taulukko 1), ja pienempi ”tunnettujen” tietueiden osajoukko (NM_, NR_, NP_), joita ylläpidetään annotaatioprosessista riippumatta automaattisen käsittelyn ja manuaalisen tarkastelun yhdistelmällä. Zea Maysin ja Solanum lycopersicumin kasvien transkriptio-ja proteiinitietojen manuaalinen kuratointi on tällä hetkellä saatavilla. Nykyinen kuraatio painopiste edellyttää laaja sekvenssi tarkastelu ja on suunnattu ratkaisemaan QA huolenaiheita nykyisessä joukko transkriptien. Virheresoluutio keskittyy tunnistamaan ja poistamaan kimeeriset transkriptit, tarpeettomat transkriptit ja geenit ja parantamaan edustetun sekvenssin laatua arvioimalla Indel-ja yhteensopimattomuuksia RefSeq-transkriptin, genomisen sekvenssin ja ortologisen datan välillä. Kasveille pyrimme tarjoamaan kuratoidun transkription ja proteiinin aineiston, joka vastaa genomin sekvensointiin ja kokoamiseen valittua lajiketta. Selkärankaisten tiedoissa käytettävää kuraatioprotokollaa käytetään myös kasveille. RefSeq-transkriptiotiedot voidaan päivittää siten, että ne perustuvat eri INSDC-lähdesekvenssiin, tai ne voidaan koota useammasta kuin yhdestä INSDC-sekvenssitiedotteesta, jotta transkriptio saadaan suositellusta lajikkeesta. Jos INSDC: n transkriptiotietoja ei ole saatavilla genomisesta lajista, kootusta genomisarjasta voidaan luoda RefSeq-transkripti, joka perustuu transkriptioiden tai proteiinilähetysten, RNA-Seq: n ja/tai julkaistujen tietojen yhdistelmään. Toinen painopiste on lisätä tuettujen tunnettujen proteiinia koodaavien transkriptien ja proteiinien määrää, koska tämä tarjoaa kuratoidun reagenssin, jota voidaan käyttää muiden kasvien genomien kirjaamisessa. Lopuksi, teemme enemmän RefSeqs edustavat liitos vaihtoehtoja, kun on riittävästi näyttöä. Nämä toimet parantavat merkittävästi laitoksen RefSeq-aineiston laatua ja auttavat parantamaan tulevia genomihuomautuksia. Nykyisin putkilinjan antamiin kasvien genomeihin voi tutustua NCBI: n eukaryotic genome annotation pipeline-verkkosivustolla http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/, jossa on linkit yksityiskohtaiseen merkintäraporttiin ja muihin resursseihin, kuten species BLAST ja FTP.
levät, sienet, Sukkulamadot ja alkueläimet
NCBI: n pieni eukaryoottinen genomiputki on uusi automatisoitu putki, joka on suunniteltu RefSeq-tietueiden tuottamista varten INSDC-tietueiden suoran lisäyksen tuloksena. Näin syntyvät RefSeq-tietueet ovat kopioita Genbankin tiedoista, joissa on joitakin formaattimuutoksia RefSeq-vaatimusten noudattamiseksi. Merkittävin ero alkuperäisen INSDC-levyn ja RefSeq-levyn välillä on RefSeq-transkriptiotuotteen lisääminen. Vaikka pientä eukaryoottista genomiputkea ei ole suunniteltu tuottamaan de novo-genomihuomautusta, se ammentaa useista NCBI: n eukaryoottisten genomihuomautusten putkimoduuleista ja niiden koodista (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
”Pienet eukaryootit” – nimitys viittaa putken ensisijaiseen käyttötarkoitukseen tuottaa RefSeq-genomeja suhteellisen pienemmille eukaryoottisille genomeille (verrattuna kasvien ja selkärankaisten genomeihin), kuten levien, alkueläinten, sienten, sukkulamatojen ja joidenkin niveljalkaisten genomeille. Tätä putkea pitkin jalostetaan kuitenkin myös joitakin suuria kasvigenomeja. Tämä putki käsittelee korkealaatuisia kokoonpanoja, jotka koostuvat kromosomeista ja / tai telineosista ja niiden osista. Ne kokoonpanot, joissa on korkea kontig ja teline N50, korkealaatuinen sekvenssi ja kohtuullisen hyvä INSDC: n toimittama huomautus, priorisoidaan. Tämä putki, joka korvaa historiallisen prosessivirran, joka vaati enemmän manuaalista tukea, on vasta äskettäin saavuttanut julkisen tuotantovaiheen, ja se tuottaa jo lisääntyvää määrää ”pieniä” eukaryoottisia genomeja, jotka ovat edustettuina RefSeq: ssa. Putkiston läpimenon optimointi ja automaation lisääminen sekä kuraattorien käsittelytehtävien minimointi on käynnissä. Pidemmän aikavälin suunnitelmiin kuuluu proteiinin nimenhallintajärjestelmän toteuttaminen INSDC: n toimittamien nimien tarjoamiseksi, korjaamiseksi tai parantamiseksi ajan mittaan. Monia pienen eukaryotes-putken piirissä olevia genomeja ei voida tällä hetkellä käsitellä (suuren) eukaryoottisen genomihuomautusputken avulla, koska ne ovat taksonomisesti monimuotoisia ja koska de novo-merkintäputken kouluttamiseen tarvittavat transkriptiotiedot ovat rajallisesti saatavilla.
Sienimorfologia
Sienimorfologia on hyvin monimuotoista ja vaihtelee monimutkaisista monisoluisista rakenteista hyvin yksinkertaisiin yksittäissoluihin. Yksi laji voi tuottaa erilaisia morfologisia rakenteita ja itiötyyppejä. Toisaalta monet lajit tuottavat samanlaisia morfologioita (morpheja), mutta ovat itse asiassa geneettisesti hyvin etäisiä. Viime aikoihin asti yhdestä lajista on voitu pätevästi kuvata useampi kuin yksi binominimi, joka perustuu suvullisiin tai suvuttomiin muotoihin. Monesti tietylle lajille on kuvattu ja kirjattu vain yksi morphi, vaikka sille läheistä sukua olevilla lajeilla voi olla useita kuvattuja ja tallennettuja morpheja. Tämän vuoksi sieniyhteisössä on sovellettu sekvenssivertailuja lajien erottamiseksi toisistaan, lajien seuraamiseksi niiden edetessä monimutkaisten elinkaarien läpi ja kryptisten lajien tunnistamiseksi. Osana taksonomisen uudelleenarvioinnin dynaamista prosessia monet sienilajikorjaukset eivät aina ole ajan tasalla GenBank-sekvenssitiedoissa.
ollakseen luotettavampi resurssi DNA-pohjaisen tunnistamisen kannalta, tyyppinäytteistä (jotka toimivat viitteinä lajeille) johdettuihin viitesarjoihin on merkittävä oikea ja ajanmukaisin lajinimi. Sienet RefSeq kohdennettuja loci tietokannat tarjoavat tämän arvokkaan resurssin. Esimerkiksi PRJNA177353 on Bioprojekti, joka keskittyy erityisesti sisäisiin transkriboituihin spacer (ITS) – alueisiin ydinribosomaalisessa cistronissa, jota on käytetty monien vuosien ajan fylogeneettisenä merkkiaineena ja joka on äskettäin hyväksytty sienten muodolliseksi viivakoodisarjaksi (41). Its RefSeq-tietokanta aloitti yhteistyön Index Fungorumin, Mycobankin ja Uniten sekä suuren taksonomisten asiantuntijoiden kanssa. Sekvenssit valittiin, enimmäkseen tyyppiyksilöistä, joilla oli päteviä kuvauksia, ja sitten sekvensseihin liitettiin nykyiset oikeat lajinimet, joiden tarkoituksena oli edustaa suurinta osaa hyväksytyistä sienilajeista (8). Tämän tutkimuksen tuloksia on käytetty ja siteerattu eri julkaisuissa (42-46), ja ne ovat auttaneet lisäponnisteluja viitesarjojen osajoukkojen, esimerkiksi lääketieteellisesti merkittävien lajien, validoinnissa (47).
tavoitteena on, jatkuvalla kuratoinnilla, lisätä sekvenssejä vasta kuvatuista lahkoista ja laajentaa edustus koskemaan useimpia hyväksyttyjä sukuja keskittyen lääketieteellisesti tärkeisiin sieniin. Prosessiin kuuluu myös korjausten tekeminen, sekvenssin korvaaminen todennetusta aineistosta tyyppiaineiston sekvenssillä sen tullessa saataville ja määrittelyrivien muokkaaminen tai RefSeq-tietueiden poistaminen taksonomisten luokitusten muuttuessa. Näin varmistetaan, että BLAST search results näyttää nykyisen nimen oikein. RefSeq sen tietueet on laajennettu edustamaan 3,060 sekvenssit edustavat 270 perheet 39 luokat. Alkuperäisen yhteistyön aikana sen RefSeq vaivaa, pienempi joukko sekvenssin liittymiä 28S nuclear large subunit ribosomal geeni (LSU) kerättiin myös, mutta ei tarkistettu. Sen tietuekuratointiprosessin kaltaista työnkulkua noudatettiin ja jatkuvan kuratoinnin aikana nämä LSU-tietueet on tarkistettu sekvenssin laadun, oikean tunnistamisen ja tarkkojen lähdetietojen osalta. Lähes 500 äänitettä (800 mahdollisesta äänitteestä), jotka edustavat >100 perhettä 21 luokasta, tarkistettiin ja julkaistiin äskettäin. 28S-aineisto voidaan hakea BioProject PRJNA51803: sta (48).
prokaryootit
NCBI RefSeq Prokaryoottisen genomin kokoelma edustaa koottuja prokaryoottisia genomeja, joiden laatu ja näytteenottotiheys vaihtelevat. Prokaryooteille, perustuen aiempaan yhteisön palautteeseen, nykyinen politiikkamme on tarjota genomihuomautus kaikille prokaryoottisille genomeille, jotka täyttävät laatukriteerimme. Viime vuosina olemme kohdanneet kaksi suurta haastetta: (i) pysyä mukana esitettyjen prokaryoottisten genomien nopeassa lisääntymisessä; ja (ii) puuttumalla kasvavaan epäjohdonmukaisuuteen genomin merkinnässä, joka johtuu sekä INSDC: n leviämispohjaisen putken että ajan myötä kehitetyn NCBI de novo-genomihuomautusputken eri versioista.
kiinnostus ihmisen patogeeneihin ja DNA: n sekvensointitekniikan kehittyminen ovat lisänneet kiinnostusta, joten sekvensoitujen prokaryoottisten genomien määrä on kasvanut nopeasti viimeisen vuosikymmenen aikana. Jotkut bakteerikannat ovat usein mahdotonta erottaa käyttämällä nykyisiä genotyypitys lähestymistapoja, mutta pieniä geneettisiä eroja voidaan havaita perusteella koko genomin sekvensointi, joka on hyödyllinen luonnehditaan siirtoreittejä, tunnistaa antibioottiresistenssi, ja kartoittaa puhkeamisen. Elintarvikkeiden välityksellä leviävien patogeenien tai infektiopesäkkeiden tutkimiseksi on viime vuosina sekvensoitu ja merkitty muistiin suuri määrä lähes identtisiä bakteerien genomeja, mikä on johtanut lukuisiin identtisiin proteiineihin, joista jokaisella on erillinen liittymisnumero. Vuonna 2013 NCBI esitteli RefSeq-mallistoon uuden proteiinidatamallin ja liittymisliitteen (WP_). Tämä muutos vähensi refseq prokaryoottisten proteiinien redundanssia ja helpotti sellaisten proteiinien tunnistamista, joita löytyi identtisesti useammasta kuin yhdestä genomista. Se mahdollisti myös paremman strategian prokaryoottisten proteiinien nimien hallitsemiseksi. Nämä ei-redundantit tietueet edustavat ainutlaatuisia prokaryoottisia proteiinisekvenssejä, jotka ovat riippumattomia mistään tietystä bakteerien genomista ja jotka voidaan merkitä useisiin kantoihin tai lajeihin (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
historiallisesti RefSeq-bakteerien genomien merkintätapa on propagoitu INSDC: n toimittamista tiedoista, jos niitä on saatavilla, tai tuotettu käyttäen NCBI: n Prokaryoottisen Genomihuomautusputken eri versioita (joita tarjotaan myös Genbankin toimittamien tietojen palveluna). Tämä johti siihen, että RefSeq prokaryotic-aineiston rakenteellisissa ja toiminnallisissa merkinnöissä on kertynyt epäjohdonmukaisuuksia. Kahden viime vuoden aikana NCBI paransi useita prokaryoottisen genomin Merkintäputken näkökohtia kapasiteetin lisäämiseksi ja edelleen yhdenmukaistaa merkintäsääntöjä. Meidän putki yhdistää geen calling algoritmi, GeneMarkS+ (49,50), kohdistus-pohjainen geenin tunnistus lähestymistapa ja pystyy kirjaamaan sekä täydellinen ja luonnos WGS genomit. Putki ennustaa tällä hetkellä proteiinia koodaavia geenejä, rakenteellisia RNAs (5S, 16S ja 23s), tRNAs ja pieniä koodaamattomia RNAs.
vuonna 2015 julkaisimme RefSeq prokaryoottisten genomien kattavan merkintäpäivityksen, jonka tarkoituksena on yhtenäistää genomin merkintää ja saattaa päätökseen siirtyminen uuteen proteiinitietomalliin. Kehitettiin uusi prokaryoottiproteiinin nimitietokanta, nimimääritykset ja näyttöön perustuva strategia, ja niitä ollaan parhaillaan ottamassa käyttöön. Tähän mennessä yli 3 miljoonaa proteiinitietuetta on päivittänyt nimiä lähestymistavan alustavassa demonstraatiossa. Uusi prokaryoottinen tietomalli tarjoaa merkittävän edun nimenhallintajärjestelmälle, koska proteiinin nimi on mukana proteiinisekvenssitietueessa; nimen päivittäminen kyseiseen proteiinitietueeseen johtaa siihen, että päivitys lisätään automaattisesti kaikkiin genomeihin, joihin liittymisnumero merkitään.
RefSeq prokaryoottiset genomit on järjestetty useisiin uusiin kategorioihin, kuten referenssigenomeihin ja edustaviin genomeihin, jotka perustuvat kuratoituihin attribuutteihin sekä kokoamis-ja merkintälaatumittareihin (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes) (51). Referenssigenomit ovat käsin valittuja ”gold standard” – täydellisiä genomeja, joissa on korkea laatu ja korkein kokeellinen tuki rakenteelliselle ja toiminnalliselle merkinnälle. Tällä hetkellä pieni 122 referenssigenomien aineisto merkitään manuaalisesti yhteistyössä toimivien ryhmien ja NCBI: n henkilökunnan toimesta. Viitegenomit löytyvät osoitteesta http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Edustavat genomit lasketaan laskennallisesti ja valitaan edustamaan erilaisia lajeja. Edustavat genomit ovat saatavilla osoitteessa: www.ncbi.nlm.nih.gov/genome/browse/representative/.
RefSeq prokaryoottista genomitietoa voi käyttää BLAST-tietokannoissa, web-resursseissa (Assembly, BioProject, Genome, Nucleotide and Protein), NCBI: n ohjelmointityökalujen kautta tai sitä voi ladata genomeista tai refseq FTP-sivustoilta. Mukautettu ’Microbes’ BLAST-sivu, jota käytetään BLAST-kotisivulta, tarjoaa vaihtoehtoja etsiä kaikkia RefSeq prokaryoottisia genomeja, viite-ja edustavia genomeja, tai rajoittaa haku tiettyyn taksoniin. Osajoukko prokaryoottisia genomeja merkitään NCBI-Geenitunnuksella ja ne voidaan hakea NCBI: n Geeniresurssista tai geenin FTP-sivustolta. Arkhaian kohdalla tämä on säädetty useimmille täydellisille genomeille. Bakteerien osalta tämä ilmoitetaan viitegenomeista ja edustavista genomeista lajeilla, joilla on vähintään 10 genomia.
prokaryooteilla 16S: n ribosomaalinen RNA-sekvenssi on muodostunut standardimolekyylimarkkeriksi uuden lajin kuvaukseen. Vaikka nämä merkkisekvenssit ovat yleistyneet, insdc: n tietokantoihin toimitettavien sekvenssitietojen ja niihin liittyvien metatietojen laatu vaihtelee huomattavasti. NCBI on laajentanut kohdennettua loci-projektiaan tarjotakseen ajantasaisen kuratoidun tiedon lähteen. Kohdennetussa loci-projektissa säilytetään tällä hetkellä lähes 18 000 16S ribosomaalista RNA-referenssisekvenssiä, joista yli 95% on tyyppikannoista. Tyyppikantoja pidetään lajin esikuvina, ja on tärkeää, että tyyppikantaa koskevat tiedot merkitään oikeilla metatiedoilla ja että ne eivät saastu.
tähän työhön sisältyi perusteellinen katsaus ja päivitys taustalla olevaan taksonomiatietokantaan, jota käytettiin yhdessä NCBI: n type strain Entrez-suodattimen kanssa hakijasekvenssien hakemiseen. Sekvenssitiedot ja niihin liittyvät taksonomia / metatiedot on tarkistettu ja korjattu sisältämään ajantasaisimmat tiedot. Jos sekvenssin validointi epäonnistui tai sitä ei voitu validoida tarkasti, se suljettiin pois. Näitä referenssisekvenssejä voidaan nyt käyttää ”kultastandardeina” olemassa olevien ja uusien rRNA-sekvenssien analysoinnissa.
Bacterial 16s rRNA-aineistot ovat saatavilla Bioprojektilla (PRJNA33175 ja Prjna33317). Käytössä on myös mukautettu BLASTITIETOKANTA (”16S ribosomal RNA sequences (bacteries and Archaea)”).
virukset
virusten RefSeq-tietomalli eroaa muiden eliöiden mallista. Yleensä kullekin viruslajille luodaan vain yksi täydellinen RefSeq-genomi. Joskus tietyn viruslajin sisällä luodaan useita RefSeq-tietueita, jotka kuvastavat tarkoin määriteltyjä genotyyppejä tai tärkeitä laboratorio-ja/tai luonnonvaraisia kantoja. Tietyn lajin lisägenomit validoidaan taksonomian ja täydellisyyden osalta, minkä jälkeen ne indeksoidaan sekvenssiksi ”naapurit” (52). Sekä RefSeq – että naapurigenomit ovat haettavissa viruksen genomiresurssin (http://www.ncbi.nlm.nih.gov/genome/viruses/) kautta ja Entrez-nukleotidi-ja Genomisivuilta käyttäen linkkejä ”RefSeq Genome for Species” ja ”Other INSDC Genome Sequences” (52).
taksonomia on suuri huolenaihe virusten genomitutkimukselle, sillä International Committee on Taxonomy of Viruses (ICTV) on virallisesti tunnustanut 3186 viruslajia (53) ja INSDC: n tietokannoista on saatavilla 4834 täydellistä genomia sekä virallisista että väliaikaisista viruslajeista. NCBI: n pairwise Sequence Comparison (PASC) – työkalu kehitettiin auttamaan virusten genomien luokittelussa genomien maailmanlaajuisten ja/tai paikallisten yhdenmukaisuuksien perusteella (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Työkalun soveltamisalaa on laajennettu koskemaan useita virussukuja ja muita taksonomisia ryhmiä, ja sitä on käytetty tukemaan uusien taksonomisten kriteerien rajaamista (54-57).
toinen viruksen genomitutkimuksessa ilmenevä ongelma on epäjohdonmukainen ja / tai epätarkka huomautus viruksen genomisekvensseissä. Tämä kysymys heijastaa usein erilaisia merkintäprosesseja ja käynnissä olevaa kokeellista työtä, ja se voi aiheuttaa sekaannusta tietojen kuluttajien keskuudessa ja tehdä vertailevan analyysin genomien välillä vaikeaksi. Tätä ongelmaa käsitellään NCBI-viruksen Variaatioresurssissa (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/), jossa käytetään laskennallisia putkistoja, jotka tarjoavat ajantasaisen, standardoidun huomautuksen useille viruksille (58). Tällä hetkellä nämä putkistot laskevat standardoidut geeni-ja proteiinirajat kaikille influenssaviruksille, Denguevirukselle ja Länsi-Niilin virussekvensseille sekä standardoidut geeni-ja proteiininimet ja metatermit näille ja kahdelle muulle virukselle, Lähi-idän hengitystiekonavirukselle ja Ebolavirukselle. Tätä standardoitua tietoa hyödynnetään erikoistuneessa metatietokeskeisessä hakuliittymässä, joka helpottaa sekvenssien hakemista tiettyihin biologisiin kriteereihin perustuen.
ajan tasalla olevien, laajalti hyväksyttyjen merkintästandardien ylläpitäminen edellyttää jatkuvaa yhteistyötä suuremman tiedeyhteisön kanssa. NCBI: n Viral Genome Annotation-työryhmä perustettiin hyödyntämään julkisten tietokantojen, sekvensointikeskusten ja tutkimusryhmien yhteenliittymiä standardoidun sekvenssihuomautuksen kehittämiseksi sekä eri virusryhmien (59-63) nimeämisjärjestelmien eristämiseksi. Tämä lähestymistapa ei ainoastaan luo standardeja virushuomautuksille, vaan se edustaa myös näitä standardeja nykyisessä RefSeq-tietueessa, mikä varmistaa kaikkien tietokannan käyttäjien ja lähettäjien saavutettavuuden. Samanlainen yhteistyö on tarpeen myös lisäarvon, tulkinnallisten resurssien, kuten HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovires/hiv-1/interactions/) (64) tukemiseksi. Southern Research Instituten yhteistyökumppanit tarjoavat dokumentoituja HIV-1: tä, ihmisen molekyylien vuorovaikutuksia, jotka on kuratoitu kirjallisuudesta, ja NCBI ylläpitää käyttäjäystävällistä resurssia, jossa käyttäjät voivat tiedustella tietyntyyppisiä vuorovaikutuksia ja löytää lisätietoja mukana olevista geeneistä.
FUTURE DIRECTIONS
RefSeq-projekti on ainutlaatuinen, sillä se tarjoaa kaikki elämän valtakunnat kattavan referenssisekvenssitietokannan, jota on aktiivisesti ylläpidetty ja päivitetty ajan mittaan sisällyttämään siihen parempia laskentastrategioita, uusia tietotyyppejä ja uutta tietoa. Olemme osoittaneet kykymme ja kykymme vastata INSDC: n tietokantoihin toimitettujen sekvensoitujen genomien määrän viimeaikaiseen nopeaan kasvuun. Olemme määritelleet erilaisia politiikkoja ja strategioita eukaryoottisten, prokaryoottisten ja viruslajien kuratoimiseksi ja merkitsemiseksi eliökohtaisten yhteisöjen erilaisiin tarpeisiin. RefSeq-aineistoa käytetään laajalti vertailustandardina monissa eri analyyseissä, mukaan lukien ihmisen ja patogeenin kliiniset Sovellukset, vertaileva genomiikka, ekspressiomääritykset, sekvenssivaihtelun tulkinta ja sekä array-että probe-rakenne. NCBI: ssä RefSeq-tietokokonaisuus on integroitu useisiin resursseihin, mukaan lukien Assembly, BLAST, Epigenomics, geeni (jossa RefSeq-merkintä on ensisijainen perusta useimmille Geenimerkinnöille), genomi, Dbsnp, dbVar, variaatio Viewer ja paljon muuta.
jatkamme manuaalisen kuratoinnin kohdentamista ihmisen ja muiden selkärankaisten genomien rakenteellisen ja toiminnallisen tiedon parantamiseksi. Konservatiivinen manuaalinen kuraatio-lähestymistapamme takaa ihmisen, hiiren ja muiden ”tunnettujen” RefSeq-tietueiden jatkuvan korkean laadun ja luotettavuuden, mikä palvelee niiden tarpeita, jotka tarvitsevat hyvin tuetun vaihtoehtoisten eksonien määritelmän (vähemmän vääriä positiivisia). RNA-Seq-datan lisääminen merkintäputkistoomme lisäsi merkittävästi vaihtoehtoisten liitosvarianttien merkintää Mallitrefseqeinä palvelemaan niiden tarpeita, jotka haluavat kattavamman, mutta silti hyvin tuetun, exomen määritelmän (vähemmän vääriä negatiiveja). Vaikka molemmat tunnetut ja malli RefSeqs raportoivat tukitodisteet sekvenssitietueen, he käyttävät erillisiä lähestymistapoja tehdä niin. Tulevaisuudessa pyritään yhdenmukaistamaan todistusaineiston raportointia sekä ”tunnettujen” että ”mallien” Refseqien osalta, jotta käyttäjät voivat helpommin tunnistaa nämä tiedot. Lisäämme myös uuden tietotyypin ihmisen ja hiiren RefSeq-kokoelmaan lähitulevaisuudessa edustamaan kokeellisesti raportoituja sääntely-ja toiminnallisia elementtejä, joilla on tunnettuja (tai kohtuullisesti pääteltyjä) toiminnallisia seurauksia.
prokaryoottisten genomien osalta jatkamme työtä prokaryoottisen Genomihuomautusputken tuottaman rakennehuomautuksen piirteiden jalostamiseksi. Työtämme kohti uutta toimintatavan hallinnointia hiotaan edelleen ja kuvataan muualla. Odotamme koko RefSeq prokaryotic genomes-aineiston uudelleenkirjoittamista, kun prokaryotic-merkintäputkiston uudet versiot tulevat saataville (rakenteellisten merkintöjen parantamiseksi). Päätös merkitä kaikki RefSeq prokaryotes yhdellä menetelmällä, yhdessä pelkkä määrä tämän aineiston, edellyttää erilaista lähestymistapaa, joka hyödyntää useita lähteitä todisteita tarjota toiminnallista tietoa. Proteiinien nimiä päivitetään jatkuvasti proteiiniperheiden tai todistetyyppiluokkien mukaan järjestettynä. Tavoitteitamme tulevalle vuodelle ovat rfam: n (65) parempi integrointi merkintäputkeen, laajennettu yhteistyö, parannetut proteiinien nimet ja raportointi proteiinisekvenssitietueen tueksi.
haluamme kiittää tiedeyhteisöä rakentavasta palautteesta, ehdotuksista, virheilmoituksista ja yhteistyöstä viimeisten 15 vuoden aikana, jotka ovat edistäneet edustetun sekvenssin laatua ja tarkkuutta, rakenteellista merkintää ja toiminnallista merkintää.
rahoitus
NIH: n sisäinen tutkimusohjelma, National Library of Medicine. Open access charge: the Intramural Research Program of the National Institutes of Health, National Library of Medicine.
eturistiriitaselvitys. Ei ilmoitettu.
S.
G. et al.
div>E. A.
L.
et al.
div >
div>
P.
et al.
24
div> B.
G.
W.
et al.
tietokanta
014
1
Q.
et al.
se
et al.
et al.
D65
div>
S.
et al.
X.
et al.
9
0
div>
et al.
3
406
M.
div> M. A.
et al.
8
div>
div>M.
et al.
J. M.
div>
M.
et al.
K. V.
5
2013
12
div>
et al.
et al.
2002
2013
/div>
7279
2013
et al.
30
et al.
/div>
et al.
/div>
S.
et al.
div>
et al.
09
43
L.
L.
et al.
M.
/div>
5
L.
A.
et al.
09
div>
2
T.
et al.
2012
div>
T.
div>
et al.
div>
et al.
J. R.
div>
M.
T. A.
J. R.
M. S.
div>
M.
H.
et al.
56
J. R.
div>
div> S.
et al.
2012
R. S.
J. R. et al.
G.
S.w.
div> A.
div> E. W.
J. et al.
43
julkaisi Oxford University Press Nucleic Acids Research 2015: n puolesta. Tämä työ on kirjoittanut(a) Yhdysvaltain hallituksen työntekijä (s) ja on public domain Yhdysvalloissa.