Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Het RefSeq-project maakt gebruik van de gegevens die worden ingediend bij de International Nucleotide Sequence Database Collaboration (INSDC) tegen een combinatie van berekening, handmatige curatie en samenwerking om een standaardset van stabiele, niet-redundante referentiesequenties te produceren. Het RefSeq project breidt deze referentiesequenties uit met actuele kennis, waaronder publicaties, functionele kenmerken en informatieve nomenclatuur. De database bevat momenteel sequenties van meer dan 55 000 organismen (>4800 virussen, >40 000 prokaryoten en >10 000 eukaryoten; RefSeq release 71), variërend van één record tot volledige genomen. Dit document vat de huidige status van de virale, prokaryotic, en eukaryotic takken van het RefSeq project samen, rapporteert over verbeteringen aan de toegang tot gegevens en details inspanningen om de taxonomische vertegenwoordiging van de collectie verder uit te breiden. We benadrukken ook diverse functionele curatie-initiatieven die meerdere toepassingen van RefSeq-gegevens ondersteunen, waaronder taxonomische validatie, genoomannotatie, vergelijkende genomica en klinische testen. Wij vatten onze benadering samen om beschikbare RNA-Seq en andere Gegevenstypes in ons handbewaarproces voor gewervelde dieren, installatie, en andere species te gebruiken, en beschrijven een nieuwe richting voor prokaryotic genomen en eiwitnaambeheer.

inleiding

sinds 15 jaar is de RefSeq-database van het Nationaal Centrum voor informatie over biotechnologie (NCBI) een essentiële bron voor genomisch, genetisch en proteomisch onderzoek. De levering van het RefSeq project van gecureerde en stabiele geannoteerde referentie genomen, transcripten, en proteã nen voor geselecteerde virussen, microben, organellen, en eukaryotic organismen, heeft onderzoekers toegestaan om zich op de beste representatieve opeenvolgingsgegevens in tegenstelling tot de overbodige gegevens in GenBank te concentreren, en om ondubbelzinnig specifieke genetische opeenvolgingen te verwijzen. De RefSeq-collectie biedt expliciet gekoppelde genoom -, transcript-en eiwitvolgorde-records die publicaties, informatieve nomenclatuur en gestandaardiseerde en uitgebreide functieannotaties bevatten. RefSeq records zijn geïntegreerd in NCBI ’s middelen met inbegrip van de Nucleotide, Proteã ne, en BLAST databases en kunnen gemakkelijk worden geïdentificeerd door het trefwoord’ RefSeq ‘ en door hun verschillende toetreding prefixen die hun type definiëren (Tabel 1). Alle RefSeq-gegevens zijn onderworpen aan kwaliteitscontroles (QA) met enkele gespecialiseerde QA-tests die zijn ontwikkeld voor verschillende taxa-of gegevenstypen. Bijvoorbeeld, alle virale RefSeqs ondergaan taxonomische beoordeling door NCBI personeel voor de publieke release. RefSeq-toetredingen worden op grote schaal genoemd in wetenschappelijke publicaties en genetische databases omdat ze een stabiel en consistent coördinatensysteem bieden dat kan worden gebruikt als basis voor het rapporteren van genspecifieke gegevens, klinische variatie en vergelijkingen tussen soorten. Deze referentiesequentiestandaarden worden steeds belangrijker omdat nauwkeurige rapportage en reproduceerbaarheid essentiële componenten zijn voor best practices in biomedisch onderzoek (1).

RefSeq-toetredingsvoorvoegsels

Tabel 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein eiwitten geannoteerd op nm_ transcript toetredingen of geannoteerd op genomische moleculen zonder een geinstantieerde transcript (bijv. sommige mitochondriale genoom, virale genoom, en de referentie-bacteriële genoom
AP_3 eiwit Eiwitten geannoteerde op AC_ genomische toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
XP_3,5 eiwit Eiwitten geannoteerde op XM_ transcript toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
YP_3 eiwit Eiwitten geannoteerde op genomische moleculen zonder een transcript gemaakt record
WP_6 eiwit eiwitten die niet-redundant zijn bij meerdere stammen en soorten. Een enkel eiwit van dit type kan worden geannoteerd op meer dan één prokaryotisch genoom
voorvoegsel . Molecuultype . gebruik context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein eiwitten geannoteerd op nm_ transcript toetredingen of geannoteerd op genomische moleculen zonder een geinstantieerde transcript (bijv. sommige mitochondriale genoom, virale genoom, en de referentie-bacteriële genoom
AP_3 eiwit Eiwitten geannoteerde op AC_ genomische toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
XP_3,5 eiwit Eiwitten geannoteerde op XM_ transcript toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
YP_3 eiwit Eiwitten geannoteerde op genomische moleculen zonder een transcript gemaakt record
WP_6 eiwit eiwitten die niet-redundant zijn bij meerdere stammen en soorten. Een enkel eiwit van dit type kan worden geannoteerd op meer dan één prokaryotisch genoom

1Het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 6 nummers gevolgd door het volgnummer.

2het volledige toetredingsformaat bestaat uit het voorvoegsel gevolgd door het INSDC-toetredingsnummer waarop de RefSeq-record is gebaseerd, gevolgd door het versienummer van de RefSeq-reeks.

3het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 6 of 9 nummers, gevolgd door het versienummer van de reeks.

4Records met dit voorvoegsel voor toetreding zijn samengesteld door NCBI-medewerkers of een database met modelorganismen, of bevinden zich in de pool van toetredingen waarmee curatoren werken. Deze records worden aangeduid als de’ bekende ‘ RefSeq dataset.

5Records met dit voorvoegsel voor toetreding worden gegenereerd via de eukaryotische genoomannotatiepijplijn of de kleine eukaryotische genoomannotatiepijplijn. Records gegenereerd via de eerste methode worden aangeduid als de ‘model’ RefSeq dataset.

6het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 9 nummers gevolgd door het versienummer. Het versienummer is altijd “.1 ‘ omdat deze records niet worden bijgewerkt. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein eiwitten geannoteerd op nm_ transcript toetredingen of geannoteerd op genomische moleculen zonder een geinstantieerde transcript (bijv. sommige mitochondriale genoom, virale genoom, en de referentie-bacteriële genoom
AP_3 eiwit Eiwitten geannoteerde op AC_ genomische toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
XP_3,5 eiwit Eiwitten geannoteerde op XM_ transcript toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
YP_3 eiwit Eiwitten geannoteerde op genomische moleculen zonder een transcript gemaakt record
WP_6 eiwit eiwitten die niet-redundant zijn bij meerdere stammen en soorten. Een enkel eiwit van dit type kan worden geannoteerd op meer dan één prokaryotisch genoom
voorvoegsel . Molecuultype . gebruik context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein eiwitten geannoteerd op nm_ transcript toetredingen of geannoteerd op genomische moleculen zonder een geinstantieerde transcript (bijv. sommige mitochondriale genoom, virale genoom, en de referentie-bacteriële genoom
AP_3 eiwit Eiwitten geannoteerde op AC_ genomische toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
XP_3,5 eiwit Eiwitten geannoteerde op XM_ transcript toetredingen geannoteerde op genomische moleculen zonder een transcript gemaakt record
YP_3 eiwit Eiwitten geannoteerde op genomische moleculen zonder een transcript gemaakt record
WP_6 eiwit eiwitten die niet-redundant zijn bij meerdere stammen en soorten. Een enkel eiwit van dit type kan worden geannoteerd op meer dan één prokaryotisch genoom

1Het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 6 nummers gevolgd door het volgnummer.

2het volledige toetredingsformaat bestaat uit het voorvoegsel gevolgd door het INSDC-toetredingsnummer waarop de RefSeq-record is gebaseerd, gevolgd door het versienummer van de RefSeq-reeks.

3het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 6 of 9 nummers, gevolgd door het versienummer van de reeks.

4Records met dit voorvoegsel voor toetreding zijn samengesteld door NCBI-medewerkers of een database met modelorganismen, of bevinden zich in de pool van toetredingen waarmee curatoren werken. Deze records worden aangeduid als de’ bekende ‘ RefSeq dataset.

5Records met dit voorvoegsel voor toetreding worden gegenereerd via de eukaryotische genoomannotatiepijplijn of de kleine eukaryotische genoomannotatiepijplijn. Records gegenereerd via de eerste methode worden aangeduid als de ‘model’ RefSeq dataset.

6het volledige toetredingsnummer bestaat uit het voorvoegsel, inclusief de underscore, gevolgd door 9 nummers gevolgd door het versienummer. Het versienummer is altijd “.1 ‘ omdat deze records niet worden bijgewerkt. Zie online documentatie voor aanvullende informatie: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

in de afgelopen jaren hebben geavanceerde sequentietechnieken een aanzienlijke toename van het aantal aanvragen voor volledige genoomassemblage in openbare databanken mogelijk gemaakt. Als gevolg hiervan heeft het RefSeq-project de diepte en breedte van taxa die in de dataset is opgenomen, consequent uitgebreid, voornamelijk door verbeteringen aan verschillende interne annotatiepijpleidingen. Alle taxa zijn in het kader van RefSeq inclusion; nochtans, wordt de annotatie vaak beperkt tot die organismen waarvoor een hoogte-de assemblage van het kwaliteits primaire genoom met niet-betwiste organisme informatie beschikbaar is. Daarom kunnen we bepaalde categorieën gegevens uitsluiten die niet aan onze kwaliteitsnormen voldoen. Uitgesloten datasets omvatten: metagenomen, samenstellingen met lage contig N50-waarden of een bijzonder hoog aantal niet-ingeplande steigers/contigs (d.w.z. hoge fragmentatie), of genomen met een significante mismatch of indel-variatie in vergelijking met andere nauw verwante genomen voor de soort (bv. sommige prokaryoten).

een uniek aspect van de RefSeq-dataset is de gecombineerde aanpak van het gebruik van berekeningen, samenwerking en curatie door wetenschappelijk personeel van de NCBI. Als grote bio-informatica faciliteit, heeft NCBI in het ontwikkelen van robuuste processtromen geïnvesteerd om annotatie te produceren en kwaliteitsborgingstests voor eukaryotic en prokaryotic genomen, transcripten, en proteã nen uit te voeren. De verbeteringen aan de virale stroom van het genoomproces zijn aan de gang. De RefSeq-groep werkt samen met tal van deskundigengroepen, waaronder officiële nomenclatuurautoriteiten (bijv. HUGO Gene Nomenclature Committee (HGNC) en zebrafish Information Network (ZFIN) voor menselijke en zebrafish gen namen respectievelijk), UniProtKB (eiwit namen) en miRBase (microRNAs) (2-5). Deze en andere samenwerkingen helpen de kwaliteit van de RefSeq-dataset te behouden en te verbeteren door middel van QA-rapporten, uitwisseling van gen-en sequentiegegevens en uitwisseling van functionele informatie. Het NCBI-personeel verstrekt ook curatiesteun voor virussen, prokaryotes, eukaryotes, organellen, plasmiden, en gerichte projecten met inbegrip van het samenstellen van genen en opeenvolgingen voor Homo sapiens, mus musculus en andere organismen. RefSeq-curatoren verbeteren de kwaliteit van de database door het beoordelen van QA-testresultaten, betrokkenheid bij de selectie van bepaalde inputs voor de verwerking van genoomannotatie, sequentieanalyse, taxonomische analyse en functionele beoordeling. De curatie steunt ook verbeteringen aan de pijpleidingen van de genoomannotatie aangezien de inhoudsdeskundigen helpen programmatische benaderingen definiëren om zowel typische als atypische biologie te modelleren. Voor eukaryoten, in het bijzonder zoogdieren, definieert transcript-based curation ‘beste’ sequentievertegenwoordigers (als ‘bekende’ RefSeqs; tabel 1 voetnoot) die worden gebruikt als primaire inputreagens voor de eukaryotische genoomannotatiepijplijn (http://www.ncbi.nlm.nih.gov/books/NBK169439/). De verbeteringen in de kwaliteit van inputreagens voegen beurtelings significante kwaliteit en reproduceerbaarheid aan de resulterende genoomannotatie toe. Dit type van handmatige curatie is historisch gericht op mens en muis vanwege hun unieke biomedische belang (6). Meer recentelijk hebben deze curatie-inspanningen meer aandacht besteed aan Rattus norvegicus, Danio rerio, Bos taurus en Gallus gallus. Deze soorten zijn zowel relevant voor de menselijke gezondheid als voor de duurzaamheid van de landbouw.

in dit artikel rapporteren we over onze vooruitgang bij het uitbreiden van de RefSeq-dataset met meer diverse organismen, beschrijven we verbeteringen in de toegang tot gegevens, en geven we voorbeelden die een verhoogde focus illustreren op het leveren van fylogenetisch nuttige datasets, evenals functionele functieannotatie op RefSeq-transcript en eiwitrecords. We anticiperen op deze inspanningen en verbeteringen in de RefSeq dataset zullen blijven bijdragen aan de vooruitgang van medisch translationeel onderzoek, agrarische verbeteringen, fylogenetische identificatie, en evolutionaire studies.

het genereren van de REFSEQ-DATASET

RefSeq-sequentierecords worden gegenereerd door verschillende methoden, afhankelijk van de sequentieklasse en het organisme. Archaeale en bacteriële genomen (zie prokaryotes sectie) worden geannoteerd met behulp van NCBI ‘ s prokaryotische genoom annotatie pijplijn (http://www.ncbi.nlm.nih.gov/books/NBK174280/), terwijl een klein aantal referentie bacteriële genomen worden ondersteund door samenwerking en handmatige curatie. RefSeq eukaryotic genomen worden verstrekt gebruikend twee processtromen. De meerderheid van planten, dieren, insecten en geleedpotigen genomen worden geannoteerd door de eukaryotic genoomannotatiepijpleiding. Deze pijpleiding genereert annotatieresultaten gebaseerd op beschikbare transcript gegevens (met inbegrip van RNA-Seq en transcriptome shotgun assembly (TSA) gegevens), evenals eiwithomologie, ab initio voorspelling (grotendeels wanneer transcriptome gegevens niet beschikbaar zijn), en beschikbare bekende (gecureerde) RefSeq transcripten en eiwitten (zie Tabel 1). Pipeline-generated annotation (model RefSeqs) kan al dan niet ondersteuning hebben voor de volledige exon combinatie van één enkel bewijs afstemming maar kan RNA-Seq ondersteuning hebben voor exon paren. De eukaryotische genomen die door deze pijplijn zijn geannoteerd, worden openbaar gerapporteerd met links om de gegevens te downloaden via FTP, om een BLAST query te bekijken of uit te voeren tegen het geannoteerde genoom, of om toegang te krijgen tot een gedetailleerde samenvatting van het annotatierapport (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). De pijplijn voor een subset van eukaryotes met inbegrip van schimmels, protozoa, en nematoden impliceert het verspreiden annotatie die aan de internationale samenwerking van de Nucleotidevolgorde Database (INSDC), met formaatstandaardisatie, aan een RefSeq exemplaar van de ingediende genoomassemblage is voorgelegd (zie algen, schimmels, nematoden en Protozoa).

NCBI-personeel levert het grootste deel van de RefSeq organelle genoomannotatie door voortplanting van de INSDC-indiening. De annotatie van de zoogdiermitochondria wordt vaak aangevuld met handmatige curatie. Het RefSeq-project onderhoudt ook referentiesequenties voor gerichte loci-projecten zoals RefSeqGene, dat lid is van de Locus Reference Genomic (lrg) collaboration (7), voor bacteriële en schimmel ribosomale rRNA loci, en voor fungal intern transcribed spacer sequences (ITS) (8). Bovendien, worden een significant aantal mens, muis, en andere afschriften en proteã nen verstrekt door samenwerking en hand curation die opeenvolgingsanalyse en literatuuronderzoek omvat.

NCBI ‘ s prokaryotische (zie hieronder) en eukaryotische annotatiepijpleidingen hebben gelijke tred gehouden met het toenemende aantal genoomsamenstellingen die bij het INSDC zijn ingediend door consistente annotatie te leveren op RefSeq-kopieën van geselecteerde genoomsamenstellingen van hoge kwaliteit. Tot op heden zijn 245 eukaryotische genomen, waaronder 170 gewervelde genomen, geannoteerd door deze pijpleiding, waarvan meer dan 120 soorten werden geannoteerd in de afgelopen 20 jaar. Onder deze groep bevinden zich 52 vogelsoorten die representatief zijn voor de meeste vogelorden (9,10). Er is ook een aanzienlijke uitbreiding geweest in het aantal RefSeq-geannoteerde samenstellingen voor niet-menselijke primaten, andere zoogdieren, vissen, planten en geleedpotigen.

toegang tot de REFSEQ-DATASET

De RefSeq-homepage http://www.ncbi.nlm.nih.gov/refseq/ is een centrale hub voor alle aspecten van de RefSeq-dataset. Deze site biedt links die gebruikers begeleiden door een algemene beschrijving van het project, evenals factsheets, groeistatistieken en informatie over meer gerichte RefSeq-projecten zoals het prokaryotic genome re-annotation initiative, Het Consensus Coding Sequence (CCDS) – project (11) Het RefSeqGene-project, en gerichte Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) – projecten. Links naar de meest recente uitgebreide FTP release en gedetailleerde documentatie over het formaat en de inhoud van de release zijn te vinden in de ‘aankondigingen’ sectie van de RefSeq homepage. Vorige RefSeq aankondigingen zijn ook beschikbaar op deze pagina. We moedigen het downloaden van RefSeq-gegevens rechtstreeks van NCBI sterk aan, omdat downloads van andere bio-informatica-en genoombrowserbronnen mogelijk niet alle beschikbare gegevens bevatten, of alleen uitlijningen van RefSeq-transcripten naar een genoom weerspiegelen in plaats van de genoomannotatieresultaten die door NCBI worden gegenereerd.

RefSeq sequentiegegevens kunnen interactief worden benaderd met behulp van Ncbis Nucleotide-en Eiwitdatabases, in BLAST-databases, via NCBI ‘ s programmatische interface (E-utilities), of via file transfer protocol (FTP). E-utilities ondersteunen scripted toegang tot RefSeq-gegevens te downloaden in een verscheidenheid van formaten op basis van zoektermen of toetredingslijsten; uitgebreide documentatie is beschikbaar in het NCBI Handbook (www.ncbi.nlm.nih.gov/books/NBK25501/) en trainingsvideo ‘ s zijn beschikbaar via het YouTube-kanaal van NCBI (https://www.youtube.com/user/NCBINLM). Zowel de Nucleotide als de Eiwitgegevensbestanden staan toe dat querieresultaten worden beperkt tot alleen RefSeq-records door ‘RefSeq’ onder de ‘Brongegevensbank’ in de zijbalk van filters te selecteren. RefSeq gegevens kunnen ook worden geopend vanuit andere NCBI databases zoals Assemblage, BioProject, Gen -, Genoom en door het volgen van de links die op Nucleotide, Eiwit, of FTP bronnen Informatie op curatie veranderingen binnen de RefSeq groep of NCBI updates die invloed hebben op de RefSeq database worden gemeld door verschillende bronnen, waaronder RefSeq FTP-release-aantekeningen, periodieke verslagen zijn gepubliceerd, de NCBI Aankondigingen Nieuws feed http://www.ncbi.nlm.nih.gov/news/ en via de NCBI Inzichten Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Gebruikers kunnen zich ook abonneren op de refseq-announce maillijst om periodieke updates te ontvangen over het project en een samenvatting van de inhoud van elke RefSeq FTP release (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq gegevens worden verspreid via FTP via twee sites, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) en genomen (ftp://ftp.ncbi.nlm.nih.gov/genomes/). de refseq FTP site biedt dagelijkse updates van alle nieuwe en bijgewerkte RefSeq records, wekelijkse updates van sommige gegevenstypen, en een tweemaandelijkse uitgebreide RefSeq release (/refseq/release/). Daarnaast worden select organisme-specifieke transcript en eiwit datasets, met inbegrip van mens en muis, wekelijks bijgewerkt. De refseqgene subdirectory wordt dagelijks bijgewerkt, met uitlijningen aan het genoom dat met elke annotatielooppas wordt vrijgegeven. De uitgebreide tweemaandelijkse RefSeq release wordt georganiseerd door taxonomische (bijvoorbeeld gewervelde zoogdieren) of andere groepen (bijvoorbeeld mitochondriën). Gegevens kunnen ook worden gedownload voor de gehele RefSeq collectie uit de /refseq/release/complete/ directory. De RefSeq release biedt een voordeel voor degenen die willen periodieke updates van ofwel de volledige collectie of een enkele groep te behouden. Het omvat ook verslagen die niet beschikbaar zijn van de plaats van FTP van het metgezelgenoom, zoals afschriften in de inzameling die onafhankelijk van worden gehandhaafd, en kunnen momenteel niet worden geannoteerd op, een genoomassemblage. De release wordt geleverd met belangrijke documentatie van de geà nstalleerde bestanden (/refseq/release/release-catalog/) inclusief MD5 checksums, een lijst van alle geà nstalleerde bestanden, evenals release notes en aankondigingen (/refseq/release/release-notes/).

RefSeq-gegevens kunnen ook worden gedownload van de FTP-site van genomen. In augustus 2014 kondigde NCBI een grote reorganisatie van deze FTP site die nu assemblage en op organismen gebaseerde toegang tot zowel GenBank en RefSeq genomen (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Deze directory is verder verdeeld in submappen gebaseerd op dezelfde groepen die worden gebruikt in de RefSeq release, die elk extra subdivisies per soort bieden. De FTP-site van genomen biedt bestanden die alle RefSeq-genoomassemblages vertegenwoordigen die in de Assemblagebron van NCBI worden gerapporteerd (www.ncbi.nlm.nih.gov/assembly/). het voordeel van de genomen plaats is dat de gegevens op een assemblage – of organisme-specifieke manier kunnen worden benaderd. De verstrekte gegevens omvatten genoom-en productvolgorde (transcript/protein), annotatie, assemblageverslagen en statistieken, en MD5-checksums; deze gegevens worden bijgewerkt wanneer de genoomassemblage en / of de annotatie worden bijgewerkt. Dit gebied omvat geen RefSeq opeenvolgingen die buiten het werkingsgebied van een genoomassemblage of producten zijn die niet op een genoom worden geannoteerd.

groei en statistieken

RefSeq FTP release 71 (juli 2015) bevat meer dan 77 miljoen sequentierecords voor meer dan 55 000 organismen. Tabel 2 geeft een overzicht van de groei van de RefSeq dataset in het afgelopen jaar in termen van de organismen en het aantal sequentierecords vertegenwoordigd per elke RefSeq release FTP directory gebied. Bacteriële genomen en eiwitten vormen het grootste deel van de RefSeq-dataset (56% van de totale toetredingen en 76% van de >52 miljoen eiwit toetredingen). De significante verhogingen van het aantal organismen, proteã nen, en totale verslagen worden gezien voor ongewervelde, installatie, en eukaryotic organismen die met het verhoogde aantal en productie van genoom het rangschikken van projecten consistent is. Een significante factor voor het aanhoudend hoge groeisnelheid van RefSeq-gegevens zijn verbeteringen in genoompijpleidingen die geannoteerde refseq-genomen genereren. Met name dit omvat verhoogde capaciteit in de NCBI de prokaryotische genoom annotatie pijplijn, her-ontwikkeling van de proces flow die zich voortplant annotatie van eukaryotische GenBank genomen op RefSeq genomen, en de oprichting van RNA-Seq bewijs in de NCBI de eukaryotische genoom annotatie pipeline en haar impact op het genereren van model RefSeqs (XM_, XR_ en XP_ toetredingen, Tabel 1).

jaarlijkse groei in het aantal organismen, eiwitten en transcripten vertegenwoordigd in de uitgebreide RefSeq-release, per FTP-release directory

Tabel 2.

jaarlijkse groei in het aantal organismen, eiwitten en transcripten vertegenwoordigd in de uitgebreide RefSeq release, per FTP release directory
Release Directory . organismen . verandering in%. transcripten . verandering in%. eiwitten . verandering in%.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . verandering in%. transcripten . verandering in%. eiwitten . verandering in%.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (bijv. archaea.acc_taxid_growth.txt en gerelateerde bestanden). Het percentage jaarlijkse verandering is gebaseerd op het vergelijken van gegevens telt voor RefSeq release 71 (juli 2015) en RefSeq release 66 (juli 2014).

Tabel 2.

jaarlijkse groei in het aantal organismen, eiwitten en transcripten vertegenwoordigd in de uitgebreide RefSeq release, per FTP release directory
Release Directory . organismen . verandering in%. transcripten . verandering in%. eiwitten . verandering in%.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . verandering in%. transcripten . verandering in%. eiwitten . verandering in%.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (bijv. archaea.acc_taxid_growth.txt en gerelateerde bestanden). Het percentage jaarlijkse verandering is gebaseerd op het vergelijken van gegevens telt voor RefSeq release 71 (juli 2015) en RefSeq release 66 (juli 2014).

de dramatische daling van het aantal plasmide eiwit records, en dus van het aantal totale toetredingen, weerspiegelt de voltooiing van een RefSeq bacteriële genoom re-annotatie project (http://www.ncbi.nlm.nih.gov/refseq/over/prokaryoten/reannotatie/) en de goedkeuring van het nieuwe gegevensmodel voor prokaryoten, met inbegrip van hun plasmiden. In dit nieuwe gegevensmodel kan een enkele RefSeq niet-redundante eiwittoetreding worden geannoteerd op meer dan één genomische sequentierecord wanneer de vertaling van die genomische eiwitcoderende regio ‘ s resulteert in een identiek eiwit (zie http://www.ncbi.nlm.nih.gov/refseq/over/nonredundantproteïnen/). De redundantie in alle bacteriële proteã nen verminderde ook beduidend; nochtans, is het hier niet duidelijk toe te schrijven aan voortdurende significante verhogingen van het aantal bacteriële genomen die in de dataset worden opgenomen. Deze veranderingen resulteerden ook in een algemene daling van het aantal archaeal eiwit records.

gewervelde dieren

een selecte groep gewervelde dieren, waaronder Homo sapiens, mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus en Danio rerio zijn de belangrijkste focus van onze transcript – en literatuur-gebaseerde handmatige curatie inspanningen. Curatoren werken over het algemeen aan de hand van lijsten van genen met gegevensconflicten die zijn vastgesteld door kwaliteitsborgingstesten (QA), waarvan sommige eerder werden beschreven (12). Zij volgen een gedetailleerde reeks richtlijnen wanneer het analyseren van elk gen om dwars-persoonsconsistentie in de samengestelde dataset te verzekeren. Deze analyse impliceert diepgaande opeenvolgingsevaluatie en literatuuronderzoek om verwijzingstranscripten, proteã nen, pseudogenes en RefSeqGene verslagen tot stand te brengen. RefSeq-curatoren genereren transcript-varianten, lossen sequentiefouten op, verwijderen onnauwkeurige informatie, werken records bij om de biologie van de locus correct weer te geven en voegen waardevolle functionele informatie toe aan sommige RefSeq-records, zoals verbeterde eiwitnamen, een samenvatting van de functie van het genproduct, functionele kenmerken van het gen en/of relevante publicaties. Handmatige curatie en literatuuronderzoek door de RefSeq-groep kunnen resulteren in de representatie van unieke varianten en isovormen die niet voorspeld zouden worden wanneer uitsluitend gebaseerd op computationele analyse. Bijvoorbeeld, literatuurstudie van het menselijke tumor suppressor gen, PTEN (phosphatase and tensin homolog, GeneID: 5728) onthulde het bestaan van een langere eiwitisovorm als gevolg van het gebruik van een alternatief in-frame upstream CUG initiatie codon gevonden in het centrum van een palindromische sequentie stroomopwaarts van de canonieke mRNA vertaling start codon (13). Sterke experimentele gegevens gaven aan dat deze mitochondriale-specifieke isovorm initieert met een leucine, in plaats van een methionine (14). Het RefSeq datamodel voor eukaryotes verstrekt één transcript expliciet verbonden aan één proteã ne. Daarom werden twee identieke transcript records verstrekt om vertaling van de alternatieve initiatiecodons te weerspiegelen; np_000305. 3 vertegenwoordigt het 403 aminozuurproteã ne dat het canonieke methionine begincodon gebruikt, terwijl NP_001291646.2 vertegenwoordigt het mitochondriaal-gelokaliseerde 576 aminozuurproteã ne dat met een leucine initieert. Aldus, dient het curatieproces een dubbel doel om nauwkeurige referentieopeenvolgingen te verstrekken die nauwkeurige en reproduceerbare genoomannotatie vergemakkelijken en verslagen verstrekken die relevante biologische informatie omvatten. In deze sectie bespreken we recente updates, verbeteringen die we hebben aangebracht in ons handmatige curatieproces en voorbeelden van gerichte curatieprojecten.

RefSeqGene project

Het RefSeqGene-subproject definieert menselijke genomische sequenties die moeten worden gebruikt als referentiestandaarden voor goed gekarakteriseerde genen, in het bijzonder voor gebruik door de klinische genetica-gemeenschap. Deze sequenties dienen als een stabiele basis voor het rapporteren van pathogene varianten, voor het vaststellen van conventies voor het nummeren van exons en introns, en voor het definiëren van de coördinaten van andere varianten. Elk RefSeqGene-verslag richt zich op een gen-specifiek genomisch gebied en wordt typisch geannoteerd met een subset van RefSeq-afschriften en proteã nen die door domeinexperts worden geselecteerd. Deze selecties bepalen exon functies. Alignments van oudere versies van de canonieke RefSeq transcript/eiwit, evenals andere bekende RefSeqs, zijn opgenomen. Deze verslagen omvatten typisch 5 kilobases (kb) van opeenvolging stroomopwaarts van het focusgen, en 2 kb van opeenvolging stroomafwaarts, om vertegenwoordiging van potentiële regelgevende plaatsen of schrappingen te steunen die voorbij de geneigenschap uitbreiden. Een RefSeqGene-verslag kan annotatie-informatie voor andere genen bevatten die zich binnen zijn grenzen bevinden. RefSeqGene records worden in eerste instantie beoordeeld door locus – specifieke databases en NCBI medewerkers. RefSeqGene is lid van de lrg collaboration (7) die aanvullende beoordeling van de sequentiegegevens verstrekt alvorens een lrg-toetreding toe te voegen. Een recente werk focus breidde het aantal RefSeqGene records om alle genen waarvoor ten minste twee klinische tests zijn ingediend bij de NIH Genetic Testing Registry (GTR) vertegenwoordigen. Op dit moment zijn er 5596 RefSeqGene records, waarvan 633 een lrg toetreding hebben. RefSeqGene records kunnen worden opgehaald door te zoeken in de Nucleotide database met ‘refseqgene’ , door hun lrg toetredingen, door te bladeren op de RefSeqGene website (www.ncbi.nlm.nih.gov/refseq/rsg/), of via FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

incorporatie van RNA-Seq en andere gegevenstypen in transcript-based curation

een belangrijk doel van het RefSeq curation project is om transcript-en eiwitreferentiesequenties van hoge kwaliteit en volledige lengte weer te geven. Als zodanig zijn onze curatiecriteria voornamelijk gebaseerd op conventionele transcript (mRNA en ESTs) en eiwituitlijningen en gepubliceerd bewijs. Nochtans, zijn vertebrate transcriptome projecten steeds complexer geworden met de meerderheid van nieuwe transcript gegevens die momenteel door het korte lezen rangschikken van technologie worden geproduceerd. Genoombrede studies naar globale patronen van epigenetische kenmerken die geassocieerd zijn met de promotor leveren ook bewijs van actieve promotors en/of actieve transcriptie. De RefSeq-groep heeft curatiepraktijken aangepast om deze nieuwe gegevenstypen op te nemen om onze handmatige annotatie te verbeteren, in het bijzonder in gevallen waarin een gen of variant overvloedige conventionele transcript-ondersteuning mist. Deze RNA-Seq en epigenomic studies hebben enorme datasets geproduceerd die een uitdaging voor de groepen van de genannotatie voorstellen bijvoorbeeld door potentiële valse positieven en het gebrek aan steun voor combinaties van exon over lange afstand (15). RefSeq-curatoren beperken zich tegen valse positieven door selectief alleen datasets van hoge kwaliteit te integreren voor overweging in onze genoomannotatiepijplijn en in het handmatige annotatieproces. RefSeq-curatoren visualiseren transcript alignments, variatiegegevens en gefilterde RNA-Seq-gegevens in aangepaste displays binnen een intern uitlijningprogramma dat is opgenomen in het NCBI Genome Workbench-platform (http://www.ncbi.nlm.nih.gov/tools/gbench/). De curatie van menselijke genen gebruikt geanalyseerde RNA-Seq leest van Illumina BodyMap 2 (BioProject: PRJEB2445) en menselijke Proteã ne Atlas projecten (BioProject: PRJEB4337) (16). Daarnaast gebruiken curatoren promotor-geassocieerde Histon modificatiemarkeringen zoals H3K4me3 van het NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) en het ENCODE (Encyclopedia of DNA Elements) project (18) om de aanwezigheid van een actieve promotor te verifiëren. RefSeq-curatoren evalueren ook polyA-seq-gegevens om 3′ volledigheid van afschriften te bevestigen die een Polya-staart missen (19). Aanvullende gegevenstypen, waaronder PhyloCSF (20), CpGIslands, RepeatMasker (21) en Cap analyse van genexpressie (CAGE) data (22), worden soms gebruikt als extra ondersteuning.

Lange niet-coderende RNAs (lncRNAs)

De RefSeq-groep blijft aanzienlijk uitbreiden op de representatie van niet – coderende structurele-en micro-RNAs, getranscribeerde pseudogenes, en de grotendeels niet-gekarakteriseerde lncRNAs. Deze klasse van genen wordt over het algemeen gedefinieerd als transcripten >200 nt lang die een sterk eiwitcodeerpotentieel missen (23). lncRNA RefSeq records worden gegenereerd door curation en door de eukaryotic genome annotation pipeline voor lncRNA genen. NCBI onderhoudt momenteel meer dan 540 000 eukaryotische lncRNA RefSeq records, waarvan meer dan 6700 zijn samengesteld en slechts een paar honderd zijn functioneel gekarakteriseerd. Van deze, zijn velen betrokken bij menselijke ziekte, zoals BACE1-zoals die een rol in de pathofysiologie van de ziekte van Alzheimer kan spelen, en hete lucht die met veelvoudige kanker (24,25) is geassocieerd. De overgrote meerderheid van de lncRNA ‘ s hebben Onbekende functies en de afwezigheid van lange open leesframes vormt een uitdaging in termen van het bevestigen van de volledigheid van het transcript. Bovendien, lncRNA inzendingen aan het INSDC zijn grotendeels gebaseerd op TSA ‘ s van korte gelezen datasets die artifactuele exon combinaties kunnen omvatten. RefSeq curatoren nemen een conservatieve benadering van het vertegenwoordigen van lncRNA genen, alleen handmatig creëren RefSeqs (met een NR_ toetreding prefix)voor hoge kwaliteit transcripten waarvoor we enige zekerheid van de exon structuur. Idealiter, zou de transcript steun met minstens drie exons moeten worden verbonden maar twee-exon en intronless transcripten kunnen worden vertegenwoordigd als zij door promotor-geassocieerde epigenomics, poly(a) bewijsmateriaal, extra cDNAs, en/of RNA-Seq gegevens worden gesteund. RefSeq lncRNA records voor niet-coderende genen kunnen worden opgehaald uit NCBI ‘ s Nucleotide database met behulp van de zoekstring ‘biomol ncrna lncrna’ en het selecteren van de RefSeq filter uit de linker kolom.

functionele annotatie

de unieke bijdrage van gecureerde eukaryotische RefSeq transcript records is dat ze functionele informatie integreren met een referentiesequentie. RefSeq curation staff voegt gensamenvattingen, nomenclatuur, transcript variant tekst, gen en sequentie attributen, en functionele kenmerken die beschikbaar zijn op de RefSeq record en/of via de Gen resource (http://www.ncbi.nlm.nih.gov/gene). In het afgelopen jaar, hebben de medewerkers van RefSeq verscheidene diepgaande annotatieprojecten nagestreefd, waarvan sommige kort in de volgende paragrafen worden beschreven, om functionele gegevens aan specifieke reeksen genen toe te voegen waar de computationele hulpmiddelen biologische kennis niet nauwkeurig kunnen vertegenwoordigen. Deze projecten omvatten annotatie van antimicrobial peptides, endogene retroviruses, replicatie-afhankelijke histones, regelgevende uORFs, en antizymes.

antimicrobiële peptiden (AMPs)

versterkers waren een recente curatie focus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). De versterkers zijn natuurlijk-voorkomend peptides die in een diverse reeks species worden gevonden en in vele immune rollen met inbegrip van bactericidal, antiviral, schimmeldodende en zelfs antitumoractiviteiten zijn betrokken. Een lijst van meer dan 130 menselijke genen coderen een of meer experimenteel bewezen versterkers werd verzameld uit verschillende publiek beschikbare AMP datasets en ook gedolven uit publicaties. De meeste van deze versterkers waren niet eerder geà dentificeerd in het RefSeq-gegevensbestand, en geen van de ampèregegevensbanken verbond de peptides aan hun het coderen gen. RefSeq curatoren handmatig geannoteerde de RefSeq records voor elke AMP-codering menselijke genen om ervoor te zorgen dat de functionele peptide werd geannoteerd, een publicatie waarin de antimicrobiële activiteit van de peptide, voor het toevoegen van een korte samenvatting beschrijving van de antimicrobiële activiteit van de gecodeerde AMP, en voor het opslaan van een nieuwe RefSeq kenmerk ‘Eiwit heeft antimicrobiële activiteit’, die is opgenomen in de RefSeq kenmerk gestructureerd commentaar (bijv. NM_001124.2 voor ADM; GeneID: 133). Om toegang te krijgen tot alle van de gecureerde menselijke transcript of eiwit AMP records, doorzoek de nucleotide of eiwit database met behulp van ‘eiwit heeft antimicrobiële activiteit’. Momenteel zal dit onderzoek 191 RefSeq verslagen, met inbegrip van lasvarianten en eiwitisovormen vinden.

endogene retrovirussen (ERVs)

endogene retrovirussen (ERVs) zijn genomische loci die zijn afgeleid van de voorouderlijke insertie van een exogeen retrovirus in het gastheergenoom. ERV loci zijn over het algemeen buiten het bereik van RefSeq; echter, we annoteren full-length ERV eiwitcoderende loci die in kaart brengen naar een enkele genomische locatie als ze zijn geëvolueerd om een gastheer functie te dienen, worden geassocieerd met een bekende ziekte, en/of als ze zijn toegewezen nomenclatuur door een officiële nomenclatuur Comité. Ongeveer 8% van het menselijk genoom is van retrovirale oorsprong (27); echter vanwege hun oude oorsprong hebben de meeste menselijke ERV loci nonsensmutaties verzameld en kunnen ze niet langer een eiwit coderen. De syncytine-eiwitten, die betrokken zijn bij de ontwikkeling van de placenta (28), zijn hier een bekende uitzondering op. Menselijke syncytine-1-en syncytine-2-eiwitten worden gecodeerd door de genen ERVW – 1 (NM_001130925.1, NM_014590.3) en ERVFRD-1 (NM_207582.2). Tot op heden hebben we 67 Refseq ‘ s gemaakt voor ERV loci, waaronder records die ERV-genen van een diverse reeks zoogdieren weergeven. Een nieuwe RefSeq attribuut categorie getiteld ‘endogeen retrovirus’ werd gemaakt voor deze records en verschijnt in een gestructureerde commentaar op de RefSeq record. Deze verslagen kunnen uit het Nucleotidegegevensbestand worden teruggehaald door ‘endogeen retrovirus ’te zoeken.

Replicatieafhankelijke histonen

tijdens de celdeling is een snelle synthese van histon-mRNAs vereist om grote hoeveelheden Histon-eiwitten te produceren. Cruciaal voor dit proces zijn de replicatie-afhankelijke histongenen die upregulated tijdens de G1/S fase van celcyclus (29). Een specifiek RefSeq project werd uitgevoerd met als doel de volledige set van replicatie-afhankelijke histone eiwit codering genen in mens en muis te cureren. Deze genen hebben een canonieke 3 ‘ histone stroomafwaarts element(HDE) opeenvolging in de genomic opeenvolging en de resulterende Rijpe mRNAs kenmerkend missen poly (a) staarten en in plaats daarvan beëindigen kort na een stam-lijnstructuur van RNA (30). Het HDE-element is te vinden op de precursor transcript, maar is niet opgenomen in de verwerkte transcript vertegenwoordigd door RefSeq. De plaats van de behouden 16 nucleotide stam-loop structuuropeenvolging wordt vermeld op het RefSeq-verslag als kenmerkende annotatie getiteld ‘stam-loop’. Een voorbeeld is te zien op de RefSeq entry NM_003539. 3 voor HIST1H4D (GeneID: 8360). Tot op heden zijn 127 humane en muizenreplicatie-afhankelijke histone RefSeq-records samengesteld en een RefSeq-attribuut toegevoegd dat kan worden gebruikt om deze records uit de Nucleotidedatabase op te halen met behulp van de zoekstring ‘replicatie-afhankelijke histone’.

Regulatory upstream open reading frames (uORFs)

vertaling van een upstream open reading frame (uORF) kan de vertaling van het primaire eiwitcoderende open reading frame (pORF) negatief beïnvloeden (31). Dit effect zwijgt niet altijd volledig porf-vertaling en kan afhankelijk zijn van celtype, ontwikkelingsstaat of Cellulaire conditie. Daarom, hoewel uORFs kan worden voorspeld uit de zes-frame vertaling van een transcript, het regelgevende effect van dit element moet worden bepaald door middel van experimentele validatie. RefSeq-curatoren beoordeelden de literatuur om transcripten met experimenteel bewijs van regulerende uORFs te vinden en bijgewerkte de bijbehorende RefSeq transcript records om een misc_feature toe te voegen die de locatie van deze uORFs aangeeft. Een voorbeeld is de RefSeq entry NM_000392.4 voor ABCC2 (GeneID: 1244). Een nieuwe RefSeq-attribuutcategorie met de titel ‘regulatory uORF’ werd gecreëerd en verschijnt in een gestructureerd commentaar op deze RefSeq-records. Zowel de geannoteerde functie als het attribuut citeren de ondersteunende publicatie door PubMed ID. Tot op heden zijn 260 records geannoteerd met deze eigenschap en deze records kunnen worden opgehaald uit de Nucleotide database door te zoeken naar ‘regulatory uORF ‘

Antizyme genen

Eén van de doelstellingen van het RefSeq-project is om genen met een uitzonderlijke biologie weer te geven die niet de standaard decoderingsregels van eiwitsynthese volgen. Het ornithine decarboxylase antizyme gen is zo ‘ n voorbeeld, waar een geprogrammeerd +1 ribosomaal frameshifting mechanisme optreedt en niet kan worden voorspeld door conventionele computationele tools. Een reeks vertebrate antizyme transcript en eiwitverslagen waren onlangs het onderwerp van een handannotatie-inspanning om normen tot stand te brengen om annotatie van deze genproducten door de eukaryotic genoomannotatiepijplijn (32) te verbeteren. De RefSeq records werden handmatig geannoteerd met de split CDS functie om ribosomale slippen weer te geven, en omvatten een ‘ribosomale slippen’ attribuut met gepubliceerd bewijs, diverse diverse functie annotaties (zoals de locatie van de frameshift site) en een korte samenvatting die de functie en nieuwe eigenschappen van het gen beschrijft (bijvoorbeeld NM_139081.2). Deze verslagen kunnen uit of het Nucleotide of Eiwitgegevensbestand met de zoekopdracht worden teruggehaald: gewervelde dieren refseq ribosomal slippen antizyme. Deze zoektocht vindt momenteel 242 RefSeq records (NM of NP), die transcript varianten en eiwit isovormen omvat.

ongewervelde soorten

Ongewervelde soorten vertegenwoordigen de overgrote meerderheid van de bestaande metazoën (33); echter, slechts een relatief klein aantal wordt vertegenwoordigd door gesequenced genomen. Dit ondanks het feit dat veel soorten een kritisch biomedisch belang hebben, zoals Anopheles gambiae, een vector voor malaria en Biomphalaria glabrata, een vector voor schistosomiasis (34,35). Andere ongewervelde dieren zoals Apis mellifera, Bombyx mori en Crassostrea gigas hebben een aanzienlijke commerciële waarde (36-38). De RefSeq-groep heeft inspanningen geleverd om het aantal en de omvang van in de dataset vertegenwoordigde ongewervelde genomen te vergroten door annotatie via de eukaryotische genoomannotatiepijplijn te verstrekken of door annotatie van INSDC-inzendingen op de RefSeq-kopie van die genomen te propageren. Voor beide processtromen zijn we afhankelijk van de publieke beschikbaarheid van hoogwaardige genomen in INSDC databases en NCBI ‘ s Assembly database (www.ncbi.nlm.nih.gov/assembly tot op heden zijn 46 ongewervelde genomen geannoteerd door NCBI, waaronder representatieve soorten insecten, spinachtigen, weekdieren en basale akkoorden. We verwachten een significante uitbreiding van het aantal insecten en andere ongewervelde genomen geannoteerd als gevolg van genoominitiatieven zoals de i5k (39), 1KITE (1k Insect Transcriptome Evolution, http://www.1kite.org/) en de Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

planten

RefSeq blijft de diversiteit van plantensoorten in de dataset vergroten. Tot op heden zijn 61 plantensoorten opgenomen in de RefSeq genomen dataset (ftp://ftp.ncbi.nlm.nih.gov / genomen / refseq / plant/) waarvan 33 soorten zijn geannoteerd via de eukaryotische genoomannotatiepijplijn; de rest zijn RefSeq-kopieën van geannoteerde genomen die bij het INSDC zijn ingediend. In de toekomst zullen meer planten genomen geselecteerd voor RefSeq opname worden verwerkt door de eukaryote annotatie pijplijn, in plaats van het propageren van annotatie uit de INSDC indiening. Dit is een verandering van beleid voor de RefSeq plant genomen en zal resulteren in een grotere algemene consistentie van plant annotatie data binnen de RefSeq dataset. De meerderheid van de RefSeq transcripten en eiwitten die beschikbaar zijn voor plantensoorten zijn ‘model’ records (Xm_, XP_ en XR_ toetredingen; Tabel 1), met een kleinere subset van ‘bekende’ records (NM_, NR_, NP_) die onafhankelijk van het annotatieproces worden gehandhaafd door een combinatie van geautomatiseerde verwerking en handmatige beoordeling. Voor Zea mays en Solanum lycopersicum worden momenteel handmatige curatie van plantaardige transcript-en eiwitgegevens verstrekt. De huidige curatie focus omvat uitgebreide sequentie herziening en is gericht op het oplossen van QA zorgen in de huidige set van transcripten. De foutenresolutie is gericht op het identificeren en verwijderen van chimerische transcripten, redundante transcripten en genen, en het verbeteren van de kwaliteit van de vertegenwoordigde opeenvolging door indels en mismatches Onder het RefSeq transcript, de genomische opeenvolging, en orthologe gegevens te beoordelen. Voor planten streven we ernaar om een gecureerde transcript-en eiwitdataset te leveren die consistent is met de cultivar die is geselecteerd voor genoomsequencing en assemblage. Het curatieprotocol dat wordt gebruikt voor gewervelde gegevens wordt ook gebruikt voor planten. Zo kunnen RefSeq transcript-records worden bijgewerkt om te worden gebaseerd op een andere INSDC-bronreeks, of kunnen ze worden samengesteld uit meer dan één INSDC-sequentierecord om een transcript van de geprefereerde cultivar te leveren. Als INSDC-transcriptgegevens niet beschikbaar zijn voor de genomische cultivar, kan een RefSeq-transcript worden gegenereerd uit de samengestelde genomische sequentie op basis van een combinatie van transcript-of eiwituitlijningen, RNA-Seq en/of gepubliceerde gegevens. Een tweede gebied van nadruk moet het aantal gesteunde bekende eiwit-codeert afschriften en proteã nen verhogen aangezien dit een samengesteld reagens verstrekt dat wanneer het annoteren van andere installatiegenomen kan worden gebruikt. Tot slot maken we meer RefSeqs die splice varianten vertegenwoordigen wanneer er voldoende ondersteunend bewijs is. Deze inspanningen zullen de kwaliteit van de plant RefSeq dataset aanzienlijk verbeteren en zullen bijdragen aan verbeteringen in toekomstige genoomannotaties. De huidige reeks plantgenomen die door de pijpleiding worden geannoteerd, kan worden geraadpleegd op de website van NCBI ‘ s eukaryotic genome annotation pipeline http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ met links naar het gedetailleerde annotatierapport en andere bronnen zoals species BLAST en FTP.

algen, schimmels, nematoden en PROTOZOA

de NCBI small eukaryotic genome pipeline is een nieuwe geautomatiseerde pijplijn ontworpen voor het genereren van RefSeq-records als gevolg van directe voortplanting van geannoteerde INSDC-records. De aldus gegenereerde RefSeq-records zijn kopieën van de Genbankgegevens met enkele formaatwijzigingen om aan de RefSeq-vereisten te voldoen. Het meest opvallende verschil tussen het originele INSDC record en het RefSeq record is de toevoeging van het RefSeq transcript product. Hoewel de kleine eukaryotische genoompijplijn niet ontworpen is om de novo genoomannotatie te genereren, trekt deze uit verschillende NCBI eukaryotische genoomannotatiepijplijnmodules en hun code (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

De benaming “kleine eukaryoten” verwijst naar het primaire gebruik van de pijpleiding om RefSeq-genomen te genereren voor relatief kleinere eukaryotische genomen (vergeleken met die van planten en gewervelde dieren) zoals die van algen, protozoa, schimmels, nematoden en sommige geleedpotigen. Echter, sommige grote planten genomen worden ook verwerkt met behulp van deze pijpleiding. Deze pijpleiding verwerkt hoogwaardige assemblages bestaande uit chromosomen en/of steigers en hun componenten. Die assemblages met hoge contig en scaffold N50, hoge kwaliteit sequentie, en redelijk goede INSDC-ingezonden annotatie hebben prioriteit. Deze pijpleiding, die een historische processtroom vervangt die meer handmatige ondersteuning nodig had, heeft pas onlangs een openbare productiefase bereikt en levert al een verhoogd aantal ‘kleine’ eukaryotische genomen op die in RefSeq worden vertegenwoordigd. Er wordt gewerkt aan het optimaliseren van de doorvoer van pijpleidingen en het toevoegen van meer automatisering en het verder minimaliseren van taken voor curatorverwerking. De plannen voor de langere termijn omvatten de implementatie van een systeem voor het beheer van eiwitnamen om de door het INSDC ingediende namen in de loop van de tijd te verstrekken, te corrigeren of te verbeteren. Veel genomen die in werkingsgebied voor de kleine eukaryotes pijplijn zijn kunnen momenteel niet door de (grote) eukaryotic genoomannotation pijplijn wegens taxonomische diversiteit en beperkte beschikbaarheid van transcript gegevens worden verwerkt die nodig zijn om de de novo annotation pijplijn op te leiden.

Fungal target loci

Fungal morfology is zeer divers, variërend van complexe meercellige structuren tot zeer eenvoudige enkele cellen. Een verscheidenheid aan morfologische structuren en sporentypes kan worden geproduceerd door een enkele soort. Omgekeerd produceren veel soorten vergelijkbare morfologie (morfologie), maar zijn in feite genetisch zeer ver verwijderd. Tot voor kort kon een enkele soort geldig worden beschreven met meer dan één binomiale naam op basis van seksuele of aseksuele morphs. In veel gevallen is slechts één morph beschreven en geregistreerd voor een bepaalde soort, hoewel soorten die er nauw mee verwant zijn, verschillende morphs kunnen hebben beschreven en geregistreerd. Bijgevolg zijn sequentievergelijkingen toegepast in de schimmelgemeenschap om onderscheid te maken tussen soorten, om soorten te volgen terwijl ze door complexe levenscycli gaan en om cryptische soorten te identificeren. Als onderdeel van het dynamische proces van taxonomische herevaluatie zijn veel correcties van schimmelsoorten niet altijd up-to-date in GenBank sequentiegegevens.

om een betrouwbaardere bron voor DNA-gebaseerde identificatie te zijn, moeten referentiesequenties afgeleid van typespecimens (die fungeren als referentie voor soorten) worden geëtiketteerd met de juiste en meest recente soortnaam. De Fungi RefSeq gerichte loci databases bieden deze waardevolle bron. PRJNA177353 is bijvoorbeeld een BioProject dat zich specifiek richt op de interne getranscribeerde spacer (ITS) regio ‘ s in de kernribosomale cistron die al vele jaren wordt gebruikt als fylogenetische marker en onlangs is goedgekeurd als de formele barcode sequentie van schimmels (41). De its RefSeq database begon als een samenwerking met Index Fungorum, MycoBank en UNITE, evenals een grote groep taxonomische specialisten. Sequenties werden geselecteerd, meestal uit type specimens van geldige beschrijvingen, en vervolgens werden de huidige correcte soortnamen geassocieerd met de sequenties met het doel om de meeste geaccepteerde schimmelorden weer te geven (8). De resultaten van deze curatie-inspanning zijn gebruikt en Geciteerd door verschillende publicaties (42-46) en hebben extra inspanningen geholpen bij het valideren van subsets van referentiesequenties, bijvoorbeeld medisch significante soorten (47).

Het doel, met voortgezette curatie, is om sequenties toe te voegen uit Nieuw beschreven orden en de representatie uit te breiden tot de meeste geaccepteerde families met een focus op medisch belangrijke schimmels. Het proces omvat ook het maken van correcties, het vervangen van de volgorde van geverifieerd materiaal met de volgorde van het type materiaal als het beschikbaar komt en het bewerken van definitie lijnen of het verwijderen van RefSeq records als taxonomische classificaties veranderingen. Dit zorgt ervoor dat BLAST zoekresultaten correct de huidige naam weer te geven. De RefSeq zijn verslagen zijn uitgebreid om 3.060 opeenvolgingen te vertegenwoordigen die 270 families van 39 klassen vertegenwoordigen. Tijdens de eerste samenwerking zijn RefSeq inspanning, een kleinere set van sequentie toetredingen van de 28S nuclear large subunit ribosomal gen (LSU) werden ook verzameld, maar niet geverifieerd. Een workflow vergelijkbaar met de its record curation proces werd gevolgd en tijdens de voortgezette curation deze LSU records zijn geverifieerd voor sequentiekwaliteit, correcte identificatie, en nauwkeurige brongegevens. Bijna 500 records (van 800 potentiële records) die >vertegenwoordigen 100 families uit 21 klassen werden geverifieerd en onlangs vrijgegeven. De 28S dataset kan worden opgehaald uit BioProject PRJNA51803 (48).

PROKARYOTES

de NCBI RefSeq prokaryotische genoomverzameling vertegenwoordigt geassembleerde prokaryotische genomen met verschillende niveaus van kwaliteit en bemonsteringsdichtheid. Voor prokaryotes, gebaseerd op vroegere gemeenschap terugkoppelt ons huidige beleid is om genoomannotatie voor alle prokaryotic genomen te verstrekken die aan onze kwaliteitscriteria voldoen. In de afgelopen jaren, hebben wij twee belangrijke uitdagingen geconfronteerd: (i) het bijhouden van de snelle escalatie van ingediende prokaryotic genomen; en, (ii) het aanpakken van een groeiende inconsistentie in genoomannotatie toe te schrijven aan het gebruik van zowel een insdc-propagatie-gebaseerde pijplijn en verschillende versies van een NCBI de novo genoomannotatie pijplijn zoals ontwikkeld in de tijd.

met de toenemende belangstelling voor menselijke pathogenen en de vooruitgang van de DNA-sequencingtechnologie, is het aantal gesequenced prokaryotische genomen in de afgelopen tien jaar snel toegenomen. Sommige bacteriële spanningen zijn vaak niet te onderscheiden gebruikend huidige genotyping benaderingen, maar de minder belangrijke genetische verschillen kunnen op basis van geheel-genoom worden ontdekt rangschikkend, die voor het karakteriseren van transmissiewegen, het identificeren van antibiotische weerstand, en het onderzoeken uitbraken nuttig is. Om voedsel-overgedragen ziekteverwekkers of besmettingsuitbarstingen te onderzoeken, zijn de grote aantallen bijna identieke bacteriële genomen gerangschikt en annotated in recente jaren, resulterend in talrijke identieke proteã nen, elk die een verschillend toetredingsaantal hebben. In 2013 introduceerde NCBI een nieuw eiwit data model en toetreding prefix (WP_) voor de RefSeq collectie. Deze verandering verminderde de redundantie in RefSeq prokaryotic proteã nen en vergemakkelijkte identificatie van proteã nen die identiek op meer dan één genoom werden gevonden. Het stond ook voor een betere strategie voor het beheren van prokaryotic eiwitnamen toe. Deze niet-redundante verslagen vertegenwoordigen unieke prokaryotic eiwitopeenvolgingen die onafhankelijk van om het even welk bepaald bacterieel genoom zijn en op veelvoudige spanningen of species kunnen worden geannoteerd (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

historisch gezien werd RefSeq bacterial genomes annotation gekweekt uit INSDC-inzendingen, indien beschikbaar, of gegenereerd met behulp van verschillende versies van NCBI ‘ s prokaryotic Genome Annotation Pipeline (die ook wordt aangeboden als een service voor GenBank-inzendingen). Dit resulteerde in geaccumuleerde inconsistenties in zowel structurele als functionele annotatie in de RefSeq prokaryotic dataset. In de afgelopen twee jaar verbeterde NCBI verscheidene aspecten van de prokaryotic pijpleiding van de Genoomannotatie om capaciteit te verhogen en annotatieregels verder te standaardiseren. Onze pijplijn combineert een gen calling algoritme, GeneMarkS+ (49,50), met een alignment-based gen detection approach en is in staat om zowel complete als concept WGS genomen te annoteren. De pijpleiding voorspelt momenteel eiwit-codeert genen, structurele RNAs (5S, 16S en 23S), tRNAs en kleine niet-codeert RNAs.

in 2015 hebben we een uitgebreide annotatie-update voor RefSeq prokaryotische genomen uitgebracht om genoomannotatie te harmoniseren en de overgang naar het nieuwe eiwitgegevensmodel te voltooien. Een nieuw prokaryotic eiwitnaam gegevensbestand, naamspecificaties, en een evidence-based strategie werden ontwikkeld en zijn momenteel in het proces om wordt ingezet. Tot nu toe, hebben meer dan 3 miljoen eiwitverslagen namen in een aanvankelijke demonstratie van de benadering bijgewerkt. Het nieuwe prokaryotic gegevensmodel biedt een significant voordeel aan naambeheer aan aangezien de eiwitnaam met het verslag van de eiwitopeenvolging wordt gedragen; het bijwerken van de naam op dat eiwitverslag resulteert in automatisch het verspreiden van de update aan alle genomen die met dat toetredingsaantal worden geannoteerd.

RefSeq prokaryotische genomen zijn georganiseerd in verschillende nieuwe categorieën, zoals referentie genomen en representatieve genomen op basis van curated attributen en assemblage en annotatie kwaliteitsmaten (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referentie genomen zijn handmatig geselecteerde ‘gouden standaard’ complete genomen met hoge kwaliteit annotatie en het hoogste niveau van experimentele ondersteuning voor structurele en functionele annotatie. Momenteel wordt een kleine dataset van 122 referentie genomen handmatig geannoteerd door samenwerkende groepen en NCBI staff. De referentie genomen zijn beschikbaar op: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Representatieve genomen worden computationeel berekend en geselecteerd om diverse species te vertegenwoordigen. De representatieve genomen zijn beschikbaar op: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq prokaryotische genoomgegevens kunnen worden geraadpleegd in BLAST databases, Web resources (assemblage, BioProject, genoom, Nucleotide en proteïne), via NCBI ’s programmeerprogramma’ s, of kunnen worden gedownload van de genomen of refseq FTP sites. Een aangepaste’ microben ‘ BLAST pagina, toegankelijk vanaf de BLAST home page, biedt opties om te zoeken tegen alle RefSeq prokaryotische genomen, de referentie en representatieve genomen subset, of om de zoekopdracht te beperken tot een specifieke taxa. Een subset van prokaryotic genomen wordt geannoteerd met een Genidentiteitskaart van NCBI en kan in de Genbron van NCBI of van de plaats van Gen FTP worden teruggehaald. Voor archaea is dit voorzien voor de meeste complete genomen. Voor bacteriën, wordt dit verstrekt voor referentie genomen en de representatieve genomen voor species die minstens 10 genoominzendingen hebben.

prokaryotische gerichte loci

in prokaryoten is de 16S ribosomale RNA-sequentie een standaard moleculaire marker geworden voor de beschrijving van een nieuwe soort. Hoewel deze markersequenties op grote schaal worden gebruikt, varieert de kwaliteit van de sequentiegegevens en de bijbehorende metagegevens die aan de INSDC-databases worden verstrekt aanzienlijk. Erkenning van het belang van toegang tot hoogwaardige gegevens voor deze markers, NCBI heeft haar gerichte loci project uitgebreid om een up-to-date bron van gecureerde gegevens te bieden. Het doelgerichte loci-project handhaaft momenteel bijna 18 000 16S ribosomale RNA-referentieopeenvolgingen waarvan meer dan 95% van typestammen zijn. De typestammen worden beschouwd als het voorbeeld van de soort en het is van essentieel belang dat de typestamgegevens worden geannoteerd met correcte metagegevens en vrij zijn van contaminatie.

Dit werk omvatte een uitputtende herziening en actualisering van de onderliggende taxonomiedatabase die in combinatie met het Entrez-filter van NCBI ‘ s typestam werd gebruikt om kandidaat-sequenties op te halen. De sequentiegegevens en de bijbehorende taxonomie/metagegevens zijn herzien en gecorrigeerd om de meest actuele informatie op te nemen. Als een validatie van een sequentie mislukte of niet nauwkeurig kon worden gevalideerd, werd deze uitgesloten. Deze referentieopeenvolgingen kunnen nu als ‘gouden normen’ voor de analyse van bestaande en nieuwe rRNA-opeenvolgingen worden gebruikt.

bacteriële en Archaeale 16S rRNA-datasets zijn beschikbaar uit BioProject (respectievelijk PRJNA33175 en PRJNA33317). Een aangepaste BLAST-database is ook beschikbaar (’16S ribosomale RNA-sequenties (bacteriën en Archaea)’).

virussen

Het RefSeq-gegevensmodel voor virussen verschilt van dat van andere organismen. In het algemeen wordt slechts één volledig RefSeq genoom gecreëerd voor elke virale species. Af en toe worden binnen een bepaalde virale soort meerdere RefSeq-records aangemaakt om duidelijk gedefinieerde genotypes of belangrijke laboratorium-en/of wilde stammen weer te geven. Aanvullende genomen voor een bepaalde soort worden gevalideerd op taxonomie en volledigheid en vervolgens geïndexeerd als sequentie ‘buren’ (52). Zowel RefSeq als neighbor genomen zijn terug te vinden via de gespecialiseerde virale Genoombron (http://www.ncbi.nlm.nih.gov/genome/viruses/) en via Entrez Nucleotide-en Genoompagina ’s met behulp van” RefSeq Genome for Species ” en “Other INSDC Genome Sequences” links (52).

taxonomie is een belangrijk punt van zorg voor virale genomica, aangezien er 3186 virale soorten zijn die officieel zijn erkend door het Internationaal Comité voor taxonomie van virussen (ICTV) (53) en 4834 volledige genomen van zowel officiële als voorlopige virale soorten beschikbaar zijn in de databanken van het INSDC. De NCBI Pairwise Sequence Comparison (PASC) Tool werd ontwikkeld om te helpen bij de classificatie van virale genomen op basis van globale en/of lokale uitlijningen tussen genomen (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Het toepassingsgebied van dit instrument is uitgebreid met een aantal virusfamilies en andere taxonomische groepen, en het is gebruikt om de afbakening van nieuwe taxonomische criteria te ondersteunen (54-57).

een ander opkomende probleem in virale genomica is inconsistente en / of onnauwkeurige annotatie onder Verwante virale genoomsequenties. Deze kwestie weerspiegelt vaak verschillende annotatieprocessen en het lopende experimentele werk en kan tot verwarring onder gegevensconsumenten leiden en vergelijkende analyse tussen genomen moeilijk maken. Dit probleem wordt aangepakt binnen de NCBI Virus Variation Resource (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) waar computationele pijpleidingen worden gebruikt om up-to-date, gestandaardiseerde annotatie voor verschillende virussen te bieden (58). Momenteel berekenen deze pijpleidingen gestandaardiseerde gen-en eiwitgrenzen voor alle influenzavirus, denguevirus en West-Nijlvirussequenties en gestandaardiseerde gen-en eiwitnamen en metagegevenstermen voor deze en twee andere virussen, het Midden-Oosten respiratory coronavirus en Ebolavirus. Deze gestandaardiseerde gegevens worden dan gebruikt binnen een gespecialiseerde, metadata-centric zoekinterface die de gemakkelijke terugwinning van opeenvolgingen op specifieke biologische criteria vergemakkelijkt.

het handhaven van up-to-date, algemeen aanvaarde annotatienormen vereist voortdurende samenwerking met de grotere wetenschappelijke gemeenschap. De NCBI Viral Genome Annotation Working Group werd opgericht om consortia van openbare databases, sequencing centra en onderzoeksgroepen te benutten om gestandaardiseerde sequentieannotatie te ontwikkelen evenals naamgevingsschema ‘ s voor verschillende groepen virussen te isoleren (59-63). Deze aanpak stelt niet alleen normen vast voor virale annotatie, maar vertegenwoordigt ook deze normen binnen het huidige RefSeq-record, waardoor de toegankelijkheid voor alle databankgebruikers en-indieners wordt gewaarborgd. Soortgelijke samenwerkingen zijn ook nodig om interpretatieve hulpmiddelen met toegevoegde waarde te ondersteunen, zoals de HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses / hiv-1/ interacties/) (64). Medewerkers van het Southern Research Institute bieden gedocumenteerde HIV-1, menselijke moleculaire interacties samengesteld uit de literatuur en NCBI onderhoudt een gebruiksvriendelijke bron waar gebruikers kunnen vragen naar specifieke soorten interacties en meer informatie over de betrokken genen vinden.

toekomstige richtingen

Het RefSeq-project is uniek in het aanbieden van een referentiesequentiedataset van transcripten, eiwitten en genomen die alle koninkrijken van het leven omvat en actief is onderhouden en bijgewerkt in de loop van de tijd om verbeterde computationele strategieën, nieuwe gegevenstypen en nieuwe kennis op te nemen. We hebben aangetoond dat het vermogen en de capaciteit om te reageren op recente snelle stijgingen in het aantal sequenced genomen ingediend bij INSDC databases. Wij hebben een diverse reeks beleid en strategieën voor de curation en annotatie van eukaryotic, prokaryotic, en virale species gedefinieerd om de verschillende behoeften van organisme-specifieke gemeenschappen te ontmoeten. De RefSeq dataset wordt wijd gebruikt als referentiestandaard voor vele verschillende analyses met inbegrip van menselijke en pathogeen klinische toepassingen, vergelijkende genomica, uitdrukkingsanalyses, de interpretatie van de opeenvolgingsvariatie, en zowel array als sondebouw. Bij NCBI, wordt de RefSeq dataset geïntegreerd in veelvoudige middelen met inbegrip van assemblage, BLAST, Epigenomics, Gen (waar RefSeq annotatie de primaire basis voor de meeste Geningangen is), genoom, dbSNP, dbVar, Variatieviewer, en meer.

We zullen ons blijven richten op handmatige curatie om structurele en functionele informatie voor menselijke en andere gewervelde genomen te verbeteren. Onze conservatieve handmatige curatiebenadering zorgt voor de voortdurende hoge kwaliteit en betrouwbaarheid van de menselijke, muis en andere ‘bekende’ RefSeq-records die tegemoet komt aan de behoeften van degenen die behoefte hebben aan een goed onderbouwde definitie van alternatieve exons (minder valse positieven). De toevoeging van RNA-Seq gegevens aan onze annotatiepijpleiding verhoogde beduidend onze annotatie van alternatieve lasvarianten als model RefSeqs om de behoeften van hen te dienen die uitgebreider, maar nog goed-gesteund, definitie van exome (minder valse negatieven) willen. Hoewel zowel bekende als model Refseq ‘ s het ondersteunend bewijs op het sequentierecord rapporteren, gebruiken ze verschillende benaderingen om dit te doen. Toekomstige inspanningen zullen gericht zijn op het harmoniseren van de rapportage van bewijsmateriaal voor zowel “bekende” als “model” Refseq ‘s, zodat gebruikers deze informatie gemakkelijker kunnen identificeren. We zullen in de nabije toekomst ook een nieuw gegevenstype toevoegen aan de RefSeq-collectie van mens en muis om experimenteel gerapporteerde regelgevende en functionele elementen met bekende (of redelijk afgeleide) functionele gevolgen weer te geven.

voor prokaryotische genomen blijven we werken aan het verfijnen van aspecten van de structurele annotatie die wordt gegenereerd door de prokaryotische Genoomannotatiepijplijn. Ons werk aan een nieuwe aanpak voor het beheren van functionele informatie wordt nog steeds verfijnd en zal elders worden beschreven. We verwachten opnieuw annoteren van de gehele RefSeq prokaryotic genomen dataset wanneer nieuwe versies van onze prokaryotic annotation pipeline beschikbaar komen (om structurele annotatie te verbeteren). Het besluit om al RefSeq prokaryotes te annoteren gebruikend één enkele methode, samen met het zuivere volume van deze gegevensset, vereist een verschillende benadering die veelvoudige bronnen van bewijsmateriaal gebruikt om functionele informatie te verstrekken. Eiwitnamen zullen voortdurend worden bijgewerkt zoals georganiseerd door eiwitfamilies of categorieën van bewijstype. Onze doelstellingen voor het komende jaar omvatten een grotere integratie van Rfam (65) in onze annotatiepijplijn, uitgebreide samenwerking, verbeterde eiwitnamen en rapportage van Ondersteuningsgegevens over het eiwitsequentierecord.

we willen de wetenschappelijke gemeenschap bedanken voor constructieve feedback, suggesties, foutrapporten en samenwerkingen in de afgelopen 15 jaar die hebben bijgedragen aan de kwaliteit en nauwkeurigheid van de weergegeven sequentie, structurele annotatie en functionele annotatie.

financiering

intramuraal Onderzoeksprogramma van het NIH, National Library of Medicine. Financiering van Open access charge: het intramurale Onderzoeksprogramma van de National Institutes of Health, National Library of Medicine.

verklaring inzake belangenconflicten. Geen verklaard.

Nosek
B. A.

Wijzigen
G.

Banken
G. C.

Borsboom
D.

Boogschutter
S. D.

Breckler
S. J.

Buck
S.

Kamers
C. D.

China
G.

Christensen
G.

et al.

wetenschappelijke normen. Het bevorderen van een open onderzoek cultuur
Wetenschap
2015
348
1422
1425

Grijs
K. A.

Yates
B.

Zegel
R. L.

Wright
M. W.

Bruford
E. A.

Genenames.org: de HGNC middelen in 2015
Nucleïnezuren Res.
2015
43
D1079
D1085

Ruzicka
L.

Zoetermeer
Y. M.

Frazer
K.

Howe
D. G.

Paddock
Uur

Ramachandran
S.

Zanger
A.

Bull
S.

Van Slyke
C. E.

Eagle
A. E.

et al.

ZFIN, De zebravis model organisme database: Updates en nieuwe richtingen
Genesis
2015
53
498
509

UniProt
C.

UniProt: een hub voor de eiwit-informatie
Nucleïnezuren Res.
2015
43
D204
212

Kozomara
A.

Griffiths-Jones
S.

miRBase: het annoteren van hoge vertrouwen van de microrna ‘ s met behulp van deep sequencing data
Nucleïnezuren Res.
2014
42
D68
73

McGarvey
K. M.

Goldfarb
T.

Cox
E.

Farrell
C. M.

Gupta
T.

Joardar
V. S.

Kodali
V. K.

Murphy
M. R.

O ‘ Leary
N. A.

Pujar
S.

muisgenoomannotatie door het RefSeq-project
Mamm. Genoom
2015
26
379
390

Dalgleish
R

Flicek
P.

Cunningham
F.

Astashyn
A.

Tully
R. E.

Proctor
G.

Hond
Y

McLaren
W. M.

Larsson
P.

Vaughan
B. W.

et al.

Locus Reference Genomic sequences: the improved basis for describing human DNA variants
Genome Med.
2010
2
24

Schoch
C. L.

Robbertse
B.

Robert
V.

Vu
D.

Cardinali
G.

Irinyi
L.

Meyer
W.

Nilsson
R. H.

Hughes
K.

Miller
A. N.

et al.

het Vinden van naalden in hooibergen: het koppelen van wetenschappelijke namen, referentie monsters en moleculaire gegevens voor Schimmels
Database
2014
1
21

Zhang
G.

Het
C.

Het
Q.

Het
B.

John
D. M.

Lee
C.

Storz
J. F.

Antunes
A.

Greenwold
M. J.

Meredith
R. W.

et al.

Vergelijkende genomics onthult inzichten in aviaire genoom evolutie en aanpassing
Wetenschap
2014
346
1311
1320

Jarvis
E. D.

Mirarab
S.

Aberer
A. J.

Het
B.

Houde
P.

Het
C.

Ho
S. Y.

Lauch
B. C.

Nabholz
B.

Howard
J. T.

et al.

Hele genoom analyses oplossen begin van de takken in de boom van het leven van de moderne vogels
Wetenschap
2014
346
1320
1331

Farrell
C. M.

O ‘ leary
N. A.

Harte
R. A.

Loveland
J. E.

Wilming
L. G.

Wallin
C.

Diekhans
M.

Barrell
D.

Searle
S. M.

Aken
B.

et al.

Huidige status en de nieuwe functies van de Consensus codeerschema database
Nucleïnezuren Res.
2014
42
D865
D872

Pruitt
K. D.

Tatusova
T.

Maglott
D.R.

NCBI referentie-sequenties (RefSeq): een curator niet-redundante reeks database van genomen, afschriften en eiwitten
Nucleïnezuren Res.
2007
35
D61
D65

Hopkins
B. D.

Fijn
B.

Steinbach
N.

Dendy
M.

Rapp
Z

Shaw
J.

Ross
K.

Yu
J. S.

Hodakoski
C.

Mense
S.

et al.

De afgescheiden PTEN fosfatase, dat komt in de cellen te veranderen signalering en overleven
Wetenschap
2013
341
399
402

Liang
Uur

Hij
S.

Yang
J.

Jia
X.

Wang
P.

Hond
X.

Zhang
Z

Dierentuin
X.

McNutt
M. A.

Sheng
W. H.

et al.

PTENalpha, de PTEN-isovorm vertaald door alternatieve initiatie, reguleert de mitochondriale functie en het energiemetabolisme
Celmetab.
2014
19
836
848

Bolouri
H.

modelleren van Genome regulatory networks met big data
Trends Genet.: TIG –
2014
30
182
191

Fagerberg
L.

Hallstrom
B. M.

Oksvold
P.

Kampf
C.

Djureinovic
D.

Odeberg
J.

Habuka
M.

Tahmasebpoor
S.

Danielsson
A.

Edlund
K.

et al.

Scan van de humane weefselspecifieke expressie door genoombrede integratie van transcriptomica en proteomica op basis van antilichamen
Mol. Cel. Proteomics : MCP
2014
13
397
406

Bernstein
B. E.

Stamatoyannopoulos
J. A.

Costello
J. F.

Taille
B.

Milosavljevic
A.

Meissner
A.

Kellis
M.

Marra
M. A.

Beaudet
A. L.

Ecker
J. R.

et al.

the NIH roadmap epigenomics mapping consortium
Nat. Biotechnol.
2010
28
1045
1048

Hoffman
M. M.

Ernst
J.

Wilder
S. P.

Kundaje
A.

Harris
R. S.

Libbrecht
M.

Giardine
B.

Ellenbogen
P. M.

Bilmes
J. A.

Birney
E.

et al.

integratieve annotatie van chromatine-elementen uit CODEGEGEVENS
nucleïnezuren res.
2013
41
827
841

Derti
A.

Kees-Engele
P.

Macisaac
K. D.

Stevens
R.C.

Sriram
S.

Hond
R

Rohl
C. A.

Johnson
J. M.

Babak
T.

De kwantitatieve atlas van polyadenylation op de vijf zoogdieren
Genoom Res.
2012
22
1173
1183

Lin
M. F.

Jungreis
I.

Kellis
M.

PhyloCSF: de vergelijkende genomics methode om onderscheid te maken eiwit coderende en niet-coderende regio ‘ s
bio-informatica
2011
27
i275
282

Prijs
A. L.

Jansen
N. C.

Pevzner
P. A.

De novo identificatie van herhalen gezinnen in grote genoom
bio-informatica
2005
21 Suppl 1
i351
358

Kodzius
R

Kojima
M.

Nishiyori
Uur

Nakamura
M.

Fukuda
S.

Tagami
M.

Sasaki
D.

Imamura
K.

Kai
C.

Harbers
M.

et al.

CAGE: cap analyse van genexpressie
Nat. Methodes
2006
3
211
222

Morris
K. V.

Mattick
J. S.

de opkomst van De regulerende RNA
Nat. Eerwaarde Genet.
2014
15
423
437

de Evin –
G.

Hince
C.

BACE1 als een therapeutisch doel in de ziekte van Alzheimer: rationale en de huidige status
Drugs Aging
2013
30
755
764

Yu
X.

Het
Z

Lange niet-coderende RNA HOTAIR:een roman-oncogen (review)
Mol. Med. Rep.
2015
12
5611
5618

Zasloff
M.

antimicrobiële peptiden in gezondheid en ziekte
N. Engl. J. Med.
2002
347
1199
1200

Lander
E. S.

Linton
L. M.

Birren
B.

Nusbaum
C.

Zody
M. C.

Baldwin
J.

Devon
K.

Dewar
K.

Doyle
M.

FitzHugh
W.

et al.

Initiële sequencing en analyse van het menselijk genoom
Natuur
2001
409
860
921

Muren
S.

Lee
X.

Het
X.

Veldman
G. M.

Finnerty
Uur

Racie
L.

LaVallie
E.

Tang
X. Y.

Edouard
P.

Howes
S.

et al.

Syncytin is een captive-retrovirale envelop eiwit in menselijke placenta morphogenesis
Natuur
2000
403
785
789

Marzluff
W. F.

Gongidi
P.

de Bossen
K. R.

Jin
J.

Maltais
L. J.

De mens en de muis replicatie afhankelijk van de histon-genen
Genomics
2002
80
487
498

Geeft
V.

Karpiuk
O.

Tieg
B.

Kriegs
M.

Dikomey
E.

Krebber
Uur

Begus-Nahrmann
Y.

Janssen
S. A.

De subset van de histon-H2B genen produceert polyadenylated mRNAs onder een verscheidenheid van cellulaire voorwaarden
PLoS One
2013
8
e63745

Barbosa
C.

Peixeiro
I.

Romao
L.

genexpressie verordening door upstream open reading frames en ziekte van de mens
PLoS Genet.
2013
9
e1003529

Rajput –
B.

Murphy
T. D.

Pruitt
K. D.

RefSeq curatie en annotatie van antizyme en antizyme remmer genen in gewervelde dieren
Nucleïnezuren Res.
2015
43
7270
7279

Zhang
Z. V.

Dierlijke biodiversiteit: Omtrek van een hoger niveau van de taxonomie en onderzoek van taxonomische rijkdom (Addenda 2013)
Zootaxa
2013
3703
1
82

Holt
R. A.

Subramanian
G. M.

Halpern
A.

Sutton
G. G.

Charlab
R

Nusskern
D. R.

Wincker
P.

Clark
A. G.

Ribeiro
J. M.

Wides
R.

et al.

De genoomsequentie van de malariamug Anopheles gambiae
Wetenschap
2002
298
129
149

Ridder
M.

Arican-Goktas
H. D.

Ittiprasert
W.

Odoemelam
E. C.

Miller
A. N.

Bridger
J. M.

schistosomen en slakken: een moleculaire ontmoeting
Front. Genet.
2014
5
230

Het Genoom Sequencing, C.
Inzicht in sociale insecten uit het genoom van de groeiende Apis mellifera
Natuur
2006
443
931
949

Xia
Q.

Zhou
Z

Lu
C.

Tiffany
D.

Dai
F.

Het
B.

Zhao
P.

Zha
X.

Tiffany
T.

Chai
C.

et al.

Een ontwerp-sequentie van het genoom van de gedomesticeerde zijderups (Bombyx mori)
Wetenschap
2004
306
1937
1940

Zhang
G.

Fang
X.

Guo
X.

Het
L.

Luo
R

Xu
F.

Yang
P.

Zhang
L.

Wang
X.

Qi
Uur

et al.

De oester genoom blijkt stress aanpassing en de complexiteit van shell vorming
Natuur
2012
490
49
54

i5K, Consortium
De i5K Initiatief: het bevorderen van geleedpotigen genomics voor de kennis, de gezondheid van de mens, de landbouw, de en de omgeving
J. Erfelijkheid
2013
104
595
600

Wetenschappers
G. C. o.

Bracken-Grissom
H.

Collins
A. G.

Collins
T.

Crandall
K.

Distel
D.

Dunn
C.

Giribet
G.

Schelvis
S.

Knowlton
N.

et al.

the Global Invertebrate Genomics Alliance (GIGA) : ontwikkeling van communautaire middelen voor de studie van diverse ongewervelde genomen
J. Erfelijkheid
2014
105
1
18

Schoch
C. L.

Seifert
K. A.

Huhndorf
S.

Robert
V.

Spouge
J. L.

Levesque
C. A.

Hond
W.

Bolchacova
E.

Voigt
K.

Crous
P. W.

et al.

Nuclear ribosomal internal transcribed spacer (ITS) region as a universal DNA barcode marker for Fungi
Proc. Natl. Acad. Sci. U. S. A.
2012
109
6241
6246

Visagie
C. M.

Houbraken
J.

Frisvad
J. C.

Hong
S. B.

Klaassen
C. H.

Perrone
G.

Seifert
K. A.

Varga
J.

Yaguchi
T.

Samson
R. A.

identificatie en bom van het geslacht Penicillium
dekhengst. Mycol.
2014
78
343
371

Corte
L.

zeggen Cagno
R

Groenewald
M.

Roscini
L.

Colabella
C.

Gobbetti
M.

Cardinali
G.

fenotypische en moleculaire diversiteit van meyerozyma guilliermondii stammen een geïsoleerd uit voedsel en andere milieu-niches, aanwijzingen voor de beginnende speciatie
voedsel microbiol.
2015
48
206
215

Federhen
S.

Voorraad materiaal in de NCBI Taxonomy Database
Nucleïnezuren Res.
2015
43
D1086
D1098

Nilsson
R. H.

Tedersoo
L.

Ryberg
M.

Kristiansson
E.

Hartmann
M.

Unterseher
M.

Porter
T. M.

Bengtsson-Palme
J.

Walker
D. M.

de Sousa
F.

et al.

de uitgebreide, automatisch bijgewerkte dataset van de sequentie van fungal ITS voor referentiegebaseerde chimera-controle in milieusequencinginspanningen
Microb. Circa/JSME
2015
30
145
150

Mittelbach
M.

Yurkov
A. M.

Nocentini
D.

Nepi
M.

Weigend
M.

Begerow
D.

Nectarsuikers en vogelvisitatie bepalen het bloemlikken voor basidiomyceteuze gist op de Canarische Eilanden
BMC Ecol.
2015
15
2

Irinyi
L.

Serena
C.

Garcia-Hermoso
D.

Arabatzis
M.

Desnos-Ollivier
M.

Vu
D.

Cardinali
G.

Arthur
I.

Normand
A. C.

Giraldo
A.

et al.

The International Society of Human and Animal Mycology (ISHAM)-ITS reference DNA barcoding database – the quality controlled standard tool for routine identification of human and animal pathogenic fungi
Med. Mycol.
2015
53
313
337

Schoch
C. L.

Seifert
K. A.

Huhndorf
St.

Robert
V.

Spouge
J. L.

Levesque
C. A.

Chen
W.

Schimmelinfectie Barcoding
C.

Schimmelinfectie Barcoding Consortium Auteur, L.
de Nucleaire ribosomaal internal transcribed spacer (ITS) regio als een universele DNA-streepjescode marker voor Schimmels
Proc. Natl. Acad. Sci. U. S. A.
2012
109
6241
6246

Besemer
J.

Lomsadze
A.

Borodovsky
M.

GeneMarkS: een zelf-training methode voor de voorspelling van gen begint in microbiële genomen. Implicaties voor het vinden van sequentiemotieven in regelgevingsgebieden
nucleïnezuren res.
2001
29
2607
2618

Borodovsky
M.

Lomsadze
A.

Genidentificatie in prokaryotische genomen, Fagen, metagenomen en EST-sequenties met genemarks suite
Curr. Protocol. Microbiol.
2014
32
Eenheid 1 7

Tatusova
T.

Ciufo
S.

Federhen
S.

Fedorov
B.

McVeigh
R

O ‘ neill
K.

Tolstoj
I.

Zaslavsky
L.

Update op RefSeq microbiële genomen resources
Nucleïnezuren Res.
2015
43
D599
D605

Brister
J. R.

Ako-Adjei
D.

Bao
Y

Blinkova
O.

NCBI virale genoom resource
Nucleïnezuren Res.
2015
43
D571
D577

Adams
M. J.

Lefkowitz
E. J.

King
A. M.

Bamford
D. H.

Breitbart
M.

Davison
A. J.

Ghabrial
S. A.

Gorbalenya
A. E.

Knowles
N. J.

Krell
P.

et al. stemming over taxonomische voorstellen aan het Internationaal Comité voor taxonomie van virussen (2015)

Arch. Ferrule.
2015
160
1837
1850

Bao
Y

Chetvernin
V.

Tatusova
T.

PAirwise Volgorde Vergelijking (PASC) en de toepassing ervan in de taxonomie van filoviruses
Virussen
2012
4
1318
1327

Bao
Y

Chetvernin
V.

Tatusova
T.

Verbeteringen aan pairwise volgorde vergelijking (PASC): het genoom-web-based tool voor het virus taxonomie
Arch. Ferrule.
2014
159
3293
3304

Kuhn
J. H.

Durrwald
R

Bao
Y

Briese
T.

Kooldioxide
K.

Clawson
A. N.

deRisi
J. L.

Garten
W.

Jahrling
P. B.

Kolodziejek
J.

et al. Taxonomische reorganisatie van de familie Bornaviridae

Arch. Ferrule.
2015
160
621
632

Radoshitzky
S. R.

Bao
Y

Buchmeier
M. J.

Charrel
R.N.

Clawson
A. N.

Clegg
C. S.

DeRisi
J. L.

Emonet
S.

Gonzalez
J. P.

Kuhn
J. H.

et al.

verleden, heden en toekomst van arenavirus taxonomie
Arch. Ferrule.
2015
160
1851
1874

Brister
J. R.

Bao
Y

Zjdanov
S. A.

Ostapchuck
Y

Chetvernin
V.

Kiryutin
B.

Zaslavsky
L.

Kimelman
M.

Tatusova
T. A.

Virus Variatie Resource–recente updates en toekomstige richtingen
Nucleïnezuren Res.
2014
42
D660
665

Seto
D.

Chodosh
J.

Brister
J. R.

Jansen
M. S.

de Leden van het Adenovirus Onderzoek, C.
gebruikmakend van de gehele genoomsequentie om menselijke adenovirussen te karakteriseren en te benoemen.
2011
85
5701
5702

Matthijnssens
J.

Ciarlet
M.

McDonald ‘
S. M.

Attoui
Uur

Banyai
K.

Brister
J. R.

Buesa
J.

Esona
M. D.

Estes
M. K.

Gentsch
J. R.

et al.

uniformiteit van rotavirus stam bom voorgesteld door de Rotavirus Taxonomy Working Group (RCWG)
Arch. Ferrule.
2011
156
1397
1413

Brister
J. R.

Bao
Y

Kuiken
C.

Lefkowitz
E. J.

Le Mercier
P.

Leplae
R

Madupu
R

Scheuermann
R. H.

Schobel
S.

Seto
D.

et al.

in de Richting van het virale genoom annotatie normen, verslag van de 2010 NCBI Annotatie Workshop
Virussen
2010
2
2258
2268

Brister
J. R.

Le Mercier
P.

Hu
J. C.

Microbiële virus genoom annotatie-ondertussen de troepen om te vechten de volgorde aanval
Virologie
2012
434
175
180

Kuhn
J. H.

Andersen
K. G.

Bao
Y

Bavari
S.

Becker
S.

Bennett
R. S.

Bergman
N. H.

Blinkova
O.

Bradfute
S.

Brister
J. R.

et al.

Filovirus RefSeq vermeldingen: de waardering en selectie van filovirus type varianten, typisch sequenties, en namen
Virussen
2014
6
3663
3682

Ako-Adjei
D.

Fu
W.

Wallin
C.

Katz
K. S.

Nummer
G.

Darji
D.

Brister
J. R.

Ptak
R. G.

Pruitt
K. D.

HIV-1, menselijke interactie database: huidige status en nieuwe eigenschappen
Nucleïnezuren Res.
2015
43
D566
570

Nawrocki
E. P.

Burge
SW

Bateman
A.

Daub
J.

Eberhardt
R. Y.

Eddy
S. R.

Floden
E. W.

Gardner
P. P.

Jansen
T. A.

Tate
J.

et al.

Rfam 12.0: updates van de database van RNA-families
nucleïnezuren res.
2015
43
D130
D137

gepubliceerd door Oxford University Press namens nucleïnezuren onderzoek 2015. Dit werk is geschreven door(een) medewerker (s) van de Amerikaanse overheid en bevindt zich in het publieke domein in de VS.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.