Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Das RefSeq-Projekt nutzt die an die International Nucleotide Sequence Database Collaboration (INSDC) übermittelten Daten gegen eine Kombination aus Berechnung, manueller Kuration und Zusammenarbeit, um einen Standardsatz stabiler, nicht redundanter Referenzsequenzen zu erstellen. Das RefSeq-Projekt ergänzt diese Referenzsequenzen um aktuelles Wissen einschließlich Publikationen, Funktionsmerkmalen und informativer Nomenklatur. Die Datenbank repräsentiert derzeit Sequenzen von mehr als 55 000 Organismen (>4800 Viren, >40 000 Prokaryoten und >10 000 Eukaryoten; RefSeq Release 71), die von einem einzigen Datensatz bis zu vollständigen Genomen reichen. Dieses Papier fasst den aktuellen Status der viralen, prokaryotischen und eukaryotischen Zweige des RefSeq-Projekts zusammen, berichtet über Verbesserungen des Datenzugriffs und beschreibt die Bemühungen, die taxonomische Repräsentation der Sammlung weiter auszubauen. Wir heben auch verschiedene Initiativen zur funktionalen Kuration hervor, die die mehrfache Verwendung von RefSeq-Daten unterstützen, einschließlich taxonomischer Validierung, Genomannotation, vergleichender Genomik und klinischer Tests. Wir fassen unseren Ansatz zur Verwendung verfügbarer RNA-Seq und anderer Datentypen in unserem manuellen Kuratierungsprozess für Wirbeltiere zusammen, Pflanze, und andere Arten, und beschreiben eine neue Richtung für prokaryotische Genome und Proteinnamenmanagement.

EINLEITUNG

In den letzten 15 Jahren diente die RefSeq-Datenbank des National Center for Biotechnology Information (NCBI) als wesentliche Ressource für die genomische, genetische und proteomische Forschung. Die Bereitstellung kuratierter und stabiler annotierter Referenzgenome, Transkripte und Proteine für ausgewählte Viren, Mikroben, Organellen und eukaryotische Organismen durch das RefSeq-Projekt hat es den Forschern ermöglicht, sich im Gegensatz zu den redundanten Daten in der GenBank auf die besten repräsentativen Sequenzdaten zu konzentrieren und eindeutig auf bestimmte genetische Sequenzen zu verweisen. Die RefSeq-Sammlung enthält explizit verknüpfte Genom-, Transkript- und Proteinsequenzdatensätze, die Veröffentlichungen, informative Nomenklatur sowie standardisierte und erweiterte Merkmalsanmerkungen enthalten. RefSeq-Datensätze sind in die NCBI-Ressourcen integriert, einschließlich der Nukleotid-, Protein- und BLAST-Datenbanken, und können leicht durch das Schlüsselwort ‚RefSeq‘ und durch ihre eindeutigen Beitrittspräfixe identifiziert werden, die ihren Typ definieren (Tabelle 1). Alle RefSeq-Daten unterliegen Qualitätssicherungsprüfungen (QA) mit einigen speziellen QA-Tests, die für verschiedene Taxa oder Datentypen entwickelt wurden. Zum Beispiel werden alle viralen RefSeqs vor der Veröffentlichung einer taxonomischen Überprüfung durch NCBI-Mitarbeiter unterzogen. RefSeq-Akzessionen werden in wissenschaftlichen Publikationen und genetischen Datenbanken häufig zitiert, da sie ein stabiles und konsistentes Koordinatensystem bieten, das als Basis für die Meldung genspezifischer Daten, klinischer Variationen und artenübergreifender Vergleiche verwendet werden kann. Diese Referenzsequenzstandards werden immer wichtiger, da eine genaue Berichterstattung und Reproduzierbarkeit wichtige Komponenten für Best Practices in der biomedizinischen Forschung sind (1).

RefSeq-Beitrittspräfixe

Tabelle 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein Proteine, die auf NM_-Transkript-Akzessionen oder auf genomischen Molekülen ohne instanziiertes Transkript annotiert sind (z. einige mitochondriale Genome, virale Genome und referenzbakterielle Genome
AP_3 Protein Proteine, die auf AC_-Genomakzessionen annotiert sind oder auf genomischen Molekülen ohne instanziierten Transkriptdatensatz annotiert sind
XP_3,5 Protein Proteine, die auf XM_-Transkriptakzessionen annotiert sind oder auf genomische Moleküle ohne einen instanziierten Transkriptdatensatz
YP_3 Protein Proteine, die auf genomischen Molekülen ohne einen instanziierten Transkriptdatensatz annotiert sind
WP_6 protein Proteine, die über mehrere Stämme und Arten hinweg nicht redundant sind. Ein einzelnes Protein dieses Typs kann auf mehr als einem prokaryotischen Genom annotiert sein
Präfix . Molekültyp . Kontext verwenden .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein Proteine, die auf NM_-Transkript-Akzessionen oder auf genomischen Molekülen ohne instanziiertes Transkript annotiert sind (z. einige mitochondriale Genome, virale Genome und referenzbakterielle Genome
AP_3 Protein Proteine, die auf AC_-Genomakzessionen annotiert sind oder auf genomischen Molekülen ohne instanziierten Transkriptdatensatz annotiert sind
XP_3,5 Protein Proteine, die auf XM_-Transkriptakzessionen annotiert sind oder auf genomische Moleküle ohne einen instanziierten Transkriptdatensatz
YP_3 Protein Proteine, die auf genomischen Molekülen ohne einen instanziierten Transkriptdatensatz annotiert sind
WP_6 protein Proteine, die über mehrere Stämme und Arten hinweg nicht redundant sind. Ein einzelnes Protein dieses Typs kann auf mehr als einem prokaryotischen Genom annotiert sein

1Das vollständige Format der Zugangsnummer besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 6 Zahlen, gefolgt von der Sequenzversionsnummer.

2Das vollständige Beitrittsformat besteht aus dem Präfix, gefolgt von der INSDC-Beitrittsnummer, auf der der RefSeq-Datensatz basiert, gefolgt von der Versionsnummer der RefSeq-Sequenz.

3Das vollständige Beitrittsnummernformat besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 6 oder 9 Zahlen, gefolgt von der Sequenzversionsnummer.

4 Datensätze mit diesem Beitrittspräfix wurden von NCBI-Mitarbeitern oder einer Modellorganismus-Datenbank kuratiert oder befinden sich im Pool der Beitritte, mit denen Kuratoren arbeiten. Diese Datensätze werden als ‚bekannter‘ RefSeq-Datensatz bezeichnet.

5datensätze mit diesem Beitrittspräfix werden entweder über die eukaryotische Genomanmerkungspipeline oder die kleine eukaryotische Genomanmerkungspipeline generiert. Datensätze, die über die erste Methode generiert werden, werden als RefSeq-Datensatz des Modells bezeichnet.

6Das vollständige Beitrittsnummernformat besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 9 Zahlen, gefolgt von der Versionsnummer. Die Versionsnummer ist immer ‚.1‘, da diese Datensätze keiner Aktualisierung unterliegen. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes
Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein Proteine, die auf NM_-Transkript-Akzessionen oder auf genomischen Molekülen ohne instanziiertes Transkript annotiert sind (z. einige mitochondriale Genome, virale Genome und referenzbakterielle Genome
AP_3 Protein Proteine, die auf AC_-Genomakzessionen annotiert sind oder auf genomischen Molekülen ohne instanziierten Transkriptdatensatz annotiert sind
XP_3,5 Protein Proteine, die auf XM_-Transkriptakzessionen annotiert sind oder auf genomische Moleküle ohne einen instanziierten Transkriptdatensatz
YP_3 Protein Proteine, die auf genomischen Molekülen ohne einen instanziierten Transkriptdatensatz annotiert sind
WP_6 protein Proteine, die über mehrere Stämme und Arten hinweg nicht redundant sind. Ein einzelnes Protein dieses Typs kann auf mehr als einem prokaryotischen Genom annotiert sein
Präfix . Molekültyp . Kontext verwenden .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein Proteine, die auf NM_-Transkript-Akzessionen oder auf genomischen Molekülen ohne instanziiertes Transkript annotiert sind (z. einige mitochondriale Genome, virale Genome und referenzbakterielle Genome
AP_3 Protein Proteine, die auf AC_-Genomakzessionen annotiert sind oder auf genomischen Molekülen ohne instanziierten Transkriptdatensatz annotiert sind
XP_3,5 Protein Proteine, die auf XM_-Transkriptakzessionen annotiert sind oder auf genomische Moleküle ohne einen instanziierten Transkriptdatensatz
YP_3 Protein Proteine, die auf genomischen Molekülen ohne einen instanziierten Transkriptdatensatz annotiert sind
WP_6 protein Proteine, die über mehrere Stämme und Arten hinweg nicht redundant sind. Ein einzelnes Protein dieses Typs kann auf mehr als einem prokaryotischen Genom annotiert sein

1Das vollständige Format der Zugangsnummer besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 6 Zahlen, gefolgt von der Sequenzversionsnummer.

2Das vollständige Beitrittsformat besteht aus dem Präfix, gefolgt von der INSDC-Beitrittsnummer, auf der der RefSeq-Datensatz basiert, gefolgt von der Versionsnummer der RefSeq-Sequenz.

3Das vollständige Beitrittsnummernformat besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 6 oder 9 Zahlen, gefolgt von der Sequenzversionsnummer.

4 Datensätze mit diesem Beitrittspräfix wurden von NCBI-Mitarbeitern oder einer Modellorganismus-Datenbank kuratiert oder befinden sich im Pool der Beitritte, mit denen Kuratoren arbeiten. Diese Datensätze werden als ‚bekannter‘ RefSeq-Datensatz bezeichnet.

5datensätze mit diesem Beitrittspräfix werden entweder über die eukaryotische Genomanmerkungspipeline oder die kleine eukaryotische Genomanmerkungspipeline generiert. Datensätze, die über die erste Methode generiert werden, werden als RefSeq-Datensatz des Modells bezeichnet.

6Das vollständige Beitrittsnummernformat besteht aus dem Präfix, einschließlich des Unterstrichs, gefolgt von 9 Zahlen, gefolgt von der Versionsnummer. Die Versionsnummer ist immer ‚.1‘, da diese Datensätze keiner Aktualisierung unterliegen. Weitere Informationen finden Sie in der Online-Dokumentation: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins /.

In den letzten Jahren haben fortschrittliche Sequenzierungstechniken eine erhebliche Zunahme der Einreichungen von Genomassemblierungen in die öffentlichen Datenbanken ermöglicht. Infolgedessen hat das RefSeq-Projekt die Tiefe und Breite der im Datensatz enthaltenen Taxa in erster Linie durch Verbesserungen mehrerer interner Annotationspipelines erweitert. Alle Taxa sind im Rahmen der RefSeq-Aufnahme; die Annotation ist jedoch häufig auf solche Organismen beschränkt, für die eine qualitativ hochwertige primäre Genomassemblierung mit unbestrittenen Organismusinformationen verfügbar ist. Daher können wir einige Kategorien von Daten ausschließen, die nicht unseren Qualitätsstandards entsprechen. Ausgeschlossene Datensätze sind: Metagenome, Assemblies mit niedrigen Contig N50-Werten oder einer besonders hohen Anzahl von unplatzierten Gerüsten / Contigs (d. H. hoher Fragmentierung) oder Genome, die im Vergleich zu anderen eng verwandten Genomen für die Spezies (z. B. einige Prokaryoten) eine signifikante Fehlanpassung oder Indel-Variation aufweisen.Ein einzigartiger Aspekt des RefSeq-Datensatzes ist der kombinierte Ansatz der Nutzung von Berechnung, Zusammenarbeit und Kuration durch wissenschaftliche Mitarbeiter des NCBI. Als große Bioinformatik-Einrichtung hat das NCBI in die Entwicklung robuster Prozessabläufe investiert, um Annotationen zu generieren und Qualitätssicherungstests für eukaryotische und prokaryotische Genome, Transkripte und Proteine durchzuführen. Verbesserungen am Prozessablauf der viralen Genome sind im Gange. Die RefSeq-Gruppe arbeitet mit zahlreichen Expertengruppen zusammen, einschließlich offizieller Nomenklaturbehörden (z. HUGO Gene Nomenclature Committee (HGNC) und Zebrafish Information Network (ZFIN) für humane bzw. Zebrafisch-Gennamen), UniProtKB (Proteinnamen) und miRBase (microRNAs) (2-5). Diese und andere Kooperationen tragen dazu bei, die Qualität des RefSeq-Datensatzes durch QS-Berichte, den Austausch von Gen- und Sequenzinformationen sowie den Austausch funktionaler Informationen zu erhalten und zu verbessern. NCBI Mitarbeiter bieten auch Kuration Unterstützung für Viren, Prokaryoten, Eukaryoten, Organellen, Plasmide und gezielte Projekte einschließlich Kuration Gene und Sequenzen für Homo sapiens, Mus musculus und andere Organismen. RefSeq-Kuratoren verbessern die Qualität der Datenbank durch Überprüfung der QA-Testergebnisse, Beteiligung an der Auswahl bestimmter Eingaben für die Verarbeitung von Genomanmerkungen, Sequenzanalyse, taxonomische Analyse, und funktionale Überprüfung. Curation unterstützt auch Verbesserungen der Genom-Annotations-Pipelines, da Content-Experten dabei helfen, programmatische Ansätze zur Modellierung typischer und atypischer Biologie zu definieren. Für Eukaryoten, insbesondere Säugetiere, definiert die transkriptbasierte Kuration „beste“ Sequenzvertreter (als „bekannte“ RefSeqs; Tabelle 1 Fußnote), die als primäres Eingangsreagenz für die eukaryotische Genomannotationspipeline verwendet werden (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Verbesserungen in der Eingangsreagenzqualität führen wiederum zu einer signifikanten Qualität und Reproduzierbarkeit der resultierenden Genomanmerkung. Diese Art der manuellen Kuration konzentrierte sich aufgrund ihrer einzigartigen biomedizinischen Bedeutung in der Vergangenheit auf Mensch und Maus (6). In jüngerer Zeit haben diese Kurationsbemühungen Rattus norvegicus, Danio rerio, Bos taurus und Gallus gallus größere Aufmerksamkeit geschenkt. Diese Arten sind sowohl für die menschliche Gesundheit als auch für die landwirtschaftliche Nachhaltigkeit relevant.In diesem Artikel berichten wir über unsere Fortschritte bei der Erweiterung des RefSeq-Datensatzes um vielfältigere Organismen, beschreiben Verbesserungen beim Datenzugriff und liefern Beispiele, die einen verstärkten Fokus auf die Bereitstellung phylogenetisch nützlicher Datensätze sowie funktionale Merkmalsanmerkungen auf RefSeq-Transkript- und Proteindatensätzen veranschaulichen. Wir gehen davon aus, dass diese Bemühungen und Verbesserungen im RefSeq-Datensatz weiterhin zur Weiterentwicklung der medizinischen translationalen Forschung beitragen werden, landwirtschaftliche Verbesserungen, phylogenetische Identifizierung, und Evolutionsstudien.

GENERIEREN DES REFSEQ-DATENSATZES

RefSeq-Sequenzdatensätze werden je nach Sequenzklasse und Organismus mit unterschiedlichen Methoden generiert. Archaeale und bakterielle Genome (siehe Abschnitt Prokaryoten) werden mit der prokaryotic genome Annotation Pipeline (http://www.ncbi.nlm.nih.gov/books/NBK174280/) des NCBI annotiert, während eine kleine Anzahl von Referenzbakteriengenomen durch Zusammenarbeit und manuelle Kuration unterstützt wird. RefSeq eukaryotische Genome werden unter Verwendung von zwei Prozessabläufen bereitgestellt. Die Mehrheit der Pflanzen-, Tier-, Insekten- und Arthropoden-Genome wird durch die eukaryotic genome Annotation Pipeline annotiert. Diese Pipeline generiert Annotationsergebnisse basierend auf verfügbaren Transkriptdaten (einschließlich RNA-Seq- und Transkriptom-Shotgun-Assemblierungsdaten) sowie Proteinhomologie, Ab-Initio-Vorhersage (hauptsächlich, wenn Transkriptomdaten nicht verfügbar sind) und verfügbaren bekannten (kuratierten) RefSeq-Transkripten und -Proteinen (siehe Tabelle 1). Pipeline-generierte Annotationen (Modell-RefSeqs) können die vollständige Exonkombination aus einer einzelnen Evidenzausrichtung unterstützen oder nicht, können jedoch RNA-Seq-Unterstützung für Exonpaare haben. Die eukaryotischen Genome, die von dieser Pipeline annotiert wurden, werden öffentlich mit Links gemeldet, um die Daten per FTP herunterzuladen, eine BLAST-Abfrage gegen das annotierte Genom anzuzeigen oder durchzuführen oder auf eine detaillierte Zusammenfassung des Annotationsberichts zuzugreifen (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Die Pipeline für eine Teilmenge von Eukaryoten, einschließlich Pilzen, Protozoen und Nematoden, umfasst die Vermehrung von Annotationen, die bei der International Nucleotide Sequence Database Collaboration (INSDC) eingereicht wurden, mit Formatstandardisierung zu einer RefSeq-Kopie der eingereichten Genomassemblierung (siehe Algen, Pilze, Nematoden und Protozoen).

NCBI-Mitarbeiter stellen den Großteil der RefSeq-Organellengenom-Annotation durch Vermehrung aus der INSDC-Einreichung zur Verfügung. Die Annotation von Säugetier-Mitochondrien wird häufig durch manuelle Kuration ergänzt. Das RefSeq-Projekt unterhält auch Referenzsequenzen für gezielte Loci-Projekte wie RefSeqGene, das Mitglied der Locus Reference Genomic (LRG) Collaboration ist (7), für bakterielle und pilzliche ribosomale rRNA-Loci und für pilzinterne transkribierte Spacer-Sequenzen (ITS) (8). Darüber hinaus wird eine beträchtliche Anzahl von menschlichen, Maus- und anderen Transkripten und Proteinen durch Zusammenarbeit und manuelle Kuration bereitgestellt, die Sequenzanalyse und Literaturrecherche umfasst.

Die prokaryotischen (siehe unten) und eukaryotischen Annotationspipelines des NCBI haben mit der zunehmenden Anzahl von Genomassemblies, die dem INSDC vorgelegt wurden, Schritt gehalten, indem sie konsistente Annotationen auf RefSeq-Kopien ausgewählter, qualitativ hochwertiger Genomassemblies bereitgestellt haben. Bis heute wurden 245 eukaryotische Genome, darunter 170 Wirbeltiergenome, durch diese Pipeline annotiert, von denen in den letzten 20 Jahren mehr als 120 Arten annotiert wurden. Zu dieser Gruppe gehören 52 Vogelarten, die repräsentative Arten der meisten Vogelordnungen umfassen (9,10). Die Anzahl der mit RefSeq annotierten Assemblys für nichtmenschliche Primaten, andere Säugetiere, Fische, Pflanzen und Arthropoden hat ebenfalls erheblich zugenommen.

ZUGRIFF AUF DEN REFSEQ-DATENSATZ

Die RefSeq-Homepage http://www.ncbi.nlm.nih.gov/refseq/ ist ein zentraler Knotenpunkt für alle Aspekte des RefSeq-Datensatzes. Diese Website bietet Links, die Benutzer durch eine allgemeine Beschreibung des Projekts sowie Factsheets, Wachstumsstatistiken und Informationen zu gezielteren RefSeq-Projekten wie der Prokaryotic genome Re-Annotation Initiative, dem Consensus Coding Sequence (CCDS) -Projekt (11), dem RefSeqGene-Projekt und gezielten Loci-Projekten (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) führen. Links zur aktuellsten umfassenden FTP-Version und eine detaillierte Dokumentation zu Format und Inhalt der Version finden Sie im Bereich ‚Ankündigungen‘ auf der RefSeq-Homepage. Frühere RefSeq-Ankündigungen sind ebenfalls auf dieser Seite verfügbar. Wir empfehlen dringend, RefSeq-Daten direkt vom NCBI herunterzuladen, da Downloads von anderen Bioinformatik- und Genombrowser-Ressourcen möglicherweise nicht alle verfügbaren Daten enthalten oder lediglich die Ausrichtung von RefSeq-Transkripten auf ein Genom und nicht die von NCBI generierten Genomanmerkungsergebnisse widerspiegeln.

Auf RefSeq-Sequenzdaten kann interaktiv über NCBIs-Nukleotid- und Proteindatenbanken, in BLAST-Datenbanken, über die programmatische Schnittstelle von NCBI (E-Utilities) oder über das File Transfer Protocol (FTP) zugegriffen werden. E-Utilities unterstützen den skriptgesteuerten Zugriff zum Herunterladen von RefSeq-Daten in einer Vielzahl von Formaten, die entweder auf Suchbegriffen oder Beitrittslisten basieren; Eine umfangreiche Dokumentation finden Sie im NCBI-Handbuch (www.ncbi.nlm.nih.gov/books/NBK25501 /) und Schulungsvideos sind auf dem YouTube-Kanal von NCBI verfügbar (https://www.youtube.com/user/NCBINLM). Sowohl in der Nukleotid- als auch in der Proteindatenbank können Abfrageergebnisse nur auf RefSeq-Datensätze beschränkt werden, indem Sie ‚RefSeq‘ unter der ‚Quelldatenbank‘ in der Filter-Seitenleiste auswählen. Auf RefSeq-Daten kann auch aus anderen NCBI-Datenbanken zugegriffen werden, einschließlich Assembly, BioProject, Gene und Genome, indem Sie den Links zu Nukleotid-, Protein- oder FTP-Ressourcen folgen Informationen zu Kurationsänderungen innerhalb der RefSeq-Gruppe oder NCBI-Aktualisierungen, die sich auf die RefSeq-Datenbank auswirken, werden über verschiedene Quellen gemeldet, darunter RefSeq FTP Release Notes, regelmäßig veröffentlichte Berichte, der NCBI Announcements News Feed http://www.ncbi.nlm.nih.gov/news/ und über den NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Benutzer können auch die refseq-announce-Mailingliste abonnieren, um regelmäßige Updates über das Projekt und eine Zusammenfassung des Inhalts jeder RefSeq-FTP-Version zu erhalten (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq-Daten werden über FTP über zwei Sites verteilt, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq /) und Genome (ftp://ftp.ncbi.nlm.nih.gov/genomes /). Die refseq-FTP-Site bietet tägliche Updates aller neuen und aktualisierten RefSeq-Datensätze, wöchentliche Updates einiger Datentypen und eine zweimonatliche umfassende RefSeq-Version (/ refseq / release /). Darüber hinaus werden ausgewählte organismusspezifische Transkript- und Proteindatensätze, einschließlich Mensch und Maus, wöchentlich aktualisiert. Das Unterverzeichnis RefSeqGene wird täglich aktualisiert, wobei bei jedem Annotationslauf Alignments zum Genom freigegeben werden. Die umfassende zweimonatliche RefSeq-Veröffentlichung ist nach taxonomischen (z. B. Wirbeltieren) oder anderen Gruppierungen (z. B. Mitochondrien) organisiert. Daten können auch für die gesamte RefSeq-Sammlung aus dem Verzeichnis /refseq/release/complete / heruntergeladen werden. Die RefSeq-Version bietet einen Vorteil für diejenigen, die regelmäßige Aktualisierungen entweder der gesamten Sammlung oder einer einzelnen Gruppe beibehalten möchten. Es enthält auch Datensätze, die nicht von der FTP-Site Companion Genomes verfügbar sind, z. B. Transkripte in der Sammlung, die unabhängig von einer Genomassembly verwaltet werden und derzeit möglicherweise nicht kommentiert werden. Das Release enthält eine umfangreiche Dokumentation der installierten Dateien (/refseq/release /release-catalog/) einschließlich MD5-Prüfsummen, eine Liste aller installierten Dateien sowie Versionshinweise und Ankündigungen (/refseq /release / release-notes /).

RefSeq-Daten können auch von der FTP-Site von genomes heruntergeladen werden. Im August 2014 kündigte die NCBI eine umfassende Reorganisation dieser FTP-Site an, die nun assemblierungs- und organismusbasierten Zugriff auf GenBank- und RefSeq-Genome bietet.ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Dieses Verzeichnis ist weiter in Unterverzeichnisse unterteilt, die auf denselben Gruppen basieren, die in der RefSeq-Version verwendet werden. Die FTP-Site genomes stellt Dateien bereit, die alle RefSeq-Genomassemblies darstellen, die in der Assembly-Ressource von NCBI gemeldet wurden.www.ncbi.nlm.nih.gov/assembly /). Der Vorteil der Genom-Site besteht darin, dass auf die Daten assemblierungs- oder organismusspezifisch zugegriffen werden kann. Die bereitgestellten Daten umfassen Genom- und Produktsequenz (Transkript / Protein), Annotation, Assemblationsberichte und Statistiken sowie MD5-Prüfsummen; diese Daten werden aktualisiert, wenn die Genomassemblierung und / oder Annotation aktualisiert werden. Dieser Bereich umfasst keine RefSeq-Sequenzen, die außerhalb des Bereichs einer Genomassemblierung liegen, oder Produkte, die nicht in einem Genom annotiert sind.

WACHSTUM UND STATISTIK

RefSeq FTP Release 71 (Juli 2015) enthält mehr als 77 Millionen Sequenzdatensätze für mehr als 55 000 Organismen. Tabelle 2 fasst das Wachstum des RefSeq-Datensatzes im letzten Jahr in Bezug auf die Anzahl und die Anzahl der Sequenzdatensätze zusammen, die pro RefSeq-Release-FTP-Verzeichnisbereich dargestellt werden. Bakterielle Genome und Proteine machen den Großteil des RefSeq-Datensatzes aus (56% der gesamten Akzessionen und 76% der >52 Millionen Proteinakzessionen). Bei Wirbellosen, Pflanzen und eukaryotischen Organismen ist ein signifikanter Anstieg der Anzahl der Organismen, Proteine und Gesamtaufzeichnungen zu beobachten, was mit der erhöhten Anzahl und dem erhöhten Durchsatz von Genomsequenzierungsprojekten übereinstimmt. Ein wesentlicher Faktor für die anhaltend hohe Wachstumsrate von RefSeq-Daten sind Verbesserungen in Genompipelines, die annotierte RefSeq-Genome generieren. Dies umfasst insbesondere eine erhöhte Kapazität in der prokaryotischen Genom-Annotationspipeline des NCBI, die Neuentwicklung des Prozessflusses, der die Annotation von eukaryotischen GenBank-Genomen auf RefSeq-Genome überträgt, und die Einbeziehung von RNA-Seq-Beweisen in die eukaryotische Genom-Annotationspipeline des NCBI und ihre Auswirkungen auf die Erzeugung von Modell-RefSeqs (XM_-, XR_- und XP_-Akzessionen, Tabelle 1).

Jährliches Wachstum der Anzahl Organismen, Proteine und Transkripte, die in der umfassenden RefSeq-Version pro FTP-Release-Verzeichnis dargestellt sind

Tabelle 2.

Jährliches Wachstum der Anzahl Organismen, Proteine und Transkripte, die in der umfassenden RefSeq-Version pro FTP-Veröffentlichungsverzeichnis dargestellt sind
Veröffentlichungsverzeichnis . Organismen . % Veränderung . Transkripte . % Veränderung . Proteine . % Veränderung .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % Veränderung . Transkripte . % Veränderung . Proteine . % Veränderung .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (z.B. archaea.acc_taxid_growth.txt und verwandte Dateien). Die prozentuale jährliche Veränderung basiert auf dem Vergleich der Datenzahlen für RefSeq Release 71 (Juli 2015) und RefSeq Release 66 (Juli 2014).

Tabelle 2.

Jährliches Wachstum der Anzahl Organismen, Proteine und Transkripte, die in der umfassenden RefSeq-Version pro FTP-Veröffentlichungsverzeichnis dargestellt sind
Veröffentlichungsverzeichnis . Organismen . % Veränderung . Transkripte . % Veränderung . Proteine . % Veränderung .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % Veränderung . Transkripte . % Veränderung . Proteine . % Veränderung .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (z.B. archaea.acc_taxid_growth.txt und verwandte Dateien). Die prozentuale jährliche Veränderung basiert auf dem Vergleich der Datenzahlen für RefSeq Release 71 (Juli 2015) und RefSeq Release 66 (Juli 2014).

Der dramatische Rückgang der Anzahl der Plasmidproteindatensätze und damit der Gesamtzahl der Akzessionen spiegelt den Abschluss eines RefSeq-Projekts zur Re-Annotation des bakteriellen Genoms wider (http://www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/reannotation/) und die Annahme des neuen Datenmodells für Prokaryoten, einschließlich ihrer Plasmide. In diesem neuen Datenmodell kann ein einzelner nicht redundanter RefSeq-Proteinzutritt auf mehr als einem genomischen Sequenzdatensatz annotiert werden, wenn die Translation dieser genomischen proteinkodierenden Regionen zu einem identischen Protein führt (siehe http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Die Redundanz in allen Bakterienproteinen nahm ebenfalls signifikant ab; Dies ist jedoch hier nicht offensichtlich, da die Anzahl der im Datensatz enthaltenen Bakteriengenome weiterhin signifikant ansteigt. Diese Veränderungen führten auch zu einem allgemeinen Rückgang der Anzahl der archaealen Proteinrekorde.

WIRBELTIERE

Eine ausgewählte Gruppe von Wirbeltieren, darunter Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus und Danio rerio, stehen im Mittelpunkt unserer transkript- und literaturbasierten manuellen Kurationsbemühungen. Kuratoren arbeiten im Allgemeinen aus Listen von Genen mit Datenkonflikten, die durch Qualitätssicherungstests (QA-Tests) identifiziert wurden, von denen einige zuvor beschrieben wurden (12). Sie folgen bei der Analyse jedes Gens einer detaillierten Reihe von Richtlinien, um eine personenübergreifende Konsistenz im kuratierten Datensatz sicherzustellen. Diese Analyse umfasst eine eingehende Sequenzbewertung und Literaturrecherche, um Referenztranskripte, Proteine, Pseudogene und RefSeqGene-Datensätze zu erstellen. RefSeq-Kuratoren generieren Transkriptvarianten, beheben Sequenzfehler, entfernen ungenaue Informationen, aktualisieren Datensätze, um die Biologie des Locus korrekt darzustellen, und fügen einigen RefSeq-Datensätzen wertvolle funktionale Informationen hinzu, z. B. verbesserte Proteinnamen, eine Zusammenfassung der Funktion des Genprodukts, funktionelle Merkmale des Gens und / oder relevante Veröffentlichungen. Manuelle Kuratierung und Literaturrecherche durch die RefSeq-Gruppe können zur Darstellung eindeutiger Varianten und Isoformen führen, die nicht vorhergesagt werden könnten, wenn sie ausschließlich auf rechnerischer Analyse basieren. Zum Beispiel ergab eine Literaturrecherche des humanen Tumorsuppressorgens PTEN (Phosphatase and tensin homolog, GeneID: 5728) die Existenz einer längeren Proteinisoform, die sich aus der Verwendung eines alternativen In-Frame-Upstream-CUG-Initiationscodons ergab, das im Zentrum einer palindromischen Sequenz vor dem kanonischen mRNA-Translationsstart-Codon gefunden wurde (13). Starke experimentelle Daten zeigten, dass diese Mitochondrien-spezifische Isoform eher mit einem Leucin als mit einem Methionin initiiert wird (14). Das RefSeq-Datenmodell für Eukaryoten liefert ein Transkript, das explizit mit einem Protein verknüpft ist. Daher wurden zwei identische Transkriptdatensätze bereitgestellt, um die Translation aus den alternativen Initiationscodons widerzuspiegeln; NP_000305.3 repräsentiert das 403-Aminosäureprotein, das das kanonische Methionin-Startcodon verwendet, während NP_001291646.2 das mitochondrial lokalisierte 576-Aminosäureprotein darstellt, das mit einem Leucin initiiert. Somit dient der Kurationsprozess einem doppelten Zweck der Bereitstellung genauer Referenzsequenzen, die eine präzise und reproduzierbare Genomannotation ermöglichen, und der Bereitstellung von Aufzeichnungen, die relevante biologische Informationen enthalten. In diesem Abschnitt besprechen wir aktuelle Updates, Verbesserungen, die wir an unserem manuellen Kurationsprozess vorgenommen haben, und Beispiele für fokussierte Kurationsprojekte.

RefSeqGene-Projekt

Das RefSeqGene-Teilprojekt definiert humane genomische Sequenzen, die als Referenzstandards für gut charakterisierte Gene verwendet werden sollen, insbesondere für die klinische Genetik. Diese Sequenzen dienen als stabile Grundlage für die Meldung pathogener Varianten, für die Festlegung von Konventionen für die Nummerierung von Exons und Introns und für die Definition der Koordinaten anderer Varianten. Jeder RefSeqGene-Datensatz konzentriert sich auf eine genspezifische genomische Region und wird typischerweise mit einer Teilmenge von RefSeq-Transkripten und Proteinen annotiert, die von Domänenexperten ausgewählt wurden. Diese Auswahlen bestimmen Exon-Merkmale. Alignments älterer Versionen des kanonischen RefSeq-Transkripts / -Proteins sowie anderer bekannter RefSeqs sind enthalten. Diese Aufzeichnungen umfassen typischerweise 5 Kilobasen (kb) Sequenz stromaufwärts des Fokusgens und 2 kb Sequenz stromabwärts, um die Darstellung potenzieller regulatorischer Stellen oder Deletionen zu unterstützen, die sich über das Genmerkmal hinaus erstrecken. Ein RefSeqGene-Datensatz kann Annotationsinformationen für andere Gene enthalten, die sich innerhalb seiner Grenzen befinden. RefSeqGene-Datensätze werden zunächst von locus-spezifischen Datenbanken und NCBI-Mitarbeitern überprüft. RefSeqGene ist Mitglied der LRG-Kollaboration (7), die eine zusätzliche Überprüfung der Sequenzdaten vor dem Hinzufügen eines LRG-Beitritts ermöglicht. Eine kürzlich durchgeführte Arbeit hat die Anzahl der RefSeqGene-Datensätze erweitert, um alle Gene darzustellen, für die mindestens zwei klinische Tests beim NIH eingereicht wurden Gentestregister (GTR). Derzeit gibt es 5596 RefSeqGene-Datensätze, von denen 633 einen LRG-Beitritt haben. RefSeqGene-Datensätze können durch Durchsuchen der Nukleotiddatenbank mit ‚refseqgene‘, durch ihre LRG-Akzessionen, durch Durchsuchen der RefSeqGene-Website (www.ncbi.nlm.nih.gov/refseq/rsg /), oder per FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

Einbindung von RNA-Seq und anderen Datentypen in die transkriptbasierte Kuration

Ein Hauptziel des RefSeq-Kurationsprojekts ist es, qualitativ hochwertige und vollständige Transkript- und Proteinreferenzsequenzen darzustellen. Daher basieren unsere Kurationskriterien in erster Linie auf konventionellen Transkripten (mRNA und ESTs) und Proteinausrichtungen sowie veröffentlichten Nachweisen. Wirbeltier-Transkriptom-Projekte sind jedoch immer komplexer geworden, da die meisten neuen Transkriptdaten derzeit mit der Short-Read-Sequenzierungstechnologie generiert werden. Genomweite Studien, die globale Muster von Promotor-assoziierten epigenetischen Markierungen untersuchen, liefern auch Hinweise auf aktive Promotoren und / oder aktive Transkription. Die RefSeq-Gruppe hat die Kurationspraktiken angepasst, um diese neuen Datentypen zu integrieren, um unsere manuelle Annotation zu verbessern, insbesondere in Fällen, in denen ein Gen oder eine Variante nicht ausreichend konventionelle Transkriptunterstützung bietet. Diese RNA-Seq- und epigenomischen Studien haben enorme Datensätze generiert, die eine Herausforderung für Genannotationsgruppen darstellen, beispielsweise durch potenzielle falsch positive Ergebnisse und die fehlende Unterstützung für Langstrecken-Exonkombinationen (15). Die Kuratoren von RefSeq mildern Fehlalarme, indem sie selektiv nur qualitativ hochwertige Datensätze zur Berücksichtigung in unsere Genom-Annotationspipeline und in den manuellen Annotationsprozess einbeziehen. RefSeq-Kuratoren visualisieren Transkript-Alignments, Variationsdaten und gefilterte RNA-Seq-Daten in benutzerdefinierten Anzeigen innerhalb eines internen Alignment-Tools, das in die NCBI Genome Workbench-Plattform integriert ist (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation von menschlichen Genen nutzt analysierte RNA-Seq liest aus dem Illumina BodyMap 2 (BioProjekt: PRJEB2445) und Human Protein Atlas Projekte (Bioprojekt: PRJEB4337) (16). Zusätzlich verwenden Kuratoren Promotor-assoziierte Histonmodifikationsmarken wie H3K4me3 vom NIHON Epigenomic Mapping Consortium (REMC; (17) und das Projekt ENCODE (Encyclopedia of DNA Elements) (18) zum Nachweis des Vorhandenseins eines aktiven Promotors. RefSeq-Kuratoren bewerten auch polyA-seq-Daten, um die Vollständigkeit von Transkripten zu bestätigen, denen ein polyA-Schwanz fehlt (19). Zusätzliche Datentypen, einschließlich PhyloCSF (20), CpGIslands, RepeatMasker (21) und Cap Analysis of Gene Expression (CAGE) -Daten (22), werden manchmal als zusätzliche Unterstützung verwendet.

Lange nicht-kodierende RNAs (lncRNAs)

Die RefSeq-Gruppe erweitert die Darstellung nicht-kodierender Struktur- und Mikro-RNAs, transkribierter Pseudogene und der weitgehend uncharakterisierten lncRNAs weiterhin signifikant. Diese Klasse von Genen ist allgemein definiert als Transkripte >200 nt lang, denen ein starkes Proteinkodierungspotential fehlt (23). lncRNA RefSeq-Datensätze werden durch Kuration und durch die eukaryotische Genom-Annotationspipeline für lncRNA-Gene generiert. NCBI unterhält derzeit über 540 000 eukaryotische lncRNA-RefSeq-Datensätze, von denen über 6700 kuratiert und nur wenige hundert funktionell charakterisiert wurden. Von diesen sind viele an menschlichen Krankheiten beteiligt, wie BACE1-AS, das eine Rolle in der Pathophysiologie der Alzheimer-Krankheit spielen kann, und HOTAIR, das mit mehreren Krebsarten in Verbindung gebracht wurde (24,25). Die überwiegende Mehrheit der lncRNAs hat unbekannte Funktionen und das Fehlen langer offener Leserahmen stellt eine Herausforderung dar, um die Vollständigkeit des Transkripts zu bestätigen. Darüber hinaus basieren lncRNA-Einreichungen an INSDC weitgehend auf TSAs aus kurz gelesenen Datensätzen, die artefaktbezogene Exonkombinationen enthalten können. RefSeq-Kuratoren verfolgen einen konservativen Ansatz bei der Darstellung von lncRNA-Genen und erstellen nur manuell RefSeqs (mit einem NR_R-Präfix) für hochwertige Transkripte, für die wir eine gewisse Gewissheit über die Exonstruktur haben. Idealerweise sollte der Transkriptträger mit mindestens drei Exons gespleißt werden, aber zwei-Exon- und intronlose Transkripte können dargestellt werden, wenn sie durch Promotor-assoziierte Epigenomik, Poly (A) -Beweise, zusätzliche cDNAs und / oder RNA-Seq-Daten unterstützt werden. RefSeq lncRNA-Datensätze für nicht kodierende Gene können aus der NCBI-Nukleotiddatenbank abgerufen werden, indem Sie die Suchzeichenfolge ‚biomol ncrna lncrna‘ verwenden und den RefSeq-Filter aus der linken Spalte auswählen.

Functional annotation

Der einzigartige Beitrag kuratierter eukaryotischer RefSeq-Transkriptdatensätze besteht darin, dass sie funktionale Informationen mit einer Referenzsequenz integrieren. Das Kuratorium von RefSeq fügt Genzusammenfassungen, Nomenklatur, Transkriptvariantentext, Gen- und Sequenzattribute sowie funktionale Merkmale hinzu, die im RefSeq-Datensatz und / oder über die Genressource verfügbar sind (http://www.ncbi.nlm.nih.gov/gene). Im vergangenen Jahr haben die RefSeq-Mitarbeiter mehrere eingehende Annotationsprojekte durchgeführt, von denen einige in den folgenden Abschnitten kurz beschrieben werden, um funktionellen Daten zu bestimmten Genen hinzuzufügen, bei denen Rechenwerkzeuge biologisches Wissen nicht genau darstellen können. Diese Projekte umfassen die Annotation von antimikrobiellen Peptiden, endogenen Retroviren, replikationsabhängigen Histonen, regulatorischen UORF und Antizymen.

Antimikrobielle Peptide (AMPs)

AMPs waren ein aktueller Kurationsfokus (http://ncbiinsights.ncbi.nlm.nih.gov/21.05.2015/) (26). AMPs sind natürlich vorkommende Peptide, die in einer Vielzahl von Arten vorkommen und an vielen Immunfunktionen beteiligt sind, einschließlich bakterizider, antiviraler, antimykotischer und sogar antitumoraler Aktivitäten. Eine Liste von über 130 menschlichen Genen, die für ein oder mehrere experimentell nachgewiesene AMPS kodieren, wurde aus mehreren öffentlich zugänglichen AMP-Datensätzen gesammelt und auch aus Veröffentlichungen gewonnen. Die meisten dieser AMPs waren zuvor nicht in der RefSeq-Datenbank identifiziert worden, und keine der AMP-Datenbanken verband die Peptide mit ihrem kodierenden Gen. RefSeq-Kuratoren haben die RefSeq-Datensätze für jedes AMP-kodierende menschliche Gen manuell kommentiert, um sicherzustellen, dass das funktionelle Peptid kommentiert wurde, um eine Publikation einzuschließen, die die antimikrobielle Aktivität des Peptids beschreibt, um eine kurze Zusammenfassung hinzuzufügen, die die antimikrobielle Aktivität des kodierten AMP beschreibt, und um ein neues RefSeq-Attribut ‚Protein hat antimikrobielle Aktivität‘ zu speichern, das im strukturierten Kommentar des RefSeq-Attributs enthalten ist (z. B. NM_001124.2 für ADM; GeneID: 133). Um auf alle kuratierten menschlichen Transkript- oder Protein-AMP-Datensätze zuzugreifen, Durchsuchen Sie die Nukleotid- oder Proteindatenbank mit ‚Protein hat antimikrobielle Aktivität‘. Derzeit werden bei dieser Suche 191 RefSeq-Datensätze gefunden, einschließlich Spleißvarianten und Proteinisoformen.

Endogene Retroviren (ERVs)

Endogene Retroviren (ERVs) sind genomische Loci, die von der ancestralen Insertion eines exogenen Retrovirus in das Wirtsgenom abgeleitet sind. ERV-Loci sind im Allgemeinen nicht für RefSeq geeignet; wir kommentieren jedoch ERV-Protein-kodierende Loci in voller Länge, die einem einzelnen genomischen Ort zugeordnet sind, wenn sie sich zu einer Wirtsfunktion entwickelt haben, mit einer bekannten Krankheit assoziiert sind und / oder wenn ihnen von einem offiziellen Nomenklaturausschuss eine Nomenklatur zugewiesen wurde. Etwa 8% des menschlichen Genoms sind retroviralen Ursprungs (27); Aufgrund ihrer alten Herkunft haben die meisten menschlichen ERV-Loci jedoch Nonsense-Mutationen angesammelt und können kein Protein mehr codieren. Eine bekannte Ausnahme bilden die Syncytin-Proteine, die an der Plazentaentwicklung beteiligt sind (28). Menschliche Syncytin-1- und Syncytin-2-Proteine werden von den Genen ERVW-1 (NM_001130925.1, NM_014590.3) und ERVFRD-1 (NM_207582.2) kodiert. Bis heute haben wir 67 RefSeqs für ERV-Loci erstellt, die Datensätze enthalten, die ERV-Gene aus einer Vielzahl von Säugetieren darstellen. Für diese Datensätze wurde eine neue RefSeq-Attributkategorie mit dem Titel ‚endogenes Retrovirus‘ erstellt, die in einem strukturierten Kommentar zum RefSeq-Datensatz angezeigt wird. Diese Aufzeichnungen können aus der Nukleotiddatenbank abgerufen werden, indem nach ‚endogenem Retrovirus‘ gesucht wird.

Replikationsabhängige Histone

Eine schnelle Synthese von Histon-mRNAs ist während der Zellteilung erforderlich, um große Mengen an Histonproteinen zu produzieren. Entscheidend für diesen Prozess sind die replikationsabhängigen Histongene, die während der G1 / S-Phase des Zellzyklus hochreguliert werden (29). Ein spezifisches RefSeq-Projekt wurde mit dem Ziel durchgeführt, den gesamten Satz replikationsabhängiger Histonprotein-kodierender Gene in Mensch und Maus zu kuratieren. Diese Gene haben eine kanonische 3′-Histon-Downstream-Element (HDE) -Sequenz in der genomischen Sequenz, und den resultierenden reifen mRNAs fehlen charakteristisch Poly (A) -Schwänze und enden stattdessen kurz nach einer RNA-Stammschleifenstruktur (30). Das HDE-Element befindet sich auf dem Vorläufer-Transkript, ist jedoch nicht in dem verarbeiteten Transkript enthalten, das durch RefSeq dargestellt wird. Die Position der konservierten 16-Nukleotid-Stem-Loop-Struktursequenz ist im RefSeq-Datensatz als Merkmalsanmerkung mit dem Titel ‚Stem-loop‘ angegeben. Ein Beispiel finden Sie im RefSeq-Eintrag NM_003539.3 für HIST1H4D (GeneID: 8360). Bisher wurden 127 replikationsabhängige Histon-RefSeq-Datensätze von Mensch und Maus kuratiert und ein RefSeq-Attribut hinzugefügt, mit dem diese Datensätze mithilfe der Suchzeichenfolge ‚Replikationsabhängiges Histon‘ aus der Nukleotiddatenbank abgerufen werden können.

Regulatory Upstream Open Reading Frames (uORFs)

Die Translation eines Upstream Open Reading Frame (uORF) kann die Translation des primären proteinkodierenden offenen Leserahmens (pORF) negativ beeinflussen (31). Dieser Effekt bringt die pORF-Translation nicht immer vollständig zum Schweigen und kann vom Zelltyp, dem Entwicklungszustand oder dem zellulären Zustand abhängen. Obwohl uORFs aus der Sechs-Rahmen-Übersetzung eines Transkripts vorhergesagt werden können, muss die regulatorische Wirkung dieses Elements daher durch experimentelle Validierung bestimmt werden. Die Kuratoren von RefSeq überprüften die Literatur, um Transkripte mit experimentellen Beweisen für regulatorische uORFs zu finden, und aktualisierten die entsprechenden RefSeq-Transkriptdatensätze, um ein misc_feature hinzuzufügen, das den Standort dieser uORFs angibt. Ein Beispiel ist der RefSeq-Eintrag NM_000392.4 für ABCC2 (GeneID: 1244). Eine neue RefSeq-Attributkategorie mit dem Titel ‚regulatory uORF‘ wurde erstellt und erscheint in einem strukturierten Kommentar zu diesen RefSeq-Datensätzen. Sowohl das kommentierte Feature als auch das Attribut zitieren die unterstützende Publikation nach PubMed ID. Bis heute wurden 260 Datensätze mit diesem Attribut versehen, und diese Datensätze können aus der Nukleotiddatenbank abgerufen werden, indem nach ‚regulatorischen uORF‘

Antizym-Genen

gesucht wird Eines der Ziele des RefSeq-Projekts ist es, Gene mit außergewöhnlicher Biologie darzustellen, die nicht den Standarddecodierungsregeln der Proteinsynthese folgen. Das Ornithin-Decarboxylase-Antizym-Gen ist ein solches Beispiel, bei dem ein programmierter +1-ribosomaler Frameshifting-Mechanismus auftritt und mit herkömmlichen Rechenwerkzeugen nicht vorhergesagt werden kann. Eine Reihe von Wirbeltier-Antizym-Transkript- und Proteinaufzeichnungen war kürzlich Gegenstand einer manuellen Annotationsbemühung, um Standards zur Verbesserung der Annotation dieser Genprodukte durch die eukaryotische Genom-Annotationspipeline zu erstellen (32). Die RefSeq-Datensätze wurden manuell mit der Split-CDS-Funktion kommentiert, um die ribosomale Slippage widerzuspiegeln, und enthielten ein Attribut ‚ribosomale Slippage‘ mit veröffentlichten Beweisen, verschiedene verschiedene Merkmalsanmerkungen (wie die Position der Frameshift-Stelle) und eine kurze Zusammenfassung, die die Funktion und die neuartigen Eigenschaften des Gens beschreibt (z. B. NM_139081.2). Diese Datensätze können entweder aus der Nukleotid- oder Proteindatenbank mit der Suchanfrage abgerufen werden: vertebrates refseq ribosomal slippage antizyme. Diese Suche findet derzeit 242 RefSeq-Datensätze (NM oder NP), die Transkriptvarianten und Proteinisoformen enthalten.

WIRBELLOSE

Wirbellose Arten stellen die überwiegende Mehrheit der vorhandenen Metazoen dar (33); Nur eine relativ kleine Anzahl wird jedoch durch sequenzierte Genome repräsentiert. Dies trotz der Tatsache, dass viele Arten von entscheidender biomedizinischer Bedeutung sind, wie Anopheles gambiae, ein Vektor für Malaria und Biomphalaria glabrata, ein Vektor für Bilharziose (34,35). Andere wirbellose Tiere wie Apis mellifera, Bombyx mori und Crassostrea gigas haben einen erheblichen kommerziellen Wert (36-38). Die RefSeq-Gruppe hat sich bemüht, die Anzahl und den Umfang der im Datensatz vertretenen wirbellosen Genome zu erhöhen, indem Annotationen über die eukaryotische Genom-Annotationspipeline bereitgestellt oder Annotationen von INSDC-Einreichungen auf die RefSeq-Kopie dieser Genome übertragen werden. Für beide Prozessabläufe sind wir auf die öffentliche Verfügbarkeit hochwertiger Genome in INSDC-Datenbanken und der Assembly-Datenbank von NCBI angewiesen.www.ncbi.nlm.nih.gov/assembly /). Bisher wurden 46 wirbellose Genome von NCBI mit Anmerkungen versehen, darunter repräsentative Arten von Insekten, Spinnentieren, Mollusken und basalen Akkordaten. Wir erwarten eine signifikante Zunahme der Anzahl der annotierten Insekten- und anderen wirbellosen Genome als Ergebnis von Genominitiativen wie i5k (39), 1KITE (1K Insect Transcriptome Evolution, http://www.1kite.org/) und der Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

PFLANZEN

RefSeq erweitert die Vielfalt der im Datensatz vertretenen Pflanzenarten weiter. Bisher wurden 61 Pflanzenarten in den RefSeq-Genomdatensatz aufgenommen.ftp://ftp.ncbi.nlm.nih.gov / genomes / refseq /plant /), von denen 33 Arten durch die eukaryotic genome Annotation Pipeline annotiert wurden; Der Rest sind RefSeq-Kopien von annotierten Genomen, die dem INSDC vorgelegt wurden. In Zukunft werden mehr Pflanzengenome, die für die RefSeq-Aufnahme ausgewählt wurden, von der Eukaryoten-Annotationspipeline verarbeitet, anstatt die Annotation aus der INSDC-Einreichung zu propagieren. Dies ist eine Änderung der Richtlinien für die RefSeq-Pflanzengenome und führt zu einer größeren Gesamtkonsistenz der Pflanzenanmerkungsdaten innerhalb des RefSeq-Datensatzes. Die Mehrzahl der für Pflanzenarten verfügbaren RefSeq-Transkripte und -Proteine sind Modelldatensätze (XM_, XP_ und XR_-Akzessionen; Tabelle 1), mit einer kleineren Teilmenge bekannter Datensätze (NM_, NR_, NP_), die unabhängig vom Annotationsprozess durch eine Kombination aus automatisierter Verarbeitung und manueller Überprüfung gepflegt werden. Manuelle Kuration von pflanzlichen Transkript- und Proteindaten werden derzeit für Zea mays und Solanum lycopersicum bereitgestellt. Der aktuelle Kurationsfokus beinhaltet eine umfangreiche Sequenzüberprüfung und zielt darauf ab, QA-Probleme im aktuellen Satz von Transkripten zu lösen. Die Fehlerbehebung konzentriert sich auf die Identifizierung und Entfernung chimärer Transkripte, redundanter Transkripte und Gene sowie auf die Verbesserung der Qualität der dargestellten Sequenz durch Bewertung von Indels und Mismatches zwischen dem RefSeq-Transkript, der genomischen Sequenz und orthologen Daten. Für Pflanzen bemühen wir uns, einen kuratierten Transkript- und Proteindatensatz bereitzustellen, der mit der für die Genomsequenzierung und -assemblierung ausgewählten Sorte übereinstimmt. Das für Wirbeltierdaten verwendete Kurationsprotokoll wird auch für Pflanzen verwendet. Somit können RefSeq-Transkriptdatensätze aktualisiert werden, um auf einer anderen INSDC-Quellensequenz zu basieren, oder können aus mehr als einem INSDC-Sequenzdatensatz zusammengestellt werden, um ein Transkript von der bevorzugten Sorte bereitzustellen. Wenn INSDC-Transkriptdaten für die genomische Sorte nicht verfügbar sind, kann ein RefSeq-Transkript aus der zusammengesetzten genomischen Sequenz basierend auf einer Kombination von Transkript- oder Proteinausrichtungen, RNA-Seq und / oder veröffentlichten Daten generiert werden. Ein zweiter Schwerpunkt besteht darin, die Anzahl der unterstützten bekannten proteinkodierenden Transkripte und Proteine zu erhöhen, da dies ein kuratiertes Reagenz liefert, das bei der Annotation anderer Pflanzengenome verwendet werden kann. Schließlich machen wir mehr RefSeqs, die Spleißvarianten darstellen, wenn genügend Belege vorliegen. Diese Bemühungen werden die Qualität des Pflanzen-RefSeq-Datensatzes erheblich verbessern und zu Verbesserungen bei zukünftigen Genomanmerkungen beitragen. Der aktuelle Satz von Pflanzengenomen, die von der Pipeline kommentiert werden, kann auf der Website der eukaryotic genome Annotation Pipeline des NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ mit Links zum detaillierten Annotationsbericht und anderen Ressourcen wie species BLAST und FTP abgerufen werden.

ALGEN, PILZE, NEMATODEN UND PROTOZOEN

Die NCBI Small eukaryotic genome Pipeline ist eine neue automatisierte Pipeline, die für die Generierung von RefSeq-Datensätzen als Ergebnis der direkten Vermehrung kommentierter INSDC-Datensätze entwickelt wurde. Die so erzeugten RefSeq-Datensätze sind Kopien der GenBank-Daten mit einigen Formatänderungen, um den RefSeq-Anforderungen zu entsprechen. Der bemerkenswerteste Unterschied zwischen dem ursprünglichen INSDC-Datensatz und dem RefSeq-Datensatz ist das Hinzufügen des RefSeq-Transkriptprodukts. Obwohl die kleine eukaryotische Genompipeline nicht für die Generierung von De-novo-Genomanmerkungen entwickelt wurde, stützt sie sich auf mehrere der eukaryotischen NCBI-Genomanmerkungspipelinemodule und deren Code (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

Die Bezeichnung ‚Kleine Eukaryoten‘ bezieht sich auf die primäre Verwendung der Pipeline zur Erzeugung von RefSeq-Genomen für relativ kleinere eukaryotische Genome (im Vergleich zu denen von Pflanzen und Wirbeltieren) wie Algen, Protozoen, Pilze, Nematoden und einige Arthropoden. Einige große Pflanzengenome werden jedoch auch mit dieser Pipeline verarbeitet. Diese Pipeline verarbeitet hochwertige Baugruppen bestehend aus Chromosomen und/oder Scaffolds und deren Komponenten. Diese Baugruppen mit hoher contig und Gerüst N50, qualitativ hochwertige Sequenz, und einigermaßen gut INSDC eingereichten Annotation werden priorisiert. Diese Pipeline, die einen historischen Prozessablauf ersetzt, der mehr manuelle Unterstützung erforderte, hat erst kürzlich eine öffentliche Produktionsphase erreicht und liefert bereits eine erhöhte Anzahl von ‚kleinen‘ eukaryotischen Genomen, die in RefSeq vertreten sind. Es wird daran gearbeitet, den Pipeline-Durchsatz zu optimieren, mehr Automatisierung hinzuzufügen und die Verarbeitungsaufgaben weiter zu minimieren. Längerfristige Pläne beinhalten die Implementierung eines Proteinnamenmanagementsystems, um die vom INSDC eingereichten Namen im Laufe der Zeit bereitzustellen, zu korrigieren oder zu verbessern. Viele der Genome, die für die Pipeline der kleinen Eukaryoten in Frage kommen, können derzeit aufgrund der taxonomischen Vielfalt und der begrenzten Verfügbarkeit von Transkriptdaten, die zum Trainieren der De-Novo-Annotationspipeline erforderlich sind, nicht von der (großen) eukaryotischen Genom-Annotationspipeline verarbeitet werden.

Fungal targeted loci

Die Morphologie der Pilze ist sehr vielfältig und reicht von komplexen vielzelligen Strukturen bis hin zu sehr einfachen Einzelzellen. Eine Vielzahl von morphologischen Strukturen und Sporentypen kann von einer einzigen Art erzeugt werden. Umgekehrt produzieren viele Arten ähnliche Morphologien (Morphs), sind aber genetisch sehr weit entfernt. Bis vor kurzem konnte eine einzelne Art mit mehr als einem binomischen Namen basierend auf sexuellen oder asexuellen Morphen gültig beschrieben werden. In vielen Fällen wurde nur ein einziger Morph für eine bestimmte Art beschrieben und aufgezeichnet, obwohl Arten, die eng damit verwandt sind, mehrere Morphs beschrieben und aufgezeichnet haben könnten. Folglich, Sequenzvergleiche wurden in der Pilzgemeinschaft angewendet, um zwischen Arten zu unterscheiden, Arten zu verfolgen, während sie komplexe Lebenszyklen durchlaufen, und kryptische Arten zu identifizieren. Im Rahmen des dynamischen Prozesses der taxonomischen Neubewertung sind viele Pilzartenkorrekturen in GenBank-Sequenzdaten nicht immer aktuell.Um eine zuverlässigere Quelle für die DNA-basierte Identifizierung zu sein, müssen Referenzsequenzen, die von Typproben abgeleitet wurden (die als Referenzen für Arten dienen), mit dem richtigen und aktuellsten Artennamen gekennzeichnet werden. Die beiden RefSeq Targeted Loci-Datenbanken bieten diese wertvolle Ressource. PRJNA177353 ist beispielsweise ein BioProjekt, das sich speziell auf die Internal Transcribed Spacer (ITS) -Regionen im nuklearen ribosomalen Cistron konzentriert, das seit vielen Jahren als phylogenetischer Marker verwendet und kürzlich als formale Barcode-Sequenz von Pilzen zugelassen wurde (41). Die ITS RefSeq-Datenbank entstand in Zusammenarbeit mit Index Fungorum, MycoBank und UNITE sowie einer großen Gruppe von taxonomischen Spezialisten. Sequenzen wurden ausgewählt, meist aus Typenproben mit gültigen Beschreibungen, und dann wurden den Sequenzen aktuelle korrekte Artnamen zugeordnet, um die meisten akzeptierten Pilzordnungen darzustellen (8). Die Ergebnisse dieser Kurationsbemühungen wurden in verschiedenen Publikationen verwendet und zitiert (42-46) und haben zusätzliche Bemühungen zur Validierung von Teilmengen von Referenzsequenzen unterstützt, z. B. medizinisch signifikante Arten (47).

Ziel ist es, bei fortgesetzter Kuratierung Sequenzen aus neu beschriebenen Ordnungen hinzuzufügen und die Repräsentation auf die meisten akzeptierten Familien mit Schwerpunkt auf medizinisch wichtigen Pilzen auszudehnen. Der Prozess umfasst auch Korrekturen, das Ersetzen der Sequenz aus verifiziertem Material durch Sequenz aus Typmaterial, sobald es verfügbar ist, und das Bearbeiten von Definitionszeilen oder das Entfernen von RefSeq-Datensätzen, wenn sich die taxonomischen Klassifikationen ändern. Dadurch wird sichergestellt, dass die Suchergebnisse den aktuellen Namen korrekt anzeigen. Die RefSeq-Datensätze wurden erweitert, um 3.060 Sequenzen darzustellen, die 270 Familien aus 39 Klassen repräsentieren. Während der ersten kollaborativen ITS RefSeq-Bemühungen wurde auch ein kleinerer Satz von Sequenzakzessionen aus dem 28S-Kern-ribosomalen Gen mit großer Untereinheit (LSU) gesammelt, jedoch nicht verifiziert. Es wurde ein Workflow befolgt, der dem ITS-Datensatzkurationsprozess ähnelt, und während der fortgesetzten Kuration wurden diese LSU-Datensätze auf Sequenzqualität, korrekte Identifizierung und genaue Quelldaten überprüft. Fast 500 Datensätze (von 800 potenziellen Datensätzen), die >100 Familien aus 21 Klassen darstellen, wurden verifiziert und kürzlich veröffentlicht. Der 28S-Datensatz kann aus dem BioProjekt PRJNA51803 (48) abgerufen werden.

PROKARYOTEN

Die NCBI RefSeq prokaryotic genome Collection repräsentiert zusammengesetzte prokaryotische Genome mit unterschiedlichen Qualitätsstufen und Stichprobendichten. Für Prokaryoten, Basierend auf früheren Community-Feedbacks, besteht unsere derzeitige Richtlinie darin, Genomanmerkungen für alle prokaryotischen Genome bereitzustellen, die unsere Qualitätskriterien erfüllen. In den letzten Jahren standen wir vor zwei großen Herausforderungen: (i) mit der raschen Eskalation der eingereichten prokaryotischen Genome Schritt zu halten; und (ii) eine wachsende Inkonsistenz in der Genomanmerkung aufgrund der Verwendung sowohl einer INSDC-vermehrungsbasierten Pipeline als auch verschiedener Versionen einer NCBI de novo-Genomanmerkungspipeline, wie sie im Laufe der Zeit entwickelt wurde.Mit dem zunehmenden Interesse an menschlichen Krankheitserregern und der Weiterentwicklung der DNA-Sequenzierungstechnologie hat die Anzahl der sequenzierten prokaryotischen Genome in den letzten zehn Jahren rapide zugenommen. Einige Bakterienstämme sind unter Verwendung der gegenwärtigen Genotypisierungsansätze häufig nicht unterscheidbar, aber geringfügige genetische Unterschiede können auf der Grundlage der Sequenzierung des gesamten Genoms nachgewiesen werden, was zur Charakterisierung von Übertragungswegen, zur Identifizierung von Antibiotikaresistenzen und zur Vermessung von Ausbrüchen nützlich ist. Um durch Lebensmittel übertragene Krankheitserreger oder Infektionsausbrüche zu untersuchen, wurden in den letzten Jahren eine große Anzahl nahezu identischer bakterieller Genome sequenziert und annotiert, was zu zahlreichen identischen Proteinen mit jeweils einer unterschiedlichen Zugangsnummer führte. Im Jahr 2013 führte NCBI ein neues Proteindatenmodell und ein Beitrittspräfix (WP_) für die RefSeq-Sammlung ein. Diese Änderung reduzierte die Redundanz in RefSeq-prokaryotischen Proteinen und erleichterte die Identifizierung von Proteinen, die auf mehr als einem Genom identisch gefunden wurden. Es ermöglichte auch eine verbesserte Strategie für die Verwaltung von prokaryotischen Proteinnamen. Diese nicht redundanten Datensätze stellen einzigartige prokaryotische Proteinsequenzen dar, die unabhängig von einem bestimmten bakteriellen Genom sind und an mehreren Stämmen oder Arten annotiert sein können.www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).In der Vergangenheit wurde die Annotation von RefSeq-Bakteriengenomen aus INSDC-Einreichungen propagiert, sofern verfügbar, oder mithilfe verschiedener Versionen der prokaryotischen Genom-Annotationspipeline des NCBI generiert (die auch als Service für GenBank-Einreichungen angeboten wird). Dies führte zu akkumulierten Inkonsistenzen sowohl bei der strukturellen als auch bei der funktionalen Annotation im RefSeq-prokaryotischen Datensatz. In den letzten zwei Jahren hat das NCBI mehrere Aspekte der Annotationspipeline für prokaryotische Genome verbessert, um die Kapazität zu erhöhen und die Annotationsregeln weiter zu standardisieren. Unsere Pipeline kombiniert einen Genaufrufalgorithmus, GeneMarkS + (49,50), mit einem Alignment-basierten Gendetektionsansatz und ist in der Lage, sowohl vollständige als auch Entwürfe von WGS-Genomen zu kommentieren. Die Pipeline prognostiziert derzeit protein-kodierende Gene, strukturelle RNAs (5S, 16S und 23S), tRNAs und kleine nicht-kodierende RNAs.

Im Jahr 2015 haben wir ein umfassendes Annotations-Update für RefSeq prokaryotische Genome veröffentlicht, um die Genomannotation zu harmonisieren und den Übergang zum neuen Proteindatenmodell abzuschließen. Eine neue prokaryotische Proteinnamensdatenbank, Namensspezifikationen und eine evidenzbasierte Strategie wurden entwickelt und sind derzeit im Einsatz. Bisher wurden über 3 Millionen Proteindatensätze in einer ersten Demonstration des Ansatzes aktualisiert. Das neue prokaryotische Datenmodell bietet einen signifikanten Vorteil für die Namensverwaltung, da der Proteinname mit dem Proteinsequenzdatensatz übertragen wird; Die Aktualisierung des Namens in diesem Proteindatensatz führt dazu, dass das Update automatisch an alle Genome weitergegeben wird, die mit dieser Zugangsnummer versehen sind.

RefSeq prokaryotische Genome sind in mehrere neue Kategorien unterteilt, wie Referenzgenome und repräsentative Genome, die auf kuratierten Attributen und Qualitätsmaßstäben für Assemblierung und Annotation basieren.www.ncbi.nlm.nih.gov/refseq/about/prokaryotes /) (51). Referenzgenome sind manuell ausgewählte ‚Goldstandard‘-Komplettgenome mit qualitativ hochwertiger Annotation und höchster experimenteller Unterstützung für strukturelle und funktionelle Annotation. Derzeit wird ein kleiner Datensatz von 122 Referenzgenomen von kollaborierenden Gruppen und NCBI-Mitarbeitern manuell annotiert. Die Referenzgenome sind verfügbar unter: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Repräsentative Genome werden rechnerisch berechnet und ausgewählt, um verschiedene Arten darzustellen. Die repräsentativen Genome sind verfügbar unter: www.ncbi.nlm.nih.gov/genome/browse/representative /.

RefSeq Auf prokaryotische Genomdaten kann in BLAST-Datenbanken, Webressourcen (Assembly, BioProject, Genome, Nucleotide und Protein), über die Programmier-Dienstprogramme des NCBI zugegriffen oder von den FTP-Sites von genomes oder refseq heruntergeladen werden. Eine benutzerdefinierte ‚Mikroben‘ -BLAST-Seite, auf die von der BLAST-Homepage aus zugegriffen werden kann, bietet Optionen zur Suche nach allen RefSeq-prokaryotischen Genomen, der Referenz- und repräsentativen Genom-Teilmenge, oder um die Suche auf eine bestimmte Taxa zu beschränken. Eine Teilmenge prokaryotischer Genome wird mit einer NCBI-Gen-ID annotiert und kann in der NCBI-Genressource oder von der Gen-FTP-Site abgerufen werden. Für Archaeen ist dies für die meisten vollständigen Genome vorgesehen. Für Bakterien wird dies für Referenzgenome und die repräsentativen Genome für Arten mit mindestens 10 Genomeinreichungen bereitgestellt.

Prokaryotische Zielorte

In Prokaryoten ist die 16S-ribosomale RNA-Sequenz zu einem molekularen Standardmarker für die Beschreibung einer neuen Spezies geworden. Während diese Markersequenzen weit verbreitet sind, variiert die Qualität der Sequenzdaten und der zugehörigen Metadaten, die an INSDC-Datenbanken übermittelt werden, erheblich. In Anerkennung der Bedeutung des Zugangs zu qualitativ hochwertigen Daten für diese Marker hat das NCBI sein Targeted Loci-Projekt erweitert, um eine aktuelle Quelle kuratierter Daten bereitzustellen. Das Targeted loci-Projekt unterhält derzeit fast 18 000 16S-ribosomale RNA-Referenzsequenzen, von denen über 95% aus Typenstämmen stammen. Die Typenstämme gelten als Beispiel für die Art, und es ist wichtig, dass die Typenstamm-Daten mit korrekten Metadaten versehen und frei von Kontaminationen sind.

Diese Arbeit umfasste eine umfassende Überprüfung und Aktualisierung der zugrunde liegenden Taxonomie-Datenbank, die in Verbindung mit dem Entrez-Filter des NCBI-Typs zum Abrufen von Kandidatensequenzen verwendet wurde. Die Sequenzdaten und die zugehörigen Taxonomie- / Metadaten wurden überprüft und korrigiert, um die aktuellsten Informationen zu enthalten. Wenn eine Sequenz die Validierung nicht bestanden hat oder nicht genau validiert werden konnte, wurde sie ausgeschlossen. Diese Referenzsequenzen können nun als ‚Goldstandard‘ für die Analyse bestehender und neuer rRNA-Sequenzen verwendet werden.

Bakterielle und archaeale 16S-rRNA-Datensätze sind bei BioProject (PRJNA33175 bzw. PRJNA33317) erhältlich. Eine benutzerdefinierte BLAST-Datenbank ist ebenfalls verfügbar (’16S ribosomale RNA-Sequenzen (Bakterien und Archaeen)‘).

VIREN

Das RefSeq-Datenmodell für Viren unterscheidet sich von dem anderer Organismen. Im Allgemeinen wird für jede Virusart nur ein vollständiges RefSeq-Genom erstellt. Gelegentlich werden mehrere RefSeq-Datensätze innerhalb einer bestimmten Virusart erstellt, um genau definierte Genotypen oder wichtige Labor- und / oder Wildstämme widerzuspiegeln. Zusätzliche Genome für eine bestimmte Spezies werden auf Taxonomie und Vollständigkeit validiert und dann als Sequenznachbarn indexiert (52). Sowohl RefSeq- als auch Nachbargenome können über die specialized Viral Genome Resource (http://www.ncbi.nlm.nih.gov/genome/viruses/) und von Entrez-Nukleotid- und Genomseiten unter Verwendung von „RefSeq Genome for Species“ – und „Other INSDC Genome Sequences“ -Links abgerufen werden (52).Die Taxonomie ist ein wichtiges Anliegen der viralen Genomik, da es 3186 Virusarten gibt, die offiziell vom Internationalen Komitee für Taxonomie der Viren (ICTV) (53) anerkannt sind, und 4834 vollständige Genome von offiziellen und vorläufigen Virusarten, die in INSDC-Datenbanken verfügbar sind. Das NCBI Pairwise Sequence Comparison (PASC) Tool wurde entwickelt, um die Klassifizierung viraler Genome basierend auf globalen und/oder lokalen Alignments zwischen Genomen zu unterstützen (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Der Anwendungsbereich dieses Tools wurde erweitert, um eine Reihe von Virusfamilien und anderen taxonomischen Gruppen einzubeziehen, und es wurde verwendet, um die Abgrenzung neuer taxonomischer Kriterien zu unterstützen (54-57).Ein weiteres aufkommendes Problem in der viralen Genomik ist die inkonsistente und / oder ungenaue Annotation zwischen verwandten viralen Genomsequenzen. Dieses Problem spiegelt häufig unterschiedliche Annotationsprozesse und laufende experimentelle Arbeiten wider und kann zu Verwirrung bei den Datenkonsumenten führen und eine vergleichende Analyse zwischen Genomen erschweren. Dieses Problem wird in der NCBI Virus Variation Resource (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) behandelt, in der rechnerische Pipelines verwendet werden, um eine aktuelle, standardisierte Annotation für mehrere Viren bereitzustellen (58). Derzeit berechnen diese Pipelines standardisierte Gen- und Proteingrenzen für alle Influenzavirus-, Dengue-Virus- und West-Nil-Virussequenzen sowie standardisierte Gen- und Proteinnamen und Metadatenbegriffe für diese und zwei andere Viren, das Middle East Respiratory Coronavirus und das Ebolavirus. Diese standardisierten Daten werden dann in einer spezialisierten, metadatenzentrierten Suchoberfläche genutzt, die das einfache Abrufen von Sequenzen basierend auf bestimmten biologischen Kriterien erleichtert.

Die Aufrechterhaltung aktueller, weithin akzeptierter Annotationsstandards erfordert eine kontinuierliche Zusammenarbeit mit der größeren wissenschaftlichen Gemeinschaft. Die NCBI Viral Genome Annotation Working Group wurde gegründet, um Konsortien aus öffentlichen Datenbanken, Sequenzierungszentren und Forschungsgruppen zu nutzen, um standardisierte Sequenzanmerkungen zu entwickeln und Namensschemata für verschiedene Virusgruppen zu isolieren (59-63). Dieser Ansatz legt nicht nur Standards für die Annotation fest, sondern stellt diese Standards auch innerhalb des aktuellen RefSeq-Datensatzes dar, um die Zugänglichkeit für alle Datenbankbenutzer und Einreicher sicherzustellen. Ähnliche Kooperationen sind auch notwendig, um wertschöpfende, interpretierende Ressourcen wie die HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovires/hiv-1/interactions/) (64). Mitarbeiter des Southern Research Institute bieten dokumentierte HIV-1, menschliche molekulare Interaktionen aus der Literatur kuratiert und NCBI unterhält eine benutzerfreundliche Ressource, in der Benutzer nach bestimmten Arten von Interaktionen suchen und weitere Informationen zu den beteiligten Genen finden können.

ZUKÜNFTIGE RICHTUNGEN

Das RefSeq-Projekt ist einzigartig darin, einen Referenzsequenzdatensatz von Transkripten, Proteinen und Genomen anzubieten, der alle Lebensbereiche umfasst und im Laufe der Zeit aktiv gepflegt und aktualisiert wurde, um verbesserte Berechnungsstrategien, neue Datentypen und neues Wissen zu integrieren. Wir haben gezeigt, dass wir in der Lage und in der Lage sind, auf den jüngsten raschen Anstieg der Anzahl sequenzierter Genome zu reagieren, die an INSDC-Datenbanken übermittelt werden. Wir haben verschiedene Richtlinien und Strategien für die Kuration und Annotation eukaryotischer, prokaryotischer und viraler Arten definiert, um den unterschiedlichen Bedürfnissen organismusspezifischer Gemeinschaften gerecht zu werden. Der RefSeq-Datensatz wird häufig als Referenzstandard für viele verschiedene Analysen verwendet, darunter klinische Anwendungen beim Menschen und bei Krankheitserregern, vergleichende Genomik, Expressionstests, Interpretation von Sequenzvariationen sowie Array- und Sondenkonstruktion. Bei NCBI ist der RefSeq-Datensatz in mehrere Ressourcen integriert, darunter Assembly, BLAST, Epigenomics, Gene (wobei die RefSeq-Annotation die primäre Grundlage für die meisten Geneinträge ist), Genom, dbSNP, dbVar, Variation Viewer und mehr.

Wir werden weiterhin auf manuelle Kuration abzielen, um strukturelle und funktionelle Informationen für menschliche und andere Wirbeltiergenome zu verbessern. Unser konservativer manueller Kurationsansatz gewährleistet die anhaltend hohe Qualität und Zuverlässigkeit der Human-, Maus- und anderer bekannter RefSeq-Datensätze, die den Anforderungen derjenigen gerecht werden, die eine gut unterstützte Definition alternativer Exons benötigen (weniger Fehlalarme). Das Hinzufügen von RNA-Seq-Daten zu unserer Annotationspipeline hat unsere Annotation alternativer Spleißvarianten als Modell-RefSeqs erheblich verbessert, um den Anforderungen derjenigen gerecht zu werden, die eine umfassendere, aber immer noch gut unterstützte Definition des Exoms wünschen (weniger falsch negative). Während sowohl bekannte als auch Modell-RefSeqs die Unterstützungsnachweise im Sequenzdatensatz melden, verwenden sie dazu unterschiedliche Ansätze. Zukünftige Bemühungen werden darauf gerichtet sein, die Evidenzberichterstattung sowohl für bekannte als auch für Modell-RefSeqs zu harmonisieren, damit Benutzer diese Informationen leichter identifizieren können. Wir werden in naher Zukunft auch einen neuen Datentyp zur Human- und Maus-RefSeq-Sammlung hinzufügen, um experimentell gemeldete regulatorische und funktionelle Elemente mit bekannten (oder vernünftigerweise abgeleiteten) funktionellen Konsequenzen darzustellen.

Für prokaryotische Genome arbeiten wir weiterhin an der Verfeinerung von Aspekten der strukturellen Annotation, die durch die prokaryotische Genom-Annotationspipeline erzeugt wird. Unsere Arbeit an einem neuen Ansatz zur Verwaltung funktionaler Informationen wird noch verfeinert und an anderer Stelle beschrieben. Wir gehen davon aus, dass der gesamte RefSeq-Datensatz für prokaryotische Genome neu kommentiert wird, wenn neue Versionen unserer prokaryotischen Annotationspipeline verfügbar werden (um die strukturelle Annotation zu verbessern). Die Entscheidung, alle RefSeq-Prokaryoten mit einer einzigen Methode zu kommentieren, erfordert zusammen mit dem schieren Volumen dieses Datensatzes einen anderen Ansatz, der mehrere Evidenzquellen nutzt, um funktionale Informationen bereitzustellen. Proteinnamen werden fortlaufend aktualisiert, wie nach Proteinfamilien oder Kategorien des Nachweistyps organisiert. Zu unseren Zielen für das kommende Jahr gehören eine stärkere Integration von Rfam (65) in unsere Annotationspipeline, eine erweiterte Zusammenarbeit, verbesserte Proteinnamen und die Berichterstattung über Beweise für die Proteinsequenzaufzeichnung.

Wir möchten der wissenschaftlichen Gemeinschaft für konstruktives Feedback, Vorschläge, Fehlerberichte und Kooperationen in den letzten 15 Jahren danken, die zur Qualität und Genauigkeit der dargestellten Sequenz, strukturellen Annotation und funktionalen Annotation beigetragen haben.

FINANZIERUNG

Intramurales Forschungsprogramm der NIH, National Library of Medicine. Finanzierung für Open Access Gebühr: Das Intramural Research Program der National Institutes of Health, National Library of Medicine.

Erklärung zum Interessenkonflikt. Keiner erklärt.

Nosek
B.A.

Alter
G.

Banken
G.C.

Borsboom
D.

Bowman
S.D.

Breckler
S.J.

Buck
S.

Kammern
C.D.

China
G.

Christensen
G.

et al.

WISSENSCHAFTLICHE STANDARDS. Förderung einer offenen Forschungskultur
Wissenschaft
2015
348
1422
1425

Gray
K.A.

Yates
B.

Siegel
R.L.

Wright
M.W.

Bruford
E.A.

Genenames.org : die HGNC-Ressourcen im Jahr 2015
Nucleic Acids Res.
2015
43
D1079
D1085

Ruzicka
L.

Bradford
Y.M.

Frazer
K.

Howe
D.G.

Paddock
H.

Ramachandran
S.

Sänger
A.

Stier
S.

Van Slyke
C.E.

Adler
A.E.

et al.

ZFIN, The zebrafish model organism database: Updates and new directions
Genesis
2015
53
498
509

UniProt
C.

UniProt: eine Drehscheibe für Proteininformationen
Nucleic acids Res.
2015
43
D204
212

Kozomara
A.

Griffiths-Jones
S.

miRBase: annotation von High confidence microRNAs mit Deep Sequencing Daten
Nucleic Acids Res.
2014
42
D68
73

McGarvey
K.M.

Goldfarb
T.

Cox
E.

Farrell
C.M.

Gupta

T.

Joardar
V.S.

Kodali
V.K.

Murphy
M.R.

O’leary
N.A.

Pujar
S.

Annotation des Mausgenoms durch das RefSeq-Projekt
Mamm. Genom
2015
26
379
390

Dalgleish
R.

Flicek
P.

Cunningham
F.

Astashyn
A.

Tully
R.E.

Proctor
G.In diesem Fall ist es wichtig, dass Sie sich an die Regeln halten, die Sie befolgen müssen, damit Sie die Regeln einhalten können.

Locus Reference Genomic sequences: die verbesserte Grundlage für die Beschreibung menschlicher DNA-Varianten
Genome Med.
2010
2
24

Schoch
C.L.

Robbertse
B.

Robert
V.

Vu
D.

Cardinali
G.

Irinyi
L.

Meyer
W.

Nilsson
R.H.

Hughes
K.

Miller
A.N.

et al.

Nadeln im Heuhaufen finden: Verknüpfung von wissenschaftlichen Namen, Referenzproben und molekularen Daten für Pilze
Datenbank
2014
1
21

Zhang
G.

It
C.

Es
Q.

Es
B.

Larkin
D.M.

Lee
C.

Storz
J.F. In der Tat ist es eine gute Idee, das Spiel zu spielen, aber es ist nicht einfach, es zu spielen.

Vergleichende Genomik gibt Einblicke in die Evolution und Anpassung des Vogelgenoms
Wissenschaft
2014
346
1311
1320

Jarvis
E.D.

Mirarab
S.

Aberer
A.J.

Es
B.

Houde
P.

Es
C.

Ho
S.Y.

Lauch
B.C.In diesem Fall ist es wichtig, dass Sie sich an uns wenden.

Gesamtgenomanalysen lösen frühe Zweige im Lebensbaum moderner Vögel auf
Wissenschaft
2014
346
1320
1331

Farrell
C.M.

O’leary
N.A.

Harte
R.A.

Loveland
J.E.

Wilming
L.G.

Wallin
C.

Diekhans
M.

Barrell
D.

Searle
S.M.

Aken
B.

et al.

Aktueller Stand und neue Funktionen der Consensus Coding Sequence database
Nucleic Acids Res.
2014
42
D865
D872

Pruitt
K.D.

Tatusova
T.

Maglott
D.R.

NCBI reference sequences (RefSeq): eine kuratierte, nicht redundante Sequenzdatenbank von Genomen, Transkripten und Proteinen
Nukleinsäuren Res.
2007
35

D61

D65

Hopkins
B.D.

Fein
B.

Steinbach
N.

Dendy
M.

Rapp
Z.

Shaw
J.

Ross
K.

Yu
J.S.

Hodakoski
C.

Mense
S.

et al.

Die sekretierte PTEN-Phosphatase, die in Zellen eindringt, um die Signalübertragung und das Überleben zu verändern
Wissenschaft
2013
341
399
402

Liang
H.

Er
S.

Yang
J.

Jia
X.

Wang
P.

Hund
X.

Zhang
Z.

Zoo
X.

McNutt
M.A.

Sheng
W. H.

et al.

PTENalpha, die durch alternative Initiierung übersetzte PTEN-Isoform, reguliert die Mitochondrienfunktion und den Energiestoffwechsel
Cell Metab.
2014
19
836
848

Bolouri
H.

Modellierung regulatorischer Genomnetzwerke mit Big Data
Trends Genet.: TIG
2014
30
182
191

Fagerberg
L.

Hallstrom
B.M.

Oksvold
P.

Kampf
C.

Djureinovic
D.

Odeberg
J.

Habuka
M.

Tahmasebpoor
S.

Danielsson
A.

Edlund
K.

et al.

Scan der humanen gewebespezifischen Expression durch genomweite Integration von Transkriptomik und Antikörper-basierter Proteomik
Mol. Zelle. Proteomik : MCP
2014
13
397
406

Bernstein
B.E.

Stamatoyannopoulos
J.A.

Costello
J.F.

Taille
B.

Milosavljevic
A.

Meissner
A.

Kellis
M.

Marra
M.A.

Beaudet/div>

A.L.

Ecker
J.R.

et al.

Das NIHON epigenomics Mapping consortium
Nat. In: Biotechnol.
2010
28
1045
1048

Hoffman
M.M.

Ernst
J.

Wilder
S.P.

Kundaje
A.

Harris
R.S.

Libbrecht
M.

Giardine
B.

Ellenbogen
P.M.

Bilmes
J.A.

Birney
E.

et al.

Integrative Annotation von Chromatinelementen aus Kodierungsdaten
Nukleinsäuren Res.
2013
41
827
841

Derti
A.

Garrett-Engele
P.

Macisaac
K.D.

Stevens
R.C.

Sriram
S.

Hund
R.

Rohl
C.A.

Johnson
J.M.

Babak
T.

Der quantitative Atlas der Polyadenylierung bei fünf Säugetieren
Genome Res.
2012
22
1173
1183

Lin
M.F.

Jungreis
I.

Kellis
M.

PhyloCSF: die vergleichende Genomik-Methode zur Unterscheidung von Protein-kodierenden und nicht-kodierenden Regionen
Bioinformatik
2011
27
i275
282

Preis
A.L.

Jones
N.C.

Pevzner
P.A.

De novo Identifizierung von Wiederholungsfamilien in großen Genomen
Bioinformatik
2005
21 Suppl 1
i351
358

Kodzius
R.

Kojima
M.

Nishiyori
H.

Nakamura
M.

Fukuda
S.

Tagami
M.

Sasaki
D.

Imamura
K.In diesem Fall ist es wichtig, dass Sie sich an uns wenden.

CAGE: Cap-Analyse der Genexpression
Nat. Methoden
2006
3
211
222

Morris
K.V.

Mattick
J.S.

Der Aufstieg der regulatorischen RNA
Nat. In: Rev. Genet.
2014
15
423
437

Evin
G.

H.
C.

BACE1 als therapeutisches Ziel bei der Alzheimer-Krankheit: Begründung und aktueller Status
Drugs Aging
2013
30
755
764

Yu
X.

Es
Z.

Lange nicht-kodierende RNA HOTAIR:ein neuartiges Onkogen (Rezension)
Mol. Med. Rep.
2015
12
5611
5618

Zasloff
M.

Antimikrobielle Peptide in Gesundheit und Krankheit
N. Engl. Dr. Med.
2002
347
1199
1200

Lander
E.S.

Linton
L.M.

Birren
B.

Nusbaum
C.

Zody
M.C.

Baldwin
J.

Devon
K.

Dewar
K.In diesem Fall ist es wichtig, dass Sie sich an uns wenden.

Erstsequenzierung und Analyse des menschlichen Genoms
Nature
2001
409
860
921

Wände
S.

Lee
X.

Es
X.

Veldman
G.M.

Finnerty
H.

Racie
L.

LaVallie
E.

Tang
X.Y.

Edouard
P.

Howes
S.

et al.

Syncytin ist ein captives retrovirales Hüllprotein, das an der menschlichen Plazentamorphogenese beteiligt ist
Nature
2000
403
785
789

Marzluff
W.F.

Gongidi
P.

der Wald
K.R.

Jin
J.

Maltais
L.J.

Die replikationsabhängigen Histongene von Mensch und Maus
Genomik
2002
80
487
498

Geben
V.

Karpiuk
O.

Tieg
B.

Krieg
M.

Dikomey
E.

Krebber
H.

Begus-Nahrmann
Y.

Johnsen
S.A.

Die Teilmenge der Histon-H2B-Gene produziert polyadenylierte mRNAs unter einer Vielzahl von zellulären Bedingungen
PLoS One
2013
8
e63745

Barbosa
C.

Peixeiro
I.

Romao
L.

Regulation der Genexpression durch vorgelagerte offene Leserahmen und menschliche Krankheiten
PLoS Genet.
2013
9
e1003529

Rajput
B.

Murphy
T.D.

Pruitt
K.D.

RefSeq curation and annotation of antizyme and antizyme inhibitor genes in vertebrates
Nucleic Acids Res.
2015
43

7270

7279

7270

>

Zhang
Z.Q.

Artenvielfalt der Tiere: Gliederung der übergeordneten Taxonomie und Erhebung des taxonomischen Reichtums (Addenda 2013)
Zootaxa
2013
3703
1
82

Holt
R.A.

Subramanian
G.M.

Halpern
A.

Sutton
G.G.

Charlab
R.

Nusskern
D.R.

Wincker
P.

Clark
A.G.

Ribeiro
J.M.

Wides
R.

et al.

Die Genomsequenz der Malariamücke Anopheles gambiae
Wissenschaft
2002
298
129
149

Ritter
M.

Arican-Goktas
H.D.

Ittiprasert
W.

Odoemelam
E.C.

Miller
A.N.

Brücke
J.M.

Schistosomen und Schnecken: eine molekulare Begegnung
Front. Genet.
2014
5
230

The Genome Sequencing, C.
Einblicke in soziale Insekten aus dem Genom der wachsenden Apis mellifera
Nature
2006
443
931
949

Xia
Q.

Zhou
Z.

Lu
C.

Cheng
D.

Dai
F.

Es
B.

Zhao
P.

Zha
X.

Cheng
T.

Chai
C.

et al.

Ein Sequenzentwurf für das Genom der domestizierten Seidenraupe (Bombyx mori)
Wissenschaft
2004
306
1937
1940

Zhang
G.

Fang
X.

Guo
X.

Es
L.

Luo
R.

Xu
F.

Yang
P.

Zhang
L.

Wang
X.

Qi
H.

et al.

Das Austerngenom zeigt Stressanpassung und Komplexität der Schalenbildung
Nature
2012
490
49
54

i5K, Konsortium
Die i5K Initiative: advancing arthropod genomics for knowledge, human health , landwirtschaft und Umwelt
J. Vererbung
2013
104
595
600

Wissenschaftler
G.C.o.

-Grissom
H.

Collins
– A. G.

Collins
T.

Crandall
K.

Distel
D.

Dunker
C.

Giribet
G.

Schellfisch
S.

Knowlton
N.

et al.

Die Global Invertebrate Genomics Alliance (GIGA): Entwicklung von Community-Ressourcen zur Untersuchung verschiedener wirbelloser Genome
J. Vererbung
2014
105
1
18

Schoch
C.L.

Seifert
K.A.

Huhndorf
S.

Robert
V.

Spouge
J.L.

Levesque
C.A.

Hund
W.

Bolchacova
E.

Voigt
K.

Crous
P.W.

et al.

Nuclear ribosomal internal transcribed spacer (ITS) Region als universeller DNA-Barcode-Marker für Pilze
Proc. Natl. Acad. Sci. USA
2012
109
6241
6246

Visagie
C.M.

Houbraken
J.

Frisvad
J.C.

Hong
S.B.

Klaassen
C.H.

Perrone
G.

Seifert
K.A.

Varga
J.

Yaguchi
T.

Samson
R.A.

Identifizierung und Stückliste der Gattung Penicillium
Gestüt. Mycol.
2014
78
343
371

Corte
L.

say Cagno
R.

Groenewald
M.

Roscini
L.

Colabella
C.

Gobbetti
M.

Cardinali
G.

Phänotypische und molekulare Diversität von Meyerozyma guilliermondii-Stämmen, isoliert aus Lebensmitteln und anderen Umweltnischen, Hinweise auf die beginnende Artbildung
Lebensmittelmikrobiol.
2015
48
206
215

Federhen
S.

Bestandsmaterial in der NCBI Taxonomy Database
Nucleic Acids Res.
2015
43
D1086
D1098

Nilsson
R.H.

Tedersoo
L.

Ryberg
M.

Kristiansson
E.

Hartmann
M.

Unterseher
M.

Porter
T.M.

Bengtsson-Palme
J.

Wanderer
D.M.

de Sousa
F.

et al.

Der umfassende, automatisch aktualisierte Pilz-ITS-Sequenzdatensatz zur referenzbasierten Chimärenkontrolle bei Umweltsequenzierungsbemühungen
Mikrob. Circa/JSME
2015
30
145
150

Mittelbach
M.

Jurkow
A.M.

Nocentini
D.

Nepi
M.

Weigend
M.

Begerow
D.

Nektarzucker und Vogelbesuche definieren die floralen Bedingungen für basidiomycetische Hefe auf den Kanarischen Inseln
BMC Ecol.
2015
15
2

Irinyi
L.

Serena
C.

Garcia-Hermoso
D.

Arabatzis
M.

Desnos-Ollivier
M.

Vu
D.

Cardinali
G.

Arthur
I.

Normand
A.C.

Giraldo
A.

et al.

the International Society of Human and Animal Mycology (ISHAM)-ITS reference DNA barcoding database–the quality controlled standard tool for routine identification of human and animal pathogenic fungi
Med. Mycol.
2015
53
313
337

Schoch
C.L.

Seifert
K.A.

Huhndorf
St.

Robert
V.

Spouge
J.L.

Levesque
C.A.

Chen
W.

Fungal Barcoding
C.

Fungal Barcoding Consortium Autor, L.
die Nuclear ribosomal internal transcribed Spacer (ITS) Region als universeller DNA-Barcode-Marker für Pilze
Proc. Natl. Acad. Sci. U.S.A.
2012
109
6241
6246

Besemer
J.

Lomsadze
A.

Borodovsky
M.

GeneMarkS: eine Selbsttrainingsmethode zur Vorhersage von Genmarken in mikrobiellen Genomen. Implikationen für die Suche nach Sequenzmotiven in regulatorischen Regionen
Nukleinsäuren Res.
2001
29
2607
2618

Borodovsky
M.

Lomsadze
A.

Genidentifikation in prokaryotischen Genomen, Phagen, Metagenomen und EST-Sequenzen mit GeneMarkS suite
Curr. Ja. Microbiol.
2014
32
Einheit 1 7

Tatusova
T.

Ciufo
S.

Federhen
S.

Fedorov
B.

McVeigh
R.

O’neill
K.

Tolstoi
I.

Zaslavsky
L.

Update auf RefSeq mikrobielle Genome Ressourcen
Nukleinsäuren Res.
2015
43
D599
D605

Brister
J.R.

Ako-Adjei
D.

Bao
Y.

Blinkova
O.

NCBI viral genomes resource
Nukleinsäuren Res.
2015
43
D571
D577

Adams
M.J.

Lefkowitz
E.J.
König
A.M.

Bamford
D.H.

Breitbart
M.

Davison
A.J.

Ghabrial
S.A.

Gorbalenya
A.E.

Knowles
N.J.

Krell
P.

et al.

Ratifizierungsabstimmung über taxonomische Vorschläge an das Internationale Komitee für Taxonomie von Viren (2015)
Arch. Aderendhülsen.
2015
160
1837
1850

Bao
Y.

Chetvernin
V.

Tatusova
T.

Paarweiser Sequenzvergleich (PASC) und seine Anwendung in der Taxonomie von Filoviren
Viren
2012
4
1318
1327

Bao
Y.

Chetvernin
V.

Tatusova
T.

Verbesserungen beim paarweisen Sequenzvergleich (PASC): Das genombasierte Webtool für die Virustaxonomie
Arch. Aderendhülsen.
2014
159
3293
3304

Kuhn
J.H.

Durrwald
R.

Bao
Y.

Briese
T.

Dioxid
K.

Clawson
A.N.

DeRisi
J.L.

Garten
W.

Jahrling
P.B.

Kolodziejek
J.

et al.

Taxonomische Reorganisation der Familie Bornaviridae
Arch. Aderendhülsen.
2015
160
621
632

Radoshitzky
S.R.

Bao
Y.

Buchmeier
M.J.

Charrel
R.N.

Clawson
A.N.

Clegg
C.S.

DeRisi
J.L.

Emonet
S.In diesem Fall ist es wichtig, dass Sie sich an uns wenden.

Vergangenheit, Gegenwart und Zukunft der Arenavirus-Taxonomie
Arch. Aderendhülsen.
2015
160
1851
1874

Brister
J.R.

Bao
Y.

Zhdanov
S.A.

Ostapchuck
Y.

Tschetvernin
V.

Kiryutin
B.

Zaslavsky
L.

Kimelman
M.

Tatusova
T.A.

Virus Variation Resource–aktuelle Updates und zukünftige Richtungen
Nucleic Acids Res.
2014
42
D660
665

Seto
D.

Chodosh
J.

Brister
J.R.

Jones
MS

Mitglieder der Adenovirus-Forschung, C.
Verwendung der gesamten Genomsequenz zur Charakterisierung und Benennung humaner Adenoviren
J. Ferrule.
2011
85
5701
5702

Matthijnssens
J.

Ciarlet
M.

McDonald
S.M.

Attoui
H.

Banyai
K.

Brister
J.R.

Buesa
J.

Esona
M.D.

Estes
M.K.

Gentsch
J.R.

et al.

Einheitlichkeit der Rotavirus-Stammstückliste vorgeschlagen von der Rotavirus Taxonomy Working Group (RCWG)
Arch. Aderendhülsen.
2011
156
1397
1413

Brister
J.R.

Bao
Y.

Kuiken
C.

Lefkowitz
E.J.

Le Mercier
P.

Leplae
R.

Madupu
R.

Scheuermann
R.H.

Schobel
S.

Seto
D.

et al.

Towards viral genome annotation standards, Bericht vom NCBI Annotation Workshop 2010
Viren
2010
2
2258
2268

Brister
J.R.

Le Mercier
P.

Hu
J.C.

Mikrobielle Virusgenomannotation – die Truppen zur Bekämpfung des Sequenzangriffs aufbringen
Virologie
2012
434
175
180

Kuhn
J.H.

Andersen
K.G.

Bao
Y.

Bavari
S.

Becker
S.

Bennett
R.S.

Bergman
N.H.

Blinkova
O.

Bradfute
S.

Brister
J.R.

et al.

Filovirus-RefSeq-Einträge: Bewertung und Auswahl von Filovirus-Typvarianten, typischen Sequenzen und Namen
Viren
2014
6
3663
3682

Ako-Adjei
D.

Fu
W.

Wallin
C.

Katz
K.S.

Lied
G.

Darji
D.

Brister
J.R.

Ptak
R.G.

Pruitt
K.D.

HIV-1, human interaction database: aktueller Stand und neue Funktionen
Nucleic Acids Res.
2015
43
D566
570

Nawrocki
E.P.

Burge
S.W.

Bateman
A.

Daub
J.

Eberhardt
R.Y.

Eddy
S.R.

Floden
E.W.

Gardnerdiv In diesem Fall ist es wichtig, dass Sie sich an uns wenden.

Rfam 12.0: Aktualisierungen der RNA-Familien-Datenbank
Nucleic Acids Res.
2015
43
D130
D137

Herausgegeben von Oxford University Press im Auftrag von Nucleic Acids Research 2015. Dieses Werk wurde von (einem) US-Regierungsangestellten geschrieben und ist in den USA gemeinfrei.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.