- Abstract
- INTRODUCTION
- Préfixes d’adhésion RefSeq
- GÉNÉRATION DE L’ENSEMBLE DE DONNÉES REFSEQ
- ACCÉDER À L’ENSEMBLE DE DONNÉES REFSEQ
- CROISSANCE ET STATISTIQUES
- Croissance annuelle du nombre d’organismes, de protéines et de transcrits représentés dans la version complète du RefSeq, par répertoire de versions FTP
- VERTÉBRÉS
- Projet RefSeqGene
- Incorporation d’ARN-Seq et d’autres types de données dans la curation basée sur la transcription
- ARN longs non codants (LNCRNA)
- Annotation fonctionnelle
- Les peptides antimicrobiens (AMP)
- Les rétrovirus endogènes (VRE)
- Histones dépendantes de la réplication
- Cadres de lecture ouverts en amont régulateurs (UORF)
- INVERTÉBRÉS
- PLANTES
- ALGUES, CHAMPIGNONS, NÉMATODES ET PROTOZOAIRES
- Locus ciblés fongiques
- PROCARYOTES
- Locus ciblés procaryotes
- VIRUS
- ORIENTATIONS FUTURES
- FINANCEMENT
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Le projet RefSeq exploite les données soumises à l’International Nucleotide Sequence Database Collaboration (INSDC) contre une combinaison de calcul, de curation manuelle et de collaboration pour produire un ensemble standard de séquences de référence stables et non redondantes. Le projet RefSeq enrichit ces séquences de référence avec les connaissances actuelles, y compris les publications, les caractéristiques fonctionnelles et la nomenclature informative. La base de données représente actuellement des séquences de plus de 55 000 organismes (> 4800 virus, > 40 000 procaryotes et > 10 000 eucaryotes ; RefSeq release 71), allant d’un seul enregistrement à des génomes complets. Cet article résume l’état actuel des branches virales, procaryotes et eucaryotes du projet RefSeq, rend compte des améliorations apportées à l’accès aux données et détaille les efforts visant à élargir davantage la représentation taxonomique de la collection. Nous soulignons également diverses initiatives de curation fonctionnelle qui prennent en charge de multiples utilisations des données RefSeq, notamment la validation taxonomique, l’annotation du génome, la génomique comparative et les tests cliniques. Nous résumons notre approche de l’utilisation de l’ARN-Seq disponible et d’autres types de données dans notre processus de curation manuelle pour les vertébrés, les plantes et d’autres espèces, et décrivons une nouvelle direction pour les génomes procaryotes et la gestion des noms de protéines.
INTRODUCTION
Depuis 15 ans, la base de données RefSeq du National Center for Biotechnology Information (NCBI) est une ressource essentielle pour la recherche génomique, génétique et protéomique. La fourniture par le projet RefSeq de génomes, transcriptions et protéines de référence annotés et stables pour des virus, des microbes, des organites et des organismes eucaryotes sélectionnés a permis aux chercheurs de se concentrer sur les meilleures données de séquences représentatives contrairement aux données redondantes de GenBank, et de référencer sans ambiguïté des séquences génétiques spécifiques. La collection RefSeq fournit des enregistrements de séquences de génome, de transcription et de protéines explicitement liés qui intègrent des publications, une nomenclature informative et des annotations de fonctionnalités standardisées et élargies. Les enregistrements RefSeq sont intégrés dans les ressources de NCBI, y compris les bases de données sur les nucléotides, les protéines et les BLAS, et peuvent être facilement identifiés par le mot-clé » RefSeq » et par leurs préfixes d’adhésion distincts qui définissent leur type (tableau 1). Toutes les données du RefSeq sont soumises à des contrôles d’assurance qualité (QA) avec des tests d’assurance qualité spécialisés développés pour différents taxons ou types de données. Par exemple, tous les REFSEQ viraux font l’objet d’un examen taxonomique par le personnel du NCBI avant leur diffusion publique. Les adhésions au RefSeq sont largement citées dans les publications scientifiques et les bases de données génétiques car elles fournissent un système de coordonnées stable et cohérent qui peut être utilisé comme base de référence pour rapporter des données spécifiques au gène, des variations cliniques et des comparaisons entre espèces. Ces étalons de séquence de référence sont de plus en plus importants car la précision des rapports et la reproductibilité sont des éléments essentiels pour les meilleures pratiques en recherche biomédicale (1).
Préfixes d’adhésion RefSeq
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Protéines annotées sur des accessions de transcription NM_ ou annotées sur des molécules génomiques sans transcription instanciée (p. ex. certains génomes mitochondriaux, génomes viraux et génomes bactériens de référence |
AP_3 | protéine | Protéines annotées sur des accessions génomiques AC_ ou annotées sur des molécules génomiques sans enregistrement de transcription instancié |
XP_3,5 | protéine | Protéines annotées sur des accessions de transcription XM_ ou annotées sur molécules génomiques sans enregistrement de transcription instancié |
YP_3 | protéine | Protéines annotées sur des molécules génomiques sans enregistrement de transcription instancié |
WP_6 | protéine | Protéines non redondantes entre plusieurs souches et espèces. Une seule protéine de ce type peut être annotée sur plus d’un génome procaryote |
Préfixe. | Type de molécule. | Utilisez le contexte. |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Protéines annotées sur des accessions de transcription NM_ ou annotées sur des molécules génomiques sans transcription instanciée (p. ex. certains génomes mitochondriaux, génomes viraux et génomes bactériens de référence |
AP_3 | protéine | Protéines annotées sur des accessions génomiques AC_ ou annotées sur des molécules génomiques sans enregistrement de transcription instancié |
XP_3,5 | protéine | Protéines annotées sur des accessions de transcription XM_ ou annotées sur molécules génomiques sans enregistrement de transcription instancié |
YP_3 | protéine | Protéines annotées sur des molécules génomiques sans enregistrement de transcription instancié |
WP_6 | protéine | Protéines non redondantes entre plusieurs souches et espèces. Une seule protéine de ce type peut être annotée sur plus d’un génome procaryote |
1Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 6 nombres suivis du numéro de version de la séquence.
2Le format d’accession complet se compose du préfixe suivi du numéro d’accession INSDC sur lequel l’enregistrement RefSeq est basé suivi du numéro de version de la séquence RefSeq.
3Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 6 ou 9 chiffres suivis du numéro de version de la séquence.
4les enregistrements avec ce préfixe d’adhésion ont été organisés par le personnel du NCBI ou une base de données d’organismes modèles, ou font partie du pool d’adhésions avec lesquelles les conservateurs travaillent. Ces enregistrements sont appelés l’ensemble de données RefSeq » connu « .
5Les enregistrements avec ce préfixe d’adhésion sont générés soit par le pipeline d’annotation du génome eucaryote, soit par le petit pipeline d’annotation du génome eucaryote. Les enregistrements générés via la première méthode sont appelés ensemble de données RefSeq ‘model’.
6Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 9 chiffres suivis du numéro de version. Le numéro de version est toujours ‘.1’ car ces enregistrements ne sont pas sujets à mise à jour. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Protéines annotées sur des accessions de transcription NM_ ou annotées sur des molécules génomiques sans transcription instanciée (p. ex. certains génomes mitochondriaux, génomes viraux et génomes bactériens de référence |
AP_3 | protéine | Protéines annotées sur des accessions génomiques AC_ ou annotées sur des molécules génomiques sans enregistrement de transcription instancié |
XP_3,5 | protéine | Protéines annotées sur des accessions de transcription XM_ ou annotées sur molécules génomiques sans enregistrement de transcription instancié |
YP_3 | protéine | Protéines annotées sur des molécules génomiques sans enregistrement de transcription instancié |
WP_6 | protéine | Protéines non redondantes entre plusieurs souches et espèces. Une seule protéine de ce type peut être annotée sur plus d’un génome procaryote |
Préfixe. | Type de molécule. | Utilisez le contexte. |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Protéines annotées sur des accessions de transcription NM_ ou annotées sur des molécules génomiques sans transcription instanciée (p. ex. certains génomes mitochondriaux, génomes viraux et génomes bactériens de référence |
AP_3 | protéine | Protéines annotées sur des accessions génomiques AC_ ou annotées sur des molécules génomiques sans enregistrement de transcription instancié |
XP_3,5 | protéine | Protéines annotées sur des accessions de transcription XM_ ou annotées sur molécules génomiques sans enregistrement de transcription instancié |
YP_3 | protéine | Protéines annotées sur des molécules génomiques sans enregistrement de transcription instancié |
WP_6 | protéine | Protéines non redondantes entre plusieurs souches et espèces. Une seule protéine de ce type peut être annotée sur plus d’un génome procaryote |
1Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 6 nombres suivis du numéro de version de la séquence.
2Le format d’accession complet se compose du préfixe suivi du numéro d’accession INSDC sur lequel l’enregistrement RefSeq est basé suivi du numéro de version de la séquence RefSeq.
3Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 6 ou 9 chiffres suivis du numéro de version de la séquence.
4les enregistrements avec ce préfixe d’adhésion ont été organisés par le personnel du NCBI ou une base de données d’organismes modèles, ou font partie du pool d’adhésions avec lesquelles les conservateurs travaillent. Ces enregistrements sont appelés l’ensemble de données RefSeq » connu « .
5Les enregistrements avec ce préfixe d’adhésion sont générés soit par le pipeline d’annotation du génome eucaryote, soit par le petit pipeline d’annotation du génome eucaryote. Les enregistrements générés via la première méthode sont appelés ensemble de données RefSeq ‘model’.
6Le format complet du numéro d’accession se compose du préfixe, y compris le trait de soulignement, suivi de 9 chiffres suivis du numéro de version. Le numéro de version est toujours ‘.1’ car ces enregistrements ne sont pas sujets à mise à jour. Consultez la documentation en ligne pour plus d’informations : www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins /.
Au cours des dernières années, les techniques de séquençage avancées ont facilité une augmentation substantielle des soumissions d’assemblage de génome entier aux bases de données publiques. En conséquence, le projet RefSeq a élargi de manière concordante la profondeur et l’étendue des taxons inclus dans l’ensemble de données, principalement grâce à des améliorations apportées à plusieurs pipelines d’annotations internes. Tous les taxons peuvent être inclus dans le RefSeq; cependant, l’annotation est souvent limitée aux organismes pour lesquels un assemblage de génome primaire de haute qualité est disponible avec des informations sur les organismes incontestées. Ainsi, nous pouvons exclure certaines catégories de données qui ne répondent pas à nos normes de qualité. Les ensembles de données exclus comprennent: les métagénomes, les assemblages avec de faibles valeurs de contig N50 ou un nombre particulièrement élevé d’échafaudages / contigs non espacés (c’est-à-dire une fragmentation élevée), ou les génomes qui présentent une inadéquation significative ou une variation indèle par rapport à d’autres génomes étroitement apparentés pour l’espèce (par exemple certains procaryotes).
Un aspect unique de l’ensemble de données du RefSeq est l’approche combinée consistant à tirer parti du calcul, de la collaboration et de la conservation par le personnel scientifique du NCBI. En tant que grande installation de bioinformatique, NCBI a investi dans le développement de flux de processus robustes pour générer des annotations et effectuer des tests d’assurance qualité pour les génomes, les transcrits et les protéines eucaryotes et procaryotes. Des améliorations du flux de processus des génomes viraux sont en cours. Le groupe RefSeq collabore avec de nombreux groupes d’experts, y compris les autorités officielles de nomenclature (par ex. HUGO Gene Nomenclature Committee (HGNC) et Zebrafish Information Network (ZFIN) pour les noms de gènes humains et zebrafish respectivement), UniProtKB (noms de protéines) et miRBase (microARN) (2-5). Ces collaborations, ainsi que d’autres, aident à maintenir et à améliorer la qualité de l’ensemble de données du RefSeq par le biais de rapports d’assurance qualité, d’échanges d’informations sur les gènes et les séquences et d’échanges d’informations fonctionnelles. Le personnel du NCBI fournit également un soutien à la conservation des virus, des procaryotes, des eucaryotes, des organites, des plasmides et des projets ciblés, notamment la conservation des gènes et des séquences de l’Homo sapiens, du Mus musculus et d’autres organismes. Les conservateurs du RefSeq améliorent la qualité de la base de données en examinant les résultats des tests d’assurance qualité, en participant à la sélection de certaines entrées pour le traitement des annotations génomiques, l’analyse des séquences, l’analyse taxonomique et l’examen fonctionnel. Curation soutient également les améliorations apportées aux pipelines d’annotation du génome, car les experts en contenu aident à définir des approches programmatiques pour modéliser la biologie typique et atypique. Pour les eucaryotes, en particulier les mammifères, la curation basée sur la transcription définit les « meilleurs » représentants de séquences (sous forme de références » connues »; Note de bas de page du tableau 1) qui sont utilisés comme réactif d’entrée primaire dans le pipeline d’annotation du génome eucaryote (http://www.ncbi.nlm.nih.gov/books/NBK169439/). L’amélioration de la qualité du réactif d’entrée ajoute à son tour une qualité et une reproductibilité significatives à l’annotation du génome qui en résulte. Ce type de curation manuelle a toujours été axé sur l’homme et la souris en raison de leur importance biomédicale unique (6). Plus récemment, ces efforts de conservation ont accordé une plus grande attention à Rattus norvegicus, Danio rerio, Bos taurus et Gallus gallus. Ces espèces sont pertinentes pour la santé humaine ainsi que pour la durabilité agricole.
Dans cet article, nous rendons compte de nos progrès dans l’extension de l’ensemble de données RefSeq pour inclure des organismes plus divers, décrivons les améliorations apportées à l’accès aux données et fournissons des exemples illustrant une attention accrue à la fourniture d’ensembles de données utiles sur le plan phylogénétique ainsi que des annotations de caractéristiques fonctionnelles sur la transcription RefSeq et les enregistrements de protéines. Nous prévoyons que ces efforts et améliorations de l’ensemble de données du RefSeq continueront de contribuer à l’avancement de la recherche translationnelle médicale, des améliorations agricoles, de l’identification phylogénétique et des études évolutives.
GÉNÉRATION DE L’ENSEMBLE DE DONNÉES REFSEQ
Les enregistrements de séquences RefSeq sont générés par différentes méthodes en fonction de la classe de séquences et de l’organisme. Les génomes archaïques et bactériens (voir la section Procaryotes) sont annotés à l’aide du pipeline d’annotation du génome procaryote de NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), tandis qu’un petit nombre de génomes bactériens de référence sont pris en charge par la collaboration et la conservation manuelle. Les génomes eucaryotes RefSeq sont fournis à l’aide de deux flux de processus. La majorité des génomes de plantes, d’animaux, d’insectes et d’arthropodes sont annotés par le pipeline d’annotation du génome eucaryote. Ce pipeline génère des résultats d’annotation basés sur les données de transcription disponibles (y compris les données sur l’ARN-Seq et l’assemblage de shotgun du transcriptome (TSA)), ainsi que l’homologie des protéines, la prédiction ab initio (en grande partie lorsque les données sur le transcriptome ne sont pas disponibles) et les transcriptions et protéines connues (organisées) de RefSeq disponibles (voir le tableau 1). L’annotation générée par pipeline (RefSeqs de modèle) peut ou non prendre en charge la combinaison complète d’exons à partir d’un alignement de preuves unique, mais peut prendre en charge les paires d’exons ARN-Seq. Les génomes eucaryotes qui ont été annotés par ce pipeline sont signalés publiquement avec des liens pour télécharger les données par FTP, pour afficher ou effectuer une requête BLAST sur le génome annoté, ou pour accéder à un résumé détaillé du rapport d’annotation (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Le pipeline pour un sous-ensemble d’eucaryotes comprenant des champignons, des protozoaires et des nématodes consiste à propager l’annotation qui a été soumise à l’International Nucleotide Sequence Database Collaboration (INSDC), avec normalisation du format, à une copie RefSeq de l’ensemble du génome soumis (voir Algues, Champignons, nématodes et Protozoaires).
Le personnel du NCBI fournit la majeure partie de l’annotation du génome des organites RefSeq par propagation à partir de la soumission INSDC. L’annotation des mitochondries chez les mammifères est souvent complétée par une curation manuelle. Le projet RefSeq maintient également des séquences de référence pour des projets de loci ciblés tels que RefSeqGene, qui est membre de la collaboration Locus Reference Genomic (LRG) (7), pour des loci d’ARNr ribosomiques bactériens et fongiques et pour des séquences espaceuses transcrites internes fongiques (ITS) (8). De plus, un nombre important de transcrits et de protéines humains, murins et autres sont fournis grâce à la collaboration et à la conservation manuelle, qui comprend une analyse de séquence et une revue de la littérature.
Les pipelines d’annotations procaryotes (voir ci-dessous) et eucaryotes du NCBI ont suivi le rythme du nombre croissant d’assemblages génomiques soumis à l’INSDC en fournissant des annotations cohérentes sur des copies RefSeq d’assemblages génomiques sélectionnés de haute qualité soumis. À ce jour, 245 génomes eucaryotes, dont 170 génomes de vertébrés, ont été annotés par ce pipeline, dont plus de 120 espèces ont été annotées au cours des 20 dernières années. Parmi ce groupe se trouvent 52 espèces d’oiseaux qui comprennent des espèces représentatives de la plupart des ordres aviaires (9,10). Il y a également eu une augmentation significative du nombre d’assemblages annotés par RefSeq pour les primates non humains, les autres mammifères, les poissons, les plantes et les arthropodes.
ACCÉDER À L’ENSEMBLE DE DONNÉES REFSEQ
La page d’accueil de RefSeq http://www.ncbi.nlm.nih.gov/refseq/ est un hub central pour tous les aspects de l’ensemble de données RefSeq. Ce site fournit des liens qui guident les utilisateurs à travers une description générale du projet ainsi que des fiches d’information, des statistiques de croissance et des informations sur des projets RefSeq plus ciblés tels que l’initiative de ré-annotation du génome Procaryote, le projet Consensus Coding Sequence (CCDS) (11), le projet RefSeqGene et les projets Loci ciblés (http://www.ncbi.nlm.nih.gov/refseq/ targetedloci/). Des liens vers la version FTP la plus récente et la documentation détaillée sur le format et le contenu de la version se trouvent dans la section « Annonces » de la page d’accueil du RefSeq. Les annonces précédentes du RefSeq sont également disponibles sur cette page. Nous encourageons fortement le téléchargement des données RefSeq directement à partir de NCBI, car les téléchargements à partir d’autres ressources bioinformatiques et du navigateur génomique peuvent ne pas inclure toutes les données disponibles, ou peuvent simplement refléter les alignements des transcriptions RefSeq sur un génome plutôt que les résultats d’annotation du génome générés par NCBI.
Les données de séquence RefSeq sont accessibles de manière interactive à l’aide des bases de données de nucléotides et de protéines NCBIs, dans les bases de données BLAST, via l’interface programmatique de NCBI (E-utilities) ou via le protocole de transfert de fichiers (FTP). Les utilitaires électroniques prennent en charge l’accès par script pour télécharger les données RefSeq dans une variété de formats basés sur des termes de recherche ou des listes d’adhésion; une documentation complète est disponible dans le Manuel NCBI (www.ncbi.nlm.nih.gov/books/NBK25501 /) et des vidéos de formation sont disponibles sur la chaîne YouTube de NCBI (https://www.youtube.com/user/NCBINLM). Les bases de données sur les nucléotides et les protéines permettent de limiter les résultats des requêtes aux seuls enregistrements RefSeq en sélectionnant « RefSeq » sous la « base de données source » dans la barre latérale des filtres. Les données RefSeq peuvent également être consultées à partir d’autres bases de données NCBI, y compris l’assemblage, le bioprojet, le gène et le génome, en suivant les liens fournis vers les ressources nucléotidiques, protéiques ou FTP Les informations sur les changements de curation au sein du groupe RefSeq ou les mises à jour NCBI qui ont un impact sur la base de données RefSeq sont rapportées par plusieurs sources, y compris les notes de version FTP RefSeq, les rapports périodiques publiés, le flux d’actualités des annonces NCBI http://www.ncbi.nlm.nih.gov/news/ et via le blog NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Les utilisateurs peuvent également s’abonner à la liste de diffusion refseq-announce pour recevoir des mises à jour périodiques sur le projet et un résumé du contenu de chaque version FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
Les données RefSeq sont distribuées via FTP via deux sites, refseq(ftp://ftp.ncbi.nlm.nih.gov/refseq /) et génomes (ftp://ftp.ncbi.nlm.nih.gov/genomes /). Le site FTP refseq fournit des mises à jour quotidiennes de tous les enregistrements RefSeq nouveaux et mis à jour, des mises à jour hebdomadaires de certains types de données et une version complète bimensuelle de RefSeq (/refseq/release/). De plus, certains ensembles de données de transcription et de protéines spécifiques à l’organisme, y compris les humains et les souris, sont mis à jour chaque semaine. Le sous-répertoire RefSeqGene est mis à jour quotidiennement, avec des alignements sur le génome libérés à chaque exécution d’annotation. La publication bimensuelle complète du RefSeq est organisée par taxonomie (par exemple, mammifères vertébrés) ou par d’autres groupes (par exemple, mitochondries). Les données peuvent également être téléchargées pour l’ensemble de la collection RefSeq à partir du répertoire /refseq/release/complete/. La version RefSeq offre un avantage pour ceux qui souhaitent maintenir des mises à jour périodiques de la collection complète ou d’un seul groupe. Il comprend également des enregistrements qui ne sont pas disponibles sur le site FTP des génomes compagnons, tels que des transcriptions dans la collection qui sont conservées indépendamment d’un assemblage de génome et qui peuvent ne pas être annotées actuellement. La version est fournie avec une documentation importante des fichiers installés (/refseq/release/release-catalog/), y compris les sommes de contrôle MD5, une liste de tous les fichiers installés, ainsi que des notes de version et des annonces (/refseq/release/release-notes/).
Les données RefSeq peuvent également être téléchargées à partir du site FTP genomes. En août 2014, NCBI a annoncé une réorganisation majeure de ce site FTP qui fournit désormais un accès basé sur l’assemblage et l’organisme aux génomes GenBank et RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq /). Ce répertoire est ensuite divisé en sous-répertoires basés sur les mêmes groupes que ceux utilisés dans la version RefSeq, chacun fournissant des sous-divisions supplémentaires par espèces. Le site FTP génomes fournit des fichiers représentant tous les assemblages génomiques RefSeq signalés dans la ressource Assembly de NCBI (www.ncbi.nlm.nih.gov/assembly /). L’avantage du site des génomes est que les données sont accessibles de manière spécifique à l’assemblage ou à l’organisme. Les données fournies comprennent la séquence du génome et du produit (transcription/protéine), l’annotation, les rapports d’assemblage et les statistiques, ainsi que les sommes de contrôle MD5; ces données sont mises à jour lorsque l’assemblage du génome et/ou l’annotation sont mis à jour. Cette zone n’inclut pas les séquences RefSeq qui sortent du cadre d’un assemblage de génome ou les produits qui ne sont pas annotés sur un génome.
CROISSANCE ET STATISTIQUES
RefSeq FTP release 71 (juillet 2015) comprend plus de 77 millions d’enregistrements de séquences pour plus de 55 000 organismes. Le tableau 2 résume la croissance de l’ensemble de données du RefSeq au cours de la dernière année en termes d’organismes et de nombre d’enregistrements de séquences représentés par chaque zone du répertoire FTP de libération du RefSeq. Les génomes et les protéines bactériennes constituent la majeure partie de l’ensemble de données RefSeq (56% des accessions totales et 76% des 52 millions d’accessions protéiques >). Des augmentations significatives du nombre d’organismes, de protéines et des enregistrements totaux sont observées pour les organismes invertébrés, végétaux et eucaryotes, ce qui est compatible avec l’augmentation du nombre et du débit des projets de séquençage du génome. Un facteur important du taux de croissance élevé continu des données RefSeq est l’amélioration des pipelines génomiques qui génèrent des génomes RefSeq annotés. Plus particulièrement, cela inclut une capacité accrue dans le pipeline d’annotation du génome procaryote du NCBI, le redéveloppement du flux de processus qui propage l’annotation des génomes eucaryotes de GenBank sur les génomes RefSeq, et l’incorporation de preuves d’ARN-Seq dans le pipeline d’annotation du génome eucaryote du NCBI et son impact sur la génération de références de modèles (accessions XM_, XR_ et XP_, tableau 1).
Croissance annuelle du nombre d’organismes, de protéines et de transcrits représentés dans la version complète du RefSeq, par répertoire de versions FTP
Répertoire de versions. | Organismes. | % de changement. | Transcriptions. | % de changement. | Protéines. | % de changement. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % de changement. | Transcriptions. | % de changement. | Protéines. | % de changement. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (par ex. archaea.acc_taxid_growth.txt et fichiers associés). Le pourcentage de variation annuelle est basé sur la comparaison des données de la version 71 du RefSeq (juillet 2015) et de la version 66 du RefSeq (juillet 2014).
Répertoire de versions. | Organismes. | % de changement. | Transcriptions. | % de changement. | Protéines. | % de changement. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % de changement. | Transcriptions. | % de changement. | Protéines. | % de changement. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (par ex. archaea.acc_taxid_growth.txt et fichiers associés). Le pourcentage de variation annuelle est basé sur la comparaison des données de la version 71 du RefSeq (juillet 2015) et de la version 66 du RefSeq (juillet 2014).
La diminution spectaculaire du nombre d’enregistrements de protéines plasmidiques, et donc du nombre d’accessions totales, reflète l’achèvement d’un projet de ré-annotation du génome bactérien RefSeq (http://www.ncbi.nlm.nih.gov/refseq/about/procaryotes/reannotation/) et l’adoption du nouveau modèle de données pour les procaryotes, y compris leurs plasmides. Dans ce nouveau modèle de données, une seule adhésion protéique non redondante RefSeq peut être annotée sur plus d’un enregistrement de séquence génomique lorsque la traduction de ces régions codant des protéines génomiques aboutit à une protéine identique (voir http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantprotéines/). La redondance dans toutes les protéines bactériennes a également diminué de manière significative; cependant, elle n’est pas apparente ici en raison d’une augmentation significative continue du nombre de génomes bactériens inclus dans l’ensemble de données. Ces changements ont également entraîné une baisse globale du nombre d’enregistrements de protéines archéennes.
VERTÉBRÉS
Un groupe restreint de vertébrés comprenant Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus et Danio rerio sont au centre de nos efforts de conservation manuelle basés sur la transcription et la littérature. Les conservateurs travaillent généralement à partir de listes de gènes présentant des conflits de données identifiés par des tests d’assurance de la qualité (AQ), dont certains ont déjà été décrits (12). Ils suivent un ensemble détaillé de lignes directrices lors de l’analyse de chaque gène afin d’assurer la cohérence entre les personnes dans l’ensemble de données organisé. Cette analyse implique une évaluation approfondie des séquences et une revue de la littérature pour créer des transcriptions de référence, des protéines, des pseudogènes et des enregistrements de RefSeqGène. Les conservateurs RefSeq génèrent des variantes de transcription, résolvent les erreurs de séquence, suppriment les informations inexactes, mettent à jour les enregistrements pour représenter correctement la biologie du locus et ajoutent des informations fonctionnelles précieuses à certains enregistrements RefSeq, telles que des noms de protéines améliorés, un résumé de la fonction du produit génique, des caractéristiques fonctionnelles du gène et / ou des publications pertinentes. La curation manuelle et l’examen de la littérature par le groupe RefSeq peuvent aboutir à la représentation de variantes et d’isoformes uniques qui ne seraient pas prédites si elles étaient basées uniquement sur une analyse informatique. Par exemple, une revue de la littérature sur le gène suppresseur de tumeur humain, PTEN (homologue de la phosphatase et de la tensine, GeneID: 5728) a révélé l’existence d’une isoforme protéique plus longue résultant de l’utilisation d’un codon d’initiation CUG alternatif en amont dans le cadre trouvé au centre d’une séquence palindromique en amont du codon de début de traduction canonique de l’ARNm (13). De solides données expérimentales ont indiqué que cette isoforme spécifique des mitochondries s’initie avec une leucine plutôt qu’avec une méthionine (14). Le modèle de données RefSeq pour les eucaryotes fournit une transcription explicitement liée à une protéine. Par conséquent, deux enregistrements de transcription identiques ont été fournis pour refléter la traduction à partir des codons d’initiation alternatifs; NP_000305.3 représente la protéine de 403 acides aminés qui utilise le codon de départ de la méthionine canonique, tandis que NP_001291646.2 représente la protéine de 576 acides aminés localisée dans les mitochondries qui s’initie avec une leucine. Ainsi, le processus de conservation a un double objectif: fournir des séquences de référence précises qui facilitent l’annotation précise et reproductible du génome et fournir des enregistrements contenant des informations biologiques pertinentes. Dans cette section, nous discutons des mises à jour récentes, des améliorations que nous avons apportées à notre processus de curation manuelle et des exemples de projets de curation ciblés.
Projet RefSeqGene
Le sous-projet RefSeqGene définit des séquences génomiques humaines à utiliser comme étalons de référence pour des gènes bien caractérisés, en particulier pour une utilisation par la communauté de la génétique clinique. Ces séquences servent de base stable pour signaler des variants pathogènes, pour établir des conventions de numérotation des exons et des introns et pour définir les coordonnées d’autres variants. Chaque enregistrement RefSeqGene se concentre sur une région génomique spécifique au gène et est généralement annoté avec un sous-ensemble de transcriptions et de protéines RefSeq sélectionnées par des experts du domaine. Ces sélections déterminent les caractéristiques de l’exon. Les alignements des anciennes versions du transcrit/protéine RefSeq canonique, ainsi que d’autres REFSEQ connus, sont inclus. Ces enregistrements comprennent généralement 5 kilobases (kb) de séquence en amont du gène de foyer, et 2 kb de séquence en aval, pour soutenir la représentation de sites régulateurs potentiels ou de délétions s’étendant au-delà de la caractéristique du gène. Un enregistrement RefSeqGene peut inclure des informations d’annotation pour d’autres gènes situés dans ses limites. Les enregistrements RefSeqGene sont d’abord examinés par des bases de données spécifiques au lieu et par le personnel du NCBI. RefSeqGene est membre de la collaboration LRG (7) qui fournit un examen supplémentaire des données de séquence avant d’ajouter une adhésion LRG. Un objectif de travail récent a élargi le nombre d’enregistrements RefSeqGene pour représenter tous les gènes pour lesquels au moins deux tests cliniques ont été soumis au Registre des tests génétiques des NIH (RTM). À l’heure actuelle, il y a 5596 enregistrements RefSeqGene, dont 633 ont une adhésion LRG. Les enregistrements RefSeqGene peuvent être récupérés en recherchant la base de données de nucléotides avec ‘refseqgene’, par leurs accessions LRG, en naviguant sur le site Web RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg /), ou par FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene /).
Incorporation d’ARN-Seq et d’autres types de données dans la curation basée sur la transcription
Un objectif majeur du projet de curation RefSeq est de représenter des séquences de transcription et de référence protéiques de haute qualité et complètes. En tant que tels, nos critères de curation sont principalement basés sur des transcriptions conventionnelles (ARNm et EST) et des alignements de protéines et des preuves publiées. Cependant, les projets de transcriptome de vertébrés sont devenus de plus en plus complexes avec la majorité des nouvelles données de transcription actuellement générées par la technologie de séquençage à lecture courte. Des études à l’échelle du génome portant sur des modèles globaux de marques épigénétiques associées aux promoteurs fournissent également des preuves de promoteurs actifs et / ou de transcription active. Le groupe RefSeq a ajusté les pratiques de curation pour intégrer ces nouveaux types de données afin d’améliorer notre annotation manuelle, en particulier dans les cas où un gène ou un variant manque d’un support de transcription conventionnel abondant. Ces études ARN-Seq et épigénomiques ont généré d’énormes ensembles de données qui présentent un défi pour les groupes d’annotation de gènes, par exemple en raison de faux positifs potentiels et du manque de support pour les combinaisons d’exons à longue portée (15). Les conservateurs de RefSeq atténuent les faux positifs en incorporant sélectivement uniquement des ensembles de données de haute qualité pour examen dans notre pipeline d’annotation du génome et dans le processus d’annotation manuelle. Les conservateurs de RefSeq visualisent les alignements de transcription, les données de variation et les données ARN-Seq filtrées dans des affichages personnalisés au sein d’un outil d’alignement interne intégré à la plateforme NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). La conservation des gènes humains utilise les lectures d’ARN-Seq analysées à partir des projets Illumina BodyMap 2 (Bioprojet: PRJEB2445) et Human Protein Atlas (Bioprojet: PRJEB4337) (16). De plus, les conservateurs utilisent des marques de modification des histones associées au promoteur telles que H3K4me3 du Consortium de cartographie épigénomique de la feuille de route des NIH (REMC; (17) et le projet ENCODE (Encyclopédie des éléments d’ADN) (18) pour vérifier la présence d’un promoteur actif. Les conservateurs du RefSeq évaluent également les données polyA-seq pour affirmer l’exhaustivité 3′ des transcriptions dépourvues de queue polyA (19). Des types de données supplémentaires, y compris les données PhyloCSF (20), CpGIslands, RepeatMasker (21) et Cap analysis of gene expression (CAGE) (22), sont parfois utilisés comme support supplémentaire.
ARN longs non codants (LNCRNA)
Le groupe RefSeq continue d’élargir considérablement la représentation des ARN structurels et micro-codants non codants, des pseudogènes transcrits et des LNCRNA largement non caractérisés. Cette classe de gènes est généralement définie comme étant des transcrits > de longueur 200 nt dépourvus d’un fort potentiel de codage des protéines (23). Les enregistrements de RefSeq de lncRNA sont générés par curation et par le pipeline d’annotation du génome eucaryote pour les gènes de lncRNA. Le NCBI conserve actuellement plus de 540 000 enregistrements de RefSeq de l’ARNNC eucaryote, dont plus de 6700 ont été conservés et seules quelques centaines ont été caractérisées fonctionnellement. Parmi ceux-ci, beaucoup ont été impliqués dans des maladies humaines, telles que BACE1-AS qui peut jouer un rôle dans la physiopathologie de la maladie d’Alzheimer, et HOTAIR qui a été associé à de multiples cancers (24,25). La grande majorité des LNCRNA ont des fonctions inconnues et l’absence de longs cadres de lecture ouverts représente un défi en termes de confirmation de l’exhaustivité de la transcription. De plus, les soumissions de lncRNA à l’INSDC sont largement basées sur des TSAS provenant d’ensembles de données à lecture courte pouvant inclure des combinaisons d’exons artefacts. Les conservateurs de RefSeq adoptent une approche conservatrice pour représenter les gènes lncRNA, en créant uniquement manuellement des REFSEQ (avec un préfixe d’accession NR_) pour des transcriptions de haute qualité pour lesquelles nous avons une certaine certitude de la structure des exons. Idéalement, le support de transcription doit être épissé avec au moins trois exons, mais des transcriptions à deux exons et sans intron peuvent être représentées si elles sont supportées par des données épigénomiques associées au promoteur, des preuves poly(A), des ADNC supplémentaires et/ou des données ARN-Seq. Les enregistrements RefSeq lncRNA pour les gènes non codants peuvent être extraits de la base de données de nucléotides du NCBI en utilisant la chaîne de recherche ‘biomol ncrna lncrna’ et en sélectionnant le filtre RefSeq dans la colonne de gauche.
Annotation fonctionnelle
La contribution unique des enregistrements de transcription eucaryotes organisés par RefSeq est qu’ils intègrent des informations fonctionnelles à une séquence de référence. Le personnel de curation de RefSeq ajoute des résumés de gènes, une nomenclature, un texte de variante de transcription, des attributs de gènes et de séquences et des caractéristiques fonctionnelles disponibles sur l’enregistrement RefSeq et/ ou via la ressource génétique (http://www.ncbi.nlm.nih.gov/gene). Au cours de la dernière année, le personnel du RefSeq a poursuivi plusieurs projets d’annotation en profondeur, dont certains sont brièvement décrits dans les paragraphes suivants, pour ajouter des données fonctionnelles à des ensembles spécifiques de gènes où les outils de calcul ne sont pas en mesure de représenter avec précision les connaissances biologiques. Ces projets comprennent l’annotation de peptides antimicrobiens, de rétrovirus endogènes, d’histones dépendantes de la réplication, d’UORF régulateurs et d’antizymes.
Les peptides antimicrobiens (AMP)
Les AMP étaient un centre de curation récent (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Les AMP sont des peptides naturels que l’on trouve dans un large éventail d’espèces et qui ont été impliqués dans de nombreux rôles immunitaires, notamment des activités bactéricides, antivirales, antifongiques et même antitumorales. Une liste de plus de 130 gènes humains codant un ou plusieurs AMP éprouvés expérimentalement a été recueillie à partir de plusieurs ensembles de données AMP accessibles au public et également extraites de publications. La plupart de ces AMP n’avaient pas été précédemment identifiés dans la base de données RefSeq, et aucune des bases de données AMP n’a connecté les peptides à leur gène codant. Les conservateurs de RefSeq ont annoté manuellement les enregistrements RefSeq pour chaque gène humain codant pour l’AMP pour s’assurer que le peptide fonctionnel était annoté, pour inclure une publication décrivant l’activité antimicrobienne du peptide, pour ajouter un bref résumé décrivant l’activité antimicrobienne de l’AMP codé, et pour stocker un nouvel attribut RefSeq « La protéine a une activité antimicrobienne » qui est inclus dans le commentaire structuré de l’attribut RefSeq (par exemple, NM_001124.2 pour ADM; GeneID:133). Pour accéder à tous les enregistrements de transcription humaine ou d’AMP de protéines sélectionnés, recherchez dans la base de données de nucléotides ou de protéines en utilisant « La protéine a une activité antimicrobienne ». Actuellement, cette recherche trouvera 191 enregistrements RefSeq, y compris des variantes d’épissure et des isoformes de protéines.
Les rétrovirus endogènes (VRE)
Les rétrovirus endogènes (VRE) sont des loci génomiques dérivés de l’insertion ancestrale d’un rétrovirus exogène dans le génome de l’hôte. Les loci du VRE sont généralement hors de portée pour RefSeq; cependant, nous annotons des loci codants pour les protéines du VRE sur toute la longueur qui correspondent à un seul emplacement génomique s’ils ont évolué pour servir une fonction hôte, sont associés à une maladie connue et/ ou s’ils ont reçu une nomenclature par un comité de nomenclature officiel. Environ 8% du génome humain est d’origine rétrovirale (27); cependant, en raison de leurs origines anciennes, la plupart des loci ERV humains ont accumulé des mutations absurdes et ne peuvent plus coder une protéine. Les protéines syncytines, qui sont impliquées dans le développement placentaire (28), sont une exception bien connue à cela. Les protéines humaines de syncytine-1 et de syncytine-2 sont codées par les gènes ERVW-1 (NM_001130925.1, NM_014590.3) et ERVFRD-1 (NM_207582.2). À ce jour, nous avons créé 67 références pour les locus du VRE, qui comprennent des enregistrements représentant des gènes du VRE provenant d’un ensemble diversifié de mammifères. Une nouvelle catégorie d’attribut RefSeq intitulée « rétrovirus endogène » a été créée pour ces enregistrements et apparaît dans un commentaire structuré sur l’enregistrement RefSeq. Ces enregistrements peuvent être extraits de la base de données sur les nucléotides en recherchant « rétrovirus endogène ».
Histones dépendantes de la réplication
Une synthèse rapide des ARNM des histones est nécessaire pendant la division cellulaire afin de produire de grandes quantités de protéines histones. Les gènes histones dépendants de la réplication qui sont régulés à la hausse pendant la phase G1/S du cycle cellulaire (29) sont essentiels à ce processus. Un projet spécifique de RefSeq a été entrepris dans le but de rassembler l’ensemble complet des gènes codant les protéines histones dépendantes de la réplication chez l’homme et la souris. Ces gènes ont une séquence canonique de l’élément aval des histones 3′ (HDE) dans la séquence génomique et les ARNM matures qui en résultent sont caractéristiquement dépourvus de queues poly(A) et se terminent peu de temps après une structure de tige-boucle d’ARN (30). L’élément HDE se trouve sur la transcription du précurseur, mais n’est pas inclus dans la transcription traitée représentée par RefSeq. L’emplacement de la séquence de structure tige-boucle de 16 nucléotides conservée est indiqué sur l’enregistrement RefSeq sous la forme d’une annotation de caractéristiques intitulée « boucle tige ». Un exemple peut être vu sur l’entrée RefSeq NM_003539.3 pour HIST1H4D (GeneID: 8360). À ce jour, 127 enregistrements RefSeq d’histones dépendantes de la réplication humaine et de souris ont été organisés et un attribut RefSeq ajouté qui peut être utilisé pour extraire ces enregistrements de la base de données de nucléotides à l’aide de la chaîne de recherche ‘histone dépendante de la réplication’.
Cadres de lecture ouverts en amont régulateurs (UORF)
La traduction d’un cadre de lecture ouvert en amont (uORF) peut affecter négativement la traduction du cadre de lecture ouvert codant les protéines primaires (pORF) (31). Cet effet ne réduit pas toujours complètement la traduction du pORF et peut dépendre du type de cellule, de l’état de développement ou de l’état cellulaire. Par conséquent, bien que les UORF puissent être prédites à partir de la traduction en six trames d’une transcription, l’effet régulateur de cet élément doit être déterminé par une validation expérimentale. Les conservateurs du RefSeq ont examiné la littérature pour trouver des transcriptions avec des preuves expérimentales d’UORF réglementaires et ont mis à jour les enregistrements de transcriptions correspondants du RefSeq pour ajouter une caractéristique erronée indiquant l’emplacement de ces UORF. Un exemple est l’entrée RefSeq NM_000392.4 pour ABCC2 (GeneID: 1244). Une nouvelle catégorie d’attribut RefSeq intitulée « uORF réglementaire » a été créée et apparaît dans un commentaire structuré sur ces enregistrements RefSeq. La fonctionnalité annotée et l’attribut citent tous deux la publication de support par PubMed ID. À ce jour, 260 enregistrements ont été annotés avec cet attribut et ces enregistrements peuvent être extraits de la base de données nucléotidiques en recherchant des gènes antizymes « uORF régulateurs »
Un des objectifs du projet RefSeq est de représenter des gènes à la biologie exceptionnelle qui ne suivent pas les règles de décodage standard de la synthèse des protéines. Le gène antizyme de l’ornithine décarboxylase en est un exemple, où un mécanisme de décalage de cadre ribosomique +1 programmé se produit et ne peut pas être prédit par des outils de calcul conventionnels. Un ensemble de transcriptions d’antizymes vertébrés et d’enregistrements de protéines a récemment fait l’objet d’un effort d’annotation manuelle visant à créer des normes pour améliorer l’annotation de ces produits géniques par le pipeline d’annotation du génome eucaryote (32). Les enregistrements RefSeq ont été annotés manuellement avec la fonction split CDS pour refléter le glissement ribosomique, et comprennent un attribut « glissement ribosomique » avec des preuves publiées, diverses annotations de caractéristiques diverses (telles que l’emplacement du site de décalage de cadre) et un bref résumé décrivant la fonction et les nouvelles propriétés du gène (par exemple NM_139081.2). Ces enregistrements peuvent être extraits de la base de données de nucléotides ou de protéines avec la requête de recherche: antizyme de glissement ribosomique des vertébrés refseq. Cette recherche trouve actuellement 242 enregistrements RefSeq (NM ou NP), qui incluent des variantes de transcription et des isoformes protéiques.
INVERTÉBRÉS
Les espèces d’invertébrés représentent la grande majorité des métazoaires existants (33); cependant, seul un nombre relativement faible est représenté par des génomes séquencés. Ceci malgré le fait que de nombreuses espèces ont une importance biomédicale critique comme Anopheles gambiae, un vecteur du paludisme et Biomphalaria glabrata, un vecteur de la schistosomiase (34,35). D’autres invertébrés, dont Apis mellifera, Bombyx mori et Crassostrea gigas, ont une valeur commerciale importante (36-38). Le groupe RefSeq a fait des efforts pour augmenter le nombre et la portée des génomes d’invertébrés représentés dans l’ensemble de données en fournissant une annotation via le pipeline d’annotation du génome eucaryote ou en propageant l’annotation des soumissions INSDC sur la copie RefSeq de ces génomes. Pour les deux flux de processus, nous dépendons de la disponibilité publique de génomes de haute qualité dans les bases de données INSDC et la base de données d’assemblage de NCBI (www.ncbi.nlm.nih.gov/assembly /). À ce jour, 46 génomes d’invertébrés ont été annotés par le NCBI, y compris des espèces représentatives d’insectes, d’arachnides, de mollusques et de chordés basaux. Nous prévoyons une expansion significative du nombre de génomes d’insectes et d’autres invertébrés annotés à la suite d’initiatives génomiques telles que i5k (39), 1KITE (1K Insect Transcriptome Evolution, http://www.1kite.org/) et la Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).
PLANTES
RefSeq continue d’élargir la diversité des espèces végétales représentées dans l’ensemble de données. À ce jour, 61 espèces de plantes ont été incluses dans l’ensemble de données sur les génomes du RefSeq (ftp://ftp .NCI.nlm.NIH.gov/génomes/refseq/plant/) dont 33 espèces ont été annotées dans le pipeline d’annotation du génome eucaryote; les autres sont des copies RefSeq de génomes annotés soumises à l’INSDC. À l’avenir, plus de génomes de plantes sélectionnés pour l’inclusion de RefSeq seront traités par le pipeline d’annotations eucaryotes, plutôt que de propager l’annotation à partir de la soumission INSDC. Il s’agit d’un changement de politique pour les génomes des plantes du RefSeq et il se traduira par une plus grande cohérence globale des données d’annotation des plantes dans l’ensemble de données du RefSeq. La majorité des transcriptions et des protéines RefSeq disponibles pour les espèces végétales sont des enregistrements » modèles » (accessions XM_, XP_ et XR_; Tableau 1), avec un sous-ensemble plus petit d’enregistrements « connus » (NM_, NR_, NP_) qui sont conservés indépendamment du processus d’annotation par une combinaison de traitement automatisé et d’examen manuel. La conservation manuelle de la transcription végétale et des données sur les protéines est actuellement fournie pour Zea mays et Solanum lycopersicum. L’objectif actuel de conservation implique un examen approfondi des séquences et vise à résoudre les problèmes d’assurance qualité dans l’ensemble actuel de transcriptions. La résolution des erreurs est axée sur l’identification et l’élimination des transcriptions chimériques, des transcriptions redondantes et des gènes, et sur l’amélioration de la qualité de la séquence représentée en évaluant les indels et les discordances entre le transcrit RefSeq, la séquence génomique et les données orthologues. Pour les plantes, nous nous efforçons de fournir un ensemble de données de transcription et de protéines qui soit cohérent avec le cultivar sélectionné pour le séquençage et l’assemblage du génome. Le protocole de curation utilisé pour les données sur les vertébrés est également utilisé pour les plantes. Ainsi, les enregistrements de transcription RefSeq peuvent être mis à jour pour être basés sur une séquence source INSDC différente, ou peuvent être assemblés à partir de plus d’un enregistrement de séquence INSDC afin de fournir une transcription à partir du cultivar préféré. Si les données de transcription INSDC ne sont pas disponibles pour le cultivar génomique, un transcription RefSeq peut être généré à partir de la séquence génomique assemblée sur la base d’une combinaison d’alignements de transcription ou de protéines, d’ARN-Seq et/ou de données publiées. Un deuxième domaine d’intérêt est d’augmenter le nombre de transcrits et de protéines codant des protéines connus pris en charge, car cela fournit un réactif curated qui peut être utilisé lors de l’annotation d’autres génomes de plantes. Enfin, nous faisons plus de références représentant des variantes d’épissure lorsqu’il y a suffisamment de preuves à l’appui. Ces efforts amélioreront considérablement la qualité de l’ensemble de données de référence de la plante et contribueront à l’amélioration des annotations futures du génome. L’ensemble actuel des génomes de plantes annotés par le pipeline est accessible sur le site Web du pipeline d’annotation du génome eucaryote du NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ avec des liens vers le rapport d’annotation détaillé et d’autres ressources telles que species BLAST et FTP.
ALGUES, CHAMPIGNONS, NÉMATODES ET PROTOZOAIRES
Le pipeline du petit génome eucaryote NCBI est un nouveau pipeline automatisé conçu pour la génération d’enregistrements RefSeq à la suite de la propagation directe d’enregistrements INSDC annotés. Les enregistrements RefSeq ainsi générés sont des copies des données GenBank avec quelques modifications de format pour respecter les exigences RefSeq. La différence la plus notable entre l’enregistrement INSDC original et l’enregistrement RefSeq est l’ajout du produit de transcription RefSeq. Bien qu’il ne soit pas conçu pour générer des annotations génomiques de novo, le petit pipeline de génomes eucaryotes s’inspire de plusieurs modules du pipeline d’annotations génomiques eucaryotes NCBI et de leur code (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
La désignation « Petits Eucaryotes » fait référence à l’utilisation principale du pipeline pour générer des génomes RefSeq pour des génomes eucaryotes relativement plus petits (par rapport à ceux des plantes et des vertébrés) tels que ceux des algues, des protozoaires, des champignons, des nématodes et certains arthropodes. Cependant, certains génomes de plantes de grande taille sont également traités à l’aide de ce pipeline. Ce pipeline traite des assemblages de haute qualité constitués de chromosomes et / ou d’échafaudages et de leurs composants. Ces assemblages avec un contig et un échafaudage N50 élevés, une séquence de haute qualité et une annotation raisonnablement bonne soumise par INSDC sont priorisés. Ce pipeline, qui remplace un flux de processus historique nécessitant un support manuel plus important, n’a atteint que récemment une phase de production publique et produit déjà un nombre accru de « petits » génomes eucaryotes représentés dans RefSeq. Des travaux sont en cours pour optimiser le débit du pipeline et ajouter plus d’automatisation et minimiser davantage les tâches de traitement des conservateurs. Les plans à plus long terme comprennent la mise en œuvre d’un système de gestion des noms de protéines afin de fournir, corriger ou améliorer les noms soumis par l’INSDC au fil du temps. Un grand nombre des génomes qui sont dans la portée du pipeline de petits eucaryotes ne peuvent actuellement pas être traités par le pipeline d’annotation du génome (grand) eucaryote en raison de la diversité taxonomique et de la disponibilité limitée des données de transcription nécessaires pour former le pipeline d’annotation de novo.
Locus ciblés fongiques
La morphologie fongique est très diversifiée, allant de structures multicellulaires complexes à des cellules uniques très simples. Une variété de structures morphologiques et de types de spores peut être produite par une seule espèce. Inversement, de nombreuses espèces produisent des morphologies similaires (morphes) mais sont en fait génétiquement très éloignées. Jusqu’à récemment, une seule espèce pouvait être valablement décrite avec plus d’un nom binomial basé sur des morphes sexuelles ou asexuées. Dans de nombreux cas, une seule morphologie a été décrite et enregistrée pour une espèce donnée, bien que les espèces qui lui sont étroitement apparentées puissent avoir plusieurs morphologies décrites et enregistrées. Par conséquent, des comparaisons de séquences ont été appliquées dans la communauté fongique pour différencier les espèces, pour suivre les espèces au cours de leurs cycles de vie complexes et pour identifier les espèces cryptiques. Dans le cadre du processus dynamique de réévaluation taxonomique, de nombreuses corrections d’espèces fongiques ne sont pas toujours à jour dans les données de séquence de GenBank.
Pour être une ressource plus fiable pour l’identification basée sur l’ADN, les séquences de référence dérivées des spécimens types (qui servent de références pour les espèces) doivent être étiquetées avec le nom d’espèce correct et le plus à jour. Les bases de données de loci ciblés de Fungi RefSeq fournissent cette ressource précieuse. Par exemple, PRJNA177353 est un bioprojet qui se concentre spécifiquement sur les régions d’espaceurs transcrits internes (ITS) dans le cistron ribosomique nucléaire qui a été utilisé pendant de nombreuses années comme marqueur phylogénétique et récemment approuvé comme séquence de codes-barres formelle des champignons (41). La base de données ITS RefSeq est née d’une collaboration avec Index Fungorum, MycoBank et UNITE, ainsi qu’un grand groupe de spécialistes taxonomiques. Des séquences ont été sélectionnées, principalement à partir de spécimens types de descriptions valides, puis des noms d’espèces corrects actuels ont été associés aux séquences dans le but de représenter la plupart des ordres fongiques acceptés (8). Les résultats de cet effort de conservation ont été utilisés et cités par diverses publications (42-46) et ont aidé à des efforts supplémentaires pour valider des sous-ensembles de séquences de référence, par exemple des espèces médicalement significatives (47).
L’objectif, avec une conservation continue, est d’ajouter des séquences d’ordres nouvellement décrits et d’étendre la représentation à la plupart des familles acceptées en mettant l’accent sur les champignons d’importance médicale. Le processus comprend également des corrections, le remplacement de la séquence du matériel vérifié par la séquence du matériel type à mesure qu’il devient disponible et la modification des lignes de définition ou la suppression des enregistrements RefSeq à mesure que les classifications taxonomiques changent. Cela garantit que les résultats de la recherche par EXPLOSION affichent correctement le nom actuel. Les enregistrements du RefSeq ont été étendus pour représenter 3 060 séquences représentant 270 familles de 39 classes. Au cours de l’effort initial de sa RefSeq en collaboration, un plus petit ensemble d’accessions de séquences provenant du gène ribosomique de la grande sous-unité nucléaire 28S (LSU) a également été collecté mais n’a pas été vérifié. Un flux de travail similaire au processus de conservation des enregistrements ITS a été suivi et, pendant la conservation continue, ces enregistrements LSU ont été vérifiés pour la qualité de la séquence, l’identification correcte et les données sources exactes. Près de 500 enregistrements (sur 800 enregistrements potentiels) représentant > 100 familles de 21 classes ont été vérifiées et récemment publiées. L’ensemble de données 28S peut être extrait du bioprojet PRJNA51803 (48).
PROCARYOTES
La collection de génomes procaryotes NCBI RefSeq représente des génomes procaryotes assemblés avec différents niveaux de qualité et de densité d’échantillonnage. Pour les procaryotes, sur la base des commentaires passés de la communauté, notre politique actuelle est de fournir une annotation du génome pour tous les génomes procaryotes qui répondent à nos critères de qualité. Au cours des dernières années, nous avons été confrontés à deux défis majeurs: (i) suivre l’escalade rapide des génomes procaryotes soumis; et (ii) résoudre une incohérence croissante dans l’annotation du génome due à l’utilisation d’un pipeline basé sur la propagation INSDC et de différentes versions d’un pipeline d’annotation du génome NCBI de novo développé au fil du temps.
Avec l’intérêt croissant pour les agents pathogènes humains et les progrès de la technologie de séquençage de l’ADN, le nombre de génomes procaryotes séquencés a rapidement augmenté au cours de la dernière décennie. Certaines souches bactériennes sont souvent indiscernables en utilisant les approches de génotypage actuelles, mais des différences génétiques mineures peuvent être détectées sur la base du séquençage du génome entier, ce qui est utile pour caractériser les voies de transmission, identifier la résistance aux antibiotiques et recenser les épidémies. Pour étudier les pathogènes d’origine alimentaire ou les épidémies d’infection, un grand nombre de génomes bactériens presque identiques ont été séquencés et annotés au cours des dernières années, ce qui a donné lieu à de nombreuses protéines identiques, chacune ayant un numéro d’accession distinct. En 2013, NCBI a introduit un nouveau modèle de données protéiques et un préfixe d’adhésion (WP_) pour la collection RefSeq. Ce changement a réduit la redondance dans les protéines procaryotes RefSeq et a facilité l’identification de protéines qui ont été trouvées de manière identique sur plus d’un génome. Il a également permis d’améliorer la stratégie de gestion des noms de protéines procaryotes. Ces enregistrements non redondants représentent des séquences protéiques procaryotes uniques qui sont indépendantes de tout génome bactérien particulier et peuvent être annotées sur plusieurs souches ou espèces (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins /).
Historiquement, l’annotation des génomes bactériens RefSeq a été propagée à partir de soumissions INSDC, lorsqu’elles étaient disponibles, ou générée à l’aide de différentes versions du pipeline d’annotation du génome Procaryote de NCBI (qui est également offert en tant que service pour les soumissions GenBank). Cela a entraîné des incohérences accumulées dans l’annotation structurelle et fonctionnelle dans l’ensemble de données procaryotes RefSeq. Au cours des deux dernières années, le NCBI a amélioré plusieurs aspects du pipeline d’annotation du génome Procaryote afin d’augmenter la capacité et de normaliser davantage les règles d’annotation. Notre pipeline combine un algorithme d’appel de gènes, GeneMarkS + (49,50), avec une approche de détection de gènes basée sur l’alignement et est capable d’annoter des génomes WGS complets et brouillons. Le pipeline prévoit actuellement des gènes codants pour les protéines, des ARN structurels (5S, 16S et 23S), des ARNT et de petits ARN non codants.
En 2015, nous avons publié une mise à jour complète des annotations pour les génomes procaryotes de RefSeq afin d’harmoniser l’annotation du génome et de compléter la transition vers le nouveau modèle de données sur les protéines. Une nouvelle base de données de noms de protéines procaryotes, des spécifications de noms et une stratégie fondée sur des données probantes ont été développées et sont actuellement en cours de déploiement. Jusqu’à présent, plus de 3 millions d’enregistrements de protéines ont mis à jour les noms dans une première démonstration de l’approche. Le nouveau modèle de données procaryotes offre un avantage significatif pour la gestion des noms, car le nom de la protéine est porté avec l’enregistrement de séquence de protéines; la mise à jour du nom sur cet enregistrement de protéines entraîne la propagation automatique de la mise à jour à tous les génomes annotés avec ce numéro d’accession.
Les génomes procaryotes RefSeq sont organisés en plusieurs nouvelles catégories telles que les génomes de référence et les génomes représentatifs basés sur des attributs organisés et des mesures de qualité d’assemblage et d’annotation (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes /) (51). Les génomes de référence sont des génomes complets « gold standard » sélectionnés manuellement avec une annotation de haute qualité et le plus haut niveau de support expérimental pour l’annotation structurelle et fonctionnelle. Actuellement, un petit ensemble de données de 122 génomes de référence est annoté manuellement par les groupes collaborateurs et le personnel du NCBI. Les génomes de référence sont disponibles à l’adresse suivante : http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Les génomes représentatifs sont calculés par calcul et sélectionnés pour représenter diverses espèces. Les génomes représentatifs sont disponibles à l’adresse suivante : www.ncbi.nlm.nih.gov/genome/browse/representative /.
Les données du génome procaryote RefSeq sont accessibles dans les bases de données BLAST, les ressources Web (Assemblage, bioprojet, Génome, Nucléotide et Protéine), via les utilitaires de programmation de NCBI, ou peuvent être téléchargées à partir des sites FTP génomes ou refseq. Une page BLAST « Microbes » personnalisée, accessible depuis la page d’accueil de BLAST, offre des options pour rechercher tous les génomes procaryotes RefSeq, le sous-ensemble des génomes de référence et représentatifs, ou pour restreindre la recherche à un taxon spécifique. Un sous-ensemble de génomes procaryotes est annoté avec un identifiant de gène NCBI et peut être récupéré dans la ressource génétique de NCBI ou à partir du site FTP du gène. Pour les archées, cela est prévu pour la plupart des génomes complets. Pour les bactéries, ceci est fourni pour les génomes de référence et les génomes représentatifs pour les espèces qui ont au moins 10 soumissions de génome.
Locus ciblés procaryotes
Chez les procaryotes, la séquence d’ARN ribosomique 16S est devenue un marqueur moléculaire standard pour la description d’une nouvelle espèce. Bien que ces séquences de marqueurs soient devenues largement utilisées, la qualité des données de séquences et des méta-données associées soumises aux bases de données de l’INSDC varie considérablement. Reconnaissant l’importance de l’accès à des données de haute qualité pour ces marqueurs, le NCBI a élargi son projet loci ciblé pour fournir une source à jour de données organisées. Le projet loci ciblé maintient actuellement près de 18 000 séquences de référence d’ARN ribosomique 16S dont plus de 95% proviennent de souches types. Les souches types sont considérées comme l’exemple de l’espèce et il est essentiel que les données sur les souches types soient annotées avec des métadonnées correctes et exemptes de contamination.
Ce travail a impliqué une révision exhaustive et une mise à jour de la base de données de taxonomie sous-jacente qui a été utilisée en conjonction avec le filtre de souche type Entrez de NCBI pour récupérer des séquences candidates. Les données de séquence et leur taxonomie/ méta-données associées ont été revues et corrigées pour inclure les informations les plus à jour. Si une séquence a échoué à la validation ou n’a pas pu être validée avec précision, elle a été exclue. Ces séquences de référence peuvent maintenant être utilisées comme « étalon-or » pour l’analyse des séquences d’ARNr existantes et nouvelles.
Des ensembles de données sur l’ARNr bactérien et l’ARNr archaïque 16S sont disponibles auprès de BioProject (PRJNA33175 et PRJNA33317, respectivement). Une base de données BLAST personnalisée est également disponible (« séquences d’ARN ribosomiques 16S (Bactéries et Archées) « ).
VIRUS
Le modèle de données RefSeq pour les virus diffère de celui des autres organismes. En général, un seul génome RefSeq complet est créé pour chaque espèce virale. Parfois, plusieurs enregistrements RefSeq sont créés au sein d’une espèce virale donnée pour refléter des génotypes bien définis ou des souches importantes de laboratoire et/ou sauvages. Des génomes supplémentaires pour une espèce donnée sont validés pour la taxonomie et l’exhaustivité, puis indexés en tant que séquences » voisines » (52). Les génomes RefSeq et voisins peuvent être récupérés via la ressource spécialisée du génome viral (http://www.ncbi.nlm.nih.gov/genome/viruses/) et à partir des pages Nucléotidiques et génomiques Entre en utilisant les liens « Génome RefSeq pour les espèces » et « Autres séquences génomiques INSDC » (52).
La taxonomie est une préoccupation majeure pour la génomique virale car il existe 3186 espèces virales officiellement reconnues par le Comité International de taxonomie des virus (ICTV) (53) et 4834 génomes complets d’espèces virales officielles et provisoires disponibles dans les bases de données de l’INSDC. L’outil de comparaison par paires de séquences NCBI (PASC) a été développé pour aider à la classification des génomes viraux en fonction des alignements globaux et/ ou locaux entre les génomes (http://www.ncbi.nlm.nih.gov/sutils/pasc/). La portée de cet outil a été élargie pour inclure un certain nombre de familles de virus et d’autres groupes taxonomiques, et il a été utilisé pour aider à soutenir la démarcation de nouveaux critères taxonomiques (54-57).
Un autre problème émergent en génomique virale est l’annotation incohérente et/ou inexacte parmi les séquences du génome viral apparentées. Ce problème reflète souvent des processus d’annotation différents et des travaux expérimentaux en cours et peut entraîner une confusion parmi les consommateurs de données et rendre l’analyse comparative entre génomes difficile. Ce problème est résolu dans la ressource de variation de virus NCBI (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) où des pipelines de calcul sont utilisés pour fournir une annotation standardisée à jour pour plusieurs virus (58). Actuellement, ces pipelines calculent des limites de gènes et de protéines normalisées pour toutes les séquences du virus de la grippe, du virus de la Dengue et du virus du Nil occidental, ainsi que des noms de gènes et de protéines et des termes de métadonnées normalisés pour ces virus et deux autres, le coronavirus respiratoire du Moyen-Orient et l’Ebolavirus. Ces données normalisées sont ensuite exploitées au sein d’une interface de recherche spécialisée centrée sur les métadonnées qui facilite la récupération facile de séquences basées sur des critères biologiques spécifiques.
Le maintien de normes d’annotation à jour et largement acceptées nécessite une collaboration continue avec la communauté scientifique au sens large. Le Groupe de travail sur l’annotation du génome viral du NCBI a été créé pour tirer parti de consortiums de bases de données publiques, de centres de séquençage et de groupes de recherche afin de développer des annotations de séquences standardisées et d’isoler des schémas de nommage pour différents groupes de virus (59-63). Cette approche établit non seulement des normes pour l’annotation virale, mais représente également ces normes dans l’enregistrement RefSeq actuel, garantissant l’accessibilité pour tous les utilisateurs de la base de données et les soumissionnaires. Des collaborations similaires sont également nécessaires pour soutenir des ressources d’interprétation à valeur ajoutée telles que la base de données sur les interactions humaines avec le VIH-1 (http://www.ncbi.nlm.nih.gov/genome/viruses/rétrovirus/vih-1/interactions/) (64). Les collaborateurs du Southern Research Institute fournissent des informations documentées sur le VIH-1, les interactions moléculaires humaines sélectionnées à partir de la littérature et le NCBI maintient une ressource conviviale où les utilisateurs peuvent rechercher des types d’interactions spécifiques et trouver plus d’informations sur les gènes impliqués.
ORIENTATIONS FUTURES
Le projet RefSeq est unique en offrant un ensemble de données de séquences de référence de transcrits, de protéines et de génomes qui englobe tous les règnes de la vie et qui a été activement maintenu et mis à jour au fil du temps pour intégrer des stratégies de calcul améliorées, de nouveaux types de données et de nouvelles connaissances. Nous avons démontré la capacité et la capacité de réagir aux récentes augmentations rapides du nombre de génomes séquencés soumis aux bases de données de l’INSDC. Nous avons défini un ensemble diversifié de politiques et de stratégies pour la conservation et l’annotation des espèces eucaryotes, procaryotes et virales afin de répondre aux différents besoins des communautés spécifiques à l’organisme. L’ensemble de données RefSeq est largement utilisé comme étalon de référence pour de nombreuses analyses différentes, y compris les applications cliniques humaines et pathogènes, la génomique comparative, les tests d’expression, l’interprétation des variations de séquence et la construction de réseaux et de sondes. Chez NCBI, l’ensemble de données RefSeq est intégré à de multiples ressources, notamment Assembly, BLAST, Épigénomique, Gene (où l’annotation RefSeq est la base principale de la plupart des entrées de gènes), Genome, dbSNP, dbVar, Visionneuse de variations, etc.
Nous continuerons de cibler la curation manuelle pour améliorer les informations structurelles et fonctionnelles pour les génomes humains et autres vertébrés. Notre approche conservatrice de curation manuelle garantit la qualité et la fiabilité continues des enregistrements RefSeq humains, souris et autres « connus », ce qui répond aux besoins de ceux qui ont besoin d’une définition bien étayée des exons alternatifs (moins de faux positifs). L’ajout de données RNA-Seq à notre pipeline d’annotations a considérablement augmenté notre annotation de variantes d’épissures alternatives en tant que références de modèles pour répondre aux besoins de ceux qui souhaitent une définition plus complète, mais toujours bien étayée, de l’exome (moins de faux négatifs). Bien que les référentiels connus et modèles rapportent les preuves à l’appui de l’enregistrement de séquence, ils utilisent des approches distinctes pour le faire. Les efforts futurs seront axés sur l’harmonisation des rapports de données probantes pour les référentiels » connus » et » modèles » afin que les utilisateurs puissent identifier plus facilement ces informations. Nous ajouterons également un nouveau type de données à la collection RefSeq humaine et murine dans un proche avenir pour représenter des éléments réglementaires et fonctionnels rapportés expérimentalement avec des conséquences fonctionnelles connues (ou raisonnablement inférées).
Pour les génomes procaryotes, nous continuons à travailler sur l’affinage des aspects de l’annotation structurelle générée par le pipeline d’annotation du génome Procaryote. Notre travail en vue d’une nouvelle approche de gestion de l’information fonctionnelle est toujours en cours de perfectionnement et sera décrit ailleurs. Nous prévoyons de ré-annoter l’ensemble des données sur les génomes procaryotes RefSeq lorsque de nouvelles versions de notre pipeline d’annotations procaryotes seront disponibles (pour améliorer l’annotation structurelle). La décision d’annoter tous les procaryotes de RefSeq en utilisant une seule méthode, ainsi que le volume de cet ensemble de données, nécessite une approche différente qui exploite de multiples sources de preuves pour fournir des informations fonctionnelles. Les noms des protéines seront mis à jour de façon continue selon les familles de protéines ou les catégories de type de preuve. Nos objectifs pour l’année à venir incluent une plus grande intégration de Rfam (65) dans notre pipeline d’annotations, une collaboration élargie, des noms de protéines améliorés et des preuves à l’appui des rapports sur l’enregistrement des séquences de protéines.
Nous tenons à remercier la communauté scientifique pour ses commentaires constructifs, ses suggestions, ses rapports d’erreurs et ses collaborations au cours des 15 dernières années qui ont contribué à la qualité et à la précision de la séquence représentée, de l’annotation structurelle et de l’annotation fonctionnelle.
FINANCEMENT
Programme de recherche intra-muros du NIH, Bibliothèque nationale de Médecine. Financement des frais d’accès libre: Le Programme de recherche intra-muros des Instituts Nationaux de la Santé, Bibliothèque nationale de Médecine.
Déclaration de conflit d’intérêts. Aucun déclaré.
et al.
div>
et al.
et al. Séquences génomiques de référence du locus
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
div>
et al.
div>
et al.
et al.
>
div>
et al.
div>
et al.
div>
et al.
>
et al.
div>
et al.
Goujon
div>
et al.
et al.
et al.
et al.
et al.
et al.
et al.
div>
et al.
et al.