Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). El proyecto RefSeq aprovecha los datos enviados al International Nucleotide Sequence Database Collaboration (INSDC) contra una combinación de computación, curación manual y colaboración para producir un conjunto estándar de secuencias de referencia estables y no redundantes. El proyecto RefSeq amplía estas secuencias de referencia con el conocimiento actual, incluidas publicaciones, características funcionales y nomenclatura informativa. La base de datos actualmente representa secuencias de más de 55 000 organismos (>4800 virus, >40 000 procariotas y >10 000 eucariotas; RefSeq release 71), que van desde un solo registro hasta genomas completos. Este artículo resume el estado actual de las ramas viral, procariótica y eucariótica del proyecto RefSeq, informa sobre las mejoras en el acceso a los datos y detalla los esfuerzos para ampliar aún más la representación taxonómica de la colección. También destacamos diversas iniciativas de curación funcional que admiten múltiples usos de los datos RefSeq, incluida la validación taxonómica, la anotación del genoma, la genómica comparativa y las pruebas clínicas. Resumimos nuestro enfoque para utilizar ARN-Seq y otros tipos de datos disponibles en nuestro proceso de curación manual de vertebrados, plantas y otras especies, y describimos una nueva dirección para el manejo de genomas procarióticos y nombres de proteínas.

INTRODUCCIÓN

Durante los últimos 15 años, la base de datos RefSeq del Centro Nacional de Información Biotecnológica (NCBI) ha servido como un recurso esencial para la investigación genómica, genética y proteómica. La provisión del proyecto RefSeq de genomas de referencia anotados, transcripciones y proteínas curadas y estables para virus, microbios, orgánulos y organismos eucariotas seleccionados, ha permitido a los investigadores centrarse en los mejores datos de secuencias representativos en contraste con los datos redundantes en GenBank, y hacer referencia inequívoca a secuencias genéticas específicas. La colección RefSeq proporciona registros de genoma, transcripción y secuencia de proteínas explícitamente vinculados que incorporan publicaciones, nomenclatura informativa y anotaciones de características estandarizadas y ampliadas. Los registros de RefSeq están integrados en los recursos del NCBI, incluidas las bases de datos de nucleótidos, Proteínas y EXPLOSIONES, y se pueden identificar fácilmente por la palabra clave ‘RefSeq’ y por sus prefijos de acceso distintos que definen su tipo (Tabla 1). Todos los datos de RefSeq están sujetos a controles de garantía de calidad (QA) con algunas pruebas de QA especializadas desarrolladas para diferentes taxones o tipos de datos. Por ejemplo, todos los RefSeq virales se someten a una revisión taxonómica por parte del personal del NCBI antes de su publicación. Las accesiones RefSeq se citan ampliamente en publicaciones científicas y bases de datos genéticos porque proporcionan un sistema de coordenadas estable y consistente que se puede usar como base de referencia para informar datos específicos de genes, variaciones clínicas y comparaciones entre especies. Estos estándares de secuencia de referencia son cada vez más importantes porque la información precisa y la reproducibilidad son componentes vitales para las mejores prácticas en la investigación biomédica (1).

Prefijos de acceso a RefSeq

Cuadro 1.

RefSeq accession prefixes

Proteínas

proteína

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia
AP_3	proteína	Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado
XP_3, 5	proteína	Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado
YP_3	proteína	Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado
WP_6	Proteínas	que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotado en más de un genoma procariota

Proteínas

proteína

Prefijo .	tipo de Molécula .	Usar contexto .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia
AP_3	proteína	Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado
XP_3, 5	proteína	Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado
YP_3	proteína	Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado
WP_6	Proteínas	que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotada en más de un genoma procariótico

1El formato de número de acceso completo consiste en el prefijo, incluido el subrayado, seguido de 6 números seguidos del número de versión de la secuencia.

2El formato de acceso completo consiste en el prefijo seguido del número de acceso INSDC en el que se basa el registro RefSeq seguido del número de versión de la secuencia RefSeq.

3El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 6 o 9 números seguidos del número de versión de secuencia.

4Los registros con este prefijo de adhesión han sido curados por el personal de NCBI o una base de datos de organismos modelo, o están en el grupo de accesiones con las que trabajan los curadores. Estos registros se conocen como el conjunto de datos RefSeq «conocido».

5Los registros con este prefijo de acceso se generan a través de la tubería de anotación del genoma eucariótico o de la tubería de anotación del genoma eucariótico pequeño. Los registros generados a través del primer método se denominan conjunto de datos RefSeq «modelo».

6El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 9 números seguidos del número de versión. El número de versión es siempre «.1 ‘ ya que estos registros no están sujetos a actualización. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Proteínas

proteína

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia
AP_3	proteína	Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado
XP_3, 5	proteína	Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado
YP_3	proteína	Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado
WP_6	Proteínas	que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotado en más de un genoma procariota

Proteínas

proteína

Prefijo .	tipo de Molécula .	Usar contexto .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia
AP_3	proteína	Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado
XP_3, 5	proteína	Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado
YP_3	proteína	Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado
WP_6	Proteínas	que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotada en más de un genoma procariótico

1El formato de número de acceso completo consiste en el prefijo, incluido el subrayado, seguido de 6 números seguidos del número de versión de la secuencia.

2El formato de acceso completo consiste en el prefijo seguido del número de acceso INSDC en el que se basa el registro RefSeq seguido del número de versión de la secuencia RefSeq.

3El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 6 o 9 números seguidos del número de versión de secuencia.

6El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 9 números seguidos del número de versión. El número de versión es siempre «.1 ‘ ya que estos registros no están sujetos a actualización. Consulte la documentación en línea para obtener información adicional: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

En los últimos años, las técnicas avanzadas de secuenciación han facilitado un aumento sustancial de las presentaciones de conjuntos de genoma completo a las bases de datos públicas. Como resultado, el proyecto RefSeq ha ampliado de forma concordante la profundidad y la amplitud de los taxones incluidos en el conjunto de datos, principalmente a través de mejoras en varias canalizaciones de anotación internas. Todos los taxones están incluidos en RefSeq; sin embargo, la anotación a menudo se limita a aquellos organismos para los que se dispone de un conjunto de genoma primario de alta calidad con información de organismos no impugnada. Por lo tanto, podemos excluir algunas categorías de datos que no cumplen con nuestros estándares de calidad. Los conjuntos de datos excluidos incluyen: metagenomas, conjuntos con valores bajos de contig N50 o un número especialmente elevado de armazones/contig sin colocar (es decir, alta fragmentación), o genomas que tienen un desajuste significativo o una variación indel en comparación con otros genomas estrechamente relacionados para la especie (por ejemplo, algunos procariotas).

Un aspecto único del conjunto de datos RefSeq es el enfoque combinado de aprovechar la computación, la colaboración y la curación por parte del personal científico del NCBI. Como una gran instalación de bioinformática, NCBI ha invertido en el desarrollo de flujos de proceso sólidos para generar anotaciones y realizar pruebas de garantía de calidad para genomas, transcripciones y proteínas eucariotas y procariotas. Se están realizando mejoras en el flujo del proceso de los genomas virales. El grupo RefSeq colabora con numerosos grupos de expertos, incluidas autoridades oficiales de nomenclatura (p. ej. Comité de Nomenclatura de Genes HUGO (HGNC) y Red de Información de Peces Cebra (ZFIN) para nombres de genes humanos y peces cebra, respectivamente), UniProtKB (nombres de proteínas) y miRBase (microRNAs) (2-5). Estas y otras colaboraciones ayudan a mantener y mejorar la calidad del conjunto de datos RefSeq a través de informes de control de calidad, intercambios de información sobre genes y secuencias e intercambios de información funcional. El personal del NCBI también proporciona apoyo para la curación de virus, procariotas, eucariotas, orgánulos, plásmidos y proyectos específicos, que incluyen la curación de genes y secuencias para Homo sapiens, Mus musculus y otros organismos. Los curadores de RefSeq mejoran la calidad de la base de datos a través de la revisión de los resultados de las pruebas de control de calidad, la participación en la selección de ciertos insumos para el procesamiento de anotaciones genómicas, el análisis de secuencias, el análisis taxonómico y la revisión funcional. La curación también admite mejoras en las canalizaciones de anotación del genoma, ya que los expertos en contenido ayudan a definir enfoques programáticos para modelar la biología típica y atípica. Para los eucariotas, en particular los mamíferos, la curación basada en transcripciones define los»mejores»representantes de secuencias (como RefSeqs ‘conocidos’; nota al pie de la tabla 1) que se utilizan como reactivo de entrada principal para la tubería de anotación del genoma eucariótico (http://www.ncbi.nlm.nih.gov/books/NBK169439/). A su vez, las mejoras en la calidad del reactivo de entrada añaden una calidad y reproducibilidad significativas a la anotación del genoma resultante. Este tipo de curación manual se ha centrado históricamente en humanos y ratones debido a su importancia biomédica única (6). Más recientemente, estos esfuerzos de curación han prestado mayor atención a Rattus norvegicus, Danio rerio, Bos taurus y Gallus gallus. Estas especies son relevantes para la salud humana, así como para la sostenibilidad agrícola.

En este artículo, informamos sobre nuestro progreso en la expansión del conjunto de datos RefSeq para incluir organismos más diversos, describimos mejoras en el acceso a los datos y proporcionamos ejemplos que ilustran un mayor enfoque en proporcionar conjuntos de datos filogenéticamente útiles, así como anotaciones de características funcionales en la transcripción de RefSeq y los registros de proteínas. Anticipamos que estos esfuerzos y mejoras en el conjunto de datos RefSeq continuarán contribuyendo al avance de la investigación traslacional médica, las mejoras agrícolas, la identificación filogenética y los estudios evolutivos.

GENERAR EL CONJUNTO DE DATOS REFSEQ

Los registros de secuencia RefSeq se generan por diferentes métodos dependiendo de la clase de secuencia y el organismo. Los genomas arqueales y bacterianos (ver sección Procariotas) se anotan utilizando la línea de anotación del genoma procariótico de NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mientras que un pequeño número de genomas bacterianos de referencia son compatibles con la colaboración y la curación manual. Los genomas eucarióticos RefSeq se proporcionan utilizando dos flujos de proceso. La mayoría de los genomas de plantas, animales, insectos y artrópodos están anotados por la tubería de anotación del genoma eucariótico. Esta canalización genera resultados de anotación basados en los datos de transcripción disponibles (incluidos los datos de ARN-Seq y de ensamblaje de escopeta de transcriptoma (TSA)), así como la homología de proteínas, la predicción ab initio (en gran parte cuando los datos de transcriptoma no están disponibles) y las transcripciones y proteínas RefSeq conocidas (curadas) disponibles (consulte la Tabla 1). La anotación generada por canalización (modelo RefSeqs) puede o no tener soporte para la combinación completa de exones a partir de una alineación de evidencia única, pero puede tener soporte ARN-Seq para pares de exones. Los genomas eucarióticos que han sido anotados por esta canalización se informan públicamente con enlaces para descargar los datos por FTP, para ver o realizar una consulta de BLAST contra el genoma anotado, o para acceder a un resumen detallado del informe de anotación (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). La canalización de un subconjunto de eucariotas, incluidos hongos, protozoos y nematodos, implica la anotación de propagación que se ha enviado a la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC), con estandarización de formatos, a una copia RefSeq del ensamblaje del genoma presentado (ver Algas, Hongos, Nematodos y Protozoos).

El personal del NCBI proporciona la mayor parte de la anotación del genoma de orgánulos de RefSeq a través de la propagación a partir de la presentación del INSDC. La anotación de mitocondrias de mamíferos a menudo se complementa con la curación manual. El proyecto RefSeq también mantiene secuencias de referencia para proyectos de loci específicos, como RefSeqGene, que es miembro de la colaboración Genómica de Referencia de Locus (LRG) (7), para loci ribosómicos de ARNr bacterianos y fúngicos, y para secuencias de espaciadores transcritos internos fúngicos (ITS) (8). Además, se proporciona un número significativo de transcripciones y proteínas humanas, de ratones y de otros tipos a través de la colaboración y la curación manual, que incluye el análisis de secuencias y la revisión de la literatura.

Las tuberías de anotación procariótica y eucariótica de NCBI se han mantenido al ritmo del creciente número de ensamblajes genómicos enviados al INSDC al proporcionar anotaciones consistentes en copias RefSeq de ensamblajes genómicos enviados seleccionados de alta calidad. Hasta la fecha, 245 genomas eucarióticos, incluidos 170 genomas de vertebrados, han sido anotados por esta tubería, de los cuales más de 120 especies fueron anotadas en los últimos 20 años. Entre este grupo se encuentran 52 especies de aves que incluyen especies representativas de la mayoría de los órdenes de aves (9,10). También ha habido una expansión significativa en el número de conjuntos anotados por RefSeq para primates no humanos, otros mamíferos, peces, plantas y artrópodos.

ACCEDER AL CONJUNTO DE DATOS REFSEQ

La página principal de RefSeq http://www.ncbi.nlm.nih.gov/refseq/ es un concentrador central para todos los aspectos del conjunto de datos RefSeq. Este sitio proporciona enlaces que guían a los usuarios a través de una descripción general del proyecto, así como hojas informativas, estadísticas de crecimiento e información sobre proyectos RefSeq más específicos, como la iniciativa de re-anotación del genoma procariótico, el proyecto de Secuencia de Codificación de Consenso (CCDS) (11), el proyecto RefSeqGene y los proyectos Loci dirigidos (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Los enlaces a la versión FTP completa más reciente y la documentación detallada sobre el formato y el contenido de la versión se pueden encontrar en la sección «Anuncios» de la página de inicio de RefSeq. Los anuncios anteriores de RefSeq también están disponibles en esta página. Recomendamos encarecidamente la descarga de datos RefSeq directamente desde NCBI, ya que las descargas de otros recursos de bioinformática y del navegador del genoma pueden no incluir todos los datos disponibles, o simplemente reflejar alineaciones de transcripciones de RefSeq a un genoma en lugar de los resultados de anotación del genoma generados por NCBI.

Se puede acceder a los datos de secuencia de RefSeq de forma interactiva utilizando bases de datos de nucleótidos y proteínas NCBIs, en bases de datos de BLAST, a través de la interfaz programática de NCBI (E-utilities) o a través del protocolo de transferencia de archivos (FTP). Las utilidades electrónicas admiten acceso con scripts para descargar los datos de RefSeq en una variedad de formatos basados en términos de búsqueda o listas de acceso; hay una amplia documentación disponible en el Manual del NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) y los videos de capacitación están disponibles en el canal de YouTube de NCBI (https://www.youtube.com/user/NCBINLM). Tanto las bases de datos de nucleótidos como las de proteínas permiten que los resultados de las consultas se restrinjan solo a los registros RefSeq seleccionando ‘RefSeq’ en la ‘Base de datos de origen’ en la barra lateral de filtros. También se puede acceder a los datos de RefSeq desde otras bases de datos de NCBI, incluidos Ensamblado, Bioproyecto, Genes y Genoma, siguiendo los enlaces proporcionados a recursos de nucleótidos, Proteínas o FTP.La información sobre los cambios de conservación dentro del grupo RefSeq o las actualizaciones de NCBI que afectan a la base de datos de RefSeq se informan a través de varias fuentes, incluidas las notas de la versión de RefSeq FTP, los informes periódicos publicados, la fuente de noticias de Anuncios de NCBI http://www.ncbi.nlm.nih.gov/news/ y a través del Blog de NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Los usuarios también pueden suscribirse a la lista de correo refseq-announce para recibir actualizaciones periódicas sobre el proyecto y un resumen del contenido de cada versión FTP de RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

Los datos de RefSeq se distribuyen a través de FTP a través de dos sitios, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) y genomas (ftp://ftp.ncbi.nlm.nih.gov/genomes/). El sitio FTP de refseq proporciona actualizaciones diarias de todos los registros de RefSeq nuevos y actualizados, actualizaciones semanales de algunos tipos de datos y una versión completa bimensual de RefSeq (/refseq/release/). Además, los conjuntos de datos de proteínas y transcripciones específicas de determinados organismos, incluidos humanos y ratones, se actualizan semanalmente. El subdirectorio RefSeqGene se actualiza diariamente, con alineamientos con el genoma liberados con cada anotación. La liberación bimensual completa de RefSeq está organizada por grupos taxonómicos (por ejemplo, mamíferos vertebrados) u otros (por ejemplo, mitocondrias). Los datos también se pueden descargar para toda la colección de RefSeq desde el directorio / refseq / release / complete/. La versión RefSeq ofrece una ventaja para aquellos que desean mantener actualizaciones periódicas de la colección completa o de un solo grupo. También incluye registros que no están disponibles en el sitio FTP de genomas complementarios, como transcripciones de la colección que se mantienen de forma independiente de un ensamblado de genoma y que pueden no estar anotadas en él. La versión se proporciona con documentación significativa de los archivos instalados (/refseq/release/ release-catalog/), incluidas sumas de comprobación MD5, una lista de todos los archivos instalados, así como notas y anuncios de la versión (/refseq/release/release-notes/).

Los datos RefSeq también se pueden descargar desde el sitio FTP de genomes. En agosto de 2014, NCBI anunció una reorganización importante de este sitio FTP, que ahora proporciona acceso de ensamblaje y basado en organismos a genomas GenBank y RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Este directorio se divide además en subdirectorios basados en los mismos grupos que se utilizan en la versión RefSeq, cada uno de los cuales proporciona subdivisiones adicionales por especie. El sitio FTP de genomas proporciona archivos que representan todos los ensamblados genómicos de RefSeq reportados en el recurso de ensamblado de NCBI (www.ncbi.nlm.nih.gov/assembly/). La ventaja del sitio de genomas es que se puede acceder a los datos de una manera específica del ensamblaje u organismo. Los datos proporcionados incluyen secuencia de genoma y producto( transcripción / proteína), anotación, informes y estadísticas de ensamblaje y sumas de verificación MD5; estos datos se actualizan cuando se actualiza el ensamblaje del genoma y/o la anotación. Esta área no incluye secuencias RefSeq que están fuera del alcance de un ensamblaje de genoma o productos que no están anotados en un genoma.

CRECIMIENTO Y ESTADÍSTICAS

RefSeq FTP release 71 (julio de 2015) incluye más de 77 millones de registros de secuencias para más de 55 000 organismos. La Tabla 2 resume el crecimiento del conjunto de datos de RefSeq en el último año en términos de organismos y número de registros de secuencia representados por cada área de directorio FTP de publicación de RefSeq. Los genomas y proteínas bacterianas constituyen la mayor parte del conjunto de datos RefSeq (56% de las accesiones totales y 76% de >52 millones de accesiones de proteínas). Se observan aumentos significativos en el número de organismos, proteínas y registros totales de invertebrados, plantas y organismos eucarióticos, lo que es consistente con el aumento del número y el rendimiento de los proyectos de secuenciación del genoma. Un factor significativo para la alta tasa de crecimiento continua de los datos de RefSeq son las mejoras en las tuberías genómicas que generan genomas de RefSeq anotados. En particular, esto incluye el aumento de la capacidad en la tubería de anotación del genoma procariótico de NCBI, el re-desarrollo del flujo de proceso que propaga la anotación a partir de genomas de bancos de genes eucarióticos en genomas RefSeq, y la incorporación de evidencia de ARN-Seq en la tubería de anotación del genoma eucariótico de NCBI y su impacto en la generación de RefSeq del modelo (accesiones XM_, XR_ y XP_, Tabla 1).

Crecimiento anual en el número de organismos, proteínas y transcripciones representados en la liberación completa de RefSeq, por directorio de liberación FTP

Tabla 2.

Crecimiento anual del número de organismos, proteínas y transcripciones representados en la versión completa de RefSeq, por directorio de publicación FTP

Directorio de publicación .	Organismos .	,% de Cambio .	Transcripciones .	,% de Cambio .	Proteínas .	,% de Cambio .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	,% de Cambio .	Transcripciones .	,% de Cambio .	Proteínas .	,% de Cambio .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (por ejemplo, archaea.acc_taxid_growth.txt y archivos relacionados). El cambio porcentual anual se basa en la comparación de recuentos de datos para la versión 71 de RefSeq (julio de 2015) y la versión 66 de RefSeq (julio de 2014).

la Tabla 2.

Crecimiento anual del número de organismos, proteínas y transcripciones representados en la versión completa de RefSeq, por directorio de publicación FTP

Directorio de publicación .	Organismos .	,% de Cambio .	Transcripciones .	,% de Cambio .	Proteínas .	,% de Cambio .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	,% de Cambio .	Transcripciones .	,% de Cambio .	Proteínas .	,% de Cambio .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

La drástica disminución en el número de registros de proteínas plásmidas, y por lo tanto en el número de accesiones totales, refleja la finalización de un proyecto de re-anotación del genoma bacteriano RefSeq (http://www.ncbi.nlm.nih.gov/refseq/acerca de/procariotas/re-anotación/) y la adopción del nuevo modelo de datos para procariotas, incluyendo sus plásmidos. En este nuevo modelo de datos, una única adhesión a proteínas no redundante RefSeq puede anotarse en más de un registro de secuencia genómica cuando la traducción de esas regiones codificadoras de proteínas genómicas da como resultado una proteína idéntica (véase http://www.ncbi.nlm.nih.gov/refseq/acerca de/proteínas no redundantes/). La redundancia en todas las proteínas bacterianas también disminuyó significativamente; sin embargo, no es evidente aquí debido a los continuos aumentos significativos en el número de genomas bacterianos incluidos en el conjunto de datos. Estos cambios también resultaron en una caída general en el número de registros de proteínas arqueales.

VERTEBRADOS

Un grupo selecto de vertebrados, incluidos Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus y Danio rerio, son el foco principal de nuestros esfuerzos de curación manual basados en transcripción y literatura. Los curadores generalmente trabajan a partir de listas de genes con conflictos de datos identificados por pruebas de garantía de calidad (QA), algunas de las cuales se describieron previamente (12). Siguen un conjunto detallado de pautas al analizar cada gen para garantizar la consistencia entre personas en el conjunto de datos curado. Este análisis implica una evaluación en profundidad de las secuencias y una revisión de la literatura para crear transcripciones de referencia, proteínas, pseudogenes y registros de RefSeqGene. Los curadores de RefSeq generan variantes de transcripción, resuelven errores de secuencia, eliminan información inexacta, actualizan registros para representar correctamente la biología del locus y agregan información funcional valiosa a algunos registros de RefSeq, como nombres de proteínas mejorados, un resumen de la función del producto del gen, características funcionales del gen y/o publicaciones relevantes. La curación manual y la revisión de la literatura por el grupo RefSeq pueden resultar en la representación de variantes e isoformas únicas que no se predecirían cuando se basaran únicamente en el análisis computacional. Por ejemplo, la revisión de la literatura del gen supresor de tumores humanos, PTEN (homólogo de fosfatasa y tensina, GeneID: 5728) reveló la existencia de una isoforma de proteína más larga resultante del uso de un codón de iniciación de CUG alternativo en el marco ascendente que se encuentra en el centro de una secuencia palindrómica ascendente del codón de inicio de traducción canónica del ARNm (13). Datos experimentales sólidos indicaron que esta isoforma mitocondrial específica se inicia con una leucina, en lugar de una metionina (14). El modelo de datos RefSeq para eucariotas proporciona una transcripción vinculada explícitamente a una proteína. Por lo tanto, se proporcionaron dos registros de transcripción idénticos para reflejar la traducción de los codones de iniciación alternativos; NP_000305.3 representa la proteína de 403 aminoácidos que utiliza el codón de inicio canónico de metionina, mientras que NP_001291646.2 representa la proteína de 576 aminoácidos localizada mitocondrial que se inicia con una leucina. Por lo tanto, el proceso de curación tiene un doble propósito de proporcionar secuencias de referencia precisas que faciliten la anotación precisa y reproducible del genoma y proporcionar registros que incluyan información biológica relevante. En esta sección discutimos las actualizaciones recientes, las mejoras que hemos hecho a nuestro proceso de curación manual y ejemplos de proyectos de curación enfocados.

Proyecto RefSeqGene

El subproyecto RefSeqGene define secuencias genómicas humanas que se utilizarán como estándares de referencia para genes bien caracterizados, en particular para uso de la comunidad de genética clínica. Estas secuencias sirven como una base estable para reportar variantes patógenas, para establecer convenciones para numerar exones e intrones, y para definir las coordenadas de otras variantes. Cada registro de RefSeqGene se centra en una región genómica específica de un gen y, por lo general, se anota con un subconjunto de transcripciones de RefSeq y proteínas seleccionadas por expertos en el dominio. Esas selecciones determinan las características del exón. Se incluyen alineaciones de versiones anteriores de la transcripción/proteína canónica de RefSeq, así como de otras RefSeq conocidas. Estos registros suelen incluir 5 kilobases (kb) de secuencia aguas arriba del gen de enfoque, y 2 kb de secuencia aguas abajo, para apoyar la representación de posibles sitios reguladores o eliminaciones que se extienden más allá de la característica del gen. Un registro de RefSeqGene puede incluir información de anotación para otros genes que se encuentran dentro de sus límites. Los registros de RefSeqGene son revisados inicialmente por bases de datos específicas de locus y personal del NCBI. RefSeqGene es miembro de LRG collaboration (7), que proporciona una revisión adicional de los datos de secuencia antes de agregar una adhesión a LRG. Un enfoque de trabajo reciente amplió el número de registros de RefSeqGene para representar todos los genes para los que se han enviado al menos dos pruebas clínicas al Registro de Pruebas Genéticas de los NIH (GTR, por sus siglas en inglés). En este momento hay 5596 registros de RefSeqGene, de los cuales 633 tienen una adhesión a LRG. Los registros de RefSeqGene se pueden recuperar buscando en la base de datos de nucleótidos con ‘refseqgene’, por sus accesiones LRG, navegando por el sitio web de RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/), o por FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

Incorporación de ARN-Seq y otros tipos de datos en la curación basada en transcripciones

Un objetivo principal del proyecto de curación RefSeq es representar secuencias de referencia de proteínas y transcripciones completas y de alta calidad. Como tal, nuestros criterios de curación se basan principalmente en transcripciones convencionales (ARNm y EST) y alineaciones de proteínas y evidencia publicada. Sin embargo, los proyectos de transcriptomas de vertebrados se han vuelto cada vez más complejos con la mayoría de los nuevos datos de transcripciones generados actualmente por la tecnología de secuenciación de lectura corta. Los estudios de todo el genoma que analizan los patrones globales de marcas epigenéticas asociadas a promotores también proporcionan evidencia de promotores activos y/o transcripción activa. El grupo RefSeq ha ajustado las prácticas de curación para incorporar estos nuevos tipos de datos a fin de mejorar nuestra anotación manual, en particular en los casos en que un gen o variante carece de abundante soporte de transcripción convencional. Estos estudios ARN-Seq y epigenómicos han generado enormes conjuntos de datos que presentan un desafío para los grupos de anotación de genes, por ejemplo, a través de posibles falsos positivos y la falta de apoyo para combinaciones de exones de largo alcance (15). Los curadores de RefSeq mitigan los falsos positivos incorporando selectivamente solo conjuntos de datos de alta calidad para su consideración en nuestra canalización de anotaciones genómicas y en el proceso de anotación manual. Los curadores de RefSeq visualizan alineaciones de transcripción, datos de variación y datos ARN-Seq filtrados en pantallas personalizadas dentro de una herramienta de alineación interna incorporada en la plataforma NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). La curación de genes humanos utiliza lecturas ARN-Seq analizadas del Mapa corporal Illumina 2 (BioProject: PRJEB2445) y los proyectos Atlas de Proteínas Humanas (BioProject: PRJEB4337) (16). Además, los curadores utilizan marcas de modificación de histonas asociadas al promotor, como H3K4me3 del Consorcio de Mapas Epigenómicos de Hoja de Ruta de los NIH (REMC; (17) y el proyecto ENCODE (Enciclopedia de Elementos de ADN) (18) para verificar la presencia de un promotor activo. Los curadores de RefSeq también evalúan los datos de polyA-seq para afirmar la integridad de 3′ de las transcripciones que carecen de una cola de polyA (19). Otros tipos de datos, como PhyloCSF (20), CPGISLAND, RepeatMasker (21) y análisis Cap de datos de expresión génica (CAGE) (22), a veces se utilizan como soporte adicional.

ARN largos no codificantes (lncRNAs)

El grupo RefSeq continúa expandiéndose significativamente en la representación de ARN estructurales y micro no codificantes, pseudogenes transcritos y los lncRNAs en gran parte no caracterizados. Esta clase de genes se define generalmente como transcripciones > de 200 nt de longitud que carecen de un fuerte potencial de codificación de proteínas (23). Los registros lncRNA RefSeq se generan por curación y a través de la línea de anotación del genoma eucariótico para los genes lncRNA. Actualmente, el NCBI mantiene más de 540 000 registros eucarióticos lncRNA RefSeq, de los cuales más de 6700 han sido curados y solo unos pocos cientos han sido caracterizados funcionalmente. De estos, muchos han estado implicados en enfermedades humanas, como BACE1-AS, que puede desempeñar un papel en la fisiopatología de la enfermedad de Alzheimer, y el aire CALIENTE, que se ha asociado con múltiples cánceres (24,25). La gran mayoría de los lncRNAs tienen funciones desconocidas y la ausencia de marcos de lectura abiertos largos presenta un desafío en términos de confirmar la integridad de la transcripción. Además, los envíos de lncRNA al INSDC se basan en gran medida en TSA de conjuntos de datos de lectura corta que pueden incluir combinaciones de exones artificiales. Los curadores de RefSeq adoptan un enfoque conservador para representar genes lncRNA, solo creando RefSeqs manualmente (con un prefijo de acceso NR_) para transcripciones de alta calidad para las que tenemos cierta certeza de la estructura de exones. Idealmente, el soporte de transcripción debe estar empalmado con al menos tres exones, pero se pueden representar transcripciones de dos exones e intrón si están respaldadas por epigenómica asociada al promotor, pruebas de poli(A), ADNc adicionales y/o datos de ARN-Seq. Los registros de RefSeq lncRNA para genes no codificantes se pueden recuperar de la base de datos de nucleótidos de NCBI utilizando la cadena de búsqueda ‘biomol ncrna lncrna’ y seleccionando el filtro RefSeq de la columna izquierda.

Anotación funcional

La contribución única de los registros de transcripción de RefSeq eucarióticos curados es que integran información funcional con una secuencia de referencia. El personal de curación de RefSeq agrega resúmenes de genes, nomenclatura, texto de variantes de transcripción, atributos de genes y secuencias y características funcionales que están disponibles en el registro de RefSeq y/o a través del recurso genético (http://www.ncbi.nlm.nih.gov/gene). En el último año, el personal de RefSeq ha llevado a cabo varios proyectos de anotación en profundidad, algunos de los cuales se describen brevemente en los párrafos siguientes, para agregar datos funcionales a conjuntos específicos de genes donde las herramientas computacionales no pueden representar con precisión el conocimiento biológico. Estos proyectos incluyen anotación de péptidos antimicrobianos, retrovirus endógenos, histonas dependientes de replicación, UORF reguladores y antizimas.

Péptidos antimicrobianos (AMPs)

Los AMPs fueron un enfoque de curación reciente (http://ncbiinsights.ncbi.nlm.nih.gov/ 2015/05/21/) (26). Los AMPS son péptidos naturales que se encuentran en una amplia gama de especies y se han implicado en muchas funciones inmunitarias, incluidas las actividades bactericidas, antivirales, antifúngicas e incluso antitumorales. Una lista de más de 130 genes humanos que codifican uno o más amplificadores probados experimentalmente se recopiló de varios conjuntos de datos de amplificadores disponibles públicamente y también se extrajo de publicaciones. La mayoría de estos amperios no habían sido identificados previamente en la base de datos RefSeq, y ninguna de las bases de datos AMP conectó los péptidos a su gen codificador. Los curadores de RefSeq anotaron manualmente los registros de RefSeq de cada gen humano codificador de AMP para garantizar que se anotó el péptido funcional, incluir una publicación que describiera la actividad antimicrobiana del péptido, agregar un breve resumen que describiera la actividad antimicrobiana del AMP codificado y almacenar un nuevo atributo RefSeq «La proteína tiene actividad antimicrobiana» que se incluye en el comentario estructurado del atributo RefSeq (por ejemplo, NM_001124.2 para ADM; GeneID: 133). Para acceder a todos los registros de AMP de proteínas o transcripciones humanas curadas, busque en la base de datos de nucleótidos o proteínas usando «La proteína tiene actividad antimicrobiana». Actualmente, esta búsqueda encontrará 191 registros RefSeq, incluidas variantes de empalme e isoformas de proteínas.

Retrovirus endógenos (ERVs)

Los retrovirus endógenos (ERVS) son loci genómicos que se derivan de la inserción ancestral de un retrovirus exógeno en el genoma del huésped. Los loci de ERV generalmente están fuera del alcance de RefSeq; sin embargo, anotamos loci codificadores de proteínas de VER de longitud completa que se asignan a una única ubicación genómica si han evolucionado para cumplir una función de huésped, están asociados con una enfermedad conocida y/o si un comité oficial de nomenclatura les ha asignado una nomenclatura. Aproximadamente el 8% del genoma humano es de origen retroviral (27); sin embargo, debido a sus orígenes antiguos, la mayoría de los loci del ERV humano han acumulado mutaciones sin sentido y ya no pueden codificar una proteína. Las proteínas sincitinas, que participan en el desarrollo placentario (28), son una excepción bien conocida a esto. Las proteínas sincitin-1 y sincitin-2 humanas están codificadas por los genes ERVW-1 (NM_001130925.1, NM_014590.3) y ERVFRD-1 (NM_207582.2). Hasta la fecha, hemos creado 67 RefSeq para loci ERV, que incluyen registros que representan genes ERV de un conjunto diverso de mamíferos. Se creó una nueva categoría de atributo RefSeq titulada «retrovirus endógeno» para estos registros y aparece en un comentario estructurado sobre el registro RefSeq. Estos registros se pueden recuperar de la base de datos de nucleótidos mediante la búsqueda de «retrovirus endógeno».

Histonas dependientes de replicación

Se requiere una síntesis rápida de ARNm de histonas durante la división celular para producir grandes cantidades de proteínas de histonas. Críticos para este proceso son los genes de histonas dependientes de la replicación que se regulan al alza durante la fase G1/S del ciclo celular (29). Se llevó a cabo un proyecto específico de RefSeq con el objetivo de curar el conjunto completo de genes codificadores de proteínas histónicas dependientes de la replicación en humanos y ratones. Estos genes tienen una secuencia canónica del elemento descendente de la histona 3′ (HDE) en la secuencia genómica y los ARNM maduros resultantes carecen característicamente de colas de poli(A) y en su lugar terminan poco después de una estructura de bucle de tallo de ARN (30). El elemento HDE se encuentra en la transcripción precursora, pero no se incluye en la transcripción procesada representada por RefSeq. La ubicación de la secuencia de estructura de bucle de tallo de 16 nucleótidos conservada se indica en el registro RefSeq como una anotación de característica titulada ‘bucle de tallo’. Se puede ver un ejemplo en la entrada RefSeq NM_003539. 3 para HIST1H4D (GeneID: 8360). Hasta la fecha, se han curado 127 registros RefSeq de histonas dependientes de replicación humana y de ratón y se ha añadido un atributo RefSeq que se puede utilizar para recuperar estos registros de la base de datos de nucleótidos utilizando la cadena de búsqueda «histona dependiente de replicación».

Marcos de lectura abiertos reguladores ascendentes (UORF)

La traducción de un marco de lectura abierto ascendente (uORF) puede afectar negativamente a la traducción del marco de lectura abierto de codificación de proteínas primarias (pORF) (31). Este efecto no siempre silencia completamente la traducción del pORF y puede depender del tipo de célula, el estado de desarrollo o la condición celular. Por lo tanto, aunque los UORF pueden predecirse a partir de la traducción de seis fotogramas de una transcripción, el efecto regulador de este elemento debe determinarse mediante validación experimental. Los curadores de RefSeq revisaron la literatura para encontrar transcripciones con evidencia experimental de UORF reguladores y actualizaron los registros de transcripciones de RefSeq correspondientes para agregar una característica misc_feature que denota la ubicación de estos UORF. Un ejemplo es la entrada RefSeq NM_000392.4 para ABCC2 (GeneID: 1244). Se creó una nueva categoría de atributo RefSeq titulada ‘regulatory uORF’ y aparece en un comentario estructurado sobre estos registros RefSeq. Tanto la característica anotada como el atributo citan la publicación de soporte por PubMed ID. Hasta la fecha, se han anotado 260 registros con este atributo y estos registros se pueden recuperar de la base de datos de nucleótidos mediante la búsqueda de genes ‘regulatorios uORF ‘

Antizimas

Uno de los objetivos del proyecto RefSeq es representar genes con biología excepcional que no siguen las reglas de decodificación estándar de la síntesis de proteínas. El gen de la antizima ornitina descarboxilasa es un ejemplo, donde se produce un mecanismo de cambio de marco ribosómico +1 programado y no puede predecirse con herramientas computacionales convencionales. Un conjunto de transcripciones de antizimas de vertebrados y registros de proteínas fueron recientemente objeto de un esfuerzo de anotación manual para crear estándares que mejoraran la anotación de estos productos genéticos por la línea de anotación del genoma eucariótico (32). Los registros de RefSeq se anotaron manualmente con la característica CDS dividida para reflejar el deslizamiento ribosómico, e incluyen un atributo de ‘deslizamiento ribosómico’ con evidencia publicada, varias anotaciones de características diversas (como la ubicación del sitio de desplazamiento de marco) y un breve resumen que describe la función y las propiedades novedosas del gen (por ejemplo, NM_139081.2). Estos registros se pueden recuperar de la base de datos de nucleótidos o Proteínas con la consulta de búsqueda: vertebrados refseq antizima de deslizamiento ribosomal. Esta búsqueda actualmente encuentra 242 registros RefSeq (NM o NP), que incluyen variantes de transcripción e isoformas de proteínas.

INVERTEBRADOS

Las especies de invertebrados representan la gran mayoría de los metazoos existentes (33); sin embargo, solo un número relativamente pequeño está representado por genomas secuenciados. Esto a pesar del hecho de que muchas especies tienen una importancia biomédica crítica, como Anopheles gambiae, un vector de malaria y Biofalaria glabrata, un vector de esquistosomiasis (34,35). Otros invertebrados, como Apis mellifera, Bombyx mori y Crassostrea gigas, tienen un valor comercial significativo (36-38). El grupo RefSeq se ha esforzado por aumentar el número y el alcance de los genomas de invertebrados representados en el conjunto de datos proporcionando anotaciones a través de la línea de anotación del genoma eucariótico o propagando anotaciones de las presentaciones del INSDC a la copia RefSeq de esos genomas. Para ambos flujos de proceso, dependemos de la disponibilidad pública de genomas de alta calidad en las bases de datos del INSDC y en la base de datos Ensamblada del NCBI (www.ncbi.nlm.nih.gov/assembly/). Hasta la fecha, el NCBI ha anotado 46 genomas de invertebrados, incluidas especies representativas de insectos, arácnidos, moluscos y cordados basales. Anticipamos una expansión significativa en el número de genomas de insectos y otros invertebrados anotados como resultado de iniciativas genómicas como el i5k (39), 1KITE (Evolución del Transcriptoma de Insectos 1K, http://www.1kite.org/) y la Alianza Global del Genoma de Invertebrados (http://giga.nova.edu/) (40).

PLANTAS

RefSeq continúa ampliando la diversidad de especies vegetales representadas en el conjunto de datos. Hasta la fecha, se han incluido 61 especies de plantas en el conjunto de datos de genomas RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes/refseq/ plant/) de las cuales 33 especies fueron anotadas a través de la línea de anotación del genoma eucariótico; el resto son copias RefSeq de genomas anotados enviados al INSDC. En el futuro, más genomas de plantas seleccionados para la inclusión de RefSeq serán procesados por la canalización de anotación de eucariotas, en lugar de propagar la anotación a partir de la presentación del INSDC. Este es un cambio de política para los genomas de plantas RefSeq y dará como resultado una mayor consistencia general de los datos de anotación de plantas dentro del conjunto de datos RefSeq. La mayoría de las transcripciones y proteínas de RefSeq disponibles para especies vegetales son registros «modelo» (accesiones XM_, XP_ y XR_; Tabla 1), con un subconjunto más pequeño de registros «conocidos» (NM_, NR_, NP_) que se mantienen independientemente del proceso de anotación mediante una combinación de procesamiento automatizado y revisión manual. Actualmente se proporciona curación manual de transcripción de plantas y datos de proteínas para Zea mays y Solanum lycopersicum. El enfoque actual de la curación implica una revisión exhaustiva de la secuencia y está dirigido a resolver los problemas de control de calidad en el conjunto actual de transcripciones. La resolución de errores se centra en identificar y eliminar transcripciones quiméricas, transcripciones redundantes y genes, y mejorar la calidad de la secuencia representada mediante la evaluación de indels y desajustes entre la transcripción RefSeq, la secuencia genómica y los datos ortólogos. Para las plantas, nos esforzamos por proporcionar una transcripción curada y un conjunto de datos de proteínas que sea consistente con el cultivar seleccionado para la secuenciación y el ensamblaje del genoma. El protocolo de curación utilizado para los datos de vertebrados también se utiliza para las plantas. Por lo tanto, los registros de transcripción de RefSeq pueden actualizarse para que se basen en una secuencia de origen INSDC diferente, o pueden ensamblarse a partir de más de un registro de secuencia INSDC para proporcionar una transcripción del cultivar preferido. Si los datos de transcripción del INSDC no están disponibles para el cultivar genómico, se puede generar una transcripción RefSeq a partir de la secuencia genómica ensamblada basada en una combinación de transcripción o alineaciones de proteínas, ARN-Seq y/o datos publicados. Una segunda área de enfoque es aumentar el número de transcripciones y proteínas de codificación de proteínas conocidas compatibles, ya que esto proporciona un reactivo curado que se puede usar al anotar otros genomas de plantas. Por último, estamos fabricando más RefSeq que representan variantes de empalme cuando hay suficiente evidencia de respaldo. Estos esfuerzos mejorarán significativamente la calidad del conjunto de datos de plant RefSeq y contribuirán a mejorar las futuras anotaciones del genoma. Se puede acceder al conjunto actual de genomas de plantas anotados por la tubería en el sitio web de la tubería de anotación de genoma eucariótico de NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ con enlaces al informe de anotación detallado y otros recursos como species BLAST y FTP.

ALGAS, HONGOS, NEMATODOS Y PROTOZOOS

La tubería de genoma eucariótico pequeño de NCBI es una nueva tubería automatizada diseñada para la generación de registros RefSeq como resultado de la propagación directa de registros anotados del INSDC. Los registros de RefSeq así generados son copias de los datos de GenBank con algunos cambios de formato para cumplir con los requisitos de RefSeq. La diferencia más notable entre el registro INSDC original y el registro RefSeq es la adición del producto de transcripción RefSeq. Aunque no está diseñado para generar anotaciones genómicas de novo, la pequeña canalización del genoma eucariótico se basa en varios de los módulos de canalización de anotación del genoma eucariótico NCBI y su código (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

La designación de «Eucariotas pequeños» se refiere al uso primario de la tubería para generar genomas RefSeq para genomas eucariotas relativamente más pequeños (en comparación con los de plantas y vertebrados), como los de algas, protozoos, hongos, nematodos y algunos artrópodos. Sin embargo, algunos genomas de plantas grandes también se procesan utilizando esta tubería. Esta tubería procesa conjuntos de alta calidad que consisten en cromosomas y/o armazones y sus componentes. Se priorizan aquellos conjuntos con alto contig y andamio N50, secuencia de alta calidad y anotación enviada por INSDC razonablemente buena. Esta tubería, que reemplaza un flujo de proceso histórico que requería más soporte manual, solo recientemente ha alcanzado una fase de producción pública y ya está produciendo un mayor número de genomas eucarióticos «pequeños» representados en RefSeq. Se está trabajando para optimizar el rendimiento de la canalización y agregar más automatización y minimizar aún más las tareas de procesamiento de curadores. Los planes a más largo plazo incluyen la implementación de un sistema de gestión de nombres de proteínas para proporcionar, corregir o mejorar los nombres presentados por el INSDC a lo largo del tiempo. Muchos de los genomas que están en el alcance de la tubería de eucariotas pequeños no pueden ser procesados actualmente por la tubería de anotación de genoma eucariótico (grande) debido a la diversidad taxonómica y la disponibilidad limitada de datos de transcripción necesarios para entrenar la tubería de anotación de novo.

Loci dirigido a hongos

La morfología fúngica es muy diversa, desde estructuras multicelulares complejas hasta células individuales muy simples. Una variedad de estructuras morfológicas y tipos de esporas pueden ser producidas por una sola especie. Por el contrario, muchas especies producen morfologías similares (morfos), pero de hecho están genéticamente muy distantes. Hasta hace poco, una sola especie podía describirse válidamente con más de un nombre binomial basado en morfos sexuales o asexuales. En muchos casos, solo se ha descrito y registrado un solo morfo para una especie dada, aunque las especies estrechamente relacionadas con él podrían tener varios morfos descritos y registrados. En consecuencia, se han aplicado comparaciones de secuencias en la comunidad fúngica para diferenciar entre especies, rastrear especies a medida que avanzan a través de ciclos de vida complejos e identificar especies crípticas. Como parte del proceso dinámico de reevaluación taxonómica, muchas correcciones de especies de hongos no siempre están actualizadas en los datos de secuencias de GenBank.

Para ser un recurso más confiable para la identificación basada en el ADN, las secuencias de referencia derivadas de especímenes tipo (que actúan como referencias para especies) deben etiquetarse con el nombre de especie correcto y más actualizado. Las bases de datos de Fungi RefSeq targeted loci proporcionan este valioso recurso. Por ejemplo, PRJNA177353 es un bioproyecto que se centra específicamente en las regiones del espaciador transcrito interno (ITS) en el cistron ribosómico nuclear que se ha utilizado durante muchos años como marcador filogenético y recientemente aprobado como secuencia de código de barras formal de Hongos (41). La base de datos ITS RefSeq comenzó como una colaboración con Index Fungorum, MycoBank y UNITE, así como con un gran grupo de especialistas taxonómicos. Se seleccionaron secuencias, en su mayoría de especímenes tipo de descripciones válidas, y luego se asociaron los nombres de especies correctos actuales con las secuencias con el objetivo de representar la mayoría de los órdenes de hongos aceptados (8). Los resultados de este esfuerzo de curación se han utilizado y citado en varias publicaciones (42-46) y han ayudado a esfuerzos adicionales para validar subconjuntos de secuencias de referencia, por ejemplo, especies médicamente significativas (47).

El objetivo, con la curación continua, es agregar secuencias de órdenes recién descritas y ampliar la representación para incluir a la mayoría de las familias aceptadas con un enfoque en hongos médicamente importantes. El proceso también incluye hacer correcciones, reemplazar secuencia de material verificado con secuencia de material de tipo a medida que esté disponible y editar líneas de definición o eliminar registros RefSeq a medida que cambian las clasificaciones taxonómicas. Esto garantiza que los resultados de la búsqueda de EXPLOSIONES muestren correctamente el nombre actual. Los registros de RefSeq ITS se han ampliado para representar 3.060 secuencias que representan a 270 familias de 39 clases. Durante el esfuerzo colaborativo inicial de ITS RefSeq, también se recolectó un conjunto más pequeño de accesiones de secuencia del gen ribosomal de la subunidad nuclear grande 28S (LSU), pero no se verificó. Se siguió un flujo de trabajo similar al proceso de curación de registros ITS y, durante la curación continua, se verificaron la calidad de la secuencia, la identificación correcta y los datos de origen precisos de estos registros de LSU. Cerca de 500 registros (de 800 registros potenciales) que representan >se verificaron y publicaron recientemente 100 familias de 21 clases. El conjunto de datos 28S se puede recuperar del bioproyecto PRJNA51803 (48).

PROCARIOTAS

La colección de genomas procariotas NCBI RefSeq representa genomas procariotas ensamblados con diferentes niveles de calidad y densidad de muestreo. En el caso de los procariotas, basándonos en los comentarios de la comunidad en el pasado, nuestra política actual es proporcionar anotaciones genómicas para todos los genomas procariotas que cumplan con nuestros criterios de calidad. En los últimos años, nos hemos enfrentado a dos desafíos principales: (i) mantenernos al día con la rápida escalada de genomas procarióticos presentados; y (ii) abordar una creciente inconsistencia en la anotación del genoma debido al uso de una tubería basada en la propagación del INSDC y diferentes versiones de una tubería de anotación genómica de novo del NCBI según se desarrolló a lo largo del tiempo.

Con el creciente interés en los patógenos humanos y el avance de la tecnología de secuenciación de ADN, el número de genomas procarióticos secuenciados ha aumentado rápidamente en la última década. Algunas cepas bacterianas a menudo son indistinguibles utilizando los enfoques de genotipado actuales, pero se pueden detectar diferencias genéticas menores sobre la base de la secuenciación del genoma completo, que es útil para caracterizar las vías de transmisión, identificar la resistencia a los antibióticos y vigilar los brotes. Para investigar los patógenos transmitidos por los alimentos o los brotes de infecciones, se han secuenciado y anotado un gran número de genomas bacterianos casi idénticos en los últimos años, lo que resulta en numerosas proteínas idénticas, cada una con un número de adhesión distinto. En 2013, NCBI introdujo un nuevo modelo de datos de proteínas y prefijo de acceso (WP_) para la colección RefSeq. Este cambio redujo la redundancia en proteínas procariotas RefSeq y facilitó la identificación de proteínas que se encontraron de forma idéntica en más de un genoma. También permitió una estrategia mejorada para el manejo de los nombres de proteínas procariotas. Estos registros no redundantes representan secuencias de proteínas procariotas únicas que son independientes de cualquier genoma bacteriano en particular y pueden anotarse en múltiples cepas o especies (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

Históricamente, la anotación de genomas bacterianos RefSeq se propagaba a partir de envíos del INSDC, cuando estaba disponible, o se generaba utilizando diferentes versiones de la Canalización de Anotación de Genoma Procariótico del NCBI (que también se ofrece como servicio para envíos de GenBank). Esto resultó en inconsistencias acumuladas en la anotación estructural y funcional en el conjunto de datos procarióticos RefSeq. En los últimos dos años, el NCBI mejoró varios aspectos de la Línea de Anotación del Genoma Procariótico para aumentar la capacidad y estandarizar aún más las reglas de anotación. Nuestro pipeline combina un algoritmo de llamada de genes, GeneMarkS+ (49,50), con un enfoque de detección de genes basado en alineación y es capaz de anotar genomas WGS completos y bosquejados. La tubería predice actualmente genes codificadores de proteínas, ARN estructurales (5S, 16S y 23S), ARN y ARN pequeños no codificantes.

En 2015, lanzamos una actualización exhaustiva de anotaciones para los genomas procarióticos RefSeq con el fin de armonizar la anotación del genoma y completar la transición al nuevo modelo de datos de proteínas. Se desarrolló una nueva base de datos de nombres de proteínas procariotas, especificaciones de nombres y una estrategia basada en la evidencia, que actualmente se encuentra en proceso de implementación. Hasta ahora, más de 3 millones de registros de proteínas han actualizado los nombres en una demostración inicial del enfoque. El nuevo modelo de datos procarióticos ofrece una ventaja significativa para el manejo de nombres, ya que el nombre de la proteína se lleva con el registro de secuencia de proteínas; la actualización del nombre en ese registro de proteínas da como resultado la propagación automática de la actualización a todos los genomas que están anotados con ese número de acceso.

Los genomas procarióticos RefSeq se organizan en varias categorías nuevas, como genomas de referencia y genomas representativos basados en atributos curados y medidas de calidad de ensamblaje y anotación (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Los genomas de referencia son genomas completos ‘estándar de oro’ seleccionados manualmente con anotación de alta calidad y el más alto nivel de soporte experimental para anotación estructural y funcional. Actualmente, los grupos colaboradores y el personal del NCBI anotan manualmente un pequeño conjunto de datos de 122 genomas de referencia. Los genomas de referencia están disponibles en: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Los genomas representativos se calculan computacionalmente y se seleccionan para representar diversas especies. Los genomas representativos están disponibles en: www.ncbi.nlm.nih.gov/genome/browse/representative/.

Los datos del genoma procariótico de RefSeq se pueden acceder en bases de datos de BLAST, recursos web (Ensamblaje, Bioproyecto, Genoma, Nucleótido y Proteína), a través de las utilidades de programación de NCBI, o se pueden descargar de los genomas o de los sitios FTP de refseq. Una página de BLAST personalizada de ‘Microbios’, a la que se accede desde la página de inicio de BLAST, proporciona opciones para buscar en todos los genomas procarióticos RefSeq, el subconjunto de genomas de Referencia y Representativos, o para restringir la búsqueda a un taxón específico. Un subconjunto de genomas procarióticos se anotan con un ID de gen NCBI y se pueden recuperar en el recurso genético de NCBI o en el sitio FTP de Genes. Para las arqueas, esto se proporciona para la mayoría de los genomas completos. En el caso de las bacterias, se proporciona para los genomas de referencia y los genomas representativos para las especies que tienen al menos 10 presentaciones genómicas.

Loci diana procariota

En procariotas, la secuencia de ARN ribosómico 16S se ha convertido en un marcador molecular estándar para la descripción de una nueva especie. Si bien estas secuencias de marcadores se han utilizado ampliamente, la calidad de los datos de las secuencias y los metadatos asociados que se envían a las bases de datos del INSDC varía considerablemente. Reconociendo la importancia del acceso a datos de alta calidad para estos marcadores, NCBI ha ampliado su proyecto de loci específico para proporcionar una fuente actualizada de datos curados. El proyecto targeted loci mantiene actualmente cerca de 18 000 secuencias de referencia de ARN ribosómico 16S, de las cuales más del 95% provienen de cepas tipo. Las cepas de tipo se consideran el ejemplar de la especie y es esencial que los datos de las cepas de tipo estén anotados con metadatos correctos y estén libres de contaminación.

Este trabajo incluyó una revisión exhaustiva y una actualización de la base de datos taxonómica subyacente que se utilizó junto con el filtro de cepas de tipo Entrez de NCBI para recuperar secuencias candidatas. Los datos de secuencia y sus taxonomías y metadatos asociados se han revisado y corregido para incluir la información más actualizada. Si una secuencia fallaba en la validación o no podía validarse con precisión, se excluía. Estas secuencias de referencia ahora se pueden usar como «estándares de oro» para el análisis de secuencias de ARNr existentes y nuevas.

Los conjuntos de datos de ARNr bacterianos y arqueales 16S están disponibles en BioProject (PRJNA33175 y PRJNA33317, respectivamente). También está disponible una base de datos de EXPLOSIONES personalizada («secuencias de ARN ribosómico 16S (Bacterias y Arqueas)»).

VIRUS

El modelo de datos RefSeq para virus difiere del de otros organismos. En general, solo se crea un genoma completo de RefSeq para cada especie viral. Ocasionalmente se crean múltiples registros RefSeq dentro de una especie viral dada para reflejar genotipos bien definidos o cepas importantes de laboratorio y/o silvestres. Los genomas adicionales para una especie dada se validan para taxonomía e integridad y luego se indexan como secuencias «vecinas» (52). Tanto los genomas de RefSeq como los de los vecinos se pueden recuperar a través del Recurso especializado del Genoma Viral (http://www.ncbi.nlm.nih.gov/genome/viruses/) y de las páginas de Nucleótidos y Genoma de Entrez utilizando los enlaces ‘Genoma de RefSeq para Especies’ y ‘Otras Secuencias Genómicas del INSDC’ (52).

La taxonomía es una preocupación importante para la genómica viral, ya que hay 3186 especies virales reconocidas oficialmente por el Comité Internacional de Taxonomía de Virus (ICTV) (53) y 4834 genomas completos de especies virales oficiales y provisionales disponibles en las bases de datos del INSDC. La herramienta de Comparación de Secuencias en pares de NCBI (PASC) se desarrolló para ayudar en la clasificación de genomas virales en función de alineaciones globales y/o locales entre genomas (http://www.ncbi.nlm.nih.gov/sutils/pasc/). El alcance de esta herramienta se ha ampliado para incluir una serie de familias de virus y otros grupos taxonómicos, y se ha utilizado para apoyar la demarcación de nuevos criterios taxonómicos (54-57).

Otro problema emergente en la genómica viral es la anotación inconsistente y/o inexacta entre las secuencias del genoma viral relacionadas. Este problema a menudo refleja diferentes procesos de anotación y trabajos experimentales en curso, y puede generar confusión entre los consumidores de datos y dificultar el análisis comparativo entre genomas. Este problema se aborda en el Recurso de Variación de virus NCBI (http://www.ncbi.nlm.nih.gov/genome/viruses/ variation/), donde se emplean canalizaciones computacionales para proporcionar anotaciones estandarizadas y actualizadas para varios virus (58). Actualmente, estas tuberías calculan límites estandarizados de genes y proteínas para todas las secuencias de virus de la Influenza, virus del Dengue y virus del Nilo Occidental, y nombres estandarizados de genes y proteínas y términos de metadatos para estos y otros dos virus, coronavirus respiratorio de Oriente Medio y Ebolavirus. Estos datos estandarizados se aprovechan en una interfaz de búsqueda especializada centrada en metadatos que facilita la recuperación fácil de secuencias basadas en criterios biológicos específicos.

Mantener estándares de anotación actualizados y ampliamente aceptados requiere una colaboración continua con la comunidad científica en general. El Grupo de Trabajo de Anotación del Genoma Viral del NCBI se estableció para aprovechar consorcios de bases de datos públicas, centros de secuenciación y grupos de investigación para desarrollar anotaciones de secuencias estandarizadas, así como esquemas de nomenclatura de aislamiento para diferentes grupos de virus (59-63). Este enfoque no solo establece estándares para la anotación viral, sino que también representa estos estándares dentro del registro RefSeq actual, asegurando la accesibilidad para todos los usuarios y remitentes de bases de datos. También se necesitan colaboraciones similares para apoyar recursos interpretativos de valor añadido, como la base de datos de interacción humana con VIH-1 (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/vih-1/interacciones/) (64). Los colaboradores del Southern Research Institute proporcionan interacciones moleculares humanas documentadas sobre el VIH-1, seleccionadas de la literatura, y el NCBI mantiene un recurso fácil de usar donde los usuarios pueden consultar tipos específicos de interacciones y encontrar más información sobre los genes involucrados.

DIRECCIONES FUTURAS

El proyecto RefSeq es único en ofrecer un conjunto de datos de secuencias de referencia de transcripciones, proteínas y genomas que abarca todos los reinos de la vida y se ha mantenido y actualizado activamente con el tiempo para incorporar estrategias computacionales mejoradas, nuevos tipos de datos y nuevos conocimientos. Hemos demostrado la capacidad de responder a los rápidos aumentos recientes del número de genomas secuenciados presentados a las bases de datos del INSDC. Hemos definido un conjunto diverso de políticas y estrategias para la conservación y anotación de especies eucariotas, procariotas y virales para satisfacer las diferentes necesidades de comunidades específicas de organismos. El conjunto de datos RefSeq se usa ampliamente como estándar de referencia para muchos análisis diferentes, incluidas aplicaciones clínicas de patógenos y humanos, genómica comparativa, ensayos de expresión, interpretación de variaciones de secuencias y construcción de matrices y sondas. En NCBI, el conjunto de datos RefSeq está integrado en múltiples recursos, incluidos Ensamblado, BLAST, Epigenómica, Gen (donde la anotación RefSeq es la base principal para la mayoría de las entradas de genes), Genoma, dbSNP, dbVar, Visor de variaciones y más.

Continuaremos enfocándonos en la curación manual para mejorar la información estructural y funcional de los genomas humanos y de otros vertebrados. Nuestro enfoque conservador de curación manual garantiza la alta calidad y fiabilidad continuas de los registros RefSeq humanos, de ratones y de otros registros «conocidos» que satisfacen las necesidades de aquellos que necesitan una definición bien respaldada de exones alternativos (menos falsos positivos). La adición de datos de ARN-Seq a nuestra canalización de anotación aumentó significativamente nuestra anotación de variantes de empalme alternas como RefSeqs del modelo para satisfacer las necesidades de aquellos que desean una definición más completa, pero aún así bien respaldada, del exoma (menos falsos negativos). Si bien tanto los RefSeq conocidos como los RefSeq del modelo informan de la evidencia de apoyo en el registro de secuencia, utilizan enfoques distintos para hacerlo. Los esfuerzos futuros se dirigirán a armonizar la presentación de informes de pruebas para RefSeq ‘conocidos’ y ‘modelos’, de modo que los usuarios puedan identificar más fácilmente esta información. También agregaremos un nuevo tipo de datos a la colección RefSeq para humanos y ratones en un futuro cercano para representar elementos regulatorios y funcionales reportados experimentalmente con consecuencias funcionales conocidas (o inferidas razonablemente).

Para genomas procarióticos, continuamos trabajando en el refinamiento de aspectos de la anotación estructural que se genera por la Tubería de Anotación del Genoma Procariótico. Nuestro trabajo hacia un nuevo enfoque para administrar la información funcional aún se está perfeccionando y se describirá en otra parte. Anticipamos volver a anotar todo el conjunto de datos de genomas procarióticos RefSeq cuando estén disponibles nuevas versiones de nuestra canalización de anotación procariótica (para mejorar la anotación estructural). La decisión de anotar todos los procariotas de RefSeq utilizando un único método, junto con el gran volumen de este conjunto de datos, requiere un enfoque diferente que aproveche múltiples fuentes de evidencia para proporcionar información funcional. Los nombres de proteínas se actualizarán de forma continua según se organicen por familias de proteínas o categorías de tipo de evidencia. Nuestros objetivos para el próximo año incluyen una mayor integración de Rfam (65) en nuestra cartera de anotaciones, una mayor colaboración, nombres de proteínas mejorados e informes de evidencia de apoyo en el registro de secuencias de proteínas.

Nos gustaría agradecer a la comunidad científica por sus comentarios constructivos, sugerencias, informes de errores y colaboraciones durante los últimos 15 años que han contribuido a la calidad y precisión de la secuencia representada, la anotación estructural y la anotación funcional.

FINANCIACIÓN

Programa de Investigación Intramuros de los NIH, Biblioteca Nacional de Medicina. Financiamiento para el cargo de acceso abierto: El Programa de Investigación Intramuros de los Institutos Nacionales de Salud, Biblioteca Nacional de Medicina.Declaración de conflicto de intereses. Ninguna declarada.

Nosek

B. A.

Modificar

Bancos

G. C.

Borsboom

Bowman

S. D.

Breckler

S. J.

Buck

Cámaras

C. D.

China

Christensen

et al.

ESTÁNDARES CIENTÍFICOS. La promoción de una investigación abierta de la cultura

Ciencia

2015

348

1422

1425

Gris

K. A.

Yates

Sello

R. L.

Wright

M. W.

Bruford

E. A.

Genenames.org: el HGNC recursos en 2015

Nucleic Acids Res.

2015

D1079

D1085

Ruzicka

Bradford

Y. M.

Frazer

Howe

D. G.

Paddock

Ramachandran

Cantante

Toro

Van Slyke

C. E.

Eagle

A. E.

et al.

ZFIN, El modelo de pez cebra organismo de base de datos: Actualizaciones y nuevas direcciones

Génesis

2015

498

509

UniProt

UniProt: un centro de información de proteína

Nucleic acids Res.

2015

D204

212

Kozomara

Griffiths-Jones

miRBase: la anotación de alta confianza de los microRNAs con la secuenciación de profundidad de los datos

Nucleic Acids Res.

2014

D68

McGarvey

K. M.

Goldfarb

Cox

Farrell

C. M.

Gupta

Joardar

V. S.

Kodali

V. K.

Murphy

M. R.

gonzález

N. A.

Pujar

Ratón en la anotación del genoma por la RefSeq proyecto

Mamm. Genoma

2015

379

390

Dalgleish

Flicek

Cunningham

Astashyn

Tully

R. E.

Proctor

Perro

McLaren

W. M.

Larsson

Vaughan

B. W.

et al. Secuencias genómicas de referencia de Locus :la base mejorada para describir variantes de ADN humano

Genome Med.

2010

Schoch

C. L.

Robbertse

Roberto

Cardinali

Irinyi

Meyer

Nilsson

R. H.

Hughes

Miller

A. N.

et al.

Encontrar agujas en pajares: la vinculación de los nombres científicos, de referencia de muestras y los datos moleculares para Hongos

Base de datos

2014

Zhang

Larkin

D. M.

Lee

Storz

J. F.

Antunes

Greenwold

M. J.

Meredith

R. W.

et al.

la genómica Comparativa revela información aviar en la evolución del genoma y la adaptación

Ciencia

2014

346

1311

1320

Jarvis

E. D.

Mirarab

Aberer

A. J.

Houde

S. Y.

Equipo

B. C.

Nabholz

Howard

J. T.

et al.

de Todo el genoma de los análisis de resolver principios de ramas en el árbol de la vida de las aves modernas

Ciencia

2014

346

1320

1331

Farrell

C. M.

gonzález

N. A.

Harte

R. A.

Loveland

J. E.

Wilming

L. G.

Wallin

Diekhans

Barriles

Searle

S. M.

Aken

et al.

estado Actual y las nuevas características del Consenso de la Secuencia de Codificación de la base de datos

Nucleic Acids Res.

2014

D865

D872

Pruitt

K. D.

Tatusova

Maglott

D.R.

NCBI secuencias de referencia (RefSeq): un comisariada no redundante base de datos de secuencia de los genomas, las transcripciones y las proteínas

Nucleic Acids Res.

2007

D61

D65

Hopkins

Fino

Steinbach

Dendy

Rapp

Shaw

Ross

J. S.

Hodakoski

Mense

et al.

La secretada de la fosfatasa PTEN que entra en las células para alterar la señalización y la supervivencia

Ciencia

2013

341

399

402

Liang

Él

Yang

Jia

Wang

Perro

Zhang

Zoo

McNutt

M. A.

Sheng

W. H.

et al.

PTENalpha, la isoforma de PTEN traducida a través de la iniciación alternativa, regula la función mitocondrial y el metabolismo energético

Metab celular.

2014

836

848

Bolouri

Modelado de redes reguladoras del genoma con big data

Tendencias Genet.: TIG

2014

182

191

Fagerberg

Hallstrom

B. M.

Oksvold

Kampf

Djureinovic

Odeberg

Habuka

Tahmasebpoor

Danielsson

Edlund

et al. Exploración de la expresión específica del tejido humano mediante la integración de la transcriptómica en todo el genoma y la proteómica basada en anticuerpos

Mol. Celular. Proteómica : MCP

2014

397

406

Bernstein

B. E.

Stamatoyannopoulos

J. A.

Costello

J. F.

Cintura

Milosavljevic

Meissner

Kellis

Marra

M. A.

Beaudet

R. L.

Ecker

J. R.

et al.

El consorcio de mapas epigenómicos de la hoja de ruta de los NIH

Nat. Biotechnol.

2010

1045

1048

Hoffman

M. M.

Ernst

Wilder

S. P.

Kundaje

Harris

R. S.

Libbrecht

Giardine

Ellenbogen

P. M.

Bilmes

J. A.

Birney

et al.

Anotación integradora de elementos de cromatina a partir de datos de codificación

Ácidos nucleicos Res.

2013

827

841

Derti

Garrett-Engele

Macisaac

K. D.

Stevens

Sriram

Perro

Rohl

C. A.

Johnson

J. M.

Babak

El cuantitativo atlas de poliadenilación en cinco mamíferos

el Genoma Res.

2012

1173

1183

Lin

M. F.

Jungreis

Kellis

PhyloCSF: la genómica comparativa método para distinguir de codificación de la proteína y las regiones no codificantes

Bioinformática

2011

i275

282

Precio

A. L.

Jones

N. C.

Pevzner

P. A.

identificación de novo de repetir las familias de los genomas grandes

Bioinformática

2005

21 Supl 1

i351

358

Kodzius

Kojima

Nishiyori

Nakamura

Fukuda

Tagami

Sasaki

Imamura

Kai

Harbers

et al.

CAGE: análisis de cap de la expresión génica

Nat. Métodos

2006

211

222

Morris

K. V.

Mattick

J. S.

El aumento de ARN regulador

Nat. Reverendo Genet.

2014

423

437

Evin

Hince

BACE1 como diana terapéutica en la enfermedad de Alzheimer: justificación y estado actual

Medicamentos Envejecimiento

2013

755

764

Largos no codificantes de ARN de aire caliente:una novela de oncogenes (revisión)

Mol. Mediterráneo. El representante.

2015

5611

5618

Zasloff

péptidos Antimicrobianos en la salud y la enfermedad

N. Engl. J. Med.

2002

347

1199

1200

Lander

E. S.

Linton

L. M.

Birren

Nusbaum

Zody

M. C.

Baldwin

Devon

Dewar

Doyle

FitzHugh

et al.

Inicial de la secuenciación y análisis del genoma humano

la Naturaleza

2001

409

860

921

Paredes

Lee

Veldman

G. M.

Finnerty

Racie

LaVallie

Tang

X. Y.

Edouard

Howes

et al.

Syncytin es un cautivo antirretroviral de la proteína de la envoltura involucrados en la placenta humana morfogénesis

la Naturaleza

2000

403

785

789

Marzluff

W. F.

Gongidi

el Bosque

K. R.

Jin

Maltais

L. J.

El ser humano y de ratón de la replicación dependiente de genes de histonas

Genómica

2002

487

498

Dar

Karpiuk

Tieg

Kriegs

Dikomey

Krebber

Begus-Nahrmann

Johnsen

S. A.

El subconjunto de la histona H2B genes produce poliadenilado arnm bajo una variedad de condiciones celulares

la revista PLoS One

2013

e63745

Barbosa

Peixeiro

Romao

la regulación de expresión Génica por arriba de marcos de lectura abierta y humana de la enfermedad

PLoS Genet.

2013

e1003529

Rajput

Murphy

T. D.

Pruitt

K. D.

RefSeq la curaduría y la anotación de antizyme y antizyme inhibidor de los genes en los vertebrados

Nucleic Acids Res.

2015

7270

7279

Zhang

Z. P.

la biodiversidad de los Animales: Esquema de alto nivel de la taxonomía y de la encuesta de riqueza taxonómica (Anexos de 2013)

Zootaxa

2013

3703

Holt

R. A.

Subramanian

G. M.

Halpern

Sutton

G. G.

Charlab

Nusskern

R. D.

Wincker

Clark

A. G.

Ribeiro

J. M.

Wides

et al.

La secuencia del genoma del mosquito de la malaria Anopheles gambiae

Ciencia

2002

298

129

149

Caballero

Arican-Goktas

H. D.

Ittiprasert

Odoemelam

E. C.

Miller

A. N.

Bridger

J. M.

Esquistosomas y caracoles: molecular encuentro

Frente. Genet.

2014

230

La Secuenciación del Genoma, C.

Conocimientos en los insectos sociales, a partir del genoma de la creciente Apis mellifera

la Naturaleza

2006

443

931

949

Xia

Zhou

Cheng

Dai

Zhao

Zha

Cheng

Chai

et al.

Un borrador de la secuencia de todo el genoma de la domesticados gusano de seda (Bombyx mori)

Ciencia

2004

306

de 1937

1940

Zhang

Fang

Guo

Luo

Yang

Zhang

Wang

et al.

La ostra del genoma revela la adaptación al estrés y la complejidad de la formación de la cáscara

la Naturaleza

2012

490

i5K, Consorcio

El i5K Iniciativa: el avance de artrópodos de la genómica para el conocimiento, la salud humana, la agricultura, la y el medio ambiente

J. Herencia

2013

104

595

600

los Científicos

G. C. o.

Bracken-Grissom

Collins

A. G.

Collins

Crandall

Distel

Dunn

Giribet

Haddock

Knowlton

et al.

Alianza Global de Genómica de Invertebrados (GIGA): desarrollo de recursos comunitarios para estudiar diversos genomas de invertebrados

J. La herencia

2014

105

Schoch

C. L.

Seifert

K. A.

Huhndorf

Roberto

Spouge

J. L.

Levesque

C. A.

Perro

Bolchacova

Voigt

Crous

P. W.

et al.

Espaciador transcrito interno ribosómico nuclear (ITS) como marcador de código de barras de ADN universal para Hongos

Proc. Natl. Acad. Sci. U. S. A.

2012

109

6241

6246

Visagie

C. M.

Houbraken

Frisvad

J. C.

Hong

S. B.

Klaassen

C. H.

Perrone

Seifert

K. A.

Varga

Yaguchi

Sansón

R. A.

la Identificación y la lista de materiales del género Penicillium

Perno. Mycol.

2014

343

371

Corte

decir Cagno

Groenewald

Roscini

Colabella

Gobbetti

Cardinali

Fenotípica y molecular de la diversidad de Meyerozyma guilliermondii cepas aisladas de alimentos y otros espacios, consejos para la especiación incipiente

Alimentos y Microbiología.

2015

206

215

Federhen

Stock de material en el NCBI Taxonomía de la Base de datos

Nucleic Acids Res.

2015

D1086

D1098

Nilsson

R. H.

Tedersoo

Ryberg

Kristiansson

Hartmann

Unterseher

Porter

T. M.

Bengtsson-Palme

Walker

D. M.

de Sousa

et al.

El conjunto de datos de secuencias de hongos ITS completo y actualizado automáticamente para el control de quimeras basado en referencias en esfuerzos de secuenciación ambiental

Microb. Circa/JSME

2015

145

150

Mittelbach

Yurkov

A. M.

Nocentini

Nepi

Weigend

Begerow

Los azúcares de néctar y las visitas de aves definen el lamido floral para levaduras basidiomicetas en las Islas Canarias

BMC Ecol.

2015

Irinyi

Serena

García-Hermoso

Arabatzis

Desnos-Ollivier

Cardinali

Arthur

Normand

A. C.

Giraldo

et al.

la Sociedad Internacional de Micología Humana y Animal (ISHAM), SU base de datos de códigos de barras de ADN de referencia, la herramienta estándar de control de calidad para la identificación rutinaria de hongos patógenos humanos y animales

Med. Mycol.

2015

313

337

Schoch

C. L.

Seifert

K. A.

Huhndorf

San

Roberto

Spouge

J. L.

Levesque

C. A.

Chen

Hongos Códigos de barras

Hongos Códigos de barras Consorcio Autor, L.

la ribosomal Nuclear espaciador transcrito interno (its) de la región como un universal de código de barras de ADN marcador para los Hongos

Proc. Natl. Acad. Sci. U. S. A.

2012

109

6241

6246

Besemer

Lomsadze

Borodovsky

GeneMarkS: un método de entrenamiento para la predicción de genes se inicia en los genomas microbianos. Implicaciones para la búsqueda de la secuencia de motivos en las regiones reguladoras

Nucleic Acids Res.

2001

2607

2618

Borodovsky

Lomsadze

la identificación de Genes en genomas procariotas, los fagos, metagenomas, y secuencias de EST con GeneMarkS suite

Curr. Protocolo. Microbiol.

2014

Unidad 1 7

Tatusova

Ciufo

Federhen

Fedorov

McVeigh

O’neill

Tolstoi

Zaslavsky

Actualización en RefSeq recursos genomas microbianos

Nucleic Acids Res.

2015

D599

D605

Brister

J. R.

Ako-Adjei

Bao

Blinkova

NCBI genomas virales de recursos

Nucleic Acids Res.

2015

D571

D577

Adams

M. J.

Lefkowitz

E. J.

Rey

A. M.

Bamford

D. H.

Breitbart

Davison

A. J.

Ghabrial

S. A.

Gorbalenya

A. E.

Knowles

N. J.

Krell

et al.

Votación de ratificación de propuestas taxonómicas al Comité Internacional de Taxonomía de Virus (2015)

Arch. Férula.

2015

160

1837

1850

Bao

Chetvernin

Tatusova

Comparación de la Secuencia de Pares (PASC) y su aplicación en la taxonomía de los filovirus

Virus

2012

1318

1327

Bao

Chetvernin

Tatusova

Mejoras a comparación de la secuencia de pares (PASC): los basados en el genoma herramienta web para el virus de la taxonomía

Arco. Férula.

2014

159

3293

3304

Kuhn

J. H.

Durrwald

Bao

Briese

Dióxido

Clawson

A. N.

deRisi

J. L.

Garten

Jahrling

P. B.

Kolodziejek

et al.

Reorganización taxonómica de la familia Bornaviridae

Arch. Férula.

2015

160

621

632

Radoshitzky

S. R.

Bao

Buchmeier

M. J.

Charrel

Clawson

A. N.

Clegg

C. S.

DeRisi

J. L.

Emonet

González

J. P.

Kuhn

J. H.

et al.

Pasado, presente y futuro de la taxonomía de arenavirus

Arch. Férula.

2015

160

1851

1874

Brister

J. R.

Bao

Zhdanov

S. A.

Ostapchuck

Chetvernin

Kiryutin

Zaslavsky

Kimelman

Tatusova

T. A.

el Virus de la Variación de los Recursos–las actualizaciones recientes y futuras direcciones

Nucleic Acids Res.

2014

D660

665

Seto

Chodosh

Brister

J. R.

Jones

M. S.

los Miembros de la Adenovirus de Investigación, C.

Utilizando la secuencia del genoma completo para caracterizar y nombrar adenovirus humanos

J. Ferrule.

2011

5701

5702

Matthijnssens

Ciarlet

McDonald

S. M.

Attoui

Banyai

Brister

J. R.

Buesa

Esona

M. D.

Estes

M. K.

Gentsch

J. R.

et al.

Uniformidad de la bom de la cepa de rotavirus propuesta por el Grupo de Trabajo de Taxonomía de Rotavirus (RCWG)

Arch. Férula.

2011

156

1397

1413

Brister

J. R.

Bao

Kuiken

Lefkowitz

E. J.

Le Mercier

Leplae

Madupu

Scheuermann

R. H.

Schobel

Seto

et al.

Hacia genoma viral estándares de anotación, informe del 2010 NCBI Anotación Taller

Virus

2010

2258

2268

Brister

J. R.

Le Mercier

J. C.

Microbiana genoma del virus de la anotación-preparando las tropas para luchar contra la secuencia de ataque

Virología

2012

434

175

180

Kuhn

J. H.

Andersen

K. G.

Bao

Bavari

Becker

Bennett

R. S.

Bergman

N. H.

Blinkova

Bradfute

Brister

J. R.

et al.

Filovirus RefSeq entradas: valoración y selección de los filovirus tipo de variantes, típico de las secuencias, y nombres

Virus

2014

3663

3682

Ako-Adjei

Wallin

Katz

K. S.

de la Canción

Darji

Brister

J. R.

Ptak

R. G.

Pruitt

K. D.

el VIH-1, la interacción humana de la base de datos: estado actual y nuevas características

Nucleic Acids Res.

2015

D566

570

Nawrocki

E. P.

Burge

Bateman

Cañas

Eberhardt

R. Y.

Eddy

S. R.

Floden

E. W.

Gardner

P. P.

Jones

T. A.

Tate

et al.

Rfam 12.0: actualizaciones de la base de datos de familias de ARN

Ácidos nucleicos Res.

2015

D130

D137

Publicado por Oxford University Press en nombre de los Ácidos Nucleicos de Investigación de 2015. Este trabajo está escrito por(a) empleado (s) del Gobierno de los Estados Unidos y es de dominio público en los Estados Unidos.

Abstract

INTRODUCCIÓN

Prefijos de acceso a RefSeq

GENERAR EL CONJUNTO DE DATOS REFSEQ

ACCEDER AL CONJUNTO DE DATOS REFSEQ

CRECIMIENTO Y ESTADÍSTICAS

Crecimiento anual en el número de organismos, proteínas y transcripciones representados en la liberación completa de RefSeq, por directorio de liberación FTP

VERTEBRADOS

Proyecto RefSeqGene

Incorporación de ARN-Seq y otros tipos de datos en la curación basada en transcripciones

ARN largos no codificantes (lncRNAs)

Anotación funcional

Péptidos antimicrobianos (AMPs)

Retrovirus endógenos (ERVs)

Histonas dependientes de replicación

Marcos de lectura abiertos reguladores ascendentes (UORF)

Antizimas

INVERTEBRADOS

PLANTAS

ALGAS, HONGOS, NEMATODOS Y PROTOZOOS

Loci dirigido a hongos

PROCARIOTAS

Loci diana procariota

VIRUS

DIRECCIONES FUTURAS

FINANCIACIÓN

Deja una respuesta Cancelar la respuesta