- Abstract
- INTRODUCCIÓN
- Prefijos de acceso a RefSeq
- GENERAR EL CONJUNTO DE DATOS REFSEQ
- ACCEDER AL CONJUNTO DE DATOS REFSEQ
- CRECIMIENTO Y ESTADÍSTICAS
- Crecimiento anual en el número de organismos, proteínas y transcripciones representados en la liberación completa de RefSeq, por directorio de liberación FTP
- VERTEBRADOS
- Proyecto RefSeqGene
- Incorporación de ARN-Seq y otros tipos de datos en la curación basada en transcripciones
- ARN largos no codificantes (lncRNAs)
- Anotación funcional
- Péptidos antimicrobianos (AMPs)
- Retrovirus endógenos (ERVs)
- Histonas dependientes de replicación
- Marcos de lectura abiertos reguladores ascendentes (UORF)
- Antizimas
- INVERTEBRADOS
- PLANTAS
- ALGAS, HONGOS, NEMATODOS Y PROTOZOOS
- Loci dirigido a hongos
- PROCARIOTAS
- Loci diana procariota
- VIRUS
- DIRECCIONES FUTURAS
- FINANCIACIÓN
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). El proyecto RefSeq aprovecha los datos enviados al International Nucleotide Sequence Database Collaboration (INSDC) contra una combinación de computación, curación manual y colaboración para producir un conjunto estándar de secuencias de referencia estables y no redundantes. El proyecto RefSeq amplía estas secuencias de referencia con el conocimiento actual, incluidas publicaciones, características funcionales y nomenclatura informativa. La base de datos actualmente representa secuencias de más de 55 000 organismos (>4800 virus, >40 000 procariotas y >10 000 eucariotas; RefSeq release 71), que van desde un solo registro hasta genomas completos. Este artículo resume el estado actual de las ramas viral, procariótica y eucariótica del proyecto RefSeq, informa sobre las mejoras en el acceso a los datos y detalla los esfuerzos para ampliar aún más la representación taxonómica de la colección. También destacamos diversas iniciativas de curación funcional que admiten múltiples usos de los datos RefSeq, incluida la validación taxonómica, la anotación del genoma, la genómica comparativa y las pruebas clínicas. Resumimos nuestro enfoque para utilizar ARN-Seq y otros tipos de datos disponibles en nuestro proceso de curación manual de vertebrados, plantas y otras especies, y describimos una nueva dirección para el manejo de genomas procarióticos y nombres de proteínas.
INTRODUCCIÓN
Durante los últimos 15 años, la base de datos RefSeq del Centro Nacional de Información Biotecnológica (NCBI) ha servido como un recurso esencial para la investigación genómica, genética y proteómica. La provisión del proyecto RefSeq de genomas de referencia anotados, transcripciones y proteínas curadas y estables para virus, microbios, orgánulos y organismos eucariotas seleccionados, ha permitido a los investigadores centrarse en los mejores datos de secuencias representativos en contraste con los datos redundantes en GenBank, y hacer referencia inequívoca a secuencias genéticas específicas. La colección RefSeq proporciona registros de genoma, transcripción y secuencia de proteínas explícitamente vinculados que incorporan publicaciones, nomenclatura informativa y anotaciones de características estandarizadas y ampliadas. Los registros de RefSeq están integrados en los recursos del NCBI, incluidas las bases de datos de nucleótidos, Proteínas y EXPLOSIONES, y se pueden identificar fácilmente por la palabra clave ‘RefSeq’ y por sus prefijos de acceso distintos que definen su tipo (Tabla 1). Todos los datos de RefSeq están sujetos a controles de garantía de calidad (QA) con algunas pruebas de QA especializadas desarrolladas para diferentes taxones o tipos de datos. Por ejemplo, todos los RefSeq virales se someten a una revisión taxonómica por parte del personal del NCBI antes de su publicación. Las accesiones RefSeq se citan ampliamente en publicaciones científicas y bases de datos genéticos porque proporcionan un sistema de coordenadas estable y consistente que se puede usar como base de referencia para informar datos específicos de genes, variaciones clínicas y comparaciones entre especies. Estos estándares de secuencia de referencia son cada vez más importantes porque la información precisa y la reproducibilidad son componentes vitales para las mejores prácticas en la investigación biomédica (1).
Prefijos de acceso a RefSeq
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia |
AP_3 | proteína | Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado |
XP_3, 5 | proteína | Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado |
YP_3 | proteína | Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado |
WP_6 | Proteínas | que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotado en más de un genoma procariota |
Prefijo . | tipo de Molécula . | Usar contexto . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia |
AP_3 | proteína | Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado |
XP_3, 5 | proteína | Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado |
YP_3 | proteína | Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado |
WP_6 | Proteínas | que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotada en más de un genoma procariótico |
1El formato de número de acceso completo consiste en el prefijo, incluido el subrayado, seguido de 6 números seguidos del número de versión de la secuencia.
2El formato de acceso completo consiste en el prefijo seguido del número de acceso INSDC en el que se basa el registro RefSeq seguido del número de versión de la secuencia RefSeq.
3El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 6 o 9 números seguidos del número de versión de secuencia.
4Los registros con este prefijo de adhesión han sido curados por el personal de NCBI o una base de datos de organismos modelo, o están en el grupo de accesiones con las que trabajan los curadores. Estos registros se conocen como el conjunto de datos RefSeq «conocido».
5Los registros con este prefijo de acceso se generan a través de la tubería de anotación del genoma eucariótico o de la tubería de anotación del genoma eucariótico pequeño. Los registros generados a través del primer método se denominan conjunto de datos RefSeq «modelo».
6El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 9 números seguidos del número de versión. El número de versión es siempre «.1 ‘ ya que estos registros no están sujetos a actualización. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia |
AP_3 | proteína | Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado |
XP_3, 5 | proteína | Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado |
YP_3 | proteína | Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado |
WP_6 | Proteínas | que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotado en más de un genoma procariota |
Prefijo . | tipo de Molécula . | Usar contexto . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | anotadas en accesiones de transcripción NM_ o anotadas en moléculas genómicas sin una transcripción instanciada (p. ej. algunos genomas mitocondriales, genomas virales y genomas bacterianos de referencia |
AP_3 | proteína | Proteínas anotadas en accesiones genómicas AC_ o anotadas en moléculas genómicas sin un registro de transcripción instanciado |
XP_3, 5 | proteína | Proteínas anotadas en accesiones de transcripción XM_ o anotadas en moléculas genómicas registro de transcripción instanciado |
YP_3 | proteína | Proteínas anotadas en moléculas genómicas sin registro de transcripción instanciado |
WP_6 | Proteínas | que no son redundantes en múltiples cepas y especies. Una sola proteína de este tipo puede ser anotada en más de un genoma procariótico |
1El formato de número de acceso completo consiste en el prefijo, incluido el subrayado, seguido de 6 números seguidos del número de versión de la secuencia.
2El formato de acceso completo consiste en el prefijo seguido del número de acceso INSDC en el que se basa el registro RefSeq seguido del número de versión de la secuencia RefSeq.
3El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 6 o 9 números seguidos del número de versión de secuencia.
4Los registros con este prefijo de adhesión han sido curados por el personal de NCBI o una base de datos de organismos modelo, o están en el grupo de accesiones con las que trabajan los curadores. Estos registros se conocen como el conjunto de datos RefSeq «conocido».
5Los registros con este prefijo de acceso se generan a través de la tubería de anotación del genoma eucariótico o de la tubería de anotación del genoma eucariótico pequeño. Los registros generados a través del primer método se denominan conjunto de datos RefSeq «modelo».
6El formato de número de adhesión completo consiste en el prefijo, incluido el guion bajo, seguido de 9 números seguidos del número de versión. El número de versión es siempre «.1 ‘ ya que estos registros no están sujetos a actualización. Consulte la documentación en línea para obtener información adicional: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
En los últimos años, las técnicas avanzadas de secuenciación han facilitado un aumento sustancial de las presentaciones de conjuntos de genoma completo a las bases de datos públicas. Como resultado, el proyecto RefSeq ha ampliado de forma concordante la profundidad y la amplitud de los taxones incluidos en el conjunto de datos, principalmente a través de mejoras en varias canalizaciones de anotación internas. Todos los taxones están incluidos en RefSeq; sin embargo, la anotación a menudo se limita a aquellos organismos para los que se dispone de un conjunto de genoma primario de alta calidad con información de organismos no impugnada. Por lo tanto, podemos excluir algunas categorías de datos que no cumplen con nuestros estándares de calidad. Los conjuntos de datos excluidos incluyen: metagenomas, conjuntos con valores bajos de contig N50 o un número especialmente elevado de armazones/contig sin colocar (es decir, alta fragmentación), o genomas que tienen un desajuste significativo o una variación indel en comparación con otros genomas estrechamente relacionados para la especie (por ejemplo, algunos procariotas).
Un aspecto único del conjunto de datos RefSeq es el enfoque combinado de aprovechar la computación, la colaboración y la curación por parte del personal científico del NCBI. Como una gran instalación de bioinformática, NCBI ha invertido en el desarrollo de flujos de proceso sólidos para generar anotaciones y realizar pruebas de garantía de calidad para genomas, transcripciones y proteínas eucariotas y procariotas. Se están realizando mejoras en el flujo del proceso de los genomas virales. El grupo RefSeq colabora con numerosos grupos de expertos, incluidas autoridades oficiales de nomenclatura (p. ej. Comité de Nomenclatura de Genes HUGO (HGNC) y Red de Información de Peces Cebra (ZFIN) para nombres de genes humanos y peces cebra, respectivamente), UniProtKB (nombres de proteínas) y miRBase (microRNAs) (2-5). Estas y otras colaboraciones ayudan a mantener y mejorar la calidad del conjunto de datos RefSeq a través de informes de control de calidad, intercambios de información sobre genes y secuencias e intercambios de información funcional. El personal del NCBI también proporciona apoyo para la curación de virus, procariotas, eucariotas, orgánulos, plásmidos y proyectos específicos, que incluyen la curación de genes y secuencias para Homo sapiens, Mus musculus y otros organismos. Los curadores de RefSeq mejoran la calidad de la base de datos a través de la revisión de los resultados de las pruebas de control de calidad, la participación en la selección de ciertos insumos para el procesamiento de anotaciones genómicas, el análisis de secuencias, el análisis taxonómico y la revisión funcional. La curación también admite mejoras en las canalizaciones de anotación del genoma, ya que los expertos en contenido ayudan a definir enfoques programáticos para modelar la biología típica y atípica. Para los eucariotas, en particular los mamíferos, la curación basada en transcripciones define los»mejores»representantes de secuencias (como RefSeqs ‘conocidos’; nota al pie de la tabla 1) que se utilizan como reactivo de entrada principal para la tubería de anotación del genoma eucariótico (http://www.ncbi.nlm.nih.gov/books/NBK169439/). A su vez, las mejoras en la calidad del reactivo de entrada añaden una calidad y reproducibilidad significativas a la anotación del genoma resultante. Este tipo de curación manual se ha centrado históricamente en humanos y ratones debido a su importancia biomédica única (6). Más recientemente, estos esfuerzos de curación han prestado mayor atención a Rattus norvegicus, Danio rerio, Bos taurus y Gallus gallus. Estas especies son relevantes para la salud humana, así como para la sostenibilidad agrícola.
En este artículo, informamos sobre nuestro progreso en la expansión del conjunto de datos RefSeq para incluir organismos más diversos, describimos mejoras en el acceso a los datos y proporcionamos ejemplos que ilustran un mayor enfoque en proporcionar conjuntos de datos filogenéticamente útiles, así como anotaciones de características funcionales en la transcripción de RefSeq y los registros de proteínas. Anticipamos que estos esfuerzos y mejoras en el conjunto de datos RefSeq continuarán contribuyendo al avance de la investigación traslacional médica, las mejoras agrícolas, la identificación filogenética y los estudios evolutivos.
GENERAR EL CONJUNTO DE DATOS REFSEQ
Los registros de secuencia RefSeq se generan por diferentes métodos dependiendo de la clase de secuencia y el organismo. Los genomas arqueales y bacterianos (ver sección Procariotas) se anotan utilizando la línea de anotación del genoma procariótico de NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mientras que un pequeño número de genomas bacterianos de referencia son compatibles con la colaboración y la curación manual. Los genomas eucarióticos RefSeq se proporcionan utilizando dos flujos de proceso. La mayoría de los genomas de plantas, animales, insectos y artrópodos están anotados por la tubería de anotación del genoma eucariótico. Esta canalización genera resultados de anotación basados en los datos de transcripción disponibles (incluidos los datos de ARN-Seq y de ensamblaje de escopeta de transcriptoma (TSA)), así como la homología de proteínas, la predicción ab initio (en gran parte cuando los datos de transcriptoma no están disponibles) y las transcripciones y proteínas RefSeq conocidas (curadas) disponibles (consulte la Tabla 1). La anotación generada por canalización (modelo RefSeqs) puede o no tener soporte para la combinación completa de exones a partir de una alineación de evidencia única, pero puede tener soporte ARN-Seq para pares de exones. Los genomas eucarióticos que han sido anotados por esta canalización se informan públicamente con enlaces para descargar los datos por FTP, para ver o realizar una consulta de BLAST contra el genoma anotado, o para acceder a un resumen detallado del informe de anotación (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). La canalización de un subconjunto de eucariotas, incluidos hongos, protozoos y nematodos, implica la anotación de propagación que se ha enviado a la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC), con estandarización de formatos, a una copia RefSeq del ensamblaje del genoma presentado (ver Algas, Hongos, Nematodos y Protozoos).
El personal del NCBI proporciona la mayor parte de la anotación del genoma de orgánulos de RefSeq a través de la propagación a partir de la presentación del INSDC. La anotación de mitocondrias de mamíferos a menudo se complementa con la curación manual. El proyecto RefSeq también mantiene secuencias de referencia para proyectos de loci específicos, como RefSeqGene, que es miembro de la colaboración Genómica de Referencia de Locus (LRG) (7), para loci ribosómicos de ARNr bacterianos y fúngicos, y para secuencias de espaciadores transcritos internos fúngicos (ITS) (8). Además, se proporciona un número significativo de transcripciones y proteínas humanas, de ratones y de otros tipos a través de la colaboración y la curación manual, que incluye el análisis de secuencias y la revisión de la literatura.
Las tuberías de anotación procariótica y eucariótica de NCBI se han mantenido al ritmo del creciente número de ensamblajes genómicos enviados al INSDC al proporcionar anotaciones consistentes en copias RefSeq de ensamblajes genómicos enviados seleccionados de alta calidad. Hasta la fecha, 245 genomas eucarióticos, incluidos 170 genomas de vertebrados, han sido anotados por esta tubería, de los cuales más de 120 especies fueron anotadas en los últimos 20 años. Entre este grupo se encuentran 52 especies de aves que incluyen especies representativas de la mayoría de los órdenes de aves (9,10). También ha habido una expansión significativa en el número de conjuntos anotados por RefSeq para primates no humanos, otros mamíferos, peces, plantas y artrópodos.
ACCEDER AL CONJUNTO DE DATOS REFSEQ
La página principal de RefSeq http://www.ncbi.nlm.nih.gov/refseq/ es un concentrador central para todos los aspectos del conjunto de datos RefSeq. Este sitio proporciona enlaces que guían a los usuarios a través de una descripción general del proyecto, así como hojas informativas, estadísticas de crecimiento e información sobre proyectos RefSeq más específicos, como la iniciativa de re-anotación del genoma procariótico, el proyecto de Secuencia de Codificación de Consenso (CCDS) (11), el proyecto RefSeqGene y los proyectos Loci dirigidos (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Los enlaces a la versión FTP completa más reciente y la documentación detallada sobre el formato y el contenido de la versión se pueden encontrar en la sección «Anuncios» de la página de inicio de RefSeq. Los anuncios anteriores de RefSeq también están disponibles en esta página. Recomendamos encarecidamente la descarga de datos RefSeq directamente desde NCBI, ya que las descargas de otros recursos de bioinformática y del navegador del genoma pueden no incluir todos los datos disponibles, o simplemente reflejar alineaciones de transcripciones de RefSeq a un genoma en lugar de los resultados de anotación del genoma generados por NCBI.
Se puede acceder a los datos de secuencia de RefSeq de forma interactiva utilizando bases de datos de nucleótidos y proteínas NCBIs, en bases de datos de BLAST, a través de la interfaz programática de NCBI (E-utilities) o a través del protocolo de transferencia de archivos (FTP). Las utilidades electrónicas admiten acceso con scripts para descargar los datos de RefSeq en una variedad de formatos basados en términos de búsqueda o listas de acceso; hay una amplia documentación disponible en el Manual del NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) y los videos de capacitación están disponibles en el canal de YouTube de NCBI (https://www.youtube.com/user/NCBINLM). Tanto las bases de datos de nucleótidos como las de proteínas permiten que los resultados de las consultas se restrinjan solo a los registros RefSeq seleccionando ‘RefSeq’ en la ‘Base de datos de origen’ en la barra lateral de filtros. También se puede acceder a los datos de RefSeq desde otras bases de datos de NCBI, incluidos Ensamblado, Bioproyecto, Genes y Genoma, siguiendo los enlaces proporcionados a recursos de nucleótidos, Proteínas o FTP.La información sobre los cambios de conservación dentro del grupo RefSeq o las actualizaciones de NCBI que afectan a la base de datos de RefSeq se informan a través de varias fuentes, incluidas las notas de la versión de RefSeq FTP, los informes periódicos publicados, la fuente de noticias de Anuncios de NCBI http://www.ncbi.nlm.nih.gov/news/ y a través del Blog de NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Los usuarios también pueden suscribirse a la lista de correo refseq-announce para recibir actualizaciones periódicas sobre el proyecto y un resumen del contenido de cada versión FTP de RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
Los datos de RefSeq se distribuyen a través de FTP a través de dos sitios, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) y genomas (ftp://ftp.ncbi.nlm.nih.gov/genomes/). El sitio FTP de refseq proporciona actualizaciones diarias de todos los registros de RefSeq nuevos y actualizados, actualizaciones semanales de algunos tipos de datos y una versión completa bimensual de RefSeq (/refseq/release/). Además, los conjuntos de datos de proteínas y transcripciones específicas de determinados organismos, incluidos humanos y ratones, se actualizan semanalmente. El subdirectorio RefSeqGene se actualiza diariamente, con alineamientos con el genoma liberados con cada anotación. La liberación bimensual completa de RefSeq está organizada por grupos taxonómicos (por ejemplo, mamíferos vertebrados) u otros (por ejemplo, mitocondrias). Los datos también se pueden descargar para toda la colección de RefSeq desde el directorio / refseq / release / complete/. La versión RefSeq ofrece una ventaja para aquellos que desean mantener actualizaciones periódicas de la colección completa o de un solo grupo. También incluye registros que no están disponibles en el sitio FTP de genomas complementarios, como transcripciones de la colección que se mantienen de forma independiente de un ensamblado de genoma y que pueden no estar anotadas en él. La versión se proporciona con documentación significativa de los archivos instalados (/refseq/release/ release-catalog/), incluidas sumas de comprobación MD5, una lista de todos los archivos instalados, así como notas y anuncios de la versión (/refseq/release/release-notes/).
Los datos RefSeq también se pueden descargar desde el sitio FTP de genomes. En agosto de 2014, NCBI anunció una reorganización importante de este sitio FTP, que ahora proporciona acceso de ensamblaje y basado en organismos a genomas GenBank y RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Este directorio se divide además en subdirectorios basados en los mismos grupos que se utilizan en la versión RefSeq, cada uno de los cuales proporciona subdivisiones adicionales por especie. El sitio FTP de genomas proporciona archivos que representan todos los ensamblados genómicos de RefSeq reportados en el recurso de ensamblado de NCBI (www.ncbi.nlm.nih.gov/assembly/). La ventaja del sitio de genomas es que se puede acceder a los datos de una manera específica del ensamblaje u organismo. Los datos proporcionados incluyen secuencia de genoma y producto( transcripción / proteína), anotación, informes y estadísticas de ensamblaje y sumas de verificación MD5; estos datos se actualizan cuando se actualiza el ensamblaje del genoma y/o la anotación. Esta área no incluye secuencias RefSeq que están fuera del alcance de un ensamblaje de genoma o productos que no están anotados en un genoma.
CRECIMIENTO Y ESTADÍSTICAS
RefSeq FTP release 71 (julio de 2015) incluye más de 77 millones de registros de secuencias para más de 55 000 organismos. La Tabla 2 resume el crecimiento del conjunto de datos de RefSeq en el último año en términos de organismos y número de registros de secuencia representados por cada área de directorio FTP de publicación de RefSeq. Los genomas y proteínas bacterianas constituyen la mayor parte del conjunto de datos RefSeq (56% de las accesiones totales y 76% de >52 millones de accesiones de proteínas). Se observan aumentos significativos en el número de organismos, proteínas y registros totales de invertebrados, plantas y organismos eucarióticos, lo que es consistente con el aumento del número y el rendimiento de los proyectos de secuenciación del genoma. Un factor significativo para la alta tasa de crecimiento continua de los datos de RefSeq son las mejoras en las tuberías genómicas que generan genomas de RefSeq anotados. En particular, esto incluye el aumento de la capacidad en la tubería de anotación del genoma procariótico de NCBI, el re-desarrollo del flujo de proceso que propaga la anotación a partir de genomas de bancos de genes eucarióticos en genomas RefSeq, y la incorporación de evidencia de ARN-Seq en la tubería de anotación del genoma eucariótico de NCBI y su impacto en la generación de RefSeq del modelo (accesiones XM_, XR_ y XP_, Tabla 1).
Crecimiento anual en el número de organismos, proteínas y transcripciones representados en la liberación completa de RefSeq, por directorio de liberación FTP
Directorio de publicación . | Organismos . | ,% de Cambio . | Transcripciones . | ,% de Cambio . | Proteínas . | ,% de Cambio . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | ,% de Cambio . | Transcripciones . | ,% de Cambio . | Proteínas . | ,% de Cambio . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (por ejemplo, archaea.acc_taxid_growth.txt y archivos relacionados). El cambio porcentual anual se basa en la comparación de recuentos de datos para la versión 71 de RefSeq (julio de 2015) y la versión 66 de RefSeq (julio de 2014).
Directorio de publicación . | Organismos . | ,% de Cambio . | Transcripciones . | ,% de Cambio . | Proteínas . | ,% de Cambio . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | ,% de Cambio . | Transcripciones . | ,% de Cambio . | Proteínas . | ,% de Cambio . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (por ejemplo, archaea.acc_taxid_growth.txt y archivos relacionados). El cambio porcentual anual se basa en la comparación de recuentos de datos para la versión 71 de RefSeq (julio de 2015) y la versión 66 de RefSeq (julio de 2014).
La drástica disminución en el número de registros de proteínas plásmidas, y por lo tanto en el número de accesiones totales, refleja la finalización de un proyecto de re-anotación del genoma bacteriano RefSeq (http://www.ncbi.nlm.nih.gov/refseq/acerca de/procariotas/re-anotación/) y la adopción del nuevo modelo de datos para procariotas, incluyendo sus plásmidos. En este nuevo modelo de datos, una única adhesión a proteínas no redundante RefSeq puede anotarse en más de un registro de secuencia genómica cuando la traducción de esas regiones codificadoras de proteínas genómicas da como resultado una proteína idéntica (véase http://www.ncbi.nlm.nih.gov/refseq/acerca de/proteínas no redundantes/). La redundancia en todas las proteínas bacterianas también disminuyó significativamente; sin embargo, no es evidente aquí debido a los continuos aumentos significativos en el número de genomas bacterianos incluidos en el conjunto de datos. Estos cambios también resultaron en una caída general en el número de registros de proteínas arqueales.
VERTEBRADOS
Un grupo selecto de vertebrados, incluidos Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus y Danio rerio, son el foco principal de nuestros esfuerzos de curación manual basados en transcripción y literatura. Los curadores generalmente trabajan a partir de listas de genes con conflictos de datos identificados por pruebas de garantía de calidad (QA), algunas de las cuales se describieron previamente (12). Siguen un conjunto detallado de pautas al analizar cada gen para garantizar la consistencia entre personas en el conjunto de datos curado. Este análisis implica una evaluación en profundidad de las secuencias y una revisión de la literatura para crear transcripciones de referencia, proteínas, pseudogenes y registros de RefSeqGene. Los curadores de RefSeq generan variantes de transcripción, resuelven errores de secuencia, eliminan información inexacta, actualizan registros para representar correctamente la biología del locus y agregan información funcional valiosa a algunos registros de RefSeq, como nombres de proteínas mejorados, un resumen de la función del producto del gen, características funcionales del gen y/o publicaciones relevantes. La curación manual y la revisión de la literatura por el grupo RefSeq pueden resultar en la representación de variantes e isoformas únicas que no se predecirían cuando se basaran únicamente en el análisis computacional. Por ejemplo, la revisión de la literatura del gen supresor de tumores humanos, PTEN (homólogo de fosfatasa y tensina, GeneID: 5728) reveló la existencia de una isoforma de proteína más larga resultante del uso de un codón de iniciación de CUG alternativo en el marco ascendente que se encuentra en el centro de una secuencia palindrómica ascendente del codón de inicio de traducción canónica del ARNm (13). Datos experimentales sólidos indicaron que esta isoforma mitocondrial específica se inicia con una leucina, en lugar de una metionina (14). El modelo de datos RefSeq para eucariotas proporciona una transcripción vinculada explícitamente a una proteína. Por lo tanto, se proporcionaron dos registros de transcripción idénticos para reflejar la traducción de los codones de iniciación alternativos; NP_000305.3 representa la proteína de 403 aminoácidos que utiliza el codón de inicio canónico de metionina, mientras que NP_001291646.2 representa la proteína de 576 aminoácidos localizada mitocondrial que se inicia con una leucina. Por lo tanto, el proceso de curación tiene un doble propósito de proporcionar secuencias de referencia precisas que faciliten la anotación precisa y reproducible del genoma y proporcionar registros que incluyan información biológica relevante. En esta sección discutimos las actualizaciones recientes, las mejoras que hemos hecho a nuestro proceso de curación manual y ejemplos de proyectos de curación enfocados.
Proyecto RefSeqGene
El subproyecto RefSeqGene define secuencias genómicas humanas que se utilizarán como estándares de referencia para genes bien caracterizados, en particular para uso de la comunidad de genética clínica. Estas secuencias sirven como una base estable para reportar variantes patógenas, para establecer convenciones para numerar exones e intrones, y para definir las coordenadas de otras variantes. Cada registro de RefSeqGene se centra en una región genómica específica de un gen y, por lo general, se anota con un subconjunto de transcripciones de RefSeq y proteínas seleccionadas por expertos en el dominio. Esas selecciones determinan las características del exón. Se incluyen alineaciones de versiones anteriores de la transcripción/proteína canónica de RefSeq, así como de otras RefSeq conocidas. Estos registros suelen incluir 5 kilobases (kb) de secuencia aguas arriba del gen de enfoque, y 2 kb de secuencia aguas abajo, para apoyar la representación de posibles sitios reguladores o eliminaciones que se extienden más allá de la característica del gen. Un registro de RefSeqGene puede incluir información de anotación para otros genes que se encuentran dentro de sus límites. Los registros de RefSeqGene son revisados inicialmente por bases de datos específicas de locus y personal del NCBI. RefSeqGene es miembro de LRG collaboration (7), que proporciona una revisión adicional de los datos de secuencia antes de agregar una adhesión a LRG. Un enfoque de trabajo reciente amplió el número de registros de RefSeqGene para representar todos los genes para los que se han enviado al menos dos pruebas clínicas al Registro de Pruebas Genéticas de los NIH (GTR, por sus siglas en inglés). En este momento hay 5596 registros de RefSeqGene, de los cuales 633 tienen una adhesión a LRG. Los registros de RefSeqGene se pueden recuperar buscando en la base de datos de nucleótidos con ‘refseqgene’, por sus accesiones LRG, navegando por el sitio web de RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/), o por FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
Incorporación de ARN-Seq y otros tipos de datos en la curación basada en transcripciones
Un objetivo principal del proyecto de curación RefSeq es representar secuencias de referencia de proteínas y transcripciones completas y de alta calidad. Como tal, nuestros criterios de curación se basan principalmente en transcripciones convencionales (ARNm y EST) y alineaciones de proteínas y evidencia publicada. Sin embargo, los proyectos de transcriptomas de vertebrados se han vuelto cada vez más complejos con la mayoría de los nuevos datos de transcripciones generados actualmente por la tecnología de secuenciación de lectura corta. Los estudios de todo el genoma que analizan los patrones globales de marcas epigenéticas asociadas a promotores también proporcionan evidencia de promotores activos y/o transcripción activa. El grupo RefSeq ha ajustado las prácticas de curación para incorporar estos nuevos tipos de datos a fin de mejorar nuestra anotación manual, en particular en los casos en que un gen o variante carece de abundante soporte de transcripción convencional. Estos estudios ARN-Seq y epigenómicos han generado enormes conjuntos de datos que presentan un desafío para los grupos de anotación de genes, por ejemplo, a través de posibles falsos positivos y la falta de apoyo para combinaciones de exones de largo alcance (15). Los curadores de RefSeq mitigan los falsos positivos incorporando selectivamente solo conjuntos de datos de alta calidad para su consideración en nuestra canalización de anotaciones genómicas y en el proceso de anotación manual. Los curadores de RefSeq visualizan alineaciones de transcripción, datos de variación y datos ARN-Seq filtrados en pantallas personalizadas dentro de una herramienta de alineación interna incorporada en la plataforma NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). La curación de genes humanos utiliza lecturas ARN-Seq analizadas del Mapa corporal Illumina 2 (BioProject: PRJEB2445) y los proyectos Atlas de Proteínas Humanas (BioProject: PRJEB4337) (16). Además, los curadores utilizan marcas de modificación de histonas asociadas al promotor, como H3K4me3 del Consorcio de Mapas Epigenómicos de Hoja de Ruta de los NIH (REMC; (17) y el proyecto ENCODE (Enciclopedia de Elementos de ADN) (18) para verificar la presencia de un promotor activo. Los curadores de RefSeq también evalúan los datos de polyA-seq para afirmar la integridad de 3′ de las transcripciones que carecen de una cola de polyA (19). Otros tipos de datos, como PhyloCSF (20), CPGISLAND, RepeatMasker (21) y análisis Cap de datos de expresión génica (CAGE) (22), a veces se utilizan como soporte adicional.
ARN largos no codificantes (lncRNAs)
El grupo RefSeq continúa expandiéndose significativamente en la representación de ARN estructurales y micro no codificantes, pseudogenes transcritos y los lncRNAs en gran parte no caracterizados. Esta clase de genes se define generalmente como transcripciones > de 200 nt de longitud que carecen de un fuerte potencial de codificación de proteínas (23). Los registros lncRNA RefSeq se generan por curación y a través de la línea de anotación del genoma eucariótico para los genes lncRNA. Actualmente, el NCBI mantiene más de 540 000 registros eucarióticos lncRNA RefSeq, de los cuales más de 6700 han sido curados y solo unos pocos cientos han sido caracterizados funcionalmente. De estos, muchos han estado implicados en enfermedades humanas, como BACE1-AS, que puede desempeñar un papel en la fisiopatología de la enfermedad de Alzheimer, y el aire CALIENTE, que se ha asociado con múltiples cánceres (24,25). La gran mayoría de los lncRNAs tienen funciones desconocidas y la ausencia de marcos de lectura abiertos largos presenta un desafío en términos de confirmar la integridad de la transcripción. Además, los envíos de lncRNA al INSDC se basan en gran medida en TSA de conjuntos de datos de lectura corta que pueden incluir combinaciones de exones artificiales. Los curadores de RefSeq adoptan un enfoque conservador para representar genes lncRNA, solo creando RefSeqs manualmente (con un prefijo de acceso NR_) para transcripciones de alta calidad para las que tenemos cierta certeza de la estructura de exones. Idealmente, el soporte de transcripción debe estar empalmado con al menos tres exones, pero se pueden representar transcripciones de dos exones e intrón si están respaldadas por epigenómica asociada al promotor, pruebas de poli(A), ADNc adicionales y/o datos de ARN-Seq. Los registros de RefSeq lncRNA para genes no codificantes se pueden recuperar de la base de datos de nucleótidos de NCBI utilizando la cadena de búsqueda ‘biomol ncrna lncrna’ y seleccionando el filtro RefSeq de la columna izquierda.
Anotación funcional
La contribución única de los registros de transcripción de RefSeq eucarióticos curados es que integran información funcional con una secuencia de referencia. El personal de curación de RefSeq agrega resúmenes de genes, nomenclatura, texto de variantes de transcripción, atributos de genes y secuencias y características funcionales que están disponibles en el registro de RefSeq y/o a través del recurso genético (http://www.ncbi.nlm.nih.gov/gene). En el último año, el personal de RefSeq ha llevado a cabo varios proyectos de anotación en profundidad, algunos de los cuales se describen brevemente en los párrafos siguientes, para agregar datos funcionales a conjuntos específicos de genes donde las herramientas computacionales no pueden representar con precisión el conocimiento biológico. Estos proyectos incluyen anotación de péptidos antimicrobianos, retrovirus endógenos, histonas dependientes de replicación, UORF reguladores y antizimas.
Péptidos antimicrobianos (AMPs)
Los AMPs fueron un enfoque de curación reciente (http://ncbiinsights.ncbi.nlm.nih.gov/ 2015/05/21/) (26). Los AMPS son péptidos naturales que se encuentran en una amplia gama de especies y se han implicado en muchas funciones inmunitarias, incluidas las actividades bactericidas, antivirales, antifúngicas e incluso antitumorales. Una lista de más de 130 genes humanos que codifican uno o más amplificadores probados experimentalmente se recopiló de varios conjuntos de datos de amplificadores disponibles públicamente y también se extrajo de publicaciones. La mayoría de estos amperios no habían sido identificados previamente en la base de datos RefSeq, y ninguna de las bases de datos AMP conectó los péptidos a su gen codificador. Los curadores de RefSeq anotaron manualmente los registros de RefSeq de cada gen humano codificador de AMP para garantizar que se anotó el péptido funcional, incluir una publicación que describiera la actividad antimicrobiana del péptido, agregar un breve resumen que describiera la actividad antimicrobiana del AMP codificado y almacenar un nuevo atributo RefSeq «La proteína tiene actividad antimicrobiana» que se incluye en el comentario estructurado del atributo RefSeq (por ejemplo, NM_001124.2 para ADM; GeneID: 133). Para acceder a todos los registros de AMP de proteínas o transcripciones humanas curadas, busque en la base de datos de nucleótidos o proteínas usando «La proteína tiene actividad antimicrobiana». Actualmente, esta búsqueda encontrará 191 registros RefSeq, incluidas variantes de empalme e isoformas de proteínas.
Retrovirus endógenos (ERVs)
Los retrovirus endógenos (ERVS) son loci genómicos que se derivan de la inserción ancestral de un retrovirus exógeno en el genoma del huésped. Los loci de ERV generalmente están fuera del alcance de RefSeq; sin embargo, anotamos loci codificadores de proteínas de VER de longitud completa que se asignan a una única ubicación genómica si han evolucionado para cumplir una función de huésped, están asociados con una enfermedad conocida y/o si un comité oficial de nomenclatura les ha asignado una nomenclatura. Aproximadamente el 8% del genoma humano es de origen retroviral (27); sin embargo, debido a sus orígenes antiguos, la mayoría de los loci del ERV humano han acumulado mutaciones sin sentido y ya no pueden codificar una proteína. Las proteínas sincitinas, que participan en el desarrollo placentario (28), son una excepción bien conocida a esto. Las proteínas sincitin-1 y sincitin-2 humanas están codificadas por los genes ERVW-1 (NM_001130925.1, NM_014590.3) y ERVFRD-1 (NM_207582.2). Hasta la fecha, hemos creado 67 RefSeq para loci ERV, que incluyen registros que representan genes ERV de un conjunto diverso de mamíferos. Se creó una nueva categoría de atributo RefSeq titulada «retrovirus endógeno» para estos registros y aparece en un comentario estructurado sobre el registro RefSeq. Estos registros se pueden recuperar de la base de datos de nucleótidos mediante la búsqueda de «retrovirus endógeno».
Histonas dependientes de replicación
Se requiere una síntesis rápida de ARNm de histonas durante la división celular para producir grandes cantidades de proteínas de histonas. Críticos para este proceso son los genes de histonas dependientes de la replicación que se regulan al alza durante la fase G1/S del ciclo celular (29). Se llevó a cabo un proyecto específico de RefSeq con el objetivo de curar el conjunto completo de genes codificadores de proteínas histónicas dependientes de la replicación en humanos y ratones. Estos genes tienen una secuencia canónica del elemento descendente de la histona 3′ (HDE) en la secuencia genómica y los ARNM maduros resultantes carecen característicamente de colas de poli(A) y en su lugar terminan poco después de una estructura de bucle de tallo de ARN (30). El elemento HDE se encuentra en la transcripción precursora, pero no se incluye en la transcripción procesada representada por RefSeq. La ubicación de la secuencia de estructura de bucle de tallo de 16 nucleótidos conservada se indica en el registro RefSeq como una anotación de característica titulada ‘bucle de tallo’. Se puede ver un ejemplo en la entrada RefSeq NM_003539. 3 para HIST1H4D (GeneID: 8360). Hasta la fecha, se han curado 127 registros RefSeq de histonas dependientes de replicación humana y de ratón y se ha añadido un atributo RefSeq que se puede utilizar para recuperar estos registros de la base de datos de nucleótidos utilizando la cadena de búsqueda «histona dependiente de replicación».
Marcos de lectura abiertos reguladores ascendentes (UORF)
La traducción de un marco de lectura abierto ascendente (uORF) puede afectar negativamente a la traducción del marco de lectura abierto de codificación de proteínas primarias (pORF) (31). Este efecto no siempre silencia completamente la traducción del pORF y puede depender del tipo de célula, el estado de desarrollo o la condición celular. Por lo tanto, aunque los UORF pueden predecirse a partir de la traducción de seis fotogramas de una transcripción, el efecto regulador de este elemento debe determinarse mediante validación experimental. Los curadores de RefSeq revisaron la literatura para encontrar transcripciones con evidencia experimental de UORF reguladores y actualizaron los registros de transcripciones de RefSeq correspondientes para agregar una característica misc_feature que denota la ubicación de estos UORF. Un ejemplo es la entrada RefSeq NM_000392.4 para ABCC2 (GeneID: 1244). Se creó una nueva categoría de atributo RefSeq titulada ‘regulatory uORF’ y aparece en un comentario estructurado sobre estos registros RefSeq. Tanto la característica anotada como el atributo citan la publicación de soporte por PubMed ID. Hasta la fecha, se han anotado 260 registros con este atributo y estos registros se pueden recuperar de la base de datos de nucleótidos mediante la búsqueda de genes ‘regulatorios uORF ‘
Antizimas
Uno de los objetivos del proyecto RefSeq es representar genes con biología excepcional que no siguen las reglas de decodificación estándar de la síntesis de proteínas. El gen de la antizima ornitina descarboxilasa es un ejemplo, donde se produce un mecanismo de cambio de marco ribosómico +1 programado y no puede predecirse con herramientas computacionales convencionales. Un conjunto de transcripciones de antizimas de vertebrados y registros de proteínas fueron recientemente objeto de un esfuerzo de anotación manual para crear estándares que mejoraran la anotación de estos productos genéticos por la línea de anotación del genoma eucariótico (32). Los registros de RefSeq se anotaron manualmente con la característica CDS dividida para reflejar el deslizamiento ribosómico, e incluyen un atributo de ‘deslizamiento ribosómico’ con evidencia publicada, varias anotaciones de características diversas (como la ubicación del sitio de desplazamiento de marco) y un breve resumen que describe la función y las propiedades novedosas del gen (por ejemplo, NM_139081.2). Estos registros se pueden recuperar de la base de datos de nucleótidos o Proteínas con la consulta de búsqueda: vertebrados refseq antizima de deslizamiento ribosomal. Esta búsqueda actualmente encuentra 242 registros RefSeq (NM o NP), que incluyen variantes de transcripción e isoformas de proteínas.
INVERTEBRADOS
Las especies de invertebrados representan la gran mayoría de los metazoos existentes (33); sin embargo, solo un número relativamente pequeño está representado por genomas secuenciados. Esto a pesar del hecho de que muchas especies tienen una importancia biomédica crítica, como Anopheles gambiae, un vector de malaria y Biofalaria glabrata, un vector de esquistosomiasis (34,35). Otros invertebrados, como Apis mellifera, Bombyx mori y Crassostrea gigas, tienen un valor comercial significativo (36-38). El grupo RefSeq se ha esforzado por aumentar el número y el alcance de los genomas de invertebrados representados en el conjunto de datos proporcionando anotaciones a través de la línea de anotación del genoma eucariótico o propagando anotaciones de las presentaciones del INSDC a la copia RefSeq de esos genomas. Para ambos flujos de proceso, dependemos de la disponibilidad pública de genomas de alta calidad en las bases de datos del INSDC y en la base de datos Ensamblada del NCBI (www.ncbi.nlm.nih.gov/assembly/). Hasta la fecha, el NCBI ha anotado 46 genomas de invertebrados, incluidas especies representativas de insectos, arácnidos, moluscos y cordados basales. Anticipamos una expansión significativa en el número de genomas de insectos y otros invertebrados anotados como resultado de iniciativas genómicas como el i5k (39), 1KITE (Evolución del Transcriptoma de Insectos 1K, http://www.1kite.org/) y la Alianza Global del Genoma de Invertebrados (http://giga.nova.edu/) (40).
PLANTAS
RefSeq continúa ampliando la diversidad de especies vegetales representadas en el conjunto de datos. Hasta la fecha, se han incluido 61 especies de plantas en el conjunto de datos de genomas RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes/refseq/ plant/) de las cuales 33 especies fueron anotadas a través de la línea de anotación del genoma eucariótico; el resto son copias RefSeq de genomas anotados enviados al INSDC. En el futuro, más genomas de plantas seleccionados para la inclusión de RefSeq serán procesados por la canalización de anotación de eucariotas, en lugar de propagar la anotación a partir de la presentación del INSDC. Este es un cambio de política para los genomas de plantas RefSeq y dará como resultado una mayor consistencia general de los datos de anotación de plantas dentro del conjunto de datos RefSeq. La mayoría de las transcripciones y proteínas de RefSeq disponibles para especies vegetales son registros «modelo» (accesiones XM_, XP_ y XR_; Tabla 1), con un subconjunto más pequeño de registros «conocidos» (NM_, NR_, NP_) que se mantienen independientemente del proceso de anotación mediante una combinación de procesamiento automatizado y revisión manual. Actualmente se proporciona curación manual de transcripción de plantas y datos de proteínas para Zea mays y Solanum lycopersicum. El enfoque actual de la curación implica una revisión exhaustiva de la secuencia y está dirigido a resolver los problemas de control de calidad en el conjunto actual de transcripciones. La resolución de errores se centra en identificar y eliminar transcripciones quiméricas, transcripciones redundantes y genes, y mejorar la calidad de la secuencia representada mediante la evaluación de indels y desajustes entre la transcripción RefSeq, la secuencia genómica y los datos ortólogos. Para las plantas, nos esforzamos por proporcionar una transcripción curada y un conjunto de datos de proteínas que sea consistente con el cultivar seleccionado para la secuenciación y el ensamblaje del genoma. El protocolo de curación utilizado para los datos de vertebrados también se utiliza para las plantas. Por lo tanto, los registros de transcripción de RefSeq pueden actualizarse para que se basen en una secuencia de origen INSDC diferente, o pueden ensamblarse a partir de más de un registro de secuencia INSDC para proporcionar una transcripción del cultivar preferido. Si los datos de transcripción del INSDC no están disponibles para el cultivar genómico, se puede generar una transcripción RefSeq a partir de la secuencia genómica ensamblada basada en una combinación de transcripción o alineaciones de proteínas, ARN-Seq y/o datos publicados. Una segunda área de enfoque es aumentar el número de transcripciones y proteínas de codificación de proteínas conocidas compatibles, ya que esto proporciona un reactivo curado que se puede usar al anotar otros genomas de plantas. Por último, estamos fabricando más RefSeq que representan variantes de empalme cuando hay suficiente evidencia de respaldo. Estos esfuerzos mejorarán significativamente la calidad del conjunto de datos de plant RefSeq y contribuirán a mejorar las futuras anotaciones del genoma. Se puede acceder al conjunto actual de genomas de plantas anotados por la tubería en el sitio web de la tubería de anotación de genoma eucariótico de NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ con enlaces al informe de anotación detallado y otros recursos como species BLAST y FTP.
ALGAS, HONGOS, NEMATODOS Y PROTOZOOS
La tubería de genoma eucariótico pequeño de NCBI es una nueva tubería automatizada diseñada para la generación de registros RefSeq como resultado de la propagación directa de registros anotados del INSDC. Los registros de RefSeq así generados son copias de los datos de GenBank con algunos cambios de formato para cumplir con los requisitos de RefSeq. La diferencia más notable entre el registro INSDC original y el registro RefSeq es la adición del producto de transcripción RefSeq. Aunque no está diseñado para generar anotaciones genómicas de novo, la pequeña canalización del genoma eucariótico se basa en varios de los módulos de canalización de anotación del genoma eucariótico NCBI y su código (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
La designación de «Eucariotas pequeños» se refiere al uso primario de la tubería para generar genomas RefSeq para genomas eucariotas relativamente más pequeños (en comparación con los de plantas y vertebrados), como los de algas, protozoos, hongos, nematodos y algunos artrópodos. Sin embargo, algunos genomas de plantas grandes también se procesan utilizando esta tubería. Esta tubería procesa conjuntos de alta calidad que consisten en cromosomas y/o armazones y sus componentes. Se priorizan aquellos conjuntos con alto contig y andamio N50, secuencia de alta calidad y anotación enviada por INSDC razonablemente buena. Esta tubería, que reemplaza un flujo de proceso histórico que requería más soporte manual, solo recientemente ha alcanzado una fase de producción pública y ya está produciendo un mayor número de genomas eucarióticos «pequeños» representados en RefSeq. Se está trabajando para optimizar el rendimiento de la canalización y agregar más automatización y minimizar aún más las tareas de procesamiento de curadores. Los planes a más largo plazo incluyen la implementación de un sistema de gestión de nombres de proteínas para proporcionar, corregir o mejorar los nombres presentados por el INSDC a lo largo del tiempo. Muchos de los genomas que están en el alcance de la tubería de eucariotas pequeños no pueden ser procesados actualmente por la tubería de anotación de genoma eucariótico (grande) debido a la diversidad taxonómica y la disponibilidad limitada de datos de transcripción necesarios para entrenar la tubería de anotación de novo.
Loci dirigido a hongos
La morfología fúngica es muy diversa, desde estructuras multicelulares complejas hasta células individuales muy simples. Una variedad de estructuras morfológicas y tipos de esporas pueden ser producidas por una sola especie. Por el contrario, muchas especies producen morfologías similares (morfos), pero de hecho están genéticamente muy distantes. Hasta hace poco, una sola especie podía describirse válidamente con más de un nombre binomial basado en morfos sexuales o asexuales. En muchos casos, solo se ha descrito y registrado un solo morfo para una especie dada, aunque las especies estrechamente relacionadas con él podrían tener varios morfos descritos y registrados. En consecuencia, se han aplicado comparaciones de secuencias en la comunidad fúngica para diferenciar entre especies, rastrear especies a medida que avanzan a través de ciclos de vida complejos e identificar especies crípticas. Como parte del proceso dinámico de reevaluación taxonómica, muchas correcciones de especies de hongos no siempre están actualizadas en los datos de secuencias de GenBank.
Para ser un recurso más confiable para la identificación basada en el ADN, las secuencias de referencia derivadas de especímenes tipo (que actúan como referencias para especies) deben etiquetarse con el nombre de especie correcto y más actualizado. Las bases de datos de Fungi RefSeq targeted loci proporcionan este valioso recurso. Por ejemplo, PRJNA177353 es un bioproyecto que se centra específicamente en las regiones del espaciador transcrito interno (ITS) en el cistron ribosómico nuclear que se ha utilizado durante muchos años como marcador filogenético y recientemente aprobado como secuencia de código de barras formal de Hongos (41). La base de datos ITS RefSeq comenzó como una colaboración con Index Fungorum, MycoBank y UNITE, así como con un gran grupo de especialistas taxonómicos. Se seleccionaron secuencias, en su mayoría de especímenes tipo de descripciones válidas, y luego se asociaron los nombres de especies correctos actuales con las secuencias con el objetivo de representar la mayoría de los órdenes de hongos aceptados (8). Los resultados de este esfuerzo de curación se han utilizado y citado en varias publicaciones (42-46) y han ayudado a esfuerzos adicionales para validar subconjuntos de secuencias de referencia, por ejemplo, especies médicamente significativas (47).
El objetivo, con la curación continua, es agregar secuencias de órdenes recién descritas y ampliar la representación para incluir a la mayoría de las familias aceptadas con un enfoque en hongos médicamente importantes. El proceso también incluye hacer correcciones, reemplazar secuencia de material verificado con secuencia de material de tipo a medida que esté disponible y editar líneas de definición o eliminar registros RefSeq a medida que cambian las clasificaciones taxonómicas. Esto garantiza que los resultados de la búsqueda de EXPLOSIONES muestren correctamente el nombre actual. Los registros de RefSeq ITS se han ampliado para representar 3.060 secuencias que representan a 270 familias de 39 clases. Durante el esfuerzo colaborativo inicial de ITS RefSeq, también se recolectó un conjunto más pequeño de accesiones de secuencia del gen ribosomal de la subunidad nuclear grande 28S (LSU), pero no se verificó. Se siguió un flujo de trabajo similar al proceso de curación de registros ITS y, durante la curación continua, se verificaron la calidad de la secuencia, la identificación correcta y los datos de origen precisos de estos registros de LSU. Cerca de 500 registros (de 800 registros potenciales) que representan >se verificaron y publicaron recientemente 100 familias de 21 clases. El conjunto de datos 28S se puede recuperar del bioproyecto PRJNA51803 (48).
PROCARIOTAS
La colección de genomas procariotas NCBI RefSeq representa genomas procariotas ensamblados con diferentes niveles de calidad y densidad de muestreo. En el caso de los procariotas, basándonos en los comentarios de la comunidad en el pasado, nuestra política actual es proporcionar anotaciones genómicas para todos los genomas procariotas que cumplan con nuestros criterios de calidad. En los últimos años, nos hemos enfrentado a dos desafíos principales: (i) mantenernos al día con la rápida escalada de genomas procarióticos presentados; y (ii) abordar una creciente inconsistencia en la anotación del genoma debido al uso de una tubería basada en la propagación del INSDC y diferentes versiones de una tubería de anotación genómica de novo del NCBI según se desarrolló a lo largo del tiempo.
Con el creciente interés en los patógenos humanos y el avance de la tecnología de secuenciación de ADN, el número de genomas procarióticos secuenciados ha aumentado rápidamente en la última década. Algunas cepas bacterianas a menudo son indistinguibles utilizando los enfoques de genotipado actuales, pero se pueden detectar diferencias genéticas menores sobre la base de la secuenciación del genoma completo, que es útil para caracterizar las vías de transmisión, identificar la resistencia a los antibióticos y vigilar los brotes. Para investigar los patógenos transmitidos por los alimentos o los brotes de infecciones, se han secuenciado y anotado un gran número de genomas bacterianos casi idénticos en los últimos años, lo que resulta en numerosas proteínas idénticas, cada una con un número de adhesión distinto. En 2013, NCBI introdujo un nuevo modelo de datos de proteínas y prefijo de acceso (WP_) para la colección RefSeq. Este cambio redujo la redundancia en proteínas procariotas RefSeq y facilitó la identificación de proteínas que se encontraron de forma idéntica en más de un genoma. También permitió una estrategia mejorada para el manejo de los nombres de proteínas procariotas. Estos registros no redundantes representan secuencias de proteínas procariotas únicas que son independientes de cualquier genoma bacteriano en particular y pueden anotarse en múltiples cepas o especies (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
Históricamente, la anotación de genomas bacterianos RefSeq se propagaba a partir de envíos del INSDC, cuando estaba disponible, o se generaba utilizando diferentes versiones de la Canalización de Anotación de Genoma Procariótico del NCBI (que también se ofrece como servicio para envíos de GenBank). Esto resultó en inconsistencias acumuladas en la anotación estructural y funcional en el conjunto de datos procarióticos RefSeq. En los últimos dos años, el NCBI mejoró varios aspectos de la Línea de Anotación del Genoma Procariótico para aumentar la capacidad y estandarizar aún más las reglas de anotación. Nuestro pipeline combina un algoritmo de llamada de genes, GeneMarkS+ (49,50), con un enfoque de detección de genes basado en alineación y es capaz de anotar genomas WGS completos y bosquejados. La tubería predice actualmente genes codificadores de proteínas, ARN estructurales (5S, 16S y 23S), ARN y ARN pequeños no codificantes.
En 2015, lanzamos una actualización exhaustiva de anotaciones para los genomas procarióticos RefSeq con el fin de armonizar la anotación del genoma y completar la transición al nuevo modelo de datos de proteínas. Se desarrolló una nueva base de datos de nombres de proteínas procariotas, especificaciones de nombres y una estrategia basada en la evidencia, que actualmente se encuentra en proceso de implementación. Hasta ahora, más de 3 millones de registros de proteínas han actualizado los nombres en una demostración inicial del enfoque. El nuevo modelo de datos procarióticos ofrece una ventaja significativa para el manejo de nombres, ya que el nombre de la proteína se lleva con el registro de secuencia de proteínas; la actualización del nombre en ese registro de proteínas da como resultado la propagación automática de la actualización a todos los genomas que están anotados con ese número de acceso.
Los genomas procarióticos RefSeq se organizan en varias categorías nuevas, como genomas de referencia y genomas representativos basados en atributos curados y medidas de calidad de ensamblaje y anotación (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Los genomas de referencia son genomas completos ‘estándar de oro’ seleccionados manualmente con anotación de alta calidad y el más alto nivel de soporte experimental para anotación estructural y funcional. Actualmente, los grupos colaboradores y el personal del NCBI anotan manualmente un pequeño conjunto de datos de 122 genomas de referencia. Los genomas de referencia están disponibles en: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Los genomas representativos se calculan computacionalmente y se seleccionan para representar diversas especies. Los genomas representativos están disponibles en: www.ncbi.nlm.nih.gov/genome/browse/representative/.
Los datos del genoma procariótico de RefSeq se pueden acceder en bases de datos de BLAST, recursos web (Ensamblaje, Bioproyecto, Genoma, Nucleótido y Proteína), a través de las utilidades de programación de NCBI, o se pueden descargar de los genomas o de los sitios FTP de refseq. Una página de BLAST personalizada de ‘Microbios’, a la que se accede desde la página de inicio de BLAST, proporciona opciones para buscar en todos los genomas procarióticos RefSeq, el subconjunto de genomas de Referencia y Representativos, o para restringir la búsqueda a un taxón específico. Un subconjunto de genomas procarióticos se anotan con un ID de gen NCBI y se pueden recuperar en el recurso genético de NCBI o en el sitio FTP de Genes. Para las arqueas, esto se proporciona para la mayoría de los genomas completos. En el caso de las bacterias, se proporciona para los genomas de referencia y los genomas representativos para las especies que tienen al menos 10 presentaciones genómicas.
Loci diana procariota
En procariotas, la secuencia de ARN ribosómico 16S se ha convertido en un marcador molecular estándar para la descripción de una nueva especie. Si bien estas secuencias de marcadores se han utilizado ampliamente, la calidad de los datos de las secuencias y los metadatos asociados que se envían a las bases de datos del INSDC varía considerablemente. Reconociendo la importancia del acceso a datos de alta calidad para estos marcadores, NCBI ha ampliado su proyecto de loci específico para proporcionar una fuente actualizada de datos curados. El proyecto targeted loci mantiene actualmente cerca de 18 000 secuencias de referencia de ARN ribosómico 16S, de las cuales más del 95% provienen de cepas tipo. Las cepas de tipo se consideran el ejemplar de la especie y es esencial que los datos de las cepas de tipo estén anotados con metadatos correctos y estén libres de contaminación.
Este trabajo incluyó una revisión exhaustiva y una actualización de la base de datos taxonómica subyacente que se utilizó junto con el filtro de cepas de tipo Entrez de NCBI para recuperar secuencias candidatas. Los datos de secuencia y sus taxonomías y metadatos asociados se han revisado y corregido para incluir la información más actualizada. Si una secuencia fallaba en la validación o no podía validarse con precisión, se excluía. Estas secuencias de referencia ahora se pueden usar como «estándares de oro» para el análisis de secuencias de ARNr existentes y nuevas.
Los conjuntos de datos de ARNr bacterianos y arqueales 16S están disponibles en BioProject (PRJNA33175 y PRJNA33317, respectivamente). También está disponible una base de datos de EXPLOSIONES personalizada («secuencias de ARN ribosómico 16S (Bacterias y Arqueas)»).
VIRUS
El modelo de datos RefSeq para virus difiere del de otros organismos. En general, solo se crea un genoma completo de RefSeq para cada especie viral. Ocasionalmente se crean múltiples registros RefSeq dentro de una especie viral dada para reflejar genotipos bien definidos o cepas importantes de laboratorio y/o silvestres. Los genomas adicionales para una especie dada se validan para taxonomía e integridad y luego se indexan como secuencias «vecinas» (52). Tanto los genomas de RefSeq como los de los vecinos se pueden recuperar a través del Recurso especializado del Genoma Viral (http://www.ncbi.nlm.nih.gov/genome/viruses/) y de las páginas de Nucleótidos y Genoma de Entrez utilizando los enlaces ‘Genoma de RefSeq para Especies’ y ‘Otras Secuencias Genómicas del INSDC’ (52).
La taxonomía es una preocupación importante para la genómica viral, ya que hay 3186 especies virales reconocidas oficialmente por el Comité Internacional de Taxonomía de Virus (ICTV) (53) y 4834 genomas completos de especies virales oficiales y provisionales disponibles en las bases de datos del INSDC. La herramienta de Comparación de Secuencias en pares de NCBI (PASC) se desarrolló para ayudar en la clasificación de genomas virales en función de alineaciones globales y/o locales entre genomas (http://www.ncbi.nlm.nih.gov/sutils/pasc/). El alcance de esta herramienta se ha ampliado para incluir una serie de familias de virus y otros grupos taxonómicos, y se ha utilizado para apoyar la demarcación de nuevos criterios taxonómicos (54-57).
Otro problema emergente en la genómica viral es la anotación inconsistente y/o inexacta entre las secuencias del genoma viral relacionadas. Este problema a menudo refleja diferentes procesos de anotación y trabajos experimentales en curso, y puede generar confusión entre los consumidores de datos y dificultar el análisis comparativo entre genomas. Este problema se aborda en el Recurso de Variación de virus NCBI (http://www.ncbi.nlm.nih.gov/genome/viruses/ variation/), donde se emplean canalizaciones computacionales para proporcionar anotaciones estandarizadas y actualizadas para varios virus (58). Actualmente, estas tuberías calculan límites estandarizados de genes y proteínas para todas las secuencias de virus de la Influenza, virus del Dengue y virus del Nilo Occidental, y nombres estandarizados de genes y proteínas y términos de metadatos para estos y otros dos virus, coronavirus respiratorio de Oriente Medio y Ebolavirus. Estos datos estandarizados se aprovechan en una interfaz de búsqueda especializada centrada en metadatos que facilita la recuperación fácil de secuencias basadas en criterios biológicos específicos.
Mantener estándares de anotación actualizados y ampliamente aceptados requiere una colaboración continua con la comunidad científica en general. El Grupo de Trabajo de Anotación del Genoma Viral del NCBI se estableció para aprovechar consorcios de bases de datos públicas, centros de secuenciación y grupos de investigación para desarrollar anotaciones de secuencias estandarizadas, así como esquemas de nomenclatura de aislamiento para diferentes grupos de virus (59-63). Este enfoque no solo establece estándares para la anotación viral, sino que también representa estos estándares dentro del registro RefSeq actual, asegurando la accesibilidad para todos los usuarios y remitentes de bases de datos. También se necesitan colaboraciones similares para apoyar recursos interpretativos de valor añadido, como la base de datos de interacción humana con VIH-1 (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/vih-1/interacciones/) (64). Los colaboradores del Southern Research Institute proporcionan interacciones moleculares humanas documentadas sobre el VIH-1, seleccionadas de la literatura, y el NCBI mantiene un recurso fácil de usar donde los usuarios pueden consultar tipos específicos de interacciones y encontrar más información sobre los genes involucrados.
DIRECCIONES FUTURAS
El proyecto RefSeq es único en ofrecer un conjunto de datos de secuencias de referencia de transcripciones, proteínas y genomas que abarca todos los reinos de la vida y se ha mantenido y actualizado activamente con el tiempo para incorporar estrategias computacionales mejoradas, nuevos tipos de datos y nuevos conocimientos. Hemos demostrado la capacidad de responder a los rápidos aumentos recientes del número de genomas secuenciados presentados a las bases de datos del INSDC. Hemos definido un conjunto diverso de políticas y estrategias para la conservación y anotación de especies eucariotas, procariotas y virales para satisfacer las diferentes necesidades de comunidades específicas de organismos. El conjunto de datos RefSeq se usa ampliamente como estándar de referencia para muchos análisis diferentes, incluidas aplicaciones clínicas de patógenos y humanos, genómica comparativa, ensayos de expresión, interpretación de variaciones de secuencias y construcción de matrices y sondas. En NCBI, el conjunto de datos RefSeq está integrado en múltiples recursos, incluidos Ensamblado, BLAST, Epigenómica, Gen (donde la anotación RefSeq es la base principal para la mayoría de las entradas de genes), Genoma, dbSNP, dbVar, Visor de variaciones y más.
Continuaremos enfocándonos en la curación manual para mejorar la información estructural y funcional de los genomas humanos y de otros vertebrados. Nuestro enfoque conservador de curación manual garantiza la alta calidad y fiabilidad continuas de los registros RefSeq humanos, de ratones y de otros registros «conocidos» que satisfacen las necesidades de aquellos que necesitan una definición bien respaldada de exones alternativos (menos falsos positivos). La adición de datos de ARN-Seq a nuestra canalización de anotación aumentó significativamente nuestra anotación de variantes de empalme alternas como RefSeqs del modelo para satisfacer las necesidades de aquellos que desean una definición más completa, pero aún así bien respaldada, del exoma (menos falsos negativos). Si bien tanto los RefSeq conocidos como los RefSeq del modelo informan de la evidencia de apoyo en el registro de secuencia, utilizan enfoques distintos para hacerlo. Los esfuerzos futuros se dirigirán a armonizar la presentación de informes de pruebas para RefSeq ‘conocidos’ y ‘modelos’, de modo que los usuarios puedan identificar más fácilmente esta información. También agregaremos un nuevo tipo de datos a la colección RefSeq para humanos y ratones en un futuro cercano para representar elementos regulatorios y funcionales reportados experimentalmente con consecuencias funcionales conocidas (o inferidas razonablemente).
Para genomas procarióticos, continuamos trabajando en el refinamiento de aspectos de la anotación estructural que se genera por la Tubería de Anotación del Genoma Procariótico. Nuestro trabajo hacia un nuevo enfoque para administrar la información funcional aún se está perfeccionando y se describirá en otra parte. Anticipamos volver a anotar todo el conjunto de datos de genomas procarióticos RefSeq cuando estén disponibles nuevas versiones de nuestra canalización de anotación procariótica (para mejorar la anotación estructural). La decisión de anotar todos los procariotas de RefSeq utilizando un único método, junto con el gran volumen de este conjunto de datos, requiere un enfoque diferente que aproveche múltiples fuentes de evidencia para proporcionar información funcional. Los nombres de proteínas se actualizarán de forma continua según se organicen por familias de proteínas o categorías de tipo de evidencia. Nuestros objetivos para el próximo año incluyen una mayor integración de Rfam (65) en nuestra cartera de anotaciones, una mayor colaboración, nombres de proteínas mejorados e informes de evidencia de apoyo en el registro de secuencias de proteínas.
Nos gustaría agradecer a la comunidad científica por sus comentarios constructivos, sugerencias, informes de errores y colaboraciones durante los últimos 15 años que han contribuido a la calidad y precisión de la secuencia representada, la anotación estructural y la anotación funcional.
FINANCIACIÓN
Programa de Investigación Intramuros de los NIH, Biblioteca Nacional de Medicina. Financiamiento para el cargo de acceso abierto: El Programa de Investigación Intramuros de los Institutos Nacionales de Salud, Biblioteca Nacional de Medicina.Declaración de conflicto de intereses. Ninguna declarada.
et al.
et al.
et al. Secuencias genómicas de referencia de Locus :la base mejorada para describir variantes de ADN humano
et al.
et al.
et al.
et al.
et al.
et al.
et al. Exploración de la expresión específica del tejido humano mediante la integración de la transcriptómica en todo el genoma y la proteómica basada en anticuerpos
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.