Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). O projeto RefSeq aproveita os dados submetidos à colaboração internacional do banco de dados de sequência nucleotídica (INSDC) contra uma combinação de computação, Curação manual e colaboração para produzir um conjunto padrão de sequências de referência estáveis e não redundantes. O projeto RefSeq aumenta essas sequências de referência com conhecimento atual, incluindo publicações, características funcionais e nomenclatura informativa. O banco de dados, atualmente, representa sequências de mais de 55 000 organismos (>4800 vírus, >40 000 procariotas e >10 000 eucariotas; RefSeq lançamento 71), variando a partir de um único registro completo de genomas. Este artigo resume o estado atual dos ramos virais, procarióticos e eucarióticos do projeto RefSeq, relatórios sobre melhorias no acesso aos dados e detalha os esforços para expandir ainda mais a representação taxonômica da coleção. Destacamos também diversas iniciativas de Curação funcional que suportam múltiplos usos dos dados RefSeq, incluindo validação taxonômica, anotação do genoma, genômica comparativa e testes clínicos. Resumimos nossa abordagem para a utilização de RNA-Seq disponíveis e outros tipos de dados em nosso processo de Curação manual para vertebrados, plantas e outras espécies, e descrevemos uma nova direção para genomas procarióticos e gerenciamento de nomes de proteínas.

introdução

nos últimos 15 anos, a base de dados do National Center for Biotechnology Information (NCBI) RefSeq tem servido como um recurso essencial para a investigação genómica, genética e Proteómica. O RefSeq projeto da prestação de curadoria e estável de referência anotado genomas, transcritos e proteínas selecionadas, vírus, micróbios, organelas, e organismos eucarióticos, permitiu que os investigadores foco no melhor representante seqüência de dados, em contraste com os dados redundantes no GenBank, e de forma inequívoca referência específica sequências genéticas. The RefSeq collection provides explicitly linked genome, transcript, and protein sequence records that incorporate publications, informative nomenclature, and standardized and expanded feature annotations. Os registros de RefSeq são integrados aos recursos do NCBI, incluindo as bases de dados nucleótidos, proteínas e BLAST e podem ser facilmente identificados pela palavra-chave “RefSeq” e por seus prefixos de adesão distintos que definem seu tipo (Tabela 1). Todos os dados RefSeq estão sujeitos a verificações de garantia de qualidade (QA) com alguns testes de qualidade especializados desenvolvidos para diferentes tipos de taxa ou dados. Por exemplo, todos os RefSeqs virais são submetidos a revisão taxonômica pela equipe do NCBI antes da liberação pública. As adesões de RefSeq são amplamente citadas em publicações científicas e bases de dados genéticos porque fornecem um sistema de coordenadas estável e consistente que pode ser usado como base para a comunicação de dados específicos de genes, variações clínicas e comparações entre espécies. Estas normas de sequência de referência são cada vez mais importantes porque a comunicação e a reprodutibilidade exactas são componentes vitais para as melhores práticas de investigação biomédica (1).

prefixos de adesão de RefSeq

Quadro 1.

RefSeq accession prefixes

proteínas anotadas em adesões NM_ transcrição ou anotadas em moléculas genómicas sem transcrição instanciada (e.g. alguns genomas mitocondriais, genomas virais, e a referência de genomas bacterianos

proteínas não redundantes em várias estirpes e espécies. Uma única proteína desse tipo pode ser anotado em mais de um procariontes genoma

Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein
AP_3 proteína Proteínas anotada no AC_ genômica adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
XP_3,5 proteína Proteínas anotada no XM_ transcrição adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
YP_3 proteína Proteínas anotadas sobre genômica moléculas sem um instanciado transcrição do registro
WP_6

proteínas anotadas em adesões NM_ transcrição ou anotadas em moléculas genómicas sem transcrição instanciada (e.g. alguns genomas mitocondriais, genomas virais, e a referência de genomas bacterianos

proteínas não redundantes em várias estirpes e espécies. Uma única proteína desse tipo pode ser anotado em mais de um procariontes genoma

Prefixo . tipo de molécula . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein
AP_3 proteína Proteínas anotada no AC_ genômica adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
XP_3,5 proteína Proteínas anotada no XM_ transcrição adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
YP_3 proteína Proteínas anotadas sobre genômica moléculas sem um instanciado transcrição do registro
WP_6

1a completa adesão formato de número é composto do prefixo, incluindo o carácter de sublinhado, seguido por 6 números seguido pela seqüência de número de versão.

2o formato de adesão completo consiste no prefixo seguido pelo número de adesão do INSDC em que o registo RefSeq se baseia, seguido pelo número de versão sequencial do RefSeq.

3 o formato completo do número de adesão consiste no prefixo, incluindo o sublinhado, seguido de 6 ou 9 números, seguidos do número sequencial da versão.

4Records com esta adesão prefixo de ter sido curada por NCBI de pessoal ou de um organismo modelo de banco de dados, ou estão no conjunto de adesões que os curadores trabalhar. Estes registos são referidos como o conjunto de dados RefSeq “conhecido”.

5Records with this accession prefix are generated through either the eukaryotic genome annotation pipeline, or the small eukaryotic genome annotation pipeline. Os registos gerados através do primeiro método são referidos como o conjunto de dados “model” RefSeq.

6o formato completo do número de adesão consiste no prefixo, incluindo o sublinhado, seguido de 9 números seguidos do número da versão. O número da versão é sempre “.1 ‘ uma vez que estes registos não estão sujeitos a actualização. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

proteínas anotadas em adesões NM_ transcrição ou anotadas em moléculas genómicas sem transcrição instanciada (e.g. alguns genomas mitocondriais, genomas virais, e a referência de genomas bacterianos

proteínas não redundantes em várias estirpes e espécies. Uma única proteína desse tipo pode ser anotado em mais de um procariontes genoma

Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein
AP_3 proteína Proteínas anotada no AC_ genômica adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
XP_3,5 proteína Proteínas anotada no XM_ transcrição adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
YP_3 proteína Proteínas anotadas sobre genômica moléculas sem um instanciado transcrição do registro
WP_6

proteínas anotadas em adesões NM_ transcrição ou anotadas em moléculas genómicas sem transcrição instanciada (e.g. alguns genomas mitocondriais, genomas virais, e a referência de genomas bacterianos

proteínas não redundantes em várias estirpes e espécies. Uma única proteína desse tipo pode ser anotado em mais de um procariontes genoma

Prefixo . tipo de molécula . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein
AP_3 proteína Proteínas anotada no AC_ genômica adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
XP_3,5 proteína Proteínas anotada no XM_ transcrição adesões ou anotada no genoma moléculas sem um instanciado transcrição do registro
YP_3 proteína Proteínas anotadas sobre genômica moléculas sem um instanciado transcrição do registro
WP_6

1a completa adesão formato de número é composto do prefixo, incluindo o carácter de sublinhado, seguido por 6 números seguido pela seqüência de número de versão.

2o formato de adesão completo consiste no prefixo seguido pelo número de adesão do INSDC em que o registo RefSeq se baseia, seguido pelo número de versão sequencial do RefSeq.

3 o formato completo do número de adesão consiste no prefixo, incluindo o sublinhado, seguido de 6 ou 9 números, seguidos do número sequencial da versão.

4Records com esta adesão prefixo de ter sido curada por NCBI de pessoal ou de um organismo modelo de banco de dados, ou estão no conjunto de adesões que os curadores trabalhar. Estes registos são referidos como o conjunto de dados RefSeq “conhecido”.

5Records with this accession prefix are generated through either the eukaryotic genome annotation pipeline, or the small eukaryotic genome annotation pipeline. Os registos gerados através do primeiro método são referidos como o conjunto de dados “model” RefSeq.

6o formato completo do número de adesão consiste no prefixo, incluindo o sublinhado, seguido de 9 números seguidos do número da versão. O número da versão é sempre “.1 ‘ uma vez que estes registos não estão sujeitos a actualização. Ver documentação em linha para mais informações: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins nos últimos anos, as técnicas avançadas de sequenciação facilitaram um aumento substancial das submissões de toda a montagem do genoma às bases de dados públicas. Como resultado, o projeto RefSeq expandiu de forma concordante a profundidade e amplitude dos taxa incluídos no conjunto de Dados, principalmente através de melhorias em vários oleodutos de anotação internos. Todos os taxa podem ser incluídos no RefSeq; no entanto, a anotação é muitas vezes limitada aos organismos para os quais um conjunto primário de genoma de alta qualidade está disponível com informações sobre organismos não contestados. Assim, podemos excluir algumas categorias de dados que não atendem aos nossos padrões de qualidade. Os conjuntos de dados excluídos incluem: metagenomas, conjuntos com valores N50 de contig baixos ou especialmente elevado número de andaimes/contigs não deslocados (ou seja, elevada fragmentação), ou genomas que têm um desfasamento significativo ou variação indel em comparação com outros genomas estreitamente relacionados para a espécie (por exemplo, alguns procariontes).

um aspecto único do conjunto de dados RefSeq é a abordagem combinada de alavancagem computacional, colaboração e Curação pela equipe científica do NCBI. Como uma grande instalação de Bioinformática, o NCBI investiu no desenvolvimento de fluxos de processo robustos para gerar anotações e realizar testes de garantia de qualidade para genomas, transcrições e proteínas eucarióticos e procarióticos. Estão em curso melhorias no fluxo do processo de genomas virais. O Grupo RefSeq colabora com vários grupos de peritos, incluindo as autoridades oficiais de nomenclatura (ex. HUGO Gene Nomenclature Committee (HGNC) and Zebrafish Information Network (ZFIN) for human and zebrafish gene names respectively), UniProtKB (protein names) and miRBase (microRNAs) (2-5). Estas e outras colaborações ajudam a manter e melhorar a qualidade do conjunto de dados RefSeq através de relatórios de QA, troca de informações de genes e sequências e troca de informações funcionais. O pessoal do NCBI também presta apoio curativo a vírus, procariontes, eucariontes, organelos, plasmídeos e projectos específicos, incluindo genes curativos e sequências para o Homo sapiens, Mus musculus e outros organismos. Os curadores RefSeq melhoram a qualidade da base de dados através da revisão dos resultados dos testes de QA, envolvimento na seleção de certas entradas para o processamento de anotações do genoma, análise de sequências, análise taxonômica e revisão funcional. Curation also supports improvements to genome annotation pipelines as content experts help definite programmatic approaches to model both typical and atípic biology. Para os eucariotas, particularmente os mamíferos, a Curação baseada em transcrições define os representantes de sequência”melhores”(como Refseq ‘conhecidos; nota de rodapé do Quadro 1) que são utilizados como reagente primário de entrada para o oleoduto de anotação do genoma eucariótico (). Melhorias na qualidade do reagente de entrada, por sua vez, adicionam qualidade significativa e reprodutibilidade à anotação do genoma resultante. Este tipo de Curação manual tem sido historicamente focado no homem e no rato por causa de sua importância Biomédica única (6). Mais recentemente, esses esforços de Curação deram maior atenção a Rattus norvegicus, Danio rerio, Bos taurus e Gallus gallus. Estas espécies são relevantes para a saúde humana e para a sustentabilidade agrícola.

neste artigo, relatório sobre o andamento do processo de expansão do RefSeq conjunto de dados para incluir mais diversos organismos, descrever melhorias no acesso a dados, e fornecer exemplos para ilustrar um maior foco na prestação de filogeneticamente útil conjuntos de dados bem funcionais como recurso de anotação RefSeq transcrição e proteínas registros. Antecipamos esses esforços e melhorias no conjunto de dados RefSeq continuarão a contribuir para o avanço da pesquisa médica translacional, melhorias agrícolas, identificação filogenética e estudos evolucionários.

gerando o conjunto de dados REFSEQ

os registos de sequência RefSeq são gerados por diferentes métodos, dependendo da classe de sequência e do organismo. Os genomas arcaicos e bacterianos (ver seção procariontes) são anotados usando o oleoduto de anotação do genoma procariótico da NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), enquanto um pequeno número de genomas bacterianos de referência são suportados PELA colaboração e Curação manual. Os genomas eucarióticos RefSeq são fornecidos utilizando dois fluxos de processo. A maioria dos genomas vegetais, animais, insetos e artrópodes são anotados pelo oleoduto de anotação do genoma eucariótico. Este oleoduto gera resultados de anotação com base em dados de transcrição disponíveis (incluindo dados RNA-Seq e transcriptome shotgun assembly (TSA)), bem como proteína homologia, ab initio predição (em grande parte quando os dados de transcriptome não estão disponíveis), e disponível conhecido (curado) transcrições de RefSeq e proteínas (Ver Tabela 1). Anotação gerada por Pipeline (model RefSeqs) pode ou não ter suporte para a combinação completa de exon a partir de um único alinhamento de evidências, mas pode ter suporte RNA-Seq para pares exon. Os genomas eucarióticos que foram anotados por este oleoduto são relatados publicamente com links para baixar os dados por FTP, para ver ou realizar uma consulta BLAST contra o genoma anotado, ou para acessar um resumo detalhado do relatório de anotações (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). O oleoduto para um subconjunto de eucariotas incluindo fungos, protozoários e nemátodos envolve a anotação de propagação que foi submetida à colaboração da Base de dados de sequência nucleotídica Internacional (INSDC), com padronização de formato, a uma cópia RefSeq do conjunto de genomas submetido (ver algas, fungos, nemátodos e protozoários).o pessoal da NCBI fornece a maior parte da anotação do genoma da organela RefSeq através da propagação a partir da submissão da INSDC. A anotação mitocôndria em mamíferos é muitas vezes suplementada com Curação manual. O projeto RefSeq também mantém sequências de referência para projetos loci específicos, tais como RefSeqGene, que é um membro da colaboração genômica de referência Locus (LRG) (7), para bactérias e fungos ribossômicos rRNA loci, e para as sequências spacer interna transcritas fúngicas (ITS) (8). Além disso, um número significativo de humanos, mouse e outros transcritos e proteínas são fornecidos através da colaboração e Curação manual que inclui análise de seqüências e revisão de literatura.o procariótico de NCBI (ver abaixo) e os oleodutos de anotação eucariótica mantiveram o ritmo do número crescente de conjuntos de genomas submetidos à INSDC, fornecendo uma anotação consistente em cópias RefSeq de conjuntos de genoma submetidos de alta qualidade selecionados. Até à data, 245 genomas eucarióticos, incluindo 170 genomas vertebrados, foram anotados por este gasoduto, dos quais mais de 120 espécies foram anotadas nos últimos 20 anos. Entre este grupo estão 52 espécies de aves que incluem espécies representativas da maioria das ordens aviárias (9,10). Houve também uma expansão significativa no número de conjuntos anotados RefSeq para primatas não humanos, outros mamíferos, peixes, plantas e artrópodes.

acessando o conjunto de dados REFSEQ

a homepage de RefSeq http://www.ncbi.nlm.nih.gov/refseq/ é um hub central para todos os aspectos do conjunto de dados de RefSeq. Este site fornece links que guia os usuários através de uma descrição geral do projecto, bem como fichas, o crescimento estatísticas e informações sobre os mais focado RefSeq projetos como o Procariontes genoma re-anotação de iniciativa, o Consenso Sequência codificante (CCDS) projecto (11) o RefSeqGene projeto, e destina-se Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) projetos. Links para a versão mais abrangente e detalhada de FTP e documentação detalhada sobre o formato e conteúdo da versão podem ser encontrados na seção ‘Anúncios’ da homepage RefSeq. Anúncios de RefSeq anteriores também estão disponíveis nesta página. Nós encorajamos fortemente o download de dados RefSeq diretamente do NCBI, como downloads de outros recursos de Bioinformática e genoma browser podem não incluir todos os dados disponíveis, ou podem simplesmente refletir alinhamentos de transcrições RefSeq para um genoma ao invés dos resultados de anotação do genoma que são gerados pelo NCBI.

RefSeq sequence data can be accessed interactively using Ncbis Nucleotide and Protein databases, in BLAST databases, through NCBI’s programmatic interface (e-utilities), or through file transfer protocol (FTP). Os Serviços de e-utilities suportam o acesso scripted para baixar os dados RefSeq em uma variedade de formatos baseados em termos de pesquisa ou listas de adesão; extensa documentação está disponível no manual NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) e vídeos de treinamento estão disponíveis no canal do YouTube do NCBI (https://www.youtube.com/user/NCBINLM). Tanto as bases de dados de nucleótidos como de proteínas permitem que os resultados da consulta sejam restritos apenas aos registos de RefSeq, seleccionando ‘RefSeq’ na ‘base de dados de origem’ na barra lateral dos filtros. RefSeq dados também podem ser acessados a partir de outros bancos de dados do NCBI, incluindo a Montagem, BioProject, Gene, Genoma e seguindo os links fornecidos para Nucleotídeos, Proteínas, FTP ou de Informação de recursos em curadoria alterações dentro do RefSeq grupo ou NCBI atualizações que afetam o RefSeq de banco de dados são relatados através de várias fontes, incluindo o RefSeq FTP notas de lançamento, a publicação periódica de relatórios publicados, o NCBI Anúncios no feed de Notícias http://www.ncbi.nlm.nih.gov/news/ e através do NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Os usuários também podem subscrever a refseq-anunciar a lista de E-mail para receber atualizações periódicas sobre o projeto e um resumo do conteúdo de cada versão FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

RefSeq dados são distribuídos via FTP através de dois sites, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) e genomas (ftp://ftp.ncbi.nlm.nih.gov/genomes/). O refseq site FTP fornece atualizações diárias de todos os novos e atualizados RefSeq registros, atualizações semanais de alguns tipos de dados, e um bi-mensal abrangente RefSeq de lançamento (/refseq/release/). Além disso, selecione Conjuntos de dados de transcrição e proteínas específicos do organismo, incluindo humanos e mouse, são atualizados semanalmente. O subdiretório RefSeqGene é atualizado diariamente, com alinhamentos ao genoma liberado com cada execução de anotação. A libertação bimestral completa de Refleq é organizada por grupos taxonómicos (por exemplo, Mamíferos Vertebrados) ou outros grupos (por exemplo, mitocôndrias). Os dados também podem ser baixados para toda a coleção RefSeq da /refseq/release/ complete / directory. A versão RefSeq oferece uma vantagem para aqueles que querem manter atualizações periódicas da coleção completa ou de um único grupo. Ele também inclui registros que não estão disponíveis a partir do site FTP de genomas companheiros, tais como transcrições na coleção que são mantidos independentemente de, e podem não ser atualmente anotados em, um conjunto de genomas. A versão é fornecida com documentação significativa dos arquivos instalados (/refseq/release/release-catalog/), incluindo checksums MD5, uma lista de todos os arquivos instalados, bem como notas de lançamento e anúncios (/refseq/release/release-notes/).os dados de RefSeq também podem ser descarregados do site FTP dos genomas. Em agosto de 2014, a NCBI anunciou uma grande reorganização deste site FTP, que agora fornece acesso de montagem e organismos tanto ao GenBank quanto ao RefSeq genomes (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Este diretório é ainda dividido em subdiretórios baseados nos mesmos grupos que são usados na versão RefSeq, cada um dos quais fornece sub-divisões adicionais por espécie. O sítio FTP genomes fornece ficheiros que representam todas as assembleias genómicas RefSeq relatadas no recurso de montagem do NCBI (www.ncbi.nlm.nih.gov/assembly/). a vantagem do site genomes é que os dados podem ser acessados de uma forma específica de montagem ou organismo. Os dados fornecidos incluem sequência de genoma e produto (transcript/proteína), anotação, relatórios de montagem e estatísticas, e códigos de validação MD5; estes dados são atualizados quando a montagem e/ou anotação do genoma são atualizadas. Esta área não inclui sequências de RefSeq que estão fora do âmbito de um conjunto de genomas ou produtos que não são anotados num genoma.

crescimento e estatísticas

RefSeq FTP release 71 (julho de 2015) inclui mais de 77 milhões de registos sequenciais para mais de 55 000 organismos. A tabela 2 resume o crescimento do conjunto de dados RefSeq no último ano em termos de organismos e número de registros de sequência representados por cada área de diretório FTP de lançamento RefSeq. Genomas e proteínas bacterianas compõem a maior parte do conjunto de dados RefSeq (56% do total de adesões e 76% do>

52 milhões de adesões proteicas). Aumentos significativos no número de organismos, proteínas e registros totais são vistos para invertebrados, plantas e organismos eucarióticos, o que é consistente com o aumento do número e produção de projetos de sequenciamento do genoma. Um fator significativo para a alta taxa contínua de crescimento dos dados RefSeq são melhorias nos oleodutos do genoma que geram genomas RefSeq anotados. Mais notavelmente, isso inclui o aumento de capacidade no NCBI do procariontes genoma de anotação de pipeline, re-elaboração do fluxo do processo, que se propaga a anotação do eucarióticas GenBank genomas para RefSeq genomas, e a incorporação de RNA-Seq provas no NCBI do eucarióticas genoma de anotação de pipeline e o seu impacto no modelo de geração de RefSeqs (XM_, XR_ e XP_ adesões, Tabela 1).

crescimento anual do número de organismos, proteínas e transcrições representados na libertação abrangente de RefSeq, por directório de libertação de FTP

Tabela 2.

taxa de crescimento Anual do número de organismos, proteínas, e as transcrições representado na abrangente RefSeq de lançamento, por FTP o release directory
o Release Directory . organismos . %. transcrições . %. proteínas . %.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . %. transcrições . %. proteínas . %.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (por exemplo, archaea.acc_taxid_growth.txt e ficheiros relacionados). A mudança por cento anual é baseada na comparação de contagens de dados para RefSeq release 71 (julho de 2015) e RefSeq release 66 (julho de 2014).

Tabela 2.

taxa de crescimento Anual do número de organismos, proteínas, e as transcrições representado na abrangente RefSeq de lançamento, por FTP o release directory
o Release Directory . organismos . %. transcrições . %. proteínas . %.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . %. transcrições . %. proteínas . %.
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (por exemplo, archaea.acc_taxid_growth.txt e ficheiros relacionados). A mudança por cento anual é baseada na comparação de contagens de dados para RefSeq release 71 (julho de 2015) e RefSeq release 66 (julho de 2014).

A diminuição drástica no número de plasmídeo de proteína de registros, e, assim, o número total de adesões, reflete a conclusão de um RefSeq genoma bacteriano re-anotação de projeto (http://www.ncbi.nlm.nih.gov/refseq/sobre/procariotas/reannotation/) e a adoção do novo modelo de dados para procariotas, incluindo seus plasmídeos. Neste novo modelo de dados, uma única adesão de proteínas não redundantes pode ser anotada em mais de um registo de sequência genómica quando a tradução dessas regiões codificadoras de proteínas genómicas resultar numa proteína idêntica (ver http://www.ncbi.nlm.nih.gov/refseq/cerca de/nãoredundantproteinas/). A redundância em todas as proteínas bacterianas também diminuiu significativamente; no entanto, não é aparente aqui devido a aumentos significativos contínuos no número de genomas bacterianos incluídos no conjunto de dados. Estas mudanças também resultaram em uma queda geral no número de registros de proteína archaeal.

VERTEBRADOS

Um grupo de vertebrados, incluindo o Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus e Danio rerio são o principal foco de nossa transcrição – e, baseado na literatura, manual de curadoria esforços. Curadores geralmente trabalham a partir de listas de genes com conflitos de dados identificados por testes de garantia de qualidade (QA), alguns dos quais foram descritos anteriormente (12). Eles seguem um conjunto detalhado de diretrizes ao analisar cada gene, a fim de garantir a consistência entre as pessoas no conjunto de dados curados. Esta análise envolve a avaliação de sequências em profundidade e revisão de literatura para criar transcrições de referência, proteínas, pseudogenes e registros de RefSeqGene. RefSeq curadores gerar transcrição variantes, resolver erros de sequência, remover informações imprecisas, atualização de registros para representar corretamente a biologia do locus, e acrescente valiosa de informação funcional para alguns RefSeq registros, tais como melhoria da proteína nomes, um resumo da função do gene do produto, características funcionais do gene, e/ou outras publicações relevantes. A revisão Manual de Curação e literatura pelo Grupo RefSeq pode resultar na representação de variantes e isoformas únicas que não seriam previstas quando baseadas apenas em análise computacional. Por exemplo, a revisão de literatura do ser humano gene supressor de tumor, PTEN (fosfatase e tensin homóloga, GeneID: 5728), revelou a existência de mais proteína isoforma resultante do uso de uma alternativa no quadro montante GFU codão de iniciação encontrado no centro de um palíndromo sequência montante da canonical mRNA tradução iniciar codão (13). Dados experimentais fortes indicaram que esta isoforma específica do mitocondrial inicia com uma leucina, em vez de uma metionina (14). O modelo de dados RefSeq para eukaryotes fornece uma transcrição explicitamente ligada a uma proteína. Portanto, dois idênticos de transcrição de registros foram fornecidos para refletir a tradução alternativo códons de iniciação; NP_000305.3 representa a 403 de aminoácidos da proteína que usa a canonical metionina iniciar codão, enquanto NP_001291646.2 representa mitocondrial, localizada 576 de aminoácidos de uma proteína que se inicia com um leucina. Assim, o processo de Curação serve um duplo propósito de fornecer sequências de referência precisas que facilitam a anotação precisa e reprodutível do genoma e fornecem registros que incluem informações biológicas relevantes. Nesta seção discutimos atualizações recentes, melhorias que fizemos em nosso processo de Curação manual, e exemplos de projetos de Curação focados.

RefSeqGene project

The RefSeqGene sub-project defines human genomic sequences to be used as reference standards for well-characterized genes, particularly for use by the clinical genetics community. Estas sequências servem de base estável para a notificação de variantes patogénicas, para o estabelecimento de convenções para a numeração de exões e intrões e para a definição das coordenadas de outras variantes. Cada registro de RefSeqGene se concentra em uma região genômica específica de um gene e tipicamente é anotado com um subconjunto de transcrições de RefSeq e proteínas selecionadas por especialistas de domínio. Essas seleções determinam características exon. Alinhamentos de versões mais antigas da transcrição/proteína de RefSeq canônica, bem como outros Refseq conhecidos, estão incluídos. Esses registros geralmente incluem 5 quilobases (kb) de sequência a montante do gene focus, e 2 kb de sequência a jusante, para suportar a representação de potenciais sites regulatórios ou supressões que se estendem além da característica genética. Um registro de RefSeqGene pode incluir informação de anotação para outros genes que estão localizados dentro de seus limites. Os registos RefSeqGene são revistos inicialmente por bases de dados locus específicas e pessoal do NCBI. RefSeqGene é um membro da colaboração LRG (7) que fornece revisão adicional dos dados de sequência antes de adicionar uma adesão LRG. Um foco de trabalho recente expandiu o número de registros de RefSeqGene para representar todos os genes para os quais pelo menos dois testes clínicos foram submetidos ao registro de testes genéticos NIH (GTR). Neste momento há 5596 registros RefSeqGene, dos quais 633 têm uma adesão LRG. RefSeqGene registros podem ser recuperados através de pesquisa o banco de dados de Nucleotídeos com ‘refseqgene’, por sua GRA adesões, navegando a RefSeqGene web site (www.ncbi.nlm.nih.gov/refseq/rsg/), ou por FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

incorporação de RNA-Seq e outros tipos de dados em Curação baseada em transcrição

um dos principais objetivos do projeto de Curação RefSeq é representar sequências de referência de alta qualidade e de transcrição de longa duração e proteínas. Como tal, nossos critérios de Curação são baseados principalmente na transcrição convencional (mRNA e ESTs) e alinhamentos de proteínas e evidências publicadas. No entanto, os projetos de transcriptomas vertebrados tornaram-se cada vez mais complexos com a maioria dos novos dados de transcript atualmente gerados pela tecnologia de sequenciação de Leitura curta. Estudos à escala do genoma que analisam padrões globais de marcas epigenéticas associadas a promotores também fornecem provas de promotores activos e/ou transcrição activa. O Grupo RefSeq ajustou as práticas de Curação para incorporar estes novos tipos de dados para melhorar a nossa anotação manual, particularmente nos casos em que um gene ou variante carece de abundante suporte convencional à transcrição. Estes estudos RNA-Seq e epigenómicos têm gerado enormes conjuntos de dados que apresentam um desafio para grupos de anotação genética, por exemplo, através de potenciais falsos positivos e a falta de suporte para combinações de exon de longo alcance (15). Curadores RefSeq mitigam contra falsos positivos, incorporando seletivamente apenas Conjuntos de dados de alta qualidade para consideração em nosso oleoduto de anotação do genoma e no processo de anotação manual. Curadores RefSeq visualizam alinhamentos de transcrição, dados de variação e dados filtrados de RNA-Seq em displays personalizados dentro de uma ferramenta de alinhamento interna incorporada na plataforma NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation of human genes utilizes analyzed RNA-Seq reads from the Illumina BodyMap 2 (BioProject: PRJEB2445) and Human Protein Atlas projects (BioProject: PRJEB4337) (16). Adicionalmente, os curadores utilizam marcas de modificação histona associadas ao promotor, como o H3K4me3 do roteiro NIH Epigenomic Mapping Consortium (REMC; (17) e o projecto ENCODE (Encyclopedia of DNA Elements) (18) para verificar a presença de um promotor activo. Os curadores de RefSeq também avaliam os dados de polyA-seq para afirmar 3 ‘ completude de transcrições sem cauda de polyA (19). Os tipos de dados adicionais, incluindo PhyloCSF (20), CpGIslands, RepeatMasker (21) e análise Cap de dados de expressão genética (CAGE) (22), são por vezes usados como suporte adicional.o Grupo RefSeq continua a expandir significativamente a representação de não – codificadores estruturais e micro-RNAs, pseudogenes transcritos, e os lncRNAs largamente não-codificados. Esta classe de genes é geralmente definida como sendo transcritos >200 nt em comprimento que não possuem um forte potencial de codificação de proteínas (23). os registos de RefSeq da lncRNA são gerados pela Curação e através do oleoduto de anotação do genoma eucariótico para os genes lncRNA. A NCBI mantém atualmente mais de 540 000 registros eucarióticos da lncRNA RefSeq, dos quais mais de 6700 foram curados e apenas algumas centenas foram funcionalmente caracterizadas. Destas, muitas foram implicadas na doença humana, como o BACE1-que pode desempenhar um papel na fisiopatologia da doença de Alzheimer, e o HOTAIR que tem sido associado com múltiplos cancros (24,25). A grande maioria dos lncRNAs tem funções desconhecidas e a ausência de longos quadros de leitura abertos apresenta um desafio em termos de confirmação da integralidade da transcrição. Além disso, as submissões da lncRNA à INSDC baseiam-se, em grande parte, em TSAs de conjuntos de dados de Leitura curta que podem incluir combinações artificiais de exon. Os curadores RefSeq têm uma abordagem conservadora para representar genes lncRNA, apenas criando manualmente RefSeqs (com um prefixo de adesão NR_) para transcrições de alta qualidade para as quais temos alguma certeza da estrutura exon. Idealmente, o Suporte de transcrição deve ser articulado com pelo menos três exões, mas dois exões e transcrições intronless podem ser representados se forem suportados por epigenómicos associados ao promotor, provas de poli(a), cDNAs adicionais e/ou dados RNA-Seq. Os registos do lncrna RefSeq relativos a genes não codificadores podem ser obtidos a partir da base de dados de nucleótidos do NCBI, utilizando a cadeia de pesquisa “biomol ncrna lncrna” e seleccionando o filtro de RefSeq da coluna esquerda.

anotação funcional

a contribuição única dos registros curados da transcrição eucariótica de RefSeq é que eles integram informação funcional com uma sequência de referência. RefSeq curation staff adiciona resumos de genes, nomenclatura, transcript variant text, gene and sequence attributes, and functional features that are available on the RefSeq record and/or through the Gene resource (http://www.ncbi.nlm.nih.gov/gene). No ano passado, o RefSeq funcionários têm prosseguido vários em profundidade anotação de projectos, alguns dos quais são brevemente descritos nos parágrafos a seguir, para adicionar os dados funcionais específicas de conjuntos de genes, onde ferramentas computacionais são incapazes de representar com precisão o conhecimento biológico. Estes projectos incluem a anotação dos peptídeos antimicrobianos, retrovírus endógeno, histonas dependentes da replicação, uORFs regulatórios e antizimas.

péptidos antimicrobianos (AMPs)

AMPs foram um foco de Curação recente (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). AMPs são peptídeos de ocorrência natural que são encontrados em uma variedade diversa de espécies e têm sido implicados em muitos papéis imunológicos, incluindo bactericidas, antivirais, antifúngicos e até mesmo atividades antitumorais. Uma lista de mais de 130 genes humanos que codificam um ou mais AMPs experimentalmente provados foi recolhida de vários conjuntos de dados AMP disponíveis publicamente e também extraída de publicações. A maioria destes AMPs não tinha sido previamente identificado na Base de dados RefSeq, e nenhuma das bases de dados AMP conectaram os peptídeos ao gene de codificação. RefSeq curadores anotada manualmente, o RefSeq registros para cada AMPLIFICADOR de codificação de genes humanos para garantir que o funcional peptídeo foi anotada, para incluir uma publicação que descreve a atividade antimicrobiana do peptídeo, para adicionar um breve resumo que descreve a atividade antimicrobiana do codificados AMP, e para armazenar uma nova RefSeq atributo ‘Protein possui atividade antimicrobiana”, que é incluído no RefSeq atributo estruturado comentário (e.g. NM_001124.2 para a ADM; GeneID: 133). Para aceder a todos os registos da transcrição humana curada ou da proteína AMP, Procure na base de dados do nucleótido ou da proteína “a proteína tem actividade antimicrobiana”. Atualmente, esta pesquisa irá encontrar 191 registros RefSeq, incluindo variantes de splice e isoformas proteicas.

retrovírus endógeno (VRE)

retrovírus endógeno (VRE) são loci genómicos derivados da inserção ancestral de um retrovírus exógeno no genoma do hospedeiro. ERV loci estão geralmente fora do âmbito de Aplicação do RefSeq; no entanto, anotamos loci de codificação de proteínas ERV que mapeiam para uma única localização genômica se eles evoluíram para servir uma função Hospedeira, estão associados a uma doença conhecida, e/ou se eles foram atribuídos nomenclatura por um comitê de nomenclatura oficial. Cerca de 8% do genoma humano é de origem retroviral (27); no entanto, devido às suas origens antigas, a maioria dos ERV loci humanos acumularam mutações sem sentido e não podem mais codificar uma proteína. As proteínas da sincitina, que estão envolvidas no desenvolvimento placentário (28), são uma exceção bem conhecida a isso. As proteínas humanas syncytin-1 e syncytin-2 são codificadas pelos genes ERVW-1 (NM_001130925.1, NM_014590.3) e ERVFRD-1 (NM_207582.2). Até agora, criamos 67 RefSeqs para ERV loci, que inclui registros representando genes ERV de um conjunto diversificado de mamíferos. Uma nova categoria de atributos RefSeq intitulada “Retrovirus endógeno” foi criada para estes registos e aparece num comentário estruturado sobre o registo RefSeq. Estes registos podem ser obtidos a partir da base de dados dos nucleótidos através da procura de ‘retrovírus endógeno ‘.histonas dependentes da replicação

é necessária uma rápida síntese de histonas mRNAs durante a divisão celular, a fim de produzir grandes quantidades de proteínas histonas. Crítico para este processo são os genes histônicos dependentes da replicação que são upregulados durante a fase G1 / s do ciclo celular (29). Um projeto específico de RefSeq foi realizado com o objetivo de curar o conjunto completo de genes codificadores de proteína histona dependentes de replicação em humanos e mouse. Estes genes têm uma sequência canônica de 3′ histona downstream element (HDE) na sequência genômica e o resultado Maduro mRNAs caracteristicamente falta cauda poli(a) e em vez terminar logo após uma estrutura de ciclo-tronco RNA (30). O elemento HDE é encontrado na transcrição precursora, mas não está incluído na transcrição processada representada por RefSeq. A localização da sequência de estrutura do ciclo-tronco de 16 nucleótidos conservados é indicada no registo de RefSeq como uma anotação de características intitulada “ciclo-tronco”. Um exemplo pode ser visto na entrada do RefSeq NM_003539. 3 para o HIST1H4D (GeneID: 8360). Até à data, 127 registos do histone RefSeq, dependentes de replicação humana e do rato, foram curados e foi adicionado um atributo RefSeq que pode ser utilizado para recuperar esses registos da Base de dados dos nucleótidos, utilizando a cadeia de pesquisa “replication-dependent histone”.

Regulatory upstream open reading frames (uORFs)

Translation of an upstream open reading frame (uORF) can negative affect translation of the primary protein-coding open reading frame (porf) (31). Este efeito nem sempre silencia completamente a tradução pORF e pode ser dependente do tipo de célula, estado de desenvolvimento ou condição celular. Por conseguinte, embora os uORFs possam ser previstos a partir da tradução de seis quadros de uma transcrição, o efeito regulamentar deste elemento deve ser determinado através da validação experimental. RefSeq curators review the literature to find transcripts with experimental evidence of regulatory uORFs and updated the corresponding RefSeq transcript records to add a misc_feature denoting the location of these uORFs. Um exemplo é a entrada de RefSeq NM_000392.4 para o ABCC2 (GeneID: 1244). Uma nova categoria de atributos RefSeq intitulada “RDR uORF” foi criada e aparece em um comentário estruturado sobre esses registros RefSeq. Tanto o recurso anotado quanto o atributo citam a publicação de suporte pela PubMed ID. Até à data, 260 registros foram anotados com este atributo, e estes registros podem ser recuperados do banco de dados de Nucleotídeos, procurando regulamentar uORF ‘

Antizyme genes

Um dos objetivos do RefSeq projeto é representar genes com excepcional de biologia que não siga o padrão de decodificação regras de síntese de proteínas. O gene da antizima ornitina descarboxilase é um exemplo, onde um mecanismo programado de frameshifting +1 ribosomal ocorre e não pode ser previsto por ferramentas computacionais convencionais. Um conjunto de registos da transcrição de antizima e proteínas de vertebrados foi recentemente objecto de um esforço manual de anotação para criar normas para melhorar a anotação destes produtos genéticos pelo oleoduto de anotação do genoma eucariótico (32). O RefSeq registros foram anotada manualmente, com a divisão CDS recurso para refletir ribossomal derrapagem, e incluem uma ‘ribossomal derrapagem’ atributo com evidências publicadas, diversos diversos recurso de anotações (tais como a localização do frameshift site) e um breve resumo que descreve a função e novas propriedades do gene (e.g. NM_139081.2). Estes registros podem ser recuperados a partir do banco de dados de nucleótidos ou proteínas com a consulta de pesquisa: vertebrates refseq ribosomal slippage antizyme. Esta pesquisa encontra atualmente 242 registros RefSeq (NM ou NP), que inclui variantes de transcrição e isoformas proteicas.

invertebrados

Invertebrados representam a grande maioria dos metazoanos existentes (33); no entanto, apenas um número relativamente pequeno é representado por genomas sequenciados. Isto apesar do fato de que muitas espécies têm importância Biomédica crítica, como Anopheles gambiae, um vetor para a malária e Biomphalaria glabrata, um vetor para a esquistossomíase (34,35). Outros invertebrados, incluindo Apis mellifera, Bombyx mori e Crassostrea gigas, têm um valor comercial significativo (36-38). O RefSeq grupo tem feito esforços para aumentar o número e o escopo dos invertebrados genomas representados no conjunto de dados, fornecendo anotação via eucarióticas genoma de anotação de pipeline ou por propagação de anotação de INSDC submissões para o RefSeq cópia desses genomas. Para ambos os fluxos de processo, estamos dependentes da disponibilidade pública de genomas de alta qualidade nas bases de dados do INSDC e na Base de dados de montagem do NCBI (www.ncbi.nlm.nih.gov/assembly até à data, 46 genomas invertebrados foram anotados pelo NCBI, incluindo espécies representativas de insectos, aracnídeos, moluscos e cordados basais. Esperamos uma expansão significativa no número de insetos e outros invertebrados genomas anotada como resultado do genoma de iniciativas como o i5k (39), 1KITE (1K Inseto Transcriptoma Evolução, http://www.1kite.org/) e Global de Invertebrados Genoma Aliança (http://giga.nova.edu/) (40).

plantas

RefSeq continua a expandir a diversidade de espécies vegetais representadas no conjunto de dados. Até à data, 61 espécies de plantas foram incluídas no conjunto de dados de genomas de RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes/refseq/ plant/) das quais 33 espécies foram anotadas através do oleoduto de anotação do genoma eucariótico; as restantes são cópias de genomas anotados submetidos ao INSDC. No futuro, mais genomas vegetais selecionados para inclusão RefSeq serão processados pelo oleoduto de anotação de eukaryote, em vez de propagarem a anotação a partir do pedido do INSDC. Esta é uma mudança de política para os genomas da planta RefSeq e resultará em uma maior consistência global dos dados de anotação da planta dentro do conjunto de dados RefSeq. A maioria do RefSeq transcritos e proteínas disponíveis para espécies de plantas são ‘modelo’ de registros (XM_, XP_ e XR_ adesões; Tabela 1), com um pequeno subconjunto de “conhecido” registros (NM_, NR_, NP_) que são mantidos de forma independente do processo de anotação por uma combinação de processamento automático e manual de revisão. A Curação Manual da transcrição vegetal e dos dados proteicos é actualmente fornecida para Zea mays e Solanum lycopersicum. O atual foco de Curação implica uma extensa revisão de sequência e é direcionado para resolver as preocupações de QA no atual conjunto de transcrições. A resolução de erros é focada na identificação e remoção de transcrições quiméricas, transcrições redundantes e genes, e na melhoria da qualidade da sequência representada pela avaliação de indels e mismatches entre a transcrição de RefSeq, a sequência genômica, e dados ortólogos. Para as plantas, nos esforçamos para fornecer um conjunto de dados de transcrição e proteínas curadas que seja consistente com a cultivar selecionada para a sequenciação e montagem do genoma. O protocolo de Curação utilizado para dados de vertebrados também é usado para plantas. Assim, os registros de transcrição RefSeq podem ser atualizados com base em uma sequência fonte diferente da INSDC, ou podem ser montados a partir de mais de um registro de sequência da INSDC, a fim de fornecer uma transcrição da cultivar preferida. Se os dados da transcrição INSDC não estiverem disponíveis para a cultivar genômica, então uma transcrição RefSeq pode ser gerada a partir da sequência genômica montada com base em uma combinação de alinhamentos de transcrição ou proteínas, RNA-Seq, e/ou dados publicados. Uma segunda área de foco é aumentar o número de transcrições e proteínas conhecidas como códigos de proteínas, uma vez que isso fornece um reagente curado que pode ser usado ao anotar outros genomas vegetais. Finalmente, estamos fazendo mais RefSeqs representando variantes de splice quando há provas suficientes de apoio. Estes esforços irão melhorar significativamente a qualidade do conjunto de dados da planta RefSeq e irão contribuir para melhorias nas futuras anotações do genoma. The current set of plant genomes annotated by the pipeline can be accessed at NCBI’s eukaryotic genome annotation pipeline website http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ with links to the detailed annotation report and other resources such as species BLAST and FTP.

algas, fungos, nemátodos e protozoários

o NCBI small eukaryotic genome pipeline é um novo gasoduto automatizado projetado para a geração de registros RefSeq como resultado da propagação direta de registros anotados INSDC. Os registros RefSeq assim gerados são cópias dos dados do GenBank com algumas mudanças de formato para aderir aos requisitos do RefSeq. A diferença mais notável entre o registro original da INSDC e o registro da RefSeq é a adição do produto da transcrição da RefSeq. Embora não tenha sido projetado para gerar a anotação do genoma de novo, O pequeno oleoduto eucariótico do genoma extrai de vários dos módulos de anotação do genoma eucariótico NCBI e seu código (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

a designação “pequenos eucariontes” refere-se ao uso primário do gasoduto para gerar genomas de Refleq para genomas eucarióticos relativamente menores (em comparação com os de plantas e vertebrados), como os de algas, protozoários, fungos, nemátodos e alguns Artrópodes. No entanto, alguns genomas de grandes plantas também são processados usando este gasoduto. Este gasoduto processa conjuntos de alta qualidade constituídos por cromossomas e/ou andaimes e seus componentes. Aqueles conjuntos com alta contig e N50 and scaffold, sequência de alta qualidade, e uma anotação razoavelmente boa submetida à INSDC são priorizados. Este gasoduto, que substitui um fluxo histórico de processo que necessitava de mais apoio manual, só recentemente atingiu uma fase de produção pública e já está a produzir um número crescente de genomas “pequenos” eucarióticos representados em RefSeq. O trabalho está em curso para otimizar a produção do pipeline e para adicionar mais automação e minimizar ainda mais as tarefas de processamento do curador. Os planos a longo prazo incluem a implementação de um sistema de gestão de nomes proteicos, a fim de fornecer, corrigir ou melhorar os nomes apresentados pelo INSDC ao longo do tempo. Muitos dos genomas que estão em campo para o pequeno oleoduto eukaryotes não podem atualmente ser processados pelo (grande) oleoduto de anotação do genoma eucariótico devido à diversidade taxonômica e disponibilidade limitada de dados de transcrição necessários para treinar o oleoduto de anotação de novo.a morfologia fúngica é muito diversa, variando desde estruturas multicelulares complexas até células únicas muito simples. Uma variedade de estruturas morfológicas e tipos de esporos pode ser produzida por uma única espécie. Inversamente, muitas espécies produzem morfologias semelhantes (morfologias), mas são geneticamente muito distantes. Até recentemente, uma única espécie podia ser validamente descrita com mais de um nome binomial baseado em Morfes sexuais ou assexuadas. Em muitos casos, apenas uma única morfologia foi descrita e registrada para uma dada espécie, embora espécies estreitamente relacionadas com ela possam ter várias Morfes descritas e registradas. Consequentemente, comparações de sequências têm sido aplicadas na comunidade fúngica para diferenciar entre espécies, para rastrear espécies à medida que elas avançam através de ciclos de vida complexos e para identificar espécies crípticas. Como parte do processo dinâmico de reavaliação taxonômica, muitas correções de espécies de fungos nem sempre estão atualizadas nos dados de sequência de GenBank.

para ser um recurso mais fiável para a identificação baseada no ADN, as sequências de referência derivadas de espécimes do tipo (que actuam como referências para espécies) têm de ser rotuladas com o nome de espécie correcto e mais actualizado. As bases de dados focalizadas do Fungi RefSeq loci fornecem este recurso valioso. Por exemplo, PRJNA177353 é um BioProject que se concentra especificamente no espaçadores internos transcritos (ITS) regiões nuclear ribossomal cistron que tem sido usado por muitos anos como um marcador filogenético e recentemente aprovado como o formal de código de barras sequência de Fungos (41). A sua base de dados RefSeq começou como uma colaboração com Index Fungorum, MycoBank e UNITE, bem como um grande grupo de especialistas taxonômicos. Sequências foram selecionadas, principalmente a partir de espécimes de tipo de descrições válidas, e então nomes de espécies corretas atuais foram associados com as sequências com o objetivo de representar a maioria das ordens de fungos aceitos (8). Os resultados deste esforço de Curação foram utilizados e Citados por várias publicações (42-46) e ajudaram a esforços adicionais na validação de subconjuntos de sequências de referência, por exemplo, espécies medicamente significativas (47).

O objetivo, com Curação contínua, é adicionar sequências de ordens recém-descritas e estender a representação para incluir a maioria das famílias aceitas com foco em fungos medicamente importantes. O processo também inclui a realização de correções, a substituição de seqüência de material verificado por seqüência de material do tipo, à medida que ele se torna disponível e edição linhas de definição ou a remoção de registros de RefSeq como mudanças de classificações taxonômicas. Isto garante que os resultados de pesquisa BLAST corretamente exibem o nome atual. O RefSeq seus registros foram estendidos para representar 3.060 sequências representando 270 famílias de 39 classes. Durante a colaboração inicial de seu esforço de RefSeq, um conjunto menor de adesões de seqüências do gene ribossômico 28S nuclear grande subunidade (LSU) também foram coletadas, mas não verificadas. Um fluxo de trabalho semelhante ao seu processo de Curação de registro foi seguido e durante a Curação contínua estes registros LSU foram verificados para a qualidade da sequência, identificação correta e dados de fonte precisa. Perto de 500 registros (de 800 registros potenciais) representando >100 famílias de 21 classes foram verificados e recentemente liberados. O conjunto de dados 28S pode ser recuperado do BioProject PRJNA51803 (48).

procariontes

a colecção de genomas procarióticos NCBI RefSeq representa genomas procarióticos montados com diferentes níveis de qualidade e densidade de amostragem. Para procariontes, com base no feedback da comunidade passada nossa Política atual é fornecer a anotação do genoma para todos os genomas procarióticos que atendem aos nossos critérios de qualidade. Nos últimos anos, temos enfrentado dois grandes desafios: (i) acompanhar a rápida escalada dos genomas procarióticos submetidos; e, (ii) lidar com uma inconsistência crescente na anotação do genoma devido ao uso de um gasoduto baseado na propagação da INSDC e diferentes versões de um gasoduto de anotação do genoma NCBI de novo, tal como desenvolvido ao longo do tempo.com o crescente interesse em patógenos humanos e avanço da tecnologia de sequenciamento de DNA, o número de genomas procarióticos sequenciados aumentou rapidamente na última década. Algumas estirpes bacterianas são muitas vezes indistinguíveis usando abordagens de genotipagem atuais, mas pequenas diferenças genéticas podem ser detectadas com base na sequenciação do genoma inteiro, o que é útil para caracterizar as vias de transmissão, identificar a resistência aos antibióticos, e levantamento de surtos. Para investigar patógenos de origem alimentar ou surtos de infecção, grandes números de genomas bacterianos quase idênticos foram sequenciados e anotados nos últimos anos, resultando em numerosas proteínas idênticas, cada uma com um número de adesão distinto. Em 2013, o NCBI introduziu um novo modelo de dados proteicos e prefixo de adesão (WP_) para a coleção RefSeq. Esta mudança reduziu a redundância em proteínas procarióticas RefSeq e facilitou a identificação de proteínas que foram identicamente encontradas em mais de um genoma. Ele também permitiu uma melhor estratégia para o gerenciamento de nomes de proteínas procarióticas. Estes registos não redundantes representam sequências proteicas procarióticas únicas que são independentes de qualquer genoma bacteriano em particular e podem ser anotados em múltiplas estirpes ou espécies (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

historicamente, a anotação de genomas bacterianos RefSeq foi propagada a partir de submissões da INSDC, quando disponíveis, ou gerada usando diferentes versões do Pipeline de anotações Prokarióticas do genoma da NCBI (que também é oferecido como um serviço para submissões do GenBank). Isto resultou em inconsistências acumuladas na anotação estrutural e funcional no conjunto de dados procarióticos RefSeq. Ao longo dos últimos dois anos, o NCBI melhorou vários aspectos da anotação Prokaryotic Genome Pipeline para aumentar a capacidade e padronizar ainda mais as regras de anotação. O nosso gasoduto combina um algoritmo de chamada de genes, GeneMarkS+ (49,50), com uma abordagem de detecção de genes baseada no alinhamento e é capaz de anotar tanto genomas WGS completos como rascunhos. O gasoduto prevê atualmente genes codificadores de proteínas, RNAs estruturais (5S, 16S e 23S), tRNAs e pequenas RNAs não codificantes.

In 2015, we released a comprehensive annotation update for RefSeq prokaryotic genomes in order to Harmony genome annotation and complete the transition to the new protein data model. Uma nova base de dados de nomes de proteínas procarióticas, especificações de nomes e uma estratégia baseada em evidências foram desenvolvidas e estão atualmente em processo de implantação. Até agora, mais de 3 milhões de registros de proteínas têm nomes atualizados em uma demonstração inicial da abordagem. O novo modelo de dados procarióticos oferece uma vantagem significativa para a gestão de nomes como o nome da proteína é carregado com o registro de sequência de proteínas; atualizar o nome nesse registro de proteínas resulta em propagar automaticamente a atualização para todos os genomas que são anotados com esse número de adesão.

os genomas procarióticos são organizados em várias novas categorias, tais como genomas de referência e genomas representativos baseados em atributos curados e medidas de qualidade de montagem e anotação (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Os genomas de referência são genomas completos “gold standard” seleccionados manualmente, com uma anotação de alta qualidade e o mais elevado nível de suporte experimental para a anotação estrutural e funcional. Atualmente, um pequeno conjunto de dados de 122 genomas de referência é anotado manualmente por grupos colaboradores e funcionários do NCBI. Os genomas de referência estão disponíveis Em: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Genomas representativos são computacionalmente calculados e selecionados para representar espécies diversas. Os genomas representativos estão disponíveis em: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq os dados do genoma procariótico podem ser acessados em bases de dados BLAST, recursos web (montagem, Bioprojeto, genoma, nucleótido e proteína), através dos utilitários de programação da NCBI, ou podem ser baixados a partir dos genomas ou sites FTP refseq. Uma página de explosão personalizada de “micróbios”, acessada a partir da página inicial da explosão, fornece opções para procurar contra todos os genomas procarióticos RefSeq, O subconjunto de referência e genomas representativos, ou para restringir a busca a um táxon específico. Um subconjunto de genomas procarióticos são anotados com um ID do Gene NCBI e podem ser recuperados no recurso genético NCBI ou a partir do site de FTP do Gene. Para archaea, isso é fornecido para a maioria dos genomas completos. Para as bactérias, isto é fornecido para os genomas de referência e os genomas representativos para as espécies que têm pelo menos 10 submissões de genoma.

loci alvo procariótico

em procariotas, a sequência 16S de ARN ribossómico tornou-se um marcador molecular padrão para a descrição de uma nova espécie. Embora estas sequências de marcadores se tenham tornado amplamente utilizadas, a qualidade dos dados de sequência e dos meta-dados associados que estão a ser submetidos às bases de dados do INSDC varia consideravelmente. Reconhecendo a importância do acesso a dados de alta qualidade para esses marcadores, o NCBI expandiu seu projeto loci direcionado para fornecer uma fonte atualizada de dados curados. O projecto loci visado mantém actualmente perto de 18 000 sequências de referência de ARN ribossómico 16, das quais mais de 95% provêm de estirpes de tipo. As estirpes do tipo são consideradas exemplares da espécie e é essencial que os dados da estirpe do tipo sejam anotados com metadados correctos e estejam isentos de contaminação.

Este trabalho envolveu uma revisão exaustiva e atualização para a base de dados de taxonomia subjacente, que foi usada em conjunto com o filtro de tipo de estirpe Entrez do NCBI para recuperar sequências candidatas. Os dados de sequência e a taxonomia/meta-dados associados foram revistos e corrigidos de modo a incluir a informação mais actualizada. Se uma sequência falhou na validação ou não pôde ser validada com precisão, foi excluída. Estas sequências de referência podem agora ser usadas como “padrões de ouro” para a análise de sequências rRNA existentes e novas.os conjuntos de dados rRNA bacterianos e Archaeal 16S estão disponíveis a partir do BioProject (PRJNA33175 e PRJNA33317, respectivamente). Também está disponível uma base de dados BLAST personalizada (’16S ribosomal RNA sequences (Bacteria and Archaea)’).

vírus

o modelo de dados RefSeq para vírus difere do de outros organismos. Em geral, apenas um genoma RefSeq completo é criado para cada espécie viral. Ocasionalmente, são criados vários registos de RefSeq dentro de uma dada espécie viral para reflectir genótipos bem definidos ou estirpes laboratoriais e/ou selvagens importantes. Genomas adicionais para uma determinada espécie são validados para taxonomia e completude e, em seguida, indexados como sequência ‘vizinhos’ (52). Ambos os genomas de RefSeq e vizinhos são recuperáveis através do recurso de genoma Viral especializado (http://www.ncbi.nlm.nih.gov/genome/viruses/) e de páginas de nucleótido e genoma de Entrez usando ‘genoma de RefSeq para espécies’ e ‘outras sequências de genoma de INSDC’ links (52).a taxonomia é uma das principais preocupações da genómica viral, uma vez que existem 3186 espécies virais oficialmente reconhecidas pelo International Committee on Taxonomy of Viruses (ICTV) (53) e 4834 genomas completos de espécies virais oficiais e provisórias disponíveis em bases de dados do INSDC. A ferramenta de comparação de sequências emparelhadas NCBI (PASC) foi desenvolvida para ajudar na classificação de genomas virais baseados em alinhamentos globais e/ou locais entre genomas (http://www.ncbi.nlm.nih.gov/sutils/pasc/). O escopo desta ferramenta foi expandido para incluir uma série de famílias de vírus e outros grupos taxonômicos, e tem sido usado para ajudar a apoiar a demarcação de novos critérios taxonômicos (54-57).outro problema emergente na genómica viral é a anotação inconsistente e/ou imprecisa entre as sequências relacionadas do genoma viral. Esta questão reflecte frequentemente diferentes processos de anotação e trabalhos experimentais em curso e pode levar à confusão entre os consumidores de dados e dificultar a análise comparativa entre genomas. Este problema é abordado dentro do recurso de variação do vírus NCBI (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) onde pipelines computacionais são empregados para fornecer anotações atualizadas e padronizadas para vários vírus (58). Atualmente, esses oleodutos calculam limites padronizados de genes e proteínas para todos os vírus da gripe, vírus da Dengue, e sequências de vírus do Nilo Ocidental e nomes padronizados de genes e proteínas e termos de metadados para estes e dois outros vírus, coronavírus respiratório do Oriente Médio e Ebolavírus. Estes dados padronizados são então alavancados dentro de uma interface de pesquisa especializada, centrada em metadados, que facilita a fácil recuperação de sequências com base em critérios biológicos específicos.a manutenção de normas de anotação actualizadas e amplamente aceites exige uma colaboração contínua com a maior comunidade científica. O NCBI Viral Genome Annotation Working Group foi estabelecido para alavancar consórcios de bancos de dados públicos, centros de sequenciação e grupos de pesquisa para desenvolver anotações de sequência padronizadas, bem como isolar esquemas de nomenclatura para diferentes grupos de vírus (59-63). Esta abordagem não só estabelece padrões para a anotação viral, mas também representa esses padrões dentro do atual registro RefSeq, garantindo acessibilidade para todos os usuários de banco de dados e submissores. Colaborações semelhantes também são necessárias para suportar o valor acrescentado, recursos interpretativos como o HIV-1, banco de dados de interação humana (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovírus/hiv-1/ interactions/) (64). Colaboradores do Instituto de pesquisa do Sul fornecem o HIV-1 documentado, interações moleculares humanas curadas a partir da literatura e NCBI mantém um recurso amigável onde os usuários podem consultar para tipos específicos de interações e encontrar mais informações sobre os genes envolvidos.

Future DIRECTIONS

o projecto RefSeq é único na oferta de um conjunto de dados de sequência de referência de transcrições, proteínas e genomas que abrange todos os reinos da vida e tem sido activamente mantido e actualizado ao longo do tempo para incorporar estratégias computacionais melhoradas, novos tipos de dados e novos conhecimentos. Demonstrámos a capacidade e a capacidade de responder aos rápidos aumentos recentes do número de genomas sequenciados submetidos às bases de dados do INSDC. Definimos um conjunto diversificado de políticas e estratégias para a Curação e anotação de espécies eucarióticas, procarióticas e virais para atender às diferentes necessidades de comunidades específicas de organismos. O conjunto de dados RefSeq é amplamente utilizado como um padrão de referência para muitas análises diferentes, incluindo aplicações clínicas humanas e patógenas, genômica comparativa, testes de expressão, interpretação de variações de seqüência e construção de array e sonda. No NCBI, o conjunto de dados RefSeq é integrado em vários recursos, incluindo montagem, BLAST, Epigenomics, Gene (onde a anotação RefSeq é a base primária para a maioria das entradas de genes), genoma, dbSNP, dbVar, variation Viewer, e muito mais.continuaremos a orientar a Curação manual para melhorar a informação estrutural e funcional para os genomas humanos e outros vertebrados. Nossa abordagem de Curação manual conservadora garante a alta qualidade e confiabilidade contínua dos registros humanos, mouse e outros “conhecidos” RefSeq que atendem as necessidades daqueles que precisam de uma definição bem suportada de exons alternativos (menos falsos positivos). A adição de dados RNA-Seq ao nosso pipeline de anotações aumentou significativamente a nossa anotação de variantes de splice alternativas como Refseq modelo para servir as necessidades daqueles que querem uma definição mais abrangente, mas ainda bem apoiada, do exome (menos falsos negativos). Embora os RefSeqs conhecidos e modelos relatem as evidências de suporte no registro de seqüência, eles usam abordagens distintas para fazê-lo. Os esforços futuros serão direccionados para a harmonização dos relatórios de provas tanto para os Refseq “conhecidos” como para os “modelos”, de modo a que os utilizadores possam identificar mais facilmente esta informação. Nós também estaremos adicionando um novo tipo de dados para a coleta de RefSeq humano e mouse em um futuro próximo para representar elementos regulatórios e funcionais relatados experimentalmente com consequências funcionais conhecidas (ou razoavelmente inferidas).

para genomas procarióticos, continuamos a trabalhar em aspectos de refinação da anotação estrutural que é gerada pelo Oleoduto de anotação do genoma procariótico. Nosso trabalho em direção a uma nova abordagem para gerenciar informações funcionais ainda está sendo refinado e será descrito em outro lugar. Prevemos a re-anotação de todo o conjunto de dados de genomas procarióticos RefSeq quando novas versões do nosso pipeline de anotações procarióticas se tornam disponíveis (para melhorar a anotação estrutural). A decisão de anotar todos os procariontes RefSeq usando um único método, juntamente com o volume deste conjunto de dados, requer uma abordagem diferente que alavance múltiplas fontes de evidência para fornecer informações funcionais. Os nomes de proteínas serão atualizados de forma contínua, conforme organizado por famílias de proteínas ou categorias de tipo de evidência. Os nossos objectivos para o próximo ano incluem uma maior integração da Rfam (65) no nosso oleoduto de anotações, uma colaboração alargada, nomes de proteínas melhorados e a comunicação de provas de apoio no registo de sequência de proteínas.

gostaríamos de agradecer à comunidade científica pelo feedback construtivo, sugestões, relatórios de erros e colaborações ao longo dos últimos 15 anos que contribuíram para a qualidade e precisão da sequência representada, anotação estrutural e anotação funcional.

financiamento

programa de investigação Intramural do NIH, Biblioteca Nacional de Medicina. Financiamento da taxa de Acesso Aberto: Programa de investigação Intramural dos Institutos Nacionais de Saúde, Biblioteca Nacional de Medicina.declaração de conflito de interesses. Nenhuma declarada.

Nosek
A.

Alterar
G.

Bancos
G. C.

Borsboom
D.

Bowman
S. D.

Breckler
S. J.

Buck
S.

Câmaras
C. D.

China
G.

Christensen
G.

et al. normas científicas. A promoção de uma investigação aberta de cultura

Ciências
2015
348
1422
1425

Cinza
K. A.

Yates
B.

Selo
R. L.

Wright
M. W.

Bruford
E. A.

Genenames.org: o o hgnc recursos em 2015
Ácidos Nucléicos Res.
2015
43
D1079
D1085

Ruzicka
L.

Bradford
S. M.

Frazer
K.

Howe
D. G.

Paddock
H.

Ramachandran
S.

a Cantora
A.

Bull
S.

Van Slyke
C. E.

Águia
, A. E.

et al.

ZFIN, O peixe-zebra organismo modelo de banco de dados: Atualizações e novas direções
Gênesis
2015
53
498
509

UniProt
C.

UniProt: um hub para a proteína informações
ácidos Nucléicos Res.
2015
43
D204
212

Kozomara
A.

Griffiths-Jones
S.

miRBase: anotação de alta confiança microRNAs usando profunda de sequenciamento de dados
Ácidos Nucléicos Res.
de 2014
42
D68
73

McGarvey
K. M.

Goldfarb
T.

Cox
E.

Farrell
C. M.

Gupta
T.

Joardar
V. S.

Kodali
V. K.

Murphy
M. R.

O’leary
N. A.

Pujar
S.

Mouse genome annotation pelo RefSeq projeto
Mamm. Genoma
2015
26
379
390

Dalgleish
R.

Flicek
P.

Cunningham
F.

Astashyn
A.

Tully
R. E.

Docente
G.

Cão
Y

McLaren
W. M.

Larsson
P.

Vaughan
B. W.

et al.

locus Reference Genomic sequences: the improved basis for describing human DNA variants
Genome Med.
2010
2
24

Schoch
C. L.

Robbertse
B.

Robert
V.

Vu
D.

Cardinali
G.

Irinyi
L.

Meyer
W.

Nilsson
R. H.

Hughes
K.

Miller
A. N.

et al.

Encontrar agulhas em palheiros: a ligação de nomes científicos, amostras de referência e dados moleculares para Fungos
Banco de dados
de 2014
1
21

Zhang
G.

Ele
C.

Ele
Q.

Ele
B.

Larkin
D. M.

Lee
C.

Storz
J. F.

Antunes
A.

Greenwold
M. J.

Meredith
R. W.

et al.

genômica Comparativa revela percepções sobre a gripe das aves genoma evolução e adaptação
Ciências
de 2014
346
1311
1320

O
E. D.

Mirarab
S.

Aberer
A. J.

Ele
B.

Houde
P.

Ele
C.

Ho
S. Y.

Lançamento
a. C.

Nabholz
B.

Howard
J. T.

et al.

Todo o genoma análises resolver início de ramos na árvore de vida das aves modernas
Ciências
de 2014
346
1320
1331

Farrell
C. M.

O’leary
N. A.

Harte
R. A.

Loveland
J. E.

Wilming
L. G.

Wallin
C.

Diekhans
M.

Barril
D.

Searle
S. M.

Aken
B.

et al.

estado Actual e os novos recursos do Consenso de Codificação Seqüência de banco de dados
Ácidos Nucléicos Res.
de 2014
42
D865
D872

Pruitt
K. D.

Tatusova
T.

Maglott
D.R.

NCBI reference sequências (RefSeq): uma curadoria não-redundante base de dados de sequências de genomas, de transcritos e proteínas
Ácidos Nucléicos Res.
2007
35
D61
D65

Hopkins
B. D.

Multa
B.

Steinbach
N.

Dendy
M.

Rapp
Z

Shaw
J.

Ross
K.

Yu
J. S.

Hodakoski
C.

Mense
S.

et al.

O secretada PTEN fosfatase que entra nas células, para alterar a sinalização e a sobrevivência
Ciências
2013
341
399
402

Liang
H.

Ele
S.

Yang
J.

Jia
X.

Wang
P.

Cão
X.

Zhang
Z

Zoo
X.

McNutt
M. A.

Sheng
W. H.

et al.

PTENalpha, a isoforma PTEN traduzida através de iniciação alternativa, regula a função mitocondrial e o metabolismo energético
célula Metab.
de 2014
19
836
848

Bolouri
H.

Modeling genome regulatory networks with big data
Trends Genet.: TIG
de 2014
30
182
191

Fagerberg
L.

Hallstrom
B. M.

Oksvold
P.

Kampf
C.

Djureinovic
D.

Odeberg
J.

Habuka
M.

Tahmasebpoor
S.

Danielsson
A.

Edlund
K.

et al. varredura da expressão específica do tecido humano por integração genómica da transcriptómica e Proteómica à base de anticorpos

Mol. Celula. Proteômica : MCP
de 2014
13
397
406

Bernstein
B. E.

Stamatoyannopoulos
J. A.

Costello
J. F.

Cintura
B.

Milosavljevic
A.

Meissner
A.

Kellis
M.

Marra
M. A.

Beaudet
A. L.

Ecker
J. R.

et al.

the NIH roadmap epigenomics mapping consortium
Nat. Biotechnol.
2010
28
1045
1048

Hoffman
M. M.

Ernst
J.

Wilder
S. P.

Kundaje
A.

Harris
R. S.

Libbrecht
M.

Giardine
B.

Ellenbogen
P. M.

Bilmes
J. A.

Birney
E.

et al.

anotação Integrativa de elementos cromáticos a partir de dados codificados
ácidos nucleicos Res.
2013
41
827
841

Derti
A.

Garrett-Engele
P.

Macisaac
K. D.

Stevens
R.C.

Sam
S.

Cão
R.

Rohl
C. A.

Johnson
J. M.

Babak
T.

O quantitativo atlas de polyadenylation em cinco mamíferos
Genoma Res.
2012
22
1173
1183

Lin
M. F.

Jungreis
I.

Kellis
M.

PhyloCSF: a genômica comparativa método para distinguir proteína codificantes e não-codificantes
Bioinformática
2011
27
i275
282

Preço
A. L.

Jones
N. C.

Pevzner
P. A.

De novo identificação de repetição de famílias em grandes genomas
Bioinformática
2005
21 Suppl 1
i351
358

Kodzius
R.

Kojima
M.

Nishiyori
H.

Nakamura
M.

Fukuda
S.

Tagami
M.

Sasaki
D.

Imamura
K.

Kai
C.

Harbers
M.

et al.

CAGE: análise do casulo da expressão genética
Nat. Métodos de
2006
3
211
222

Morris
K. V.

Mattick
J. S.

O aumento de regulamentar RNA
Nat. Rev. Genet.
de 2014
15
423
437

Evin
G.

Hince
C.

BACE1 como um alvo terapêutico na doença de Alzheimer: a lógica e o estado actual
Drogas Envelhecimento
2013
30
755
764

Yu
X.

Ele
Z

há muito Tempo não-codificação do RNA HOTAIR:um romance oncogene (revisão)
Mol. Med. Rep.
2015
12
5611
5618

Zasloff
M.

péptidos antimicrobianos na saúde e na doença
N. Engl. J. Med.
2002
347
1199
1200

Lander
E. S.

Linton
L. M.

Birren
B.

Nusbaum
C.

Zody
M. C.

Baldwin
J.

Devon
K.

Dewar
K.

Doyle
M.

FitzHugh
W.

et al.

Inicial de seqüenciamento e análise do genoma humano
a Natureza
2001
409
860
921

Paredes
S.

Lee
X.

Ele
X.

Veldman
G. M.

Finnerty
H.

Racie
L.

LaVallie
E.

Tang
X. Y.

Domingo
P.

Howes
S.

et al.

Syncytin é um cativo retrovirais envelope de proteínas envolvidas na placenta humana morfogênese
a Natureza
2000
403
785
789

Marzluff
W. F.

Gongidi
P.

a Floresta
K. R.

Jin
J.

Maltais
L. J.

O humano e o rato de replicação dependente da histona genes
Genômica
2002
80
487
498

Dar
V.

Karpiuk
S

Tieg
B.

Kriegs
M.

Dikomey
E.

Krebber
H.

Begus-Nahrmann
Y.

Johnsen
S. A.

O subconjunto de histona H2B genes produz polyadenylated mRNAs sob uma variedade de condições de celular
PLoS One
2013
8
e63745

Barbosa
C.

Peixeiro
I.

Romão
L.

a expressão do Gene regulamento, pelo montante de leitura aberta quadros e doença humana
PLoS Genet.
2013
9
e1003529

Rajput
B.

Murphy
T. D.

Pruitt
K. D.

RefSeq curadoria e anotação de antizyme e antizyme inibidor de genes em vertebrados
Ácidos Nucléicos Res.
2015
43
7270
7279

Zhang
Z. P.

Animal biodiversidade: Estrutura de tópicos de nível superior taxonomia e levantamento de riqueza taxonômica (Anexos 2013)
Zootaxa
2013
3703
1
82

Holt
R. A.

Subramanian
G. M.

Halpern
A.

Sutton
G. G.

Charlab
R.

Nusskern
R. D.

Wincker
P.

Clark
A. G.

Ribeiro
J. M.

Wides
R.

et al.

A sequência do genoma do mosquito da malária Anopheles gambiae
Ciências
2002
298
129
149

Knight
M.

Arican-Goktas
H. D.

Ittiprasert
W.

Odoemelam
E. C.

Miller
A. N.

Bridger
J. M.

Schistossomas e caracóis: um encontro molecular
frente. Genet.
de 2014
5
230

O Sequenciamento do Genoma, C.
Insights sobre insetos sociais a partir do genoma da crescente Apis mellifera
a Natureza
2006
443
931
949

Xia
Q.

Zhou
Z

Lu
C.

Cheng
D.

Dai
F.

Ele
B.

Zhao
P.

Zha
X.

Cheng
T.

Chai
C.

et al.

Um projecto de sequência para o genoma do domesticados bicho-da-seda (Bombyx mori)
Ciências
2004
306
1937
1940

Zhang
G.

Fang
X.

Guo
X.

Ele
L.

Luo
R.

Xu
F.

Yang
P.

Zhang
L.

Wang
X.

Qi
H.

et al.

O oyster genoma revela o estresse de adaptação e a complexidade do shell de formação
a Natureza
2012
490
49
54

i5K, Consórcio
O i5K Iniciativa: promover artrópodes genómica para o conhecimento, a saúde humana, a agricultura, a e o ambiente
J. Hereditariedade
2013
104
595
600

os Cientistas
G. C. o.

Samambaia-Grissom
H.

Collins
A. G.

Collins
T.

Crandall
K.

Distel
D.

Dunn
C.

Giribet
G.

Haddock
S.

Knowlton
N.

et al.

the Global Invertebrate Genomics Alliance( GIGA): developing community resources to study diverse invertebrate genomes
J. Hereditariedade
de 2014
105
1
18

Schoch
C. L.

Seifert
K. A.

Huhndorf
S.

Robert
V.

Spouge
J. L.

Levesque
C. A.

Cão
W.

Bolchacova
E.

Voigt
K.

Crous
P. W.

et al.

Nuclear ribosomal internal transcribed spacer (ITS) region as a universal DNA barcode marker for Fungi
Proc. Natl. Acad. Ciência. U. S. A.
2012
109
6241
6246

Visagie
C. M.

Houbraken
J.

Frisvad
J. C.

Hong
S. B.

Klaassen
C. H.

Perrone
G.

Seifert
K. A.

Varga
J.

Yaguchi
T.

Sansão
R. A.

a Identificação e o bom do gênero Penicillium
parafuso prisioneiro. Mycol.
de 2014
78
343
371

Corte
L.

dizer Cagno
R.

Groenewald
M.

Roscini
L.

Colabella
C.

Gobbetti
M.

Cardinali
G.

Fenotípica e molecular diversidade de Meyerozyma guilliermondii cepas de um isolado de alimentos e de outros nichos ambientais, dicas para a incipiente especiação
Alimentos Microbiol.
2015
48
206
215

Federhen
S.

material em Estoque no NCBI Banco de dados de Taxonomia
Ácidos Nucléicos Res.
2015
43
D1086
D1098

Nilsson
R. H.

Tedersoo
L.

Ryberg
M.

Kristiansson
E.

Hartmann
M.

Unterseher
M.

Porter
T. M.

Bengtsson-Palme
J.

Walker
D. M.

de Sousa
F.

et al.

the comprehensive, automatically updated fungal ITS sequence dataset for reference-based chimera control in environmental sequencing efforts
Microb. Por volta de/JSME
2015
30
145
150

Mittelbach
M.

Yurkov
A. M.

Nocentini
D.

Nepi
M.

Weigend
M.

Begerow
D.os açúcares de néctar e a visitação de aves definem a lambidela floral da levedura basidiomicetosa nas ilhas Canárias.
2015
15
2

Irinyi
L.

Serena
C.

Garcia-Hermoso
D.

Arabatzis
M.

Desnos-Ollivier
M.

Vu
D.

Cardinali
G.

Arthur
I.

Normand
A. C.

Giraldo
A.

et al. The International Society of Human and Animal Mycology(ISHAM)–ITS reference DNA barcoding database-the quality controlled standard tool for routine identification of human and animal pathogenic fungi

Med. Mycol.
2015
53
313
337

Schoch
C. L.

Seifert
K. A.

Huhndorf
S.

Robert
V.

Spouge
J. L.

Levesque
C. A.

Chen
W.

Fúngicas de código de barras
C.

Fúngicas de código de barras Consórcio Autor, L.
o Nuclear ribossomal espaçadores internos transcritos (ITS) região como um universal de código de barras de DNA marcador para Fungos
Proc. Natl. Acad. Ciência. EUA.
2012
109
6241
6246

Besemer
J.

Lomsadze
A.

Borodovsky
M.

GeneMarkS: uma auto-método de treinamento para a predição de genes, começa em genomas microbianos. Implicações para encontrar a sequência de motivos regulamentares regiões
Ácidos Nucléicos Res.
2001
29
2607
2618

Borodovsky
M.

Lomsadze
A.

Gene de identificação em procariontes genomas, fagos, metagenomes, e seqüências de ests com GeneMarkS suite
Curr. Protoc. Microbiol.
de 2014
32
Unidade 1 7

Tatusova
T.

Ciufo
S.

Federhen
S.

Fedorov
B.

McVeigh
R.

O’neill
K.

Tolstói
I.

Zaslavsky
L.

Atualização em RefSeq microbiana genomas recursos
Ácidos Nucléicos Res.
2015
43
D599
D605

Brister
J. R.

Ako-Adjei
D.

Bao
Y

Blinkova
S

NCBI viral genomas de recursos
Ácidos Nucléicos Res.
2015
43
D571
D577

Adams
M. J.

Lefkowitz
E. J.

Rei
A. M.

Bamford
D. H.

Breitbart
M.

Davison
A. J.

Ghabrial
S. A.

Gorbalenya
, A. E.

Beyoncé
N. J.

Krell
P.

et al.

Ratification vote on taxonomic proposals to the International Committee on Taxonomy of Viruses (2015)
Arch. Anilha.
2015
160
1837
1850

Bao
Y

Chetvernin
V.

Tatusova
T.

Par de Comparação de sequências (PASC) e sua aplicação na taxonomia de filoviruses
Vírus
2012
4
1318
1327

Bao
Y

Chetvernin
V.

Tatusova
T.

Melhorias para o par de comparação de sequências (PASC): o genoma ferramenta web para detecção de vírus taxonomia
Arco. Anilha.
de 2014
159
3293
3304

Kuhn
J. H.

Durrwald
R.

Bao
Y

Briese
T.

Dióxido
K.

Clawson
A. N.

deRisi
J. L.

Garten
W.

Jahrling
P. B.

Kolodziejek
J.

et al.

reorganização taxonômica da família Bornaviridae
Arch. Anilha.
2015
160
621
632

Radoshitzky
S. R.

Bao
Y

Buchmeier
M. J.

Charrel
R.N.

Clawson
A. N.

Clegg
C. S.

DeRisi
J. L.

Emonet
S.

Gonzalez
J. P.

Kuhn
J. H.

et al.

passado, presente e futuro da taxonomia de arenavírus
Arch. Anilha.
2015
160
1851
1874

Brister
J. R.

Bao
Y

Zhdanov
S. A.

Ostapchuck
Y

Chetvernin
V.

Kiryutin
B.

Zaslavsky
L.

Kimelman
M.

Tatusova
T. A.

Variação Vírus do Recurso atualizações recentes e futuras direções
Ácidos nucléicos Res.
de 2014
42
D660
665

Seto
D.

Chodosh
J.

Brister
J. R.

Jones
M. S.

os Membros do Adenovírus Pesquisa, C.
usando a sequência do genoma inteiro para caracterizar e nomear adenovírus humanos
J. Ferrule.
2011
85
5701
5702

Matthijnssens
J.

Ciarlet
M.

Mcdonald’
S. M.

Attoui
H.

Banyai
K.

Brister
J. R.

Buesa
J.

Esona
M. D.

Estes
M. K.

Gentsch
J. R.

et al. uniformidade da estirpe do rotavírus bom proposta pelo Grupo de trabalho da taxonomia do rotavírus (RCWG)

Arch. Anilha.
2011
156
1397
1413

Brister
J. R.

Bao
Y

Kuiken
C.

Lefkowitz
E. J.

Le Mercier
P.

Leplae
R.

Madupu
R.

Scheuermann
R. H.

Schobel
S.

Seto
D.

et al.

no Sentido de anotação de genoma viral normas, relatório de 2010 do NCBI Anotação Workshop
Vírus
2010
2
2258
2268

Brister
J. R.

Le Mercier
P.

Hu
J. C.

Microbiana genoma do vírus anotação-mobilização de tropas para combater a sequência de ataque
Virologia
2012
434
175
180

Kuhn
J. H.

Andersen
K. G.

Bao
Y

Bavari
S.

Becker
S.

Bennett
R. S.

Bergman
N. H.

Blinkova
S

Bradfute
S.

Brister
J. R.

et al.

Filovirus RefSeq entradas: avaliação e seleção de filovirus tipo de variantes de típico, sequências, e nomes
Vírus
de 2014
6
3663
3682

Ako-Adjei
D.

Fu
W.

Wallin
C.

Katz
K. S.

Música
G.

Darji
D.

Brister
J. R.

Ptak
R. G.

Pruitt
K. D.

HIV-1, a interação humana banco de dados: situação atual e novas funcionalidades
Ácidos Nucléicos Res.
2015
43
D566
570

Nawrocki
E. P.

Burge
S.W.

Bateman
A.

Massa
J.

Eberhardt
R. Y.

Eddy
S. R.

Floden
E. W.

Gordon
P. P.

Jones
T. A.

Tate
J.

et al.

Rfam 12.0: actualizações à base de dados das famílias de ARN
ácidos nucleicos Res.
2015
43
D130
D137

Publicado pela Oxford University Press em nome de Ácidos Nucléicos de Investigação de 2015. Este trabalho é escrito por(a) empregado (s) do Governo dos EUA e está no domínio público nos EUA.

Deixe uma resposta

O seu endereço de email não será publicado.