- Abstract
- INTRODUZIONE
- Prefissi di adesione RefSeq
- GENERAZIONE DEL SET DI DATI REFSEQ
- ACCESSO AL DATASET REFSEQ
- CRESCITA E STATISTICHE
- Crescita annuale del numero di organismi, proteine e trascritti rappresentati nella versione completa di RefSeq, per directory di rilascio FTP
- VERTEBRATI
- Progetto RefSeqGene
- Incorporazione di RNA-Seq e altri tipi di dati nella cura basata sulla trascrizione
- RNA lunghi non codificanti (LNCRNA)
- Annotazione funzionale
- Peptidi antimicrobici (AMPs)
- Retrovirus endogeni (ERV)
- Istoni dipendenti dalla replicazione
- Quadri di lettura aperti a monte normativi (UORF)
- Antizyme genes
- INVERTEBRATI
- PIANTE
- ALGHE, FUNGHI, NEMATODI E PROTOZOI
- Loci fungini mirati
- PROCARIOTI
- Loci Prokaryotic mirati
- VIRUS
- DIREZIONI FUTURE
- FINANZIAMENTO
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Il progetto RefSeq sfrutta i dati presentati all’International Nucleotide Sequence Database Collaboration (INSDC) contro una combinazione di calcolo, cura manuale e collaborazione per produrre un set standard di sequenze di riferimento stabili e non ridondanti. Il progetto RefSeq aumenta queste sequenze di riferimento con le conoscenze attuali, comprese le pubblicazioni, le caratteristiche funzionali e la nomenclatura informativa. Il database rappresenta attualmente sequenze da più di 55 000 organismi (>4800 virus, >40 000 procarioti e >10 000 eucarioti; Medlars rilascio 71), che vanno da un singolo record di genomi completi. Questo documento riassume lo stato attuale dei rami virali, procarioti ed eucariotici del progetto RefSeq, riporta miglioramenti all’accesso ai dati e dettagli sugli sforzi per espandere ulteriormente la rappresentazione tassonomica della collezione. Evidenziamo anche diverse iniziative di cura funzionale che supportano molteplici usi dei dati RefSeq, tra cui la convalida tassonomica, l’annotazione del genoma, la genomica comparativa e i test clinici. Riassumiamo il nostro approccio all’utilizzo di RNA-Seq disponibili e altri tipi di dati nel nostro processo di cura manuale per vertebrati, piante e altre specie e descriviamo una nuova direzione per i genomi procariotici e la gestione del nome delle proteine.
INTRODUZIONE
Negli ultimi 15 anni il National Center for Biotechnology Information (NCBI) RefSeq database è servito come risorsa essenziale per la ricerca genomica, genetica e proteomica. La fornitura del progetto RefSeq di genomi di riferimento annotati curati e stabili, trascritti e proteine per virus, microbi, organelli e organismi eucariotici selezionati, ha permesso ai ricercatori di concentrarsi sui migliori dati di sequenza rappresentativi in contrasto con i dati ridondanti in GenBank e di fare riferimento inequivocabilmente a sequenze genetiche specifiche. La collezione RefSeq fornisce genoma esplicitamente collegato, trascrizione, e record di sequenza proteica che incorporano pubblicazioni, nomenclatura informativa, e annotazioni caratteristica standardizzati ed espansi. I record RefSeq sono integrati nelle risorse NCBI, inclusi i database nucleotidici, proteici e BLAST e possono essere facilmente identificati dalla parola chiave “RefSeq” e dai loro distinti prefissi di adesione che definiscono il loro tipo (Tabella 1). Tutti i dati RefSeq sono soggetti a controlli di qualità (QA) con alcuni test QA specializzati sviluppati per diversi taxa o tipi di dati. Ad esempio, tutti i REFSEQ virali sono sottoposti a revisione tassonomica da parte del personale NCBI prima del rilascio pubblico. Le adesioni RefSeq sono ampiamente citate nelle pubblicazioni scientifiche e nei database genetici perché forniscono un sistema di coordinate stabile e coerente che può essere utilizzato come base per la segnalazione di dati specifici del gene, variazioni cliniche e confronti tra specie. Questi standard di sequenza di riferimento sono sempre più importanti perché la segnalazione accurata e la riproducibilità sono componenti vitali per le migliori pratiche nella ricerca biomedica (1).
Prefissi di adesione RefSeq
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteine annotate su NM_ transcript accessions o annotate su molecole genomiche senza una trascrizione istanziata (ad es. alcuni genomi mitocondriali, genomi virali, di riferimento e di genomi batterici |
AP_3 | proteina | Proteine annotata sul AC_ genomica adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
XP_3,5 | proteina | Proteine annotata sul XM_ trascrizione adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
YP_3 | proteina | Proteine annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
WP_6 | proteine | Proteine non ridondanti su più ceppi e specie. Una singola proteina di questo tipo può essere annotato su più di un genoma procariotico |
Prefisso . | Tipo di molecola . | Usa il contesto . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteine annotate su NM_ transcript accessions o annotate su molecole genomiche senza una trascrizione istanziata (ad es. alcuni genomi mitocondriali, genomi virali, di riferimento e di genomi batterici |
AP_3 | proteina | Proteine annotata sul AC_ genomica adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
XP_3,5 | proteina | Proteine annotata sul XM_ trascrizione adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
YP_3 | proteina | Proteine annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
WP_6 | proteine | Proteine non ridondanti su più ceppi e specie. Una singola proteina di questo tipo può essere annotato su più di un genoma procariotico |
1 completo di adesione formato numero composto dal prefisso, tra cui il carattere di sottolineatura, seguito da 6 numeri seguiti da una sequenza numero di versione.
2Il formato di adesione completo è costituito dal prefisso seguito dal numero di adesione INSDC su cui si basa il record RefSeq seguito dal numero di versione della sequenza RefSeq.
3Il formato completo del numero di adesione è costituito dal prefisso, incluso il carattere di sottolineatura, seguito da 6 o 9 numeri seguiti dal numero di versione della sequenza.
4Records con questo prefisso di adesione sono stati curati da personale NCBI o un database organismo modello, o sono nel pool di adesioni che curatori lavorano con. Questi record sono indicati come il set di dati RefSeq ‘noto’.
5i registri con questo prefisso di adesione vengono generati tramite la pipeline di annotazione del genoma eucariotico o la pipeline di annotazione del genoma eucariotico piccolo. I record generati tramite il primo metodo sono indicati come set di dati RefSeq “modello”.
6IL formato completo del numero di adesione è costituito dal prefisso, incluso il carattere di sottolineatura, seguito da 9 numeri seguiti dal numero di versione. Il numero di versione è sempre’.1 ‘ poiché questi record non sono soggetti ad aggiornamento. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteine annotate su NM_ transcript accessions o annotate su molecole genomiche senza una trascrizione istanziata (ad es. alcuni genomi mitocondriali, genomi virali, di riferimento e di genomi batterici |
AP_3 | proteina | Proteine annotata sul AC_ genomica adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
XP_3,5 | proteina | Proteine annotata sul XM_ trascrizione adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
YP_3 | proteina | Proteine annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
WP_6 | proteine | Proteine non ridondanti su più ceppi e specie. Una singola proteina di questo tipo può essere annotato su più di un genoma procariotico |
Prefisso . | Tipo di molecola . | Usa il contesto . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteine annotate su NM_ transcript accessions o annotate su molecole genomiche senza una trascrizione istanziata (ad es. alcuni genomi mitocondriali, genomi virali, di riferimento e di genomi batterici |
AP_3 | proteina | Proteine annotata sul AC_ genomica adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
XP_3,5 | proteina | Proteine annotata sul XM_ trascrizione adesioni o annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
YP_3 | proteina | Proteine annotata sulla genomica molecole senza creata un’istanza di trascrizione delle registrazioni |
WP_6 | proteine | Proteine non ridondanti su più ceppi e specie. Una singola proteina di questo tipo può essere annotato su più di un genoma procariotico |
1 completo di adesione formato numero composto dal prefisso, tra cui il carattere di sottolineatura, seguito da 6 numeri seguiti da una sequenza numero di versione.
2Il formato di adesione completo è costituito dal prefisso seguito dal numero di adesione INSDC su cui si basa il record RefSeq seguito dal numero di versione della sequenza RefSeq.
3Il formato completo del numero di adesione è costituito dal prefisso, incluso il carattere di sottolineatura, seguito da 6 o 9 numeri seguiti dal numero di versione della sequenza.
4Records con questo prefisso di adesione sono stati curati da personale NCBI o un database organismo modello, o sono nel pool di adesioni che curatori lavorano con. Questi record sono indicati come il set di dati RefSeq ‘noto’.
5i registri con questo prefisso di adesione vengono generati tramite la pipeline di annotazione del genoma eucariotico o la pipeline di annotazione del genoma eucariotico piccolo. I record generati tramite il primo metodo sono indicati come set di dati RefSeq “modello”.
6IL formato completo del numero di adesione è costituito dal prefisso, incluso il carattere di sottolineatura, seguito da 9 numeri seguiti dal numero di versione. Il numero di versione è sempre’.1 ‘ poiché questi record non sono soggetti ad aggiornamento. Per ulteriori informazioni, consultare la documentazione online: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Negli ultimi anni tecniche di sequenziamento avanzate hanno facilitato un sostanziale aumento delle sottomissioni di assemblaggio dell’intero genoma alle banche dati pubbliche. Di conseguenza, il progetto RefSeq ha ampliato in modo coerente la profondità e l’ampiezza dei taxa inclusi nel set di dati principalmente attraverso miglioramenti a diverse pipeline di annotazione interne. Tutti i taxa sono nell’ambito dell’inclusione di RefSeq; tuttavia, l’annotazione è spesso limitata a quegli organismi per i quali è disponibile un assemblaggio del genoma primario di alta qualità con informazioni sull’organismo non contestate. Pertanto, potremmo escludere alcune categorie di dati che non soddisfano i nostri standard di qualità. I set di dati esclusi includono: metagenomi, assiemi con bassi valori di contig N50 o un numero particolarmente elevato di scaffold/contig non posizionati (ad esempio elevata frammentazione) o genomi che presentano significative discrepanze o variazioni indelebili rispetto ad altri genomi strettamente correlati per la specie (ad esempio alcuni procarioti).
Un aspetto unico del set di dati RefSeq è l’approccio combinato di sfruttare il calcolo, la collaborazione e la cura da parte del personale scientifico NCBI. Come grande struttura bioinformatica, NCBI ha investito nello sviluppo di flussi di processo robusti per generare annotazioni ed eseguire test di garanzia della qualità per genomi, trascritti e proteine eucariotici e procariotici. Miglioramenti al flusso di processo genomi virali sono in corso. Il gruppo RefSeq collabora con numerosi gruppi di esperti, tra cui le autorità ufficiali di nomenclatura (ad es. HUGO Gene Nomenclature Committee (HGNC) and Zebrafish Information Network (ZFIN) for human and zebrafish gene names respectively), UniProtKB (protein names) and miRBase (microRNAs) (2-5). Queste e altre collaborazioni aiutano a mantenere e migliorare la qualità del set di dati RefSeq attraverso rapporti QA, scambi di informazioni sui geni e sulle sequenze e scambi di informazioni funzionali. Il personale NCBI fornisce anche supporto per la cura di virus, procarioti, eucarioti, organelli, plasmidi e progetti mirati, tra cui la cura di geni e sequenze per Homo sapiens, Mus musculus e altri organismi. I curatori di RefSeq migliorano la qualità del database attraverso la revisione dei risultati dei test QA, il coinvolgimento nella selezione di determinati input per l’elaborazione dell’annotazione del genoma, l’analisi delle sequenze, l’analisi tassonomica e la revisione funzionale. Curation supporta anche miglioramenti alle pipeline di annotazione del genoma in quanto gli esperti di contenuti aiutano a definire approcci programmatici per modellare sia la biologia tipica che quella atipica. Per gli eucarioti, in particolare i mammiferi, la curazione basata sulla trascrizione definisce i “migliori” rappresentanti di sequenza (come RefSeqs”noti”; Tabella 1 nota a piè di pagina) che vengono utilizzati come reagente di input primario nella pipeline di annotazione del genoma eucariotico (http://www.ncbi.nlm.nih.gov/books/NBK169439/). I miglioramenti nella qualità del reagente in ingresso a loro volta aggiungono una qualità e una riproducibilità significative all’annotazione del genoma risultante. Questo tipo di cura manuale è stato storicamente focalizzato sull’uomo e sul topo a causa della loro unica importanza biomedica (6). Più recentemente questi sforzi curativi hanno dato maggiore attenzione a Rattus norvegicus, Danio rerio, Bos taurus e Gallus gallus. Queste specie sono rilevanti per la salute umana e per la sostenibilità agricola.
In questo articolo, riportiamo i nostri progressi nell’espansione del set di dati RefSeq per includere organismi più diversi, descriviamo miglioramenti nell’accesso ai dati e forniamo esempi che illustrano una maggiore attenzione alla fornitura di set di dati filogeneticamente utili e annotazioni di funzionalità funzionali sulla trascrizione RefSeq e sui record di proteine. Prevediamo che questi sforzi e miglioramenti nel set di dati RefSeq continueranno a contribuire al progresso della ricerca traslazionale medica, miglioramenti agricoli, identificazione filogenetica e studi evolutivi.
GENERAZIONE DEL SET DI DATI REFSEQ
I record di sequenza RefSeq vengono generati con metodi diversi a seconda della classe di sequenza e dell’organismo. I genomi Archaeal e batterici (vedi sezione procarioti) sono annotati usando la pipeline di annotazione del genoma procariota di NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mentre un piccolo numero di genomi batterici di riferimento sono supportati dalla collaborazione e dalla cura manuale. I genomi eucariotici RefSeq sono forniti utilizzando due flussi di processo. La maggior parte dei genomi di piante, animali, insetti e artropodi è annotata dalla pipeline di annotazione del genoma eucariotico. Questa pipeline genera risultati di annotazione basati sui dati di trascrizione disponibili (inclusi i dati RNA-Seq e transcriptome shotgun Assembly (TSA)), così come l’omologia delle proteine, la previsione ab initio (in gran parte quando i dati del trascrittoma non sono disponibili) e trascritti e proteine RefSeq noti (curati) disponibili (vedere Tabella 1). L’annotazione generata dalla pipeline (model RefSeqs) può avere o meno il supporto per la combinazione completa di esoni da un singolo allineamento di prove, ma può avere il supporto RNA-Seq per le coppie di esoni. I genomi eucariotici che sono stati annotati da questa pipeline sono riportati pubblicamente con collegamenti per scaricare i dati via FTP, per visualizzare o eseguire una query BLAST contro il genoma annotato, o per accedere a un riepilogo dettagliato del rapporto di annotazione (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). La pipeline per un sottoinsieme di eucarioti inclusi funghi, protozoi e nematodi comporta la propagazione di annotazioni che sono state sottoposte all’International Nucleotide Sequence Database Collaboration (INSDC), con standardizzazione del formato, a una copia RefSeq dell’assemblaggio del genoma presentato (vedi Alghe, funghi, nematodi e protozoi).
Il personale NCBI fornisce la maggior parte dell’annotazione del genoma degli organelli RefSeq attraverso la propagazione dalla presentazione INSDC. L’annotazione dei mitocondri dei mammiferi è spesso integrata con la cura manuale. Il progetto RefSeq mantiene anche sequenze di riferimento per progetti loci mirati come RefSeqGene, che è un membro della collaborazione Locus Reference Genomic (LRG) (7), per loci ribosomiali batterici e fungini rRNA, e per sequenze di spaziatori trascritti interni fungini (ITS) (8). Inoltre, un numero significativo di trascritti e proteine umani, topi e altri sono forniti attraverso la collaborazione e la cura manuale che include l’analisi delle sequenze e la revisione della letteratura.
Le pipeline di annotazione procariotica (vedi sotto) ed eucariotica di NCBI hanno tenuto il passo con il crescente numero di assemblaggi del genoma presentati all’INSDC fornendo annotazioni coerenti su copie RefSeq di assemblaggi del genoma presentati di alta qualità selezionati. Ad oggi, 245 genomi eucariotici, tra cui 170 genomi vertebrati, sono stati annotati da questa pipeline, di cui più di 120 specie sono state annotate negli ultimi 20 anni. Tra questo gruppo ci sono 52 specie di uccelli che includono specie rappresentative della maggior parte degli ordini aviari (9,10). C’è stata anche una significativa espansione nel numero di assemblee con annotazioni RefSeq per primati non umani, altri mammiferi, pesci, piante e artropodi.
ACCESSO AL DATASET REFSEQ
La homepage RefSeqhttp://www.ncbi.nlm.nih.gov/refseq/ è un hub centrale per tutti gli aspetti del dataset RefSeq. Questo sito fornisce collegamenti che guidano gli utenti attraverso una descrizione generale del progetto, nonché schede informative, statistiche di crescita e informazioni su progetti RefSeq più mirati come l’iniziativa di ri-annotazione del genoma procariotico, il progetto Consensus Coding Sequence (CCDS) (11) il progetto RefSeqGene e progetti Loci mirati (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). I link alla versione FTP più aggiornata e completa e la documentazione dettagliata sul formato e il contenuto della versione possono essere trovati nella sezione “Annunci” della homepage di RefSeq. I precedenti annunci RefSeq sono disponibili anche da questa pagina. Incoraggiamo fortemente il download di dati RefSeq direttamente da NCBI, come download da altre risorse bioinformatica e genome browser potrebbero non includere tutti i dati disponibili, o può semplicemente riflettere allineamenti di trascrizioni RefSeq ad un genoma, piuttosto che i risultati di annotazione del genoma che vengono generati da NCBI.
I dati di sequenza RefSeq sono accessibili in modo interattivo utilizzando i database nucleotidici e proteici delle BCN, nei database BLAST, attraverso l’interfaccia programmatica dell’NCBI (E-utilities) o attraverso il file transfer protocol (FTP). E-utilities supportano l’accesso script per scaricare i dati RefSeq in una varietà di formati basati su termini di ricerca o liste di adesione; ampia documentazione è disponibile nel manuale NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) e video di formazione sono disponibili dal canale YouTube di NCBI (https://www.youtube.com/user/NCBINLM). Entrambi i database nucleotidici e proteici consentono di limitare i risultati delle query ai soli record RefSeq selezionando ‘RefSeq ‘sotto il’ Database di origine’ nella barra laterale dei filtri. Medlars, i dati possono essere accessibili da altri database NCBI compreso il Montaggio, BioProject, Gene, e Genoma seguendo il link fornito di Nucleotidi, Proteine, FTP o di risorse di Informazioni sulla curatela dei cambiamenti in ambito Medlars gruppo o NCBI aggiornamenti impatto il Medlars database vengono segnalati attraverso varie fonti, tra cui Medlars FTP note di rilascio, periodici report pubblicati, NCBI Annunci di News feed http://www.ncbi.nlm.nih.gov/news/ e attraverso NCBI Intuizioni Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Gli utenti possono anche iscriversi alla mail list refseq-announce per ricevere aggiornamenti periodici sul progetto e un riepilogo del contenuto di ogni release FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
Medlars dati sono distribuiti tramite FTP attraverso due siti, medlars (ftp://ftp.ncbi.nlm.nih.gov/refseq/) e genomi (ftp://ftp.ncbi.nlm.nih.gov/genomes/). Il medlars sito FTP fornisce aggiornamenti quotidiani di tutte le nuove e aggiornate Medlars record, aggiornamenti settimanali di alcuni tipi di dati, e una bi-mensile completo Medlars di rilascio (/medlars/release/). Inoltre, i set di dati di trascrizione e proteine specifici per l’organismo, inclusi umani e topi, vengono aggiornati settimanalmente. La sottodirectory RefSeqGene viene aggiornato quotidianamente, con allineamenti al genoma rilasciato con ogni esecuzione di annotazione. Il rilascio completo bimestrale di RefSeq è organizzato da tassonomici (ad esempio mammiferi vertebrati) o altri raggruppamenti (ad esempio mitocondri). I dati possono anche essere scaricati per l’intera raccolta RefSeq dalla directory / refseq / release / complete/. La versione RefSeq offre un vantaggio per coloro che desiderano mantenere aggiornamenti periodici della raccolta completa o di un singolo gruppo. Esso comprende anche i record che non sono disponibili dal sito companion genomi FTP, come trascrizioni nella collezione che vengono mantenuti indipendentemente da, e non può essere attualmente annotato su, un assemblaggio genoma. Il rilascio è fornito con documentazione significativa dei file installati (/refseq/release/ release-catalog/) tra cui checksum MD5, un elenco di tutti i file installati, così come note di rilascio e annunci (/refseq/release/release-notes/).
I dati RefSeq possono anche essere scaricati dal sito FTP genomi. Nell’agosto 2014 NCBI ha annunciato un’importante riorganizzazione di questo sito FTP che ora fornisce l’assemblaggio e l’accesso basato sull’organismo ai genomi GenBank e RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Questa directory è ulteriormente suddivisa in sottodirectory basate sugli stessi gruppi utilizzati nella versione RefSeq, ognuna delle quali fornisce ulteriori suddivisioni per specie. Il sito FTP genomi fornisce i file che rappresentano tutte le assemblee genoma RefSeq riportati nella risorsa Assembly di NCBI (www.ncbi.nlm.nih.gov/assembly/). Il vantaggio del sito genomi è che i dati sono accessibili in un assemblaggio – o modo specifico dell’organismo. I dati forniti includono sequenza del genoma e del prodotto (trascrizione / proteina), annotazione, rapporti di assemblaggio e statistiche e checksum MD5; questi dati vengono aggiornati quando l’assemblaggio del genoma e/o l’annotazione vengono aggiornati. Quest’area non include sequenze RefSeq che non rientrano nell’ambito di un assemblaggio del genoma o prodotti che non sono annotati su un genoma.
CRESCITA E STATISTICHE
RefSeq FTP release 71 (luglio 2015) include più di 77 milioni di record di sequenza per più di 55 000 organismi. La tabella 2 riassume la crescita del set di dati RefSeq nell’ultimo anno in termini di organismi e numero di record di sequenza rappresentati per ogni area della directory FTP di RefSeq release. I genomi e le proteine batteriche costituiscono la maggior parte del set di dati RefSeq (56% delle adesioni totali e 76% delle >52 milioni di adesioni proteiche). Aumenti significativi nel numero di organismi, proteine e record totali sono visti per invertebrati, piante e organismi eucariotici che è coerente con l’aumento del numero e del throughput dei progetti di sequenziamento del genoma. Un fattore significativo per il continuo alto tasso di crescita dei dati RefSeq sono i miglioramenti nelle pipeline del genoma che generano genomi RefSeq annotati. In particolare, ciò include una maggiore capacità nella pipeline di annotazione del genoma procariotico di NCBI, il ri-sviluppo del flusso di processo che propaga l’annotazione dai genomi genbank eucarioti sui genomi RefSeq e l’incorporazione di prove RNA-Seq nella pipeline di annotazione del genoma eucariotico di NCBI e il suo impatto sulla generazione di REFSEQ modello (XM_, XR_ e XP_ adesioni, Tabella 1).
Crescita annuale del numero di organismi, proteine e trascritti rappresentati nella versione completa di RefSeq, per directory di rilascio FTP
Directory di rilascio . | Organismi . | Variazione%. | Trascrizioni . | Variazione%. | Proteine . | Variazione%. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | Variazione%. | Trascrizioni . | Variazione%. | Proteine . | Variazione%. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (ad esempio archaea.acc_taxid_growth.txt e file correlati). La variazione percentuale annuale si basa sul confronto dei conteggi dei dati per RefSeq release 71 (luglio 2015) e RefSeq release 66 (luglio 2014).
Directory di rilascio . | Organismi . | Variazione%. | Trascrizioni . | Variazione%. | Proteine . | Variazione%. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | Variazione%. | Trascrizioni . | Variazione%. | Proteine . | Variazione%. |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (ad esempio archaea.acc_taxid_growth.txt e file correlati). La variazione percentuale annuale si basa sul confronto dei conteggi dei dati per RefSeq release 71 (luglio 2015) e RefSeq release 66 (luglio 2014).
La drammatica diminuzione del numero di plasmide proteina record e, quindi, il numero totale di adesioni, riflette il completamento di un Medlars batterica genoma ri-annotazione del progetto (http://www.ncbi.nlm.nih.gov/refseq/su/procarioti/reannotation/) e l’adozione del nuovo modello di dati per i procarioti, compresi i loro plasmidi. In questo nuovo modello di dati una singola adesione di proteine non ridondanti RefSeq può essere annotata su più di un record di sequenza genomica quando la traduzione di quelle regioni codificanti proteine genomiche produce una proteina identica (vedere http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Anche la ridondanza in tutte le proteine batteriche è diminuita significativamente; tuttavia, non è evidente qui a causa dei continui aumenti significativi del numero di genomi batterici inclusi nel set di dati. Questi cambiamenti hanno anche provocato un calo complessivo del numero di record di proteine archaeal.
VERTEBRATI
Un gruppo selezionato di vertebrati tra cui Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus e Danio rerio sono l’obiettivo principale dei nostri sforzi di cura manuale basata sulla trascrizione e sulla letteratura. I curatori generalmente lavorano a partire da elenchi di geni con conflitti di dati identificati da test di garanzia della qualità (QA), alcuni dei quali sono stati precedentemente descritti (12). Seguono una serie dettagliata di linee guida durante l’analisi di ciascun gene al fine di garantire la coerenza tra le persone nel set di dati curato. Questa analisi comporta una valutazione approfondita della sequenza e una revisione della letteratura per creare trascrizioni di riferimento, proteine, pseudogeni e record RefSeqGene. I curatori RefSeq generano varianti di trascrizione, risolvono errori di sequenza, rimuovono informazioni imprecise, aggiornano i record per rappresentare correttamente la biologia del locus e aggiungono preziose informazioni funzionali ad alcuni record RefSeq come nomi di proteine migliorati, un riassunto della funzione del prodotto genico, caratteristiche funzionali del gene e/o pubblicazioni pertinenti. La cura manuale e la revisione della letteratura da parte del gruppo RefSeq possono comportare la rappresentazione di varianti e isoforme uniche che non sarebbero previste se basate esclusivamente sull’analisi computazionale. Ad esempio, la revisione della letteratura del gene soppressore tumorale umano, PTEN (phosphatase and tensin homolog, GeneID: 5728) ha rivelato l’esistenza di un’isoforma proteica più lunga risultante dall’uso di un codone di iniziazione CUG upstream alternativo in-frame trovato al centro di una sequenza palindromica a monte del codone iniziale di traduzione dell’mRNA canonico (13). Forti dati sperimentali hanno indicato che questa isoforma mitocondriale-specifica inizia con una leucina, piuttosto che una metionina (14). Il modello di dati RefSeq per gli eucarioti fornisce una trascrizione esplicitamente legata a una proteina. Pertanto, sono stati forniti due registri di trascrizione identici per riflettere la traduzione dai codoni di iniziazione alternativi; NP_000305.3 rappresenta la proteina aminoacidica 403 che utilizza il codone di inizio metionina canonico, mentre NP_001291646.2 rappresenta la proteina aminoacidica 576 localizzata mitocondriale che inizia con una leucina. Pertanto, il processo di curation ha il duplice scopo di fornire sequenze di riferimento accurate che facilitano l’annotazione precisa e riproducibile del genoma e forniscono record che includono informazioni biologiche rilevanti. In questa sezione discutiamo gli aggiornamenti recenti, i miglioramenti che abbiamo apportato al nostro processo di curation manuale ed esempi di progetti di curation focalizzati.
Progetto RefSeqGene
Il sottoprogetto RefSeqGene definisce sequenze genomiche umane da utilizzare come standard di riferimento per geni ben caratterizzati, in particolare per l’uso da parte della comunità genetica clinica. Queste sequenze servono come base stabile per la segnalazione di varianti patogene, per stabilire convenzioni per la numerazione di esoni e introni e per definire le coordinate di altre varianti. Ogni record RefSeqGene si concentra su una regione genomica gene-specifica e in genere è annotato con un sottoinsieme di trascritti RefSeq e proteine selezionati da esperti di dominio. Tali selezioni determinano le caratteristiche di esone. Sono inclusi allineamenti di versioni precedenti della trascrizione/proteina REFSEQ canonica, così come altri REFSEQ noti. Questi record includono tipicamente 5 kilobasi (kb) di sequenza a monte del gene focus e 2 kb di sequenza a valle, per supportare la rappresentazione di potenziali siti regolatori o eliminazioni che si estendono oltre la caratteristica del gene. Un record RefSeqGene può includere informazioni di annotazione per altri geni che si trovano all’interno dei suoi confini. Record RefSeqGene sono esaminati inizialmente da database locus specifici e personale NCBI. RefSeqGene è un membro della collaborazione LRG (7) che fornisce ulteriore revisione dei dati di sequenza prima di aggiungere un’adesione LRG. Un recente focus di lavoro ha ampliato il numero di record RefSeqGene per rappresentare tutti i geni per i quali almeno due test clinici sono stati presentati al registro dei test genetici NIH (GTR). In questo momento ci sono 5596 record RefSeqGene, di cui 633 hanno un’adesione LRG. I record RefSeqGene possono essere recuperati cercando nel database nucleotidico con ‘refseqgene’, dalle loro adesioni LRG, navigando nel sito web RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/), o via FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
Incorporazione di RNA-Seq e altri tipi di dati nella cura basata sulla trascrizione
Un obiettivo principale del progetto di cura RefSeq è quello di rappresentare sequenze di riferimento di trascritti e proteine di alta qualità e a lunghezza intera. Come tale, i nostri criteri di curation si basano principalmente sulla trascrizione convenzionale (mRNA e ESTs) e sugli allineamenti proteici e sulle prove pubblicate. Tuttavia, i progetti di trascrittoma vertebrato sono diventati sempre più complessi con la maggior parte dei nuovi dati di trascrizione attualmente generati dalla tecnologia di sequenziamento a lettura breve. Studi su tutto il genoma che esaminano modelli globali di marchi epigenetici associati al promotore forniscono anche prove di promotori attivi e / o trascrizione attiva. Il gruppo RefSeq ha adattato le pratiche di curation per incorporare questi nuovi tipi di dati per migliorare la nostra annotazione manuale, in particolare nei casi in cui un gene o una variante manca di un abbondante supporto di trascrizione convenzionale. Questi studi RNA-Seq ed epigenomici hanno generato enormi set di dati che presentano una sfida per i gruppi di annotazione genica, ad esempio attraverso potenziali falsi positivi e la mancanza di supporto per combinazioni di esoni a lungo raggio (15). I curatori di RefSeq mitigano i falsi positivi incorporando selettivamente solo set di dati di alta qualità da prendere in considerazione nella nostra pipeline di annotazione del genoma e nel processo di annotazione manuale. I curatori RefSeq visualizzano allineamenti di trascrizione, dati di variazione e dati RNA-Seq filtrati in display personalizzati all’interno di uno strumento di allineamento interno incorporato nella piattaforma NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curation of human genes utilizza l’RNA-Seq analizzato legge dai progetti Illumina BodyMap 2 (BioProject: PRJEB2445) e Human Protein Atlas (BioProject: PRJEB4337) (16). Inoltre i curatori utilizzano marchi di modifica degli istoni associati al promotore come H3K4me3 del NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) e il progetto ENCODE (Encyclopedia of DNA Elements) (18) per verificare la presenza di un promotore attivo. I curatori di RefSeq valutano anche i dati di polyA-seq per affermare la completezza di 3 ‘ delle trascrizioni prive di una coda di polyA (19). Ulteriori tipi di dati, tra cui PhyloCSF (20), CpGIslands, RepeatMasker (21) e analisi Cap di espressione genica (GABBIA) dati (22), sono talvolta utilizzati come supporto aggiuntivo.
RNA lunghi non codificanti (LNCRNA)
Il gruppo RefSeq continua ad espandersi significativamente sulla rappresentazione di RNA strutturali e micro-codificanti, pseudogeni trascritti e LNCRNA in gran parte non caratteristici. Questa classe di geni è generalmente definita come trascritti > 200 nt di lunghezza che mancano di un forte potenziale di codifica delle proteine (23). I record lncRNA RefSeq sono generati dalla cura e attraverso la pipeline di annotazione del genoma eucariotico per i geni lncRNA. NCBI attualmente mantiene oltre 540 000 eucarioti lncRNA RefSeq record, di cui oltre 6700 sono stati curati e solo poche centinaia sono stati funzionalmente caratterizzato. Di questi, molti sono stati implicati nella malattia umana, come BACE1-AS che può svolgere un ruolo nella fisiopatologia della malattia di Alzheimer e HOTAIR che è stato associato a più tumori (24,25). La stragrande maggioranza degli LNCRNA ha funzioni sconosciute e l’assenza di lunghi fotogrammi di lettura aperti rappresenta una sfida in termini di conferma della completezza della trascrizione. Inoltre, le comunicazioni lncRNA all’INSDC sono in gran parte basate su TSA provenienti da set di dati di lettura brevi che possono includere combinazioni di esoni artefatti. I curatori di RefSeq adottano un approccio conservativo per rappresentare i geni lncRNA, creando solo manualmente REFSEQ (con un prefisso di adesione NR_) per trascrizioni di alta qualità per le quali abbiamo una certa certezza della struttura degli esoni. Idealmente, il supporto della trascrizione dovrebbe essere impiombato con almeno tre esoni, ma trascritti a due esoni e intronless possono essere rappresentati se sono supportati da epigenomica associata al promotore, prove poli(A), CDNA aggiuntivi e/o dati RNA-Seq. RefSeq lncRNA record per i geni non codificanti possono essere recuperati dal database nucleotidico NCBI utilizzando la stringa di ricerca ‘biomol ncrna lncrna ‘ e selezionando il filtro RefSeq dalla colonna di sinistra.
Annotazione funzionale
Il contributo unico dei record di trascrizione refseq eucariotici curati è che integrano informazioni funzionali con una sequenza di riferimento. Lo staff di RefSeq curation aggiunge riassunti genici, nomenclatura, testo della variante di trascrizione, attributi genici e di sequenza e caratteristiche funzionali disponibili sul record RefSeq e/o attraverso la risorsa genica (http://www.ncbi.nlm.nih.gov/gene). Nell’ultimo anno, lo staff di RefSeq ha portato avanti diversi progetti di annotazione approfonditi, alcuni dei quali sono brevemente descritti nei paragrafi seguenti, per aggiungere dati funzionali a specifici set di geni in cui gli strumenti computazionali non sono in grado di rappresentare con precisione la conoscenza biologica. Questi progetti includono annotazione di peptidi antimicrobici, retrovirus endogeni, istoni replicanti-dipendenti, UORF regolatori e antizimi.
Peptidi antimicrobici (AMPs)
AMPs sono stati un recente focus curation (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Gli AMP sono peptidi naturali che si trovano in una vasta gamma di specie e sono stati implicati in molti ruoli immunitari, tra cui attività battericide, antivirali, antifungine e persino antitumorali. Un elenco di oltre 130 geni umani che codificano uno o più AMP sperimentalmente provati è stato raccolto da diversi set di dati AMP disponibili al pubblico e anche estratto da pubblicazioni. La maggior parte di questi AMP non era stata precedentemente identificata nel database RefSeq e nessuno dei database AMP collegava i peptidi al loro gene codificante. Medlars curatori manualmente commentato il Medlars record per ogni AMP-la codifica del gene umano per garantire che il funzionale peptide è stato annotato, per includere una pubblicazione che descrive l’attività antimicrobica del peptide, per aggiungere un breve riassunto dell’attività antimicrobica di codifica AMP, e per memorizzare un nuovo Medlars attributo ‘Proteina ha attività antimicrobica’, che è inclusa nel Medlars attributo strutturato commento (ad esempio NM_001124.2 per ADM; GeneID: 133). Per accedere a tutte le trascrizioni umane curate o ai record di proteine AMP, cerca nel database di nucleotidi o proteine usando “La proteina ha attività antimicrobica”. Attualmente, questa ricerca troverà 191 record RefSeq, tra cui varianti di giunzione e isoforme proteiche.
Retrovirus endogeni (ERV)
I retrovirus endogeni (ERV) sono loci genomici derivati dall’inserimento ancestrale di un retrovirus esogeno nel genoma ospite. I loci ERV sono generalmente fuori portata per RefSeq; tuttavia, annotiamo loci di codifica delle proteine ERV a lunghezza intera che mappano in una singola posizione genomica se si sono evoluti per servire una funzione host, sono associati a una malattia nota e/o se sono stati assegnati alla nomenclatura da un comitato di nomenclatura ufficiale. Circa l ‘ 8% del genoma umano è di origine retrovirale (27); tuttavia, a causa delle loro antiche origini, la maggior parte dei loci ERV umani ha accumulato mutazioni senza senso e non può più codificare una proteina. Le proteine syncytin, che sono coinvolte nello sviluppo placentare (28), sono un’eccezione ben nota a questo. Le proteine umane syncytin-1 e syncytin-2 sono codificate dai geni ERVW-1 (NM_001130925.1, NM_014590.3) e ERVFRD-1 (NM_207582.2). Ad oggi abbiamo creato 67 REFSEQ per ERV loci, che include record che rappresentano i geni ERV da un insieme diversificato di mammiferi. Una nuova categoria di attributo RefSeq intitolata “retrovirus endogeno” è stata creata per questi record e viene visualizzata in un commento strutturato sul record RefSeq. Questi record possono essere recuperati dal database nucleotidico cercando “retrovirus endogeno”.
Istoni dipendenti dalla replicazione
È necessaria una rapida sintesi di MRNA di istoni durante la divisione cellulare per produrre grandi quantità di proteine istoniche. Critici per questo processo sono i geni istonici dipendenti dalla replicazione che vengono sovraregolati durante la fase G1 / S del ciclo cellulare (29). Uno specifico progetto RefSeq è stato intrapreso con l’obiettivo di curare l’insieme completo di geni codificanti proteine istoniche dipendenti dalla replicazione nell’uomo e nel topo. Questi geni hanno una sequenza canonica dell’elemento a valle dell’istone 3 ‘ (HDE) nella sequenza genomica e gli MRNA maturi risultanti mancano tipicamente di poli(A) code e invece terminano poco dopo una struttura del gambo-ciclo dell’RNA (30). L’elemento HDE si trova nella trascrizione precursore ma non è incluso nella trascrizione elaborata rappresentata da RefSeq. La posizione della sequenza di struttura stem-loop a 16 nucleotidi conservata è indicata sul record RefSeq come annotazione caratteristica intitolata “stem-loop”. Un esempio può essere visto sulla voce RefSeq NM_003539. 3 per HIST1H4D (GeneID: 8360). Ad oggi, sono stati curati 127 record REFSEQ dell’istone umano e del mouse dipendenti dalla replica e aggiunto un attributo RefSeq che può essere utilizzato per recuperare questi record dal database nucleotidico utilizzando la stringa di ricerca “istone dipendente dalla replica”.
Quadri di lettura aperti a monte normativi (UORF)
La traduzione di un quadro di lettura aperto a monte (uORF) può influire negativamente sulla traduzione del quadro di lettura aperto a codifica proteica primaria (pORF) (31). Questo effetto non sempre silenzia completamente la traduzione del pORF e può dipendere dal tipo di cellula, dallo stato di sviluppo o dalla condizione cellulare. Pertanto, sebbene uORFs possa essere previsto dalla traduzione a sei fotogrammi di una trascrizione, l’effetto normativo di questo elemento deve essere determinato attraverso la convalida sperimentale. I curatori di RefSeq hanno esaminato la letteratura per trovare trascrizioni con prove sperimentali di UORF normativi e hanno aggiornato i corrispondenti record di trascrizione RefSeq per aggiungere una misc_feature che denota la posizione di questi UORF. Un esempio è la voce RefSeq NM_000392.4 per ABCC2 (GeneID: 1244). È stata creata una nuova categoria di attributi RefSeq intitolata ‘regulatory uORF’ che appare in un commento strutturato su questi record RefSeq. Sia la funzione annotata che l’attributo citano la pubblicazione di supporto di PubMed ID. Ad oggi, 260 record sono stati annotati con questo attributo e questi record possono essere recuperati dal database nucleotidico cercando ‘regulatory uORF ‘
Antizyme genes
Uno degli obiettivi del progetto RefSeq è quello di rappresentare geni con biologia eccezionale che non seguono le regole standard di decodifica della sintesi proteica. Il gene antizyme ornitina decarbossilasi è un esempio, dove si verifica un meccanismo di frameshifting ribosomiale programmato +1 e non può essere previsto da strumenti computazionali convenzionali. Una serie di registri di trascrizione e proteine di antizima vertebrati sono stati recentemente oggetto di uno sforzo di annotazione manuale per creare standard per migliorare l’annotazione di questi prodotti genici dalla pipeline di annotazione del genoma eucariotico (32). I record RefSeq sono stati annotati manualmente con la funzione split CDS per riflettere lo slippage ribosomiale e includono un attributo ‘ribosomal slippage’ con prove pubblicate, varie annotazioni varie di funzionalità (come la posizione del sito di frameshift) e un breve riassunto che descrive la funzione e le nuove proprietà del gene (ad esempio NM_139081.2). Questi record possono essere recuperati dal database nucleotidico o proteico con la query di ricerca: vertebrates refseq ribosomal slippage antizyme. Questa ricerca trova attualmente 242 record RefSeq (NM o NP), che include varianti di trascrizione e isoforme proteiche.
INVERTEBRATI
Le specie di invertebrati rappresentano la stragrande maggioranza dei metazoani esistenti (33); tuttavia, solo un numero relativamente piccolo è rappresentato da genomi sequenziati. Questo nonostante il fatto che molte specie abbiano un’importanza biomedica critica come Anopheles gambiae, un vettore per la malaria e Biomphalaria glabrata, un vettore per la schistosomiasi (34,35). Altri invertebrati tra cui Apis mellifera, Bombyx mori e Crassostrea gigas hanno un significativo valore commerciale (36-38). Il gruppo RefSeq ha compiuto sforzi per aumentare il numero e la portata dei genomi invertebrati rappresentati nel set di dati fornendo annotazioni tramite la pipeline di annotazione del genoma eucariotico o propagando annotazioni da invii INSDC sulla copia RefSeq di tali genomi. Per entrambi i flussi di processo dipendiamo dalla disponibilità pubblica di genomi di alta qualità nei database INSDC e nel database di assemblaggio di NCBI (www.ncbi.nlm.nih.gov/assembly/). Ad oggi 46 genomi di invertebrati sono stati annotati da NCBI tra cui specie rappresentative di insetti, aracnidi, molluschi e cordati basali. Prevediamo una significativa espansione del numero di genomi di insetti e altri invertebrati annotati come risultato di iniziative sul genoma come i5k (39), 1KITE (1K Insect Transcriptome Evolution, http://www.1kite.org/) e la Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).
PIANTE
RefSeq continua ad espandere la diversità delle specie vegetali rappresentate nel set di dati. Ad oggi, 61 specie di piante sono state incluse nel set di dati sui genomi RefSeq (ftp://ftp.ncbi.lmn.NIH.gov / genomes/refseq/ plant/) di cui 33 specie sono state annotate attraverso la pipeline di annotazione del genoma eucariotico; il resto sono copie RefSeq di genomi annotati presentati all’INSDC. In futuro, più genomi vegetali selezionati per l’inclusione di RefSeq verranno elaborati dalla pipeline di annotazione eucariota, piuttosto che propagare l’annotazione dall’invio INSDC. Si tratta di un cambiamento di politica per i genomi delle piante RefSeq e si tradurrà in una maggiore coerenza complessiva dei dati di annotazione delle piante all’interno del set di dati RefSeq. La maggior parte dei trascritti e delle proteine RefSeq disponibili per le specie vegetali sono record “modello” (XM_, XP_ e XR_ accessions; Tabella 1), con un sottoinsieme più piccolo di record “noti” (NM_, NR_, NP_) che vengono mantenuti indipendentemente dal processo di annotazione mediante una combinazione di elaborazione automatizzata e revisione manuale. Per Zea mays e Solanum lycopersicum sono attualmente disponibili curazioni manuali di trascrizione vegetale e dati proteici. L’attuale focus curation comporta un’ampia revisione della sequenza ed è mirato a risolvere i problemi di QA nell’attuale set di trascrizioni. La risoluzione degli errori è focalizzata sull’identificazione e la rimozione di trascrizioni chimeriche, trascrizioni e geni ridondanti e sul miglioramento della qualità della sequenza rappresentata valutando indel e disallineamenti tra la trascrizione RefSeq, la sequenza genomica e i dati ortologhi. Per le piante, ci sforziamo di fornire una trascrizione curata e un set di dati proteici coerenti con la cultivar selezionata per il sequenziamento e l’assemblaggio del genoma. Il protocollo di cura utilizzato per i dati sui vertebrati viene utilizzato anche per le piante. Pertanto, i record di trascrizione RefSeq possono essere aggiornati per essere basati su una sequenza sorgente INSDC diversa o possono essere assemblati da più di un record di sequenza INSDC per fornire una trascrizione dalla cultivar preferita. Se i dati di trascrizione INSDC non sono disponibili per la cultivar genomica, è possibile generare una trascrizione RefSeq dalla sequenza genomica assemblata basata su una combinazione di trascrizione o allineamenti proteici, RNA-Seq e/o dati pubblicati. Una seconda area di messa a fuoco è quello di aumentare il numero di trascritti noti di codifica proteica supportati e proteine come questo fornisce un reagente curata che può essere utilizzato quando annotare altri genomi vegetali. Infine, stiamo facendo più REFSEQ che rappresentano le varianti di giunzione quando ci sono prove sufficienti a sostegno. Questi sforzi miglioreranno significativamente la qualità del set di dati REFSEQ della pianta e contribuiranno a miglioramenti nelle annotazioni future del genoma. L’attuale set di genomi vegetali annotati dalla pipeline è accessibile al sito Web della pipeline di annotazione del genoma eucariotico di NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ con collegamenti al rapporto di annotazione dettagliato e altre risorse come species BLAST e FTP.
ALGHE, FUNGHI, NEMATODI E PROTOZOI
La pipeline NCBI small eukaryotic genome è una nuova pipeline automatizzata progettata per la generazione di record RefSeq come risultato della propagazione diretta di record INSDC annotati. I record RefSeq così generati sono copie dei dati GenBank con alcune modifiche di formato per aderire ai requisiti RefSeq. La differenza più notevole tra il record INSDC originale e il record RefSeq è l’aggiunta del prodotto REFSEQ transcript. Sebbene non progettato per generare annotazione del genoma de novo, la piccola pipeline del genoma eucariotico attinge da molti dei moduli della pipeline di annotazione del genoma eucariotico NCBI e il loro codice (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
La designazione “Piccoli eucarioti” si riferisce all’uso primario della pipeline per generare genomi RefSeq per genomi eucarioti relativamente più piccoli (rispetto a quelli di piante e vertebrati) come quelli di alghe, protozoi, funghi, nematodi e alcuni artropodi. Tuttavia, alcuni genomi vegetali di grandi dimensioni vengono elaborati anche utilizzando questa pipeline. Questa pipeline elabora assemblaggi di alta qualità costituiti da cromosomi e / o scaffold e dai loro componenti. Gli assiemi con alto contig e scaffold N50, sequenza di alta qualità e annotazione presentata in INSDC ragionevolmente buona hanno la priorità. Questa pipeline, che sostituisce un flusso di processo storico che ha richiesto un maggiore supporto manuale, ha raggiunto solo di recente una fase di produzione pubblica e sta già producendo un numero maggiore di genomi eucarioti “piccoli” rappresentati in RefSeq. È in corso il lavoro per ottimizzare il throughput della pipeline e aggiungere più automazione e ridurre ulteriormente le attività di elaborazione del curatore. I piani a più lungo termine includono l’implementazione di un sistema di gestione dei nomi di proteine al fine di fornire, correggere o migliorare i nomi presentati dall’INSDC nel tempo. Molti dei genomi che sono nell’ambito della pipeline di piccoli eucarioti non possono attualmente essere elaborati dalla (grande) pipeline di annotazione del genoma eucariotico a causa della diversità tassonomica e della limitata disponibilità di dati di trascrizione necessari per addestrare la pipeline di annotazione de novo.
Loci fungini mirati
La morfologia fungina è molto varia, da strutture multicellulari complesse a cellule singole molto semplici. Una varietà di strutture morfologiche e tipi di spore può essere prodotta da una singola specie. Al contrario, molte specie producono morfologie simili (morph) ma sono in realtà geneticamente molto distanti. Fino a poco tempo fa, una singola specie poteva essere validamente descritta con più di un nome binomiale basato su morph sessuali o asessuali. In molti casi, solo un singolo morph è stato descritto e registrato per una data specie, anche se le specie strettamente correlate ad essa potrebbero avere diversi morph descritti e registrati. Di conseguenza, i confronti di sequenza sono stati applicati nella comunità fungina per differenziare tra le specie, per tracciare le specie mentre procedono attraverso cicli di vita complessi e per identificare le specie criptiche. Come parte del processo dinamico di rivalutazione tassonomica, molte correzioni di specie fungine non sono sempre aggiornate nei dati di sequenza GenBank.
Per essere una risorsa più affidabile per l’identificazione basata sul DNA, le sequenze di riferimento derivate da campioni tipo (che fungono da riferimenti per le specie) devono essere etichettate con il nome della specie corretto e più aggiornato. I funghi RefSeq database loci mirati forniscono questa preziosa risorsa. Ad esempio, PRJNA177353 è un BioProject che si concentra specificamente sulle regioni interne dello spaziatore trascritto (ITS) nel cistron ribosomiale nucleare che è stato usato per molti anni come marker filogenetico e recentemente approvato come sequenza formale di codici a barre dei funghi (41). Il database ITS RefSeq è iniziato come una collaborazione con Index Fungorum, MycoBank e UNITE, così come un folto gruppo di specialisti tassonomici. Sono state selezionate sequenze, principalmente da esemplari tipo di descrizioni valide, e quindi i nomi attuali delle specie corrette sono stati associati alle sequenze con l’obiettivo di rappresentare la maggior parte degli ordini fungini accettati (8). I risultati di questo sforzo di cura sono stati utilizzati e citati da varie pubblicazioni (42-46) e hanno aiutato ulteriori sforzi per convalidare sottoinsiemi di sequenze di riferimento, ad esempio specie clinicamente significative (47).
L’obiettivo, con continua cura, è quello di aggiungere sequenze da ordini appena descritti e di estendere la rappresentazione per includere la maggior parte delle famiglie accettate con particolare attenzione ai funghi medicalmente importanti. Il processo include anche apportare correzioni, sostituendo la sequenza dal materiale verificato con la sequenza dal materiale di tipo man mano che diventa disponibile e modificando le linee di definizione o rimuovendo i record RefSeq come modifiche alle classificazioni tassonomiche. Ciò garantisce che i risultati della ricerca BLAST visualizzino correttamente il nome corrente. Il RefSeq I suoi record sono stati estesi a rappresentare 3.060 sequenze che rappresentano 270 famiglie da 39 classi. Durante lo sforzo iniziale collaborativo ITS RefSeq, è stato anche raccolto un insieme più piccolo di adesioni di sequenza dal gene ribosomiale a grande subunità nucleare 28S (LSU), ma non verificato. È stato seguito un flusso di lavoro simile al processo di curation dei record ITS e durante la curation continua questi record LSU sono stati verificati per la qualità della sequenza, l’identificazione corretta e i dati di origine accurati. Quasi 500 record (da 800 record potenziali) che rappresentano >100 famiglie di 21 classi sono state verificate e recentemente rilasciate. Il set di dati 28S può essere recuperato da BioProject PRJNA51803 (48).
PROCARIOTI
La collezione di genoma procarioti NCBI RefSeq rappresenta genomi procarioti assemblati con diversi livelli di qualità e densità di campionamento. Per i procarioti, sulla base del feedback della comunità passata, la nostra politica attuale è quella di fornire annotazione del genoma per tutti i genomi procarioti che soddisfano i nostri criteri di qualità. Negli ultimi anni, abbiamo affrontato due sfide principali: (i) tenere il passo con la rapida escalation dei genomi procarioti presentati; e, (ii) affrontare una crescente incoerenza nell’annotazione del genoma dovuta all’uso di una pipeline basata sulla propagazione INSDC e di diverse versioni di una pipeline di annotazione del genoma NCBI de novo sviluppata nel tempo.
Con il crescente interesse per i patogeni umani e il progresso della tecnologia di sequenziamento del DNA, il numero di genomi procarioti sequenziati è rapidamente aumentato nell’ultimo decennio. Alcuni ceppi batterici sono spesso indistinguibili utilizzando gli attuali approcci di genotipizzazione, ma piccole differenze genetiche possono essere rilevate sulla base del sequenziamento dell’intero genoma, utile per caratterizzare le vie di trasmissione, identificare la resistenza agli antibiotici e rilevare i focolai. Per indagare gli agenti patogeni di origine alimentare o focolai di infezione, un gran numero di genomi batterici quasi identici sono stati sequenziati e annotati negli ultimi anni, risultando in numerose proteine identiche, ognuna con un numero di adesione distinto. Nel 2013 NCBI ha introdotto un nuovo modello di dati proteici e prefisso di adesione (WP_) per la raccolta RefSeq. Questo cambiamento ha ridotto la ridondanza nelle proteine procariotiche RefSeq e ha facilitato l’identificazione di proteine che sono state trovate identicamente su più di un genoma. Ha anche permesso una strategia migliorata per la gestione dei nomi di proteine procariotiche. Questi record non ridondanti rappresentano sequenze proteiche procariotiche uniche che sono indipendenti da un particolare genoma batterico e possono essere annotate su più ceppi o specie (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
Storicamente, l’annotazione dei genomi batterici RefSeq è stata propagata da osservazioni INSDC, quando disponibili, o generata utilizzando diverse versioni della pipeline di annotazione del genoma procariotico di NCBI (che viene anche offerta come servizio per le osservazioni GenBank). Ciò ha comportato incongruenze accumulate nell’annotazione strutturale e funzionale nel set di dati procariotici RefSeq. Negli ultimi due anni NCBI ha migliorato diversi aspetti della pipeline di annotazione del genoma procariotico per aumentare la capacità e standardizzare ulteriormente le regole di annotazione. La nostra pipeline combina un algoritmo di chiamata genica, GeneMarkS+ (49,50), con un approccio di rilevamento genico basato sull’allineamento ed è in grado di annotare sia genomi completi che draft WGS. La pipeline prevede attualmente geni codificanti proteine, RNA strutturali (5S, 16S e 23S), TRNA e piccoli RNA non codificanti.
Nel 2015, abbiamo rilasciato un aggiornamento di annotazione completo per i genomi procarioti RefSeq al fine di armonizzare l’annotazione del genoma e completare la transizione al nuovo modello di dati proteici. Sono stati sviluppati un nuovo database di nomi di proteine procariotiche, specifiche dei nomi e una strategia basata sull’evidenza e sono attualmente in fase di implementazione. Finora, oltre 3 milioni di record di proteine hanno aggiornato i nomi in una prima dimostrazione dell’approccio. Il nuovo modello di dati procarioti offre un vantaggio significativo per la gestione dei nomi in quanto il nome della proteina viene trasportato con il record di sequenza proteica; l’aggiornamento del nome su quel record proteico comporta la propagazione automatica dell’aggiornamento a tutti i genomi annotati con quel numero di adesione.
I genomi procariotici RefSeq sono organizzati in diverse nuove categorie come genomi di riferimento e genomi rappresentativi basati su attributi curati e misure di qualità di assemblaggio e annotazione (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). I genomi di riferimento sono genomi completi “gold standard” selezionati manualmente con annotazione di alta qualità e il più alto livello di supporto sperimentale per l’annotazione strutturale e funzionale. Attualmente, un piccolo set di dati di 122 genomi di riferimento sono annotati manualmente da gruppi che collaborano e personale NCBI. I genomi di riferimento sono disponibili all’indirizzo: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. I genomi rappresentativi sono calcolati computazionalmente e selezionati per rappresentare diverse specie. I genomi rappresentativi sono disponibili all’indirizzo: www.ncbi.nlm.nih.gov/genome/browse/representative/.
RefSeq i dati del genoma procariotico sono accessibili nei database BLAST, nelle risorse web (assemblaggio, BioProject, genoma, nucleotide e proteine), attraverso le utilità di programmazione di NCBI, o possono essere scaricati dai genomi o dai siti FTP refseq. Una pagina BLAST ‘Microbi’ personalizzata, accessibile dalla home page BLAST, fornisce opzioni per cercare contro tutti i genomi procariotici RefSeq, il sottoinsieme di genomi di riferimento e rappresentativi, o per limitare la ricerca a un taxa specifico. Un sottoinsieme di genomi procarioti sono annotati con un ID gene NCBI e possono essere recuperati nella risorsa genica di NCBI o dal sito FTP del gene. Per archaea, questo è previsto per la maggior parte dei genomi completi. Per i batteri, questo è previsto per i genomi di riferimento e i genomi rappresentativi per le specie che hanno almeno 10 osservazioni del genoma.
Loci Prokaryotic mirati
Nei procarioti, la sequenza di RNA ribosomiale 16S è diventato un marcatore molecolare standard per la descrizione di una nuova specie. Mentre queste sequenze di marcatori sono diventate ampiamente utilizzate, la qualità dei dati di sequenza e dei metadati associati inviati ai database INSDC varia considerevolmente. Riconoscendo l’importanza dell’accesso a dati di alta qualità per questi marcatori, NCBI ha ampliato il suo progetto loci mirato per fornire una fonte aggiornata di dati curati. Il progetto loci mirato mantiene attualmente quasi 18 000 sequenze di riferimento di RNA ribosomiale 16S di cui oltre il 95% provengono da ceppi di tipo. I ceppi tipo sono considerati l’esemplare della specie ed è essenziale che i dati del ceppo tipo siano annotati con metadati corretti ed esenti da contaminazione.
Questo lavoro ha comportato una revisione esaustiva e un aggiornamento del database tassonomico sottostante che è stato utilizzato in combinazione con il filtro Entrez del ceppo di tipo NCBI per recuperare le sequenze candidate. I dati di sequenza e la loro tassonomia/meta-dati associati sono stati rivisti e corretti per includere le informazioni più aggiornate. Se una sequenza non è riuscita a convalidare o non è stata convalidata con precisione, è stata esclusa. Queste sequenze di riferimento possono ora essere utilizzate come “gold standard” per l’analisi di sequenze rRNA esistenti e nuove.
Set di dati batterici e Archaeal 16S rRNA sono disponibili da BioProject (PRJNA33175 e PRJNA33317, rispettivamente). È disponibile anche un database BLAST personalizzato (“Sequenze di RNA ribosomiale 16S (batteri e Archaea)”).
VIRUS
Il modello di dati RefSeq per i virus differisce da quello di altri organismi. In generale, viene creato un solo genoma RefSeq completo per ogni specie virale. Occasionalmente più record RefSeq vengono creati all’interno di una determinata specie virale per riflettere genotipi ben definiti o importanti ceppi di laboratorio e/o selvatici. Genomi aggiuntivi per una data specie sono convalidati per tassonomia e completezza e quindi indicizzati come “vicini” di sequenza (52). Sia RefSeq e genomi vicini sono recuperabili attraverso la risorsa genoma virale specializzata (http://www.ncbi.nlm.nih.gov/genome/viruses/) e dalle pagine nucleotide e genoma Entrez utilizzando ‘Genoma RefSeq per specie’ e ‘Altre sequenze del genoma INSDC’ link (52).
La tassonomia è una delle principali preoccupazioni per la genomica virale in quanto vi sono 3186 specie virali ufficialmente riconosciute dall’International Committee on Taxonomy of Viruses (ICTV) (53) e 4834 genomi completi di specie virali ufficiali e provvisorie disponibili dai database INSDC. Lo strumento NCBI Pairwise Sequence Comparison (PASC) è stato sviluppato per aiutare nella classificazione dei genomi virali sulla base di allineamenti globali e/o locali tra genomi (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Lo scopo di questo strumento è stato ampliato per includere un certo numero di famiglie di virus e altri gruppi tassonomici, ed è stato utilizzato per contribuire a sostenere la demarcazione di nuovi criteri tassonomici (54-57).
Un altro problema emergente nella genomica virale è l’annotazione incoerente e / o imprecisa tra le sequenze del genoma virale correlate. Questo problema spesso riflette i diversi processi di annotazione e il lavoro sperimentale in corso e può portare a confusione tra i consumatori di dati e rendere difficile l’analisi comparativa tra genomi. Questo problema viene risolto all’interno della risorsa NCBI Virus Variation (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/) in cui vengono impiegate pipeline computazionali per fornire annotazioni standardizzate e aggiornate per diversi virus (58). Attualmente, queste pipeline calcolano i confini standardizzati di geni e proteine per tutti i virus dell’influenza, il virus della Dengue e le sequenze di virus del Nilo occidentale e nomi di geni e proteine standardizzati e termini di metadati per questi e altri due virus, il coronavirus respiratorio del Medio Oriente e l’Ebolavirus. Questi dati standardizzati vengono quindi sfruttati all’interno di un’interfaccia di ricerca specializzata e incentrata sui metadati che facilita il facile recupero di sequenze basate su specifici criteri biologici.
Il mantenimento di standard di annotazione aggiornati e ampiamente accettati richiede una collaborazione continua con la più grande comunità scientifica. Il gruppo di lavoro NCBI Viral Genome Annotation è stato istituito per sfruttare consorzi di database pubblici, centri di sequenziamento e gruppi di ricerca per sviluppare annotazioni di sequenza standardizzate e isolare schemi di denominazione per diversi gruppi di virus (59-63). Questo approccio non solo stabilisce gli standard per l’annotazione virale, ma rappresenta anche questi standard all’interno del record RefSeq corrente, garantendo l’accessibilità per tutti gli utenti del database e i trasmettitori. Collaborazioni simili sono necessarie anche per supportare risorse interpretative a valore aggiunto come HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/hiv-1/interactions/) (64). Collaboratori del Southern Research Institute forniscono documentato HIV-1, interazioni molecolari umane a cura dalla letteratura e NCBI mantiene una risorsa facile da usare in cui gli utenti possono interrogare per specifici tipi di interazioni e trovare ulteriori informazioni sui geni coinvolti.
DIREZIONI FUTURE
Il progetto RefSeq è unico nell’offrire un set di dati di sequenza di riferimento di trascritti, proteine e genomi che comprende tutti i regni della vita ed è stato attivamente mantenuto e aggiornato nel tempo per incorporare strategie computazionali migliorate, nuovi tipi di dati e nuove conoscenze. Abbiamo dimostrato la capacità e la capacità di rispondere ai recenti rapidi aumenti del numero di genomi sequenziati presentati ai database INSDC. Abbiamo definito una serie diversificata di politiche e strategie per la cura e l’annotazione di specie eucariotiche, procariotiche e virali per soddisfare le diverse esigenze delle comunità specifiche dell’organismo. Il set di dati RefSeq è ampiamente utilizzato come standard di riferimento per molte analisi diverse, tra cui applicazioni cliniche umane e patogeni, genomica comparativa, saggi di espressione, interpretazione delle variazioni di sequenza e costruzione di array e sonda. In NCBI, il set di dati RefSeq è integrato in più risorse tra cui Assembly, BLAST, Epigenomics, Gene (dove l’annotazione RefSeq è la base primaria per la maggior parte delle voci geniche), Genome, dbSNP, dbVar, Variation Viewer e altro ancora.
Continueremo a mirare alla cura manuale per migliorare le informazioni strutturali e funzionali per i genomi umani e altri vertebrati. Il nostro approccio conservativo alla cura manuale garantisce la continua alta qualità e affidabilità dei record RefSeq umani, mouse e altri “noti” che soddisfano le esigenze di coloro che hanno bisogno di una definizione ben supportata di esoni alternativi (meno falsi positivi). L’aggiunta di dati RNA-Seq alla nostra pipeline di annotazione ha aumentato significativamente la nostra annotazione di varianti di giunzione alternative come REFSEQ del modello per soddisfare le esigenze di coloro che desiderano una definizione più completa, ma ancora ben supportata, dell’exome (meno falsi negativi). Mentre sia i REFSEQ noti che quelli del modello riportano le prove di supporto sul record di sequenza, utilizzano approcci distinti per farlo. Gli sforzi futuri saranno diretti verso l’armonizzazione della segnalazione delle prove sia per REFSEQ “noti” che per REFSEQ “modello” in modo che gli utenti possano identificare più facilmente queste informazioni. Aggiungeremo anche un nuovo tipo di dati alla raccolta RefSeq umana e mouse nel prossimo futuro per rappresentare elementi normativi e funzionali segnalati sperimentalmente con conseguenze funzionali note (o ragionevolmente dedotte).
Per i genomi procariotici, continuiamo a lavorare sugli aspetti di raffinazione dell’annotazione strutturale generata dalla pipeline di annotazione del genoma procariotico. Il nostro lavoro verso un nuovo approccio per gestire le informazioni funzionali è ancora in fase di perfezionamento e sarà descritto altrove. Prevediamo di ri-annotare l’intero set di dati dei genomi procariotici RefSeq quando saranno disponibili nuove versioni della nostra pipeline di annotazione procariotica (per migliorare l’annotazione strutturale). La decisione di annotare tutti i procarioti RefSeq utilizzando un unico metodo, insieme al volume di questo set di dati, richiede un approccio diverso che sfrutta più fonti di prova per fornire informazioni funzionali. I nomi delle proteine saranno aggiornati su base continuativa come organizzato da famiglie di proteine o categorie di tipo di evidenza. I nostri obiettivi per il prossimo anno includono una maggiore integrazione di Rfam (65) nella nostra pipeline di annotazione, una collaborazione ampliata, nomi di proteine migliorati e la segnalazione di prove di supporto sul record di sequenza proteica.
Vorremmo ringraziare la comunità scientifica per feedback costruttivi, suggerimenti, segnalazioni di errori e collaborazioni negli ultimi 15 anni che hanno contribuito alla qualità e all’accuratezza della sequenza rappresentata, dell’annotazione strutturale e dell’annotazione funzionale.
FINANZIAMENTO
Programma di ricerca intramurale del NIH, Biblioteca Nazionale di Medicina. Finanziamento per la carica di accesso aperto: Il programma di ricerca intramurale del National Institutes of Health, National Library of Medicine.
Dichiarazione sul conflitto di interessi. Nessuno dichiarato.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.
et al.