Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Proiectul RefSeq utilizează datele transmise către colaborarea internațională a bazelor de date de secvență nucleotidică (INSDC) împotriva unei combinații de calcul, curație manuală și colaborare pentru a produce un set standard de secvențe de referință stabile, non-redundante. Proiectul RefSeq mărește aceste secvențe de referință cu cunoștințe actuale, inclusiv publicații, caracteristici funcționale și nomenclatură informativă. Baza de date reprezintă în prezent secvențe de la mai mult de 55 000 de organisme (>4800 viruși,>40 000 procariote și > 10 000 eucariote; RefSeq release 71), variind de la o singură înregistrare până la genomuri complete. Această lucrare rezumă starea actuală a ramurilor virale, procariote și eucariote ale proiectului RefSeq, raportează îmbunătățiri ale accesului la date și detaliază eforturile de extindere a reprezentării taxonomice a colecției. De asemenea, evidențiem diverse inițiative de curație funcțională care susțin utilizări multiple ale datelor RefSeq, inclusiv validarea taxonomică, adnotarea genomului, genomica comparativă și testarea clinică. Rezumăm abordarea noastră privind utilizarea ARN-Seq disponibil și a altor tipuri de date în procesul nostru de curățare manuală pentru vertebrate, plante și alte specii și descriem o nouă direcție pentru genomii procarioți și gestionarea denumirilor proteinelor.

introducere

În ultimii 15 ani, baza de date RefSeq a Centrului Național pentru Informații Biotehnologice (NCBI) a servit ca o resursă esențială pentru cercetarea genomică, genetică și proteomică. Furnizarea proiectului RefSeq de genomuri de referință adnotate curate și stabile, transcrieri și proteine pentru viruși selectați, microbi, organite și organisme eucariote, a permis cercetătorilor să se concentreze pe cele mai bune date de secvență reprezentative, spre deosebire de datele redundante din GenBank și să facă referire fără echivoc la secvențe genetice specifice. Colecția RefSeq oferă înregistrări legate în mod explicit de genom, transcriere și secvențe de proteine care încorporează publicații, nomenclatură informativă și adnotări standardizate și extinse. Înregistrările RefSeq sunt integrate în resursele NCBI, inclusiv bazele de date nucleotidice, proteice și BLAST și pot fi ușor identificate prin cuvântul cheie ‘RefSeq’ și prin prefixele lor distincte de aderare care definesc tipul lor (Tabelul 1). Toate datele RefSeq sunt supuse verificărilor de asigurare a calității (QA) cu unele teste QA specializate dezvoltate pentru diferiți taxoni sau tipuri de date. De exemplu, toate Refseq-urile virale sunt supuse unei revizuiri taxonomice de către personalul NCBI înainte de lansarea publică. Aderările RefSeq sunt citate pe scară largă în publicațiile științifice și bazele de date genetice, deoarece oferă un sistem de coordonate stabil și consecvent care poate fi utilizat ca bază pentru raportarea datelor specifice genei, a variațiilor clinice și a comparațiilor între specii. Aceste standarde de secvență de referință sunt din ce în ce mai importante, deoarece raportarea exactă și reproductibilitatea sunt componente vitale pentru cele mai bune practici în cercetarea biomedicală (1).

prefixe de aderare RefSeq

Tabelul 1.

RefSeq accession prefixes

proteine

Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteine adnotate pe aderări nm_ transcriere sau adnotate pe molecule genomice fără o transcriere instantanee (de ex. unele genomi mitocondriali, genomi virali și genomi bacterieni de referință
AP_3 proteine proteine adnotate pe AC_ aderări genomice sau adnotate pe molecule genomice fără o înregistrare de transcriere instantanee
XP_3, 5 proteine proteine adnotate pe Xm_ aderări transcriere sau adnotate pe molecule genomice fără o înregistrare transcriere instantanee
yp_3 proteine proteine adnotate pe molecule genomice fără o înregistrare transcriere instantanee
wp_6 proteine care nu sunt redundante pe mai multe tulpini și specii. O singură proteină de acest tip poate fi adnotată pe mai mult de un genom procariot

proteine

prefix . Tip moleculă . utilizați contextul .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteine adnotate pe aderări nm_ transcriere sau adnotate pe molecule genomice fără o transcriere instantanee (de ex. unele genomi mitocondriali, genomi virali și genomi bacterieni de referință
AP_3 proteine proteine adnotate pe AC_ aderări genomice sau adnotate pe molecule genomice fără o înregistrare de transcriere instantanee
XP_3, 5 proteine proteine adnotate pe Xm_ aderări transcriere sau adnotate pe molecule genomice fără o înregistrare transcriere instantanee
yp_3 proteine proteine adnotate pe molecule genomice fără o înregistrare transcriere instantanee
wp_6 proteine care nu sunt redundante pe mai multe tulpini și specii. O singură proteină de acest tip poate fi adnotată pe mai mult de un genom procariot

1formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 6 numere urmate de numărul versiunii secvenței.

2formatul complet de aderare constă din prefixul urmat de numărul de aderare INSDC pe care se bazează înregistrarea RefSeq urmat de numărul versiunii secvenței RefSeq.

3formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 6 sau 9 numere urmate de numărul versiunii de secvență.

4înregistrările cu acest prefix de aderare au fost organizate de personalul NCBI sau de o bază de date model de organism sau se află în grupul de aderări cu care lucrează curatorii. Aceste înregistrări sunt denumite setul de date’ cunoscut ‘ RefSeq.

5înregistrările cu acest prefix de aderare sunt generate fie prin conducta de adnotare a genomului eucariot, fie prin conducta mică de adnotare a genomului eucariot. Înregistrările generate prin prima metodă sunt denumite setul de date’ model ‘ RefSeq.

6formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 9 numere urmate de numărul versiunii. Numărul versiunii este întotdeauna ‘.1 ‘ deoarece aceste înregistrări nu sunt supuse actualizării. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

proteine

Prefix . Molecule type . Use context .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteine adnotate pe aderări nm_ transcriere sau adnotate pe molecule genomice fără o transcriere instantanee (de ex. unele genomi mitocondriali, genomi virali și genomi bacterieni de referință
AP_3 proteine proteine adnotate pe AC_ aderări genomice sau adnotate pe molecule genomice fără o înregistrare de transcriere instantanee
XP_3, 5 proteine proteine adnotate pe Xm_ aderări transcriere sau adnotate pe molecule genomice fără o înregistrare transcriere instantanee
yp_3 proteine proteine adnotate pe molecule genomice fără o înregistrare transcriere instantanee
wp_6 proteine care nu sunt redundante pe mai multe tulpini și specii. O singură proteină de acest tip poate fi adnotată pe mai mult de un genom procariot

proteine

prefix . Tip moleculă . utilizați contextul .
NC_1 DNA Chromosomes
Linkage Groups
AC_1 DNA Chromosomes
Linkage Groups
NZ_2 DNA Chromosomes
Scaffolds
Used predominantly for prokaryotic genomes.
NT_3 DNA Scaffolds
NW_3 DNA Scaffolds
NG_1 DNA Genomic regions.
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4 mRNA protein-coding transcripts
XM_3,5 mRNA protein-coding transcripts
NR_3,4 RNA non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5 RNA non-protein-coding transcripts, as above
NP_3,4 protein proteine adnotate pe aderări nm_ transcriere sau adnotate pe molecule genomice fără o transcriere instantanee (de ex. unele genomi mitocondriali, genomi virali și genomi bacterieni de referință
AP_3 proteine proteine adnotate pe AC_ aderări genomice sau adnotate pe molecule genomice fără o înregistrare de transcriere instantanee
XP_3, 5 proteine proteine adnotate pe Xm_ aderări transcriere sau adnotate pe molecule genomice fără o înregistrare transcriere instantanee
yp_3 proteine proteine adnotate pe molecule genomice fără o înregistrare transcriere instantanee
wp_6 proteine care nu sunt redundante pe mai multe tulpini și specii. O singură proteină de acest tip poate fi adnotată pe mai mult de un genom procariot

1formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 6 numere urmate de numărul versiunii secvenței.

2formatul complet de aderare constă din prefixul urmat de numărul de aderare INSDC pe care se bazează înregistrarea RefSeq urmat de numărul versiunii secvenței RefSeq.

3formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 6 sau 9 numere urmate de numărul versiunii de secvență.

4înregistrările cu acest prefix de aderare au fost organizate de personalul NCBI sau de o bază de date model de organism sau se află în grupul de aderări cu care lucrează curatorii. Aceste înregistrări sunt denumite setul de date’ cunoscut ‘ RefSeq.

5înregistrările cu acest prefix de aderare sunt generate fie prin conducta de adnotare a genomului eucariot, fie prin conducta mică de adnotare a genomului eucariot. Înregistrările generate prin prima metodă sunt denumite setul de date’ model ‘ RefSeq.

6formatul complet al numărului de aderare constă din prefix, inclusiv sublinierea, urmat de 9 numere urmate de numărul versiunii. Numărul versiunii este întotdeauna ‘.1 ‘ deoarece aceste înregistrări nu sunt supuse actualizării. Consultați documentația online pentru informații suplimentare: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

în ultimii ani, tehnicile avansate de secvențiere au facilitat o creștere substanțială a transmiterilor ansamblului genomului în bazele de date publice. Drept urmare, proiectul RefSeq a extins în mod Concordant adâncimea și lățimea taxonilor incluși în setul de date, în principal prin îmbunătățiri ale mai multor conducte de adnotare interne. Toate taxonii sunt în domeniul de aplicare pentru includerea RefSeq; cu toate acestea, adnotarea este adesea limitată la acele organisme pentru care este disponibil un ansamblu genom primar de înaltă calitate cu informații necontestate despre organism. Astfel, putem exclude anumite categorii de date care nu corespund standardelor noastre de calitate. Seturile de date excluse includ: metagenomi, ansambluri cu valori contig N50 scăzute sau un număr deosebit de mare de schele/contiguri neplacute (adică fragmentare ridicată) sau genomi care au o nepotrivire semnificativă sau o variație indel în comparație cu alte genomi strâns înrudiți pentru specie (de exemplu, unele procariote).

un aspect unic al setului de date RefSeq este abordarea combinată a utilizării calculului, colaborării și curării de către personalul științific NCBI. Ca o mare facilitate de bioinformatică, NCBI a investit în dezvoltarea unor fluxuri robuste de proces pentru a genera adnotări și a efectua teste de asigurare a calității pentru genomii, transcrierile și proteinele eucariote și procariote. Îmbunătățirile fluxului de proces al genomilor virali sunt în curs. Grupul RefSeq colaborează cu numeroase grupuri de experți, inclusiv cu autoritățile oficiale de nomenclatură (de ex. Comitetul de nomenclatură a genelor HUGO (HGNC) și rețeaua de informații a peștilor Zebra (ZFIN) pentru nume de gene umane și, respectiv, zebrafish), uniprotkb (nume de proteine) și miRBase (microARN) (2-5). Acestea și alte colaborări ajută la menținerea și îmbunătățirea calității setului de date RefSeq prin rapoarte QA, schimburi de informații despre gene și secvențe și schimburi de informații funcționale. Personalul NCBI oferă, de asemenea, suport de curație pentru viruși, procariote, eucariote, organite, plasmide și proiecte vizate, inclusiv gene și secvențe de curatare pentru Homo sapiens, mus musculus și alte organisme. Curatorii RefSeq îmbunătățesc calitatea bazei de date prin revizuirea rezultatelor testelor QA, implicarea în selectarea anumitor intrări pentru procesarea adnotării genomului, analiza secvenței, analiza taxonomică și revizuirea funcțională. Curation sprijină, de asemenea, îmbunătățiri ale conductelor de adnotare a genomului, deoarece experții în conținut ajută la definirea abordărilor programatice pentru a modela atât biologia tipică, cât și cea atipică. Pentru eucariote, în special mamifere, curația bazată pe transcriere definește reprezentanții secvenței”cei mai buni”(ca Refseq-uri „cunoscute”; nota de subsol din tabelul 1) care sunt utilizați ca reactiv primar de intrare la conducta de adnotare a genomului eucariot (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Îmbunătățirile calității reactivului de intrare, la rândul lor, adaugă o calitate și o reproductibilitate semnificative adnotării genomului rezultat. Acest tip de curație manuală a fost istoric axat pe om și șoarece datorită importanței lor biomedicale unice (6). Mai recent, aceste eforturi de curație au acordat o atenție mai mare Rattus norvegicus, Danio rerio, Bos taurus, și Gallus gallus. Aceste specii sunt relevante pentru sănătatea umană, precum și pentru durabilitatea agriculturii.

în această lucrare, raportăm progresul nostru în extinderea setului de date RefSeq pentru a include organisme mai diverse, descriem îmbunătățirile în accesul la date și oferim exemple care ilustrează un accent sporit pe furnizarea de seturi de date utile filogenetic, precum și adnotarea caracteristicilor funcționale pe transcrierea RefSeq și înregistrările proteinelor. Anticipăm că aceste eforturi și îmbunătățiri ale setului de date RefSeq vor contribui în continuare la avansarea cercetării translaționale medicale, a îmbunătățirilor agricole, a identificării filogenetice și a studiilor evolutive.

generarea setului de date REFSEQ

înregistrările secvenței RefSeq sunt generate prin metode diferite, în funcție de clasa secvenței și de organism. Genomii arhaici și bacterieni (vezi secțiunea procariote) sunt adnotați folosind conducta de adnotare a genomului procariot al NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), în timp ce un număr mic de genomi bacterieni de referință sunt susținuți de colaborare și curație manuală. Genomurile eucariote RefSeq sunt furnizate folosind două fluxuri de proces. Majoritatea genomurilor de plante, animale, insecte și artropode sunt adnotate de conducta de adnotare a genomului eucariot. Această conductă generează rezultate de adnotare pe baza datelor de transcriere disponibile (inclusiv ARN-Seq și transcriptome shotgun assembly (TSA)), precum și omologia proteinelor, predicția ab initio (în mare parte atunci când datele transcriptomelor nu sunt disponibile) și transcrierile și proteinele RefSeq cunoscute (curate) disponibile (Vezi tabelul 1). Adnotarea generată de conducte (model RefSeqs) poate avea sau nu suport pentru combinația completă de exoni dintr-o singură aliniere a dovezilor, dar poate avea suport ARN-Seq pentru perechile de exoni. Genomurile eucariote care au fost adnotate de această conductă sunt raportate public cu link-uri pentru a descărca datele prin FTP, pentru a vizualiza sau efectua o interogare BLAST împotriva genomului adnotat sau pentru a accesa un rezumat detaliat al raportului de adnotare (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Conducta pentru un subset de eucariote, inclusiv ciuperci, protozoare și nematode implică propagarea adnotării care a fost depusă la colaborarea internațională a bazei de date a secvențelor nucleotidice (INSDC), cu standardizarea formatelor, la o copie RefSeq a ansamblului genomului prezentat (vezi alge, ciuperci, nematode și protozoare).

personalul NCBI furnizează cea mai mare parte a adnotării genomului organelle RefSeq prin propagare din prezentarea INSDC. Adnotarea mitocondriilor mamiferelor este adesea completată cu curație manuală. Proiectul RefSeq menține, de asemenea, secvențe de referință pentru proiecte loci vizate, cum ar fi RefSeqGene, care este membru al colaborării genomice de referință Locus (LRG) (7), pentru loci rRNA ribozomali bacterieni și fungici și pentru secvențe distanțiere transcrise interne fungice (ITS) (8). În plus, un număr semnificativ de transcrieri și proteine umane, șoarece și alte proteine sunt furnizate prin colaborare și curație manuală, care include analiza secvenței și revizuirea literaturii.conductele de adnotare procariote (a se vedea mai jos) și eucariote ale NCBI au ținut pasul cu numărul tot mai mare de ansambluri de genom trimise la INSDC prin furnizarea de adnotări consistente pe copiile RefSeq ale ansamblurilor de genom prezentate selectate de înaltă calitate. Până în prezent, 245 de genomi eucarioți, inclusiv 170 de genomi vertebrați, au fost adnotați de această conductă, dintre care peste 120 de specii au fost adnotate în ultimii 20 de ani. Din acest grup fac parte 52 de specii de păsări care includ specii reprezentative ale majorității ordinelor aviare (9,10). A existat, de asemenea, o extindere semnificativă a numărului de ansambluri adnotate RefSeq pentru primate neumane, alte mamifere, pești, plante și artropode.

accesarea setului de date REFSEQ

pagina principală RefSeqhttp://www.ncbi.nlm.nih.gov/refseq/ este un hub central pentru toate aspectele setului de date RefSeq. Acest site oferă link – uri care ghidează utilizatorii printr-o descriere generală a proiectului, precum și fișe informative, statistici de creștere și informații despre proiecte RefSeq mai concentrate, cum ar fi Inițiativa procariotă de re-adnotare a genomului, proiectul Consensus Coding Sequence (CCDS) (11) Proiectul RefSeqGene și proiectele loci vizate (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Link – uri către cea mai recentă versiune completă FTP și documentație detaliată cu privire la formatul și conținutul versiunii pot fi găsite în secțiunea ‘Anunțuri’ a paginii de pornire RefSeq. Anunțurile RefSeq anterioare sunt de asemenea disponibile pe această pagină. Încurajăm cu tărie descărcarea datelor RefSeq direct de la NCBI, deoarece descărcările din alte resurse bioinformatice și Genome browser pot să nu includă toate datele disponibile sau pot reflecta doar alinierile transcrierilor RefSeq la un genom, mai degrabă decât rezultatele adnotării genomului generate de NCBI.

datele secvenței RefSeq pot fi accesate interactiv folosind bazele de date nucleotidice și proteice NCBIs, în bazele de date BLAST, prin interfața programatică a NCBI (e-utilities) sau prin protocolul de transfer de fișiere (FTP). E-utilitățile acceptă accesul scriptat pentru a descărca datele RefSeq într-o varietate de formate bazate fie pe termeni de căutare, fie pe liste de aderare; documentația extinsă este disponibilă în manualul NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) și videoclipurile de instruire sunt disponibile de pe canalul YouTube al NCBI (https://www.youtube.com/user/NCBINLM). Atât Nucleotide și baze de date de proteine permite ca rezultatele interogării să fie limitată la numai înregistrările RefSeq prin selectarea ‘RefSeq’ sub ‘baza de date sursă’ în bara laterală filtre. Datele RefSeq pot fi accesate și din alte baze de date NCBI, inclusiv asamblare, Bioproiectare, genă și genom, urmând linkurile furnizate către Nucleotide, proteine sau resurse FTP informații despre modificările de curație din cadrul grupului RefSeq sau actualizările NCBI care au impact asupra bazei de date RefSeq sunt raportate prin mai multe surse, inclusiv note de lansare RefSeq FTP, rapoarte periodice publicate, fluxul de știri al anunțurilor NCBI http://www.ncbi.nlm.nih.gov/news/ și prin blogul NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Utilizatorii se pot abona, de asemenea, la lista de e-mail refseq-announce pentru a primi actualizări periodice despre proiect și un rezumat al conținutului fiecărei versiuni FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

datele RefSeq sunt distribuite prin FTP prin intermediul a două site-uri, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) și genomi (ftp://ftp.ncbi.nlm.nih.gov/genomes/). site-ul FTP refseq oferă actualizări zilnice ale tuturor înregistrărilor RefSeq noi și actualizate, actualizări săptămânale ale unor tipuri de date și o versiune cuprinzătoare bi-lunară RefSeq (/refseq/release/). În plus, seturile de date de transcriere și proteine specifice organismului, inclusiv umane și șoarece, sunt actualizate săptămânal. Subdirectorul RefSeqGene este actualizat zilnic, cu alinieri la genomul lansat cu fiecare rulare de adnotare. Versiunea completă bi-lunară RefSeq este organizată de taxonomic (de exemplu, mamifere vertebrate) sau alte grupări (de exemplu, mitocondrii). Datele pot fi, de asemenea, descărcate pentru întreaga colecție RefSeq din Directorul /refseq/release/complete/. Versiunea RefSeq oferă un avantaj pentru cei care doresc să mențină actualizări periodice fie ale colecției complete, fie ale unui singur grup. De asemenea, include înregistrări care nu sunt disponibile de pe site-ul FTP al genomilor însoțitori, cum ar fi transcrierile din colecție care sunt menținute independent de un ansamblu de genom și care nu pot fi adnotate în prezent. Versiunea este prevăzută cu o documentație semnificativă a fișierelor instalate (/refseq/release/ release-catalog/), inclusiv sumele de control MD5, o listă a tuturor fișierelor instalate, precum și note de lansare și anunțuri (/refseq/release/release-notes/).

datele RefSeq pot fi descărcate și de pe site-ul FTP genomes. În August 2014, NCBI a anunțat o reorganizare majoră a acestui site FTP, care oferă acum acces la asamblare și pe bază de organism atât la genomii GenBank, cât și la RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Acest director este împărțit în continuare în subdirectoare bazate pe aceleași grupuri care sunt utilizate în versiunea RefSeq, fiecare dintre acestea oferind subdiviziuni suplimentare pe specii. Site-ul genomes FTP oferă fișiere care reprezintă toate ansamblurile genomului RefSeq raportate în resursa de asamblare NCBI (www.ncbi.nlm.nih.gov/assembly/). avantajul site – ului genomes este că datele pot fi accesate într-o manieră specifică ansamblului sau organismului. Datele furnizate includ genomului și produs (transcriere/proteine) secvență, adnotare, rapoarte de asamblare și statistici, și sumele de control MD5; aceste date sunt actualizate atunci când ansamblul genomului și/sau adnotarea sunt actualizate. Această zonă nu include secvențe RefSeq care se află în afara domeniului de aplicare al unui ansamblu de genom sau produse care nu sunt adnotate pe un genom.

creștere și statistici

RefSeq FTP release 71 (iulie 2015) include mai mult de 77 de milioane de înregistrări de secvență pentru mai mult de 55 000 de organisme. Tabelul 2 rezumă creșterea setului de date RefSeq în ultimul an în ceea ce privește organismele și numărul de înregistrări de secvență reprezentate pe fiecare zonă de director FTP de lansare RefSeq. Genomii și proteinele bacteriene cuprind cea mai mare parte a setului de date RefSeq (56% din totalul aderărilor și 76% din >52 milioane de aderări la proteine). Creșteri semnificative ale numărului de organisme, proteine și înregistrări totale sunt observate pentru organismele nevertebrate, plante și eucariote, ceea ce este în concordanță cu numărul și randamentul crescut al proiectelor de secvențiere a genomului. Un factor semnificativ pentru rata ridicată continuă de creștere a datelor RefSeq sunt îmbunătățirile conductelor genomului care generează genomi Adnotați RefSeq. În special, aceasta include o capacitate crescută în conducta de adnotare a genomului procariot al NCBI, re-dezvoltarea fluxului de proces care propagă adnotarea din genomul GenBank eucariot pe genomul RefSeq și încorporarea dovezilor ARN-Seq în conducta de adnotare a genomului eucariot al NCBI și impactul acesteia asupra generării modelului RefSeqs (xm_, xr_ și xp_ aderări, Tabelul 1).

creșterea anuală a numărului de organisme, proteine și transcrieri reprezentate în versiunea completă RefSeq, pe directorul de eliberare FTP

Tabelul 2.

creșterea anuală a numărului de organisme, proteine și transcrieri reprezentate în versiunea completă RefSeq, pe directorul de lansare FTP
director de lansare . organisme . % schimbare . Transcrieri . % schimbare . proteine . % schimbare .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % schimbare . Transcrieri . % schimbare . proteine . % schimbare .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (de exemplu, archaea.acc_taxid_growth.txt și fișiere conexe). Modificarea anuală procentuală se bazează pe compararea numărului de date pentru RefSeq release 71 (iulie 2015) și RefSeq release 66 (iulie 2014).

Tabelul 2.

creșterea anuală a numărului de organisme, proteine și transcrieri reprezentate în versiunea completă RefSeq, pe directorul de lansare FTP
director de lansare . organisme . % schimbare . Transcrieri . % schimbare . proteine . % schimbare .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20
Release Directory . Organisms . % schimbare . Transcrieri . % schimbare . proteine . % schimbare .
Archaea 952 12 1109 318 1037407 -5
Bacteria 39660 40 19650 488 40194748 14
Fungi 3367 18 1438749 17 1440956 17
Invertebrate 1786 29 1435978 76 1367317 74
Mitochondrion 5732 24 112 -15 83208 24
Plant 847 59 2181963 86 2067971 75
Plasmid 2139 31 12 9 126725 -62
Plastid 843 54 120 0 72579 50
Protozoa 273 27 849678 46 865048 45
Vertebrate_mammalian 776 14 3778288 44 3266845 39
Vertebrate_other 2755 26 2097939 85 2023378 84
Viral 4850 17 0 0 230360 15
Complete 55267 34 11803354 56 52494032 20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (de exemplu, archaea.acc_taxid_growth.txt și fișiere conexe). Modificarea anuală procentuală se bazează pe compararea numărului de date pentru RefSeq release 71 (iulie 2015) și RefSeq release 66 (iulie 2014).

scăderea dramatică a numărului de înregistrări de proteine plasmidice și, astfel, a numărului de aderări totale, reflectă finalizarea unui proiect de re-adnotare a genomului bacterian RefSeq (http://www.ncbi.nlm.nih.gov/refseq/despre/ procariote / reannotare/) și adoptarea noului model de date pentru procariote, inclusiv plasmidele lor. În acest nou model de date, o singură aderare RefSeq non-redundantă a proteinelor poate fi adnotată pe mai multe înregistrări de secvență genomică atunci când traducerea acelor regiuni de codificare a proteinelor genomice are ca rezultat o proteină identică (vezi http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Redundanța în toate proteinele bacteriene a scăzut, de asemenea, semnificativ; cu toate acestea, nu este evident aici datorită creșterii semnificative continue a numărului de genomi bacterieni incluși în setul de date. Aceste modificări au dus, de asemenea, la o scădere generală a numărului de înregistrări de proteine arhaice.

vertebrate

un grup select de vertebrate, inclusiv Homo sapiens, mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus și Danio rerio sunt principalul obiectiv al eforturilor noastre de curatare manuală bazate pe transcriere și literatură. Curatorii lucrează în general din liste de gene cu conflicte de date identificate prin teste de asigurare a calității (QA), dintre care unele au fost descrise anterior (12). Ei urmează un set detaliat de linii directoare atunci când analizează fiecare genă pentru a asigura coerența între persoane în setul de date curatat. Această analiză implică o evaluare aprofundată a secvenței și o revizuire a literaturii pentru a crea transcrieri de referință, proteine, pseudogene și înregistrări RefSeqGene. Curatorii RefSeq generează variante de transcriere, rezolvă erorile de secvență, elimină informații inexacte, actualizează înregistrările pentru a reprezenta corect biologia locusului și adaugă informații funcționale valoroase unor înregistrări RefSeq, cum ar fi nume îmbunătățite de proteine, un rezumat al funcției produsului genei, caracteristici funcționale ale genei și/sau publicații relevante. Curarea manuală și revizuirea literaturii de către Grupul RefSeq pot duce la reprezentarea unor variante și izoforme unice care nu ar fi prezise atunci când se bazează exclusiv pe analiza computațională. De exemplu, revizuirea literaturii genei supresoare tumorale umane, PTEN (fosfatază și tensin homolog, GeneID: 5728) a relevat existența unei izoforme proteice mai lungi care rezultă din utilizarea unui codon alternativ de inițiere CUG în amonte în cadru, găsit în centrul unei secvențe palindromice în amonte de codonul canonic de pornire a traducerii ARNm (13). Datele experimentale puternice au indicat că această izoformă specifică mitocondrială inițiază cu o leucină, mai degrabă decât cu o metionină (14). Modelul de date RefSeq pentru eucariote oferă o transcriere legată Explicit de o proteină. Prin urmare, au fost furnizate două înregistrări de transcriere identice pentru a reflecta traducerea din codonii de inițiere alternativi; NP_000305.3 reprezintă proteina de aminoacizi 403 care utilizează codonul de pornire canonic metionină, în timp ce np_001291646.2 reprezintă proteina de aminoacizi 576 localizată mitocondrial care inițiază cu o leucină. Astfel, procesul de curare servește unui dublu scop de a furniza secvențe de referință exacte care facilitează adnotarea genomului precisă și reproductibilă și de a furniza înregistrări care includ informații biologice relevante. În această secțiune vom discuta despre actualizările recente, îmbunătățirile pe care le-am făcut în procesul nostru de curație manuală și exemple de proiecte de curație concentrate.

proiectul RefSeqGene

subproiectul RefSeqGene definește secvențele genomice umane pentru a fi utilizate ca standarde de referință pentru genele bine caracterizate, în special pentru utilizarea de către comunitatea genetică clinică. Aceste secvențe servesc drept bază stabilă pentru raportarea variantelor patogene, pentru stabilirea convențiilor de numerotare a exonilor și intronilor și pentru definirea coordonatelor altor variante. Fiecare înregistrare RefSeqGene se concentrează pe o regiune genomică specifică genei și de obicei este adnotată cu un subset de transcrieri RefSeq și proteine selectate de experți în domeniu. Aceste selecții determină caracteristicile exon. Sunt incluse alinierile versiunilor mai vechi ale transcrierii/proteinei canonice RefSeq, precum și ale altor Refseq-uri cunoscute. Aceste înregistrări includ de obicei 5 kilobaze (kb) de secvență în amonte de gena de focalizare și 2 kb de secvență în aval, pentru a sprijini reprezentarea potențialelor site-uri de reglementare sau ștergeri care se extind dincolo de caracteristica genei. O înregistrare RefSeqGene poate include informații de adnotare pentru alte gene care se află în limitele sale. Înregistrările RefSeqGene sunt revizuite inițial de către bazele de date specifice locus și personalul NCBI. RefSeqGene este membru al colaborării LRG (7) care oferă o revizuire suplimentară a datelor de secvență înainte de a adăuga o aderare LRG. O lucrare recentă a extins numărul de înregistrări RefSeqGene pentru a reprezenta toate genele pentru care cel puțin două teste clinice au fost depuse la registrul de testare genetică NIH (GTR). În acest moment există 5596 de înregistrări RefSeqGene, dintre care 633 au o aderare LRG. Înregistrările RefSeqGene pot fi recuperate prin căutarea bazei de date nucleotidice cu ‘refseqgene’ , prin aderările lor LRG, prin navigarea pe site-ul web RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/), sau prin FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

încorporarea ARN-Seq și a altor tipuri de date în curația bazată pe transcriere

un obiectiv major al proiectului RefSeq curation este de a reprezenta secvențe de transcriere și de referință proteice de înaltă calitate și de lungime completă. Ca atare, criteriile noastre de curație se bazează în primul rând pe transcrierea convențională (ARNm și Est) și alinierea proteinelor și dovezile publicate. Cu toate acestea, proiectele de transcriptom vertebrate au devenit din ce în ce mai complexe, majoritatea datelor noi de transcriere generate în prezent de tehnologia de secvențiere cu citire scurtă. Studiile la nivel de genom care analizează tiparele globale ale mărcilor epigenetice asociate promotorului oferă, de asemenea, dovezi ale promotorilor activi și/sau transcripției active. Grupul RefSeq a ajustat practicile de curare pentru a încorpora aceste noi tipuri de date pentru a îmbunătăți adnotarea noastră manuală, în special în cazurile în care o genă sau o variantă nu are suport abundent de transcriere convențională. Aceste studii ARN-Seq și epigenomice au generat seturi de date enorme care prezintă o provocare pentru grupurile de adnotare a genelor, de exemplu prin potențiale fals pozitive și lipsa suportului pentru combinațiile de exoni cu rază lungă de acțiune (15). Curatorii RefSeq atenuează împotriva falsurilor pozitive prin încorporarea selectivă numai a seturilor de date de înaltă calitate pentru examinare în conducta noastră de adnotare a genomului și în procesul de adnotare manuală. Curatorii RefSeq vizualizează alinierile transcrierii, datele de variație și datele ARN-Seq filtrate în afișaje personalizate într-un instrument de aliniere intern încorporat în platforma NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). Curarea genelor umane utilizează ARN analizat-Seq citește din Illumina BodyMap 2 (BioProject: PRJEB2445) și proiecte Atlas de proteine umane (BioProject: PRJEB4337) (16). În plus, curatorii folosesc mărci de modificare a histonei asociate promotorului, cum ar fi H3K4me3 de la NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) și proiectul ENCODE (enciclopedia elementelor ADN) (18) pentru a verifica prezența unui promotor activ. Curatorii RefSeq evaluează, de asemenea, datele polyA-seq pentru a afirma completitudinea 3 a transcrierilor lipsite de coada polyA (19). Tipuri de date suplimentare, inclusiv PhyloCSF (20), CpGIslands, RepeatMasker (21) și analiza capac de exprimare a genelor (cușcă) date (22), sunt uneori folosite ca suport suplimentar.

ARN-uri lungi necodificate (lncrn)

grupul RefSeq continuă să se extindă semnificativ pe reprezentarea ARN-urilor structurale și micro – necodificate, a pseudogenelor transcrise și a lncrn-urilor în mare parte necaracterizate. Această clasă de gene este în general definită ca fiind transcrieri >200 NT în lungime care nu au un potențial puternic de codificare a proteinelor (23). înregistrările Lncrna RefSeq sunt generate de curație și prin conducta de adnotare a genomului eucariot pentru genele lncRNA. NCBI menține în prezent peste 540 000 de înregistrări eucariote Lncrna RefSeq, dintre care peste 6700 au fost curatoriate și doar câteva sute au fost caracterizate funcțional. Dintre acestea, mulți au fost implicați în boli umane, cum ar fi BACE1-AS care poate juca un rol în fiziopatologia bolii Alzheimer și HOTAIR care a fost asociat cu mai multe tipuri de cancer (24,25). Marea majoritate a lncrn-urilor au funcții necunoscute, iar absența cadrelor lungi de citire deschise reprezintă o provocare în ceea ce privește confirmarea completitudinii transcrierii. Mai mult, trimiterile lncRNA către INSDC se bazează în mare parte pe TSAs din seturi de date citite scurt care pot include combinații exonice artifactuale. Curatorii RefSeq adoptă o abordare conservatoare pentru reprezentarea genelor lncRNA, creând doar manual RefSeqs (cu un prefix de aderare NR_) pentru transcrieri de înaltă calitate pentru care avem o anumită certitudine a structurii exonului. În mod ideal, suportul transcrierii ar trebui să fie îmbinat cu cel puțin trei exoni, dar transcrierile cu doi exoni și fără intron pot fi reprezentate dacă sunt susținute de epigenomică asociată promotorului, dovezi Poli(a), adiționale ADNc și/sau ARN-Seq date. Înregistrările lncrna RefSeq pentru genele necodificate pot fi preluate din Baza de date nucleotidică NCBI folosind șirul de căutare ‘biomol ncrna lncrna’ și selectând filtrul RefSeq din coloana din stânga.

adnotare funcțională

contribuția unică a înregistrărilor transcrierii eucariote refseq curate este că integrează informații funcționale cu o secvență de referință. Personalul RefSeq curation adaugă rezumate genetice, nomenclatură, text variantă transcriere, atribute gene și secvențe și caracteristici funcționale care sunt disponibile pe înregistrarea RefSeq și/sau prin resursa genică (http://www.ncbi.nlm.nih.gov/gene). În ultimul an, personalul RefSeq a urmărit mai multe proiecte de adnotare aprofundate, dintre care unele sunt descrise pe scurt în paragrafele următoare, pentru a adăuga date funcționale la seturi specifice de gene în care instrumentele de calcul nu sunt capabile să reprezinte cu exactitate cunoștințele biologice. Aceste proiecte includ adnotarea peptidelor antimicrobiene, retrovirusuri endogene, histone dependente de replicare, uorfi regulatori și antizime.

peptide antimicrobiene (amp)

amp au fost un accent recent curation (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Amp sunt peptide naturale care se găsesc într-o gamă diversă de specii și au fost implicate în multe roluri imune, inclusiv activități bactericide, antivirale, antifungice și chiar antitumorale. O listă de peste 130 de gene umane care codifică unul sau mai mulți amperi dovediți experimental a fost adunată din mai multe seturi de date AMP disponibile publicului și, de asemenea, extrasă din publicații. Majoritatea acestor amperi nu au fost identificați anterior în baza de date RefSeq și niciuna dintre bazele de date AMP nu a conectat peptidele la gena lor de codificare. Curatorii RefSeq au adnotat manual înregistrările RefSeq pentru fiecare genă umană care codifică AMP pentru a se asigura că peptida funcțională a fost adnotată, pentru a include o publicație care descrie activitatea antimicrobiană a peptidei, pentru a adăuga un scurt rezumat care descrie activitatea antimicrobiană a AMP codificat și pentru a stoca un nou atribut RefSeq ‘proteina are activitate antimicrobiană’ care este inclus în comentariul structurat al atributului RefSeq (de exemplu, NM_001124.2 pentru ADM; GeneID: 133). Pentru a accesa toate înregistrările de transcriere umană sau amp de proteine, căutați în baza de date nucleotidică sau proteică folosind ‘proteina are activitate antimicrobiană’. În prezent, această căutare va găsi 191 de înregistrări RefSeq, inclusiv variante de îmbinare și izoforme proteice.

retrovirusurile endogene (ERV)

retrovirusurile endogene (ERV) sunt loci genomici care sunt derivați din inserția ancestrală a unui retrovirus exogen în genomul gazdă. ERV loci sunt, în general, în afara domeniului de aplicare pentru RefSeq; cu toate acestea, adnotăm loci de codificare a proteinelor ERV de lungime completă care se mapează la o singură locație genomică dacă au evoluat pentru a servi o funcție gazdă, sunt asociate cu o boală cunoscută și/sau dacă li s-a atribuit nomenclatura de către un comitet oficial de nomenclatură. Aproximativ 8% din genomul uman este de origine retrovirală (27); cu toate acestea, datorită originilor lor antice, majoritatea locilor ERV umani au acumulat mutații nonsens și nu mai pot codifica o proteină. Proteinele syncytin, care sunt implicate în dezvoltarea placentară (28), sunt o excepție bine cunoscută de la aceasta. Proteinele umane syncytin-1 și syncytin-2 sunt codificate de genele ERVW-1 (NM_001130925.1, NM_014590.3) și ERVFRD-1 (NM_207582.2). Până în prezent am creat 67 RefSeqs pentru ERV loci, care include înregistrări reprezentând genele ERV dintr-un set divers de mamifere. O nouă categorie de atribute RefSeq intitulată ‘retrovirus endogen’ a fost creată pentru aceste înregistrări și apare într-un comentariu structurat pe înregistrarea RefSeq. Aceste înregistrări pot fi preluate din Baza de date nucleotidică prin căutarea retrovirusului endogen.

histone dependente de replicare

este necesară o sinteză rapidă a ARNm-urilor histonice în timpul diviziunii celulare pentru a produce cantități mari de proteine histonice. Critice pentru acest proces sunt genele histone dependente de replicare care sunt reglate în sus în timpul fazei G1/S a ciclului celular (29). Un proiect specific RefSeq a fost întreprins cu scopul de a curăța setul complet de gene care codifică proteinele histonice dependente de replicare la om și șoarece. Aceste gene au o secvență canonică de 3 ‘ histonă în aval (HDE) în secvența genomică, iar ARNm-urile mature rezultate nu au în mod caracteristic cozi Poli(A) și, în schimb, se termină la scurt timp după o structură de buclă stem ARN (30). Elementul HDE se găsește pe transcrierea precursorului, dar nu este inclus pe transcrierea procesată reprezentată de RefSeq. Locația secvenței de structură a buclei stem de 16 nucleotide conservate este indicată pe înregistrarea RefSeq ca o adnotare caracteristică intitulată ‘buclă stem’. Un exemplu poate fi văzut pe intrarea RefSeq NM_003539. 3 pentru HIST1H4D (GeneID: 8360). Până în prezent, au fost organizate 127 de înregistrări histone RefSeq dependente de replicare umană și șoarece și a fost adăugat un atribut RefSeq care poate fi utilizat pentru a prelua aceste înregistrări din Baza de date nucleotidică folosind șirul de căutare ‘histone dependente de replicare’.

cadre de citire deschise regulatorii în amonte (uorf)

traducerea unui cadru de citire deschis în amonte (uORF) poate afecta negativ traducerea cadrului de citire deschis primar care codifică proteinele (pORF) (31). Acest efect nu reduce întotdeauna complet traducerea pORF și poate fi dependent de tipul de celulă, starea de dezvoltare sau starea celulară. Prin urmare, deși uorf-urile pot fi prezise din traducerea în șase cadre a unei transcrieri, efectul de reglementare al acestui element trebuie determinat prin validare experimentală. Curatorii RefSeq au revizuit literatura de specialitate pentru a găsi transcrieri cu dovezi experimentale ale uorf-urilor de reglementare și au actualizat înregistrările corespunzătoare ale transcrierii RefSeq pentru a adăuga o eroare care denotă locația acestor uorf-uri. Un exemplu este intrarea RefSeq NM_000392.4 pentru ABCC2 (Geneida: 1244). O nouă categorie de atribute RefSeq intitulată ‘regulatory uORF’ a fost creată și apare într-un comentariu structurat asupra acestor înregistrări RefSeq. Atât caracteristica adnotată, cât și atributul citează publicația de susținere de către PubMed ID. Până în prezent, 260 de înregistrări au fost adnotate cu acest atribut și aceste înregistrări pot fi preluate din Baza de date nucleotidice prin căutarea ‘uorf de reglementare ‘

gene Antizim

unul dintre obiectivele proiectului RefSeq este de a reprezenta gene cu Biologie excepțională care nu respectă regulile standard de decodare a sintezei proteinelor. Gena antizimă ornitină decarboxilază este un astfel de exemplu, în care apare un mecanism de schimbare a cadrelor ribozomale programat +1 și nu poate fi prezis de instrumentele computaționale convenționale. Un set de transcrieri antizimice vertebrate și înregistrări de proteine au făcut recent obiectul unui efort de adnotare manuală pentru a crea standarde pentru îmbunătățirea adnotării acestor produse genetice de către conducta de adnotare a genomului eucariot (32). Înregistrările RefSeq au fost adnotate manual cu caracteristica CDs divizată pentru a reflecta alunecarea ribozomală și includ un atribut ‘alunecare ribozomală’ cu dovezi publicate, diverse adnotări diverse ale caracteristicilor (cum ar fi locația site-ului frameshift) și un scurt rezumat care descrie funcția și proprietățile noi ale genei (de exemplu, NM_139081.2). Aceste înregistrări pot fi preluate din Baza de date nucleotidică sau proteică cu interogarea de căutare: vertebrates refseq ribosomal slippage antizyme. Această căutare găsește în prezent 242 de înregistrări RefSeq (NM sau NP), care include variante de transcriere și izoforme proteice.

nevertebrate

speciile de nevertebrate reprezintă marea majoritate a metazoanelor existente (33); Cu toate acestea, doar un număr relativ mic sunt reprezentate de genomi secvențiați. Acest lucru în ciuda faptului că multe specii au o importanță biomedicală critică, cum ar fi Anopheles gambiae, un vector pentru malarie și Biomphalaria glabrata, un vector pentru schistosomioză (34,35). Alte nevertebrate, inclusiv Apis mellifera, Bombyx mori și Crassostrea gigas, au o valoare comercială semnificativă (36-38). Grupul RefSeq a depus eforturi pentru a crește numărul și domeniul de aplicare al genomurilor nevertebrate reprezentate în setul de date prin furnizarea de adnotări prin conducta de adnotare a genomului eucariot sau prin propagarea adnotărilor din trimiterile INSDC pe copia RefSeq a acestor genomi. Pentru ambele fluxuri de proces suntem dependenți de disponibilitatea publică a genomurilor de înaltă calitate în bazele de date INSDC și baza de date de asamblare NCBI (www.ncbi.nlm.nih.gov/assembly/). până în prezent, 46 de genomi nevertebrate au fost adnotați de NCBI, inclusiv specii reprezentative de insecte, arahnide, moluște și cordate bazale. Anticipăm o extindere semnificativă a numărului de genomi de insecte și alte nevertebrate adnotate ca urmare a inițiativelor genomului, cum ar fi I5K (39), 1kite (evoluția transcriptomului insectelor 1K, http://www.1kite.org/) și Alianța Globală a genomului nevertebratelor (http://giga.nova.edu/) (40).

plante

RefSeq continuă să extindă diversitatea speciilor de plante reprezentate în setul de date. Până în prezent, 61 de specii de plante au fost incluse în setul de date genomes RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes/refseq/ plant/) din care 33 de specii au fost adnotate prin conducta de adnotare a genomului eucariot; restul sunt copii RefSeq ale genomurilor adnotate trimise la INSDC. În viitor, mai multe genomuri de plante selectate pentru includerea RefSeq vor fi procesate de conducta de adnotare eucariote, mai degrabă decât propagarea adnotării din trimiterea INSDC. Aceasta este o schimbare de politică pentru genomul plantelor RefSeq și va duce la o mai mare coerență generală a datelor de adnotare a plantelor din setul de date RefSeq. Majoritatea transcrierilor și proteinelor RefSeq disponibile pentru speciile de plante sunt înregistrări ‘ model ‘(aderări XM_, XP_ și XR_; Tabelul 1), cu un subset mai mic de înregistrări’ cunoscute ‘ (NM_, NR_, NP_) care sunt menținute independent de procesul de adnotare printr-o combinație de prelucrare automată și revizuire manuală. Curatarea manuală a transcrierii plantelor și a datelor despre proteine sunt furnizate în prezent pentru Zea mays și Solanum lycopersicum. Concentrarea curentă a curației implică o revizuire extinsă a secvenței și este orientată spre rezolvarea preocupărilor QA în setul actual de transcrieri. Rezoluția erorilor este axată pe identificarea și eliminarea transcrierilor himerice, a transcrierilor redundante și a genelor și îmbunătățirea calității secvenței reprezentate prin evaluarea indels și a nepotrivirilor dintre transcrierea RefSeq, secvența genomică și datele ortologice. Pentru plante, ne străduim să oferim o transcriere curată și un set de date proteice care să fie în concordanță cu soiul selectat pentru secvențierea și asamblarea genomului. Protocolul de curație utilizat pentru datele vertebratelor este, de asemenea, utilizat pentru plante. Astfel, înregistrările de transcriere RefSeq pot fi actualizate pentru a se baza pe o secvență sursă INSDC diferită sau pot fi asamblate din mai multe înregistrări de secvență INSDC pentru a furniza o transcriere din soiul preferat. Dacă datele de transcriere INSDC nu sunt disponibile pentru soiul genomic, atunci o transcriere RefSeq poate fi generată din secvența genomică asamblată pe baza unei combinații de transcriere sau alinieri de proteine, ARN-Seq și/sau date publicate. O a doua zonă de focalizare este creșterea numărului de transcrieri și proteine cunoscute acceptate de codificare a proteinelor, deoarece aceasta oferă un reactiv curat care poate fi utilizat la adnotarea altor genomi de plante. În cele din urmă, facem mai multe RefSeqs reprezentând variante de îmbinare atunci când există suficiente dovezi justificative. Aceste eforturi vor îmbunătăți în mod semnificativ calitatea setului de date al instalației RefSeq și vor contribui la îmbunătățirea adnotărilor viitoare ale genomului. Setul actual de genomuri de plante adnotate de conductă poate fi accesat la site-ul web al conductei de adnotare a genomului eucariot al NCBI http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ cu link-uri către raportul detaliat de adnotare și alte resurse, cum ar fi specii explozie și FTP.

alge, ciuperci, nematode și protozoare

conducta genomului eucariot mic NCBI este o nouă conductă automată concepută pentru generarea de înregistrări RefSeq ca urmare a propagării directe a înregistrărilor INSDC adnotate. Înregistrările RefSeq astfel generate sunt copii ale datelor GenBank cu unele modificări de format pentru a respecta cerințele RefSeq. Cea mai notabilă diferență între înregistrarea originală INSDC și înregistrarea RefSeq este adăugarea produsului de transcriere RefSeq. Deși nu este conceput pentru a genera adnotarea genomului de novo, conducta mică a genomului eucariot se bazează pe mai multe module ale conductei de adnotare a genomului eucariot NCBI și Codul acestora (http://www.ncbi.nlm.nih.gov/books/NBK169439/).denumirea ‘eucariote mici’ se referă la utilizarea primară a conductei pentru a genera genomi RefSeq pentru genomi eucariote relativ mai mici (în comparație cu cele ale plantelor și vertebratelor), cum ar fi cele ale algelor, protozoarelor, ciupercilor, nematodelor și unor artropode. Cu toate acestea, unele genomi mari de plante sunt, de asemenea, procesate folosind această conductă. Această conductă procesează ansambluri de înaltă calitate constând din cromozomi și/sau schele și componentele acestora. Aceste ansambluri cu contig ridicat și schele N50, secvență de înaltă calitate, și în mod rezonabil bun insdc-a prezentat adnotare sunt prioritizate. Această conductă, care înlocuiește un flux istoric de proces care a necesitat mai mult sprijin manual, a ajuns recent într-o fază de producție publică și produce deja un număr crescut de genomi eucarioți ‘mici’ reprezentați în RefSeq. Lucrările sunt în curs de desfășurare pentru a optimiza debitul conductei și pentru a adăuga mai multă automatizare și pentru a minimiza în continuare sarcinile de procesare a curatorilor. Planurile pe termen lung includ implementarea unui sistem de gestionare a denumirilor proteinei pentru a furniza, corecta sau îmbunătăți denumirile transmise de INSDC în timp. Multe dintre genomii care sunt în domeniul de aplicare al conductei mici eucariote nu pot fi procesate în prezent de conducta (mare) de adnotare a genomului eucariot datorită diversității taxonomice și disponibilității limitate a datelor de transcriere necesare pentru instruirea conductei de adnotare de novo.

loci vizați fungici

morfologia fungică este foarte diversă, variind de la structuri multicelulare complexe la celule unice foarte simple. O varietate de structuri morfologice și tipuri de spori pot fi produse de o singură specie. În schimb, multe specii produc morfologii similare (morfuri), dar sunt de fapt genetic foarte îndepărtate. Până de curând, o singură specie putea fi descrisă în mod valabil cu mai multe nume binomiale bazate pe morfuri sexuale sau asexuale. În multe cazuri, doar un singur morf a fost descris și înregistrat pentru o anumită specie, deși speciile strâns legate de aceasta ar putea avea mai multe morfuri descrise și înregistrate. În consecință, s-au aplicat comparații de secvențe în comunitatea fungică pentru a face diferența între specii, pentru a urmări speciile pe măsură ce trec prin cicluri de viață complexe și pentru a identifica speciile criptice. Ca parte a procesului dinamic de reevaluare taxonomică, multe corecții ale speciilor fungice nu sunt întotdeauna actualizate în datele secvenței GenBank.

pentru a fi o resursă mai fiabilă pentru identificarea pe bază de ADN, secvențele de referință derivate din specimene de tip (care acționează ca referințe pentru specii) trebuie să fie etichetate cu denumirea corectă și cea mai actualizată a speciei. Fungi RefSeq orientate loci bazele de date oferă această resursă valoroasă. De exemplu, PRJNA177353 este un Bioproiect care se concentrează în mod specific asupra regiunilor distanțiere transcrise interne (ITS) din cistronul ribozomal nuclear, care a fost folosit de mulți ani ca marker filogenetic și aprobat recent ca secvență formală de coduri de bare a ciupercilor (41). Baza de date its RefSeq a început ca o colaborare cu Index Fungorum, MycoBank și UNITE, precum și cu un grup mare de specialiști taxonomici. Au fost selectate secvențe, în mare parte din specimene de tip de descrieri valide, iar apoi numele actuale corecte ale speciilor au fost asociate secvențelor cu scopul de a reprezenta majoritatea ordinelor fungice acceptate (8). Rezultatele acestui efort de curație au fost utilizate și citate de diverse publicații (42-46) și au ajutat la eforturi suplimentare de validare a subseturilor de secvențe de referință, de exemplu specii semnificative din punct de vedere medical (47).

scopul, cu curație continuă, este de a adăuga secvențe din ordinele nou descrise și de a extinde reprezentarea pentru a include majoritatea familiilor acceptate, cu accent pe ciupercile importante din punct de vedere medical. Procesul include, de asemenea, efectuarea de corecții, înlocuirea secvenței din materialul verificat cu secvența din materialul de tip pe măsură ce devine disponibil și editarea liniilor de definiție sau eliminarea înregistrărilor RefSeq pe măsură ce se modifică clasificările taxonomice. Acest lucru asigură că rezultatele căutării BLAST afișează corect numele curent. Înregistrările RefSeq ITS au fost extinse pentru a reprezenta 3.060 de secvențe reprezentând 270 de familii din 39 de clase. În timpul colaborării inițiale a efortului său RefSeq, un set mai mic de aderări de secvențe din gena ribozomală a subunității nucleare mari 28S (LSU) au fost, de asemenea, colectate, dar nu verificate. A fost urmat un flux de lucru similar cu procesul de curatare a înregistrărilor ITS și, în timpul curării continue, aceste înregistrări LSU au fost verificate pentru calitatea secvenței, identificarea corectă și datele sursă exacte. Aproape 500 de înregistrări (din 800 de înregistrări potențiale) reprezentând >100 de familii din 21 de clase au fost verificate și lansate recent. Setul de date 28S poate fi preluat din BioProject PRJNA51803 (48).

procariote

colecția genomului procariot al NCBI RefSeq reprezintă genomuri procariote asamblate cu diferite niveluri de calitate și densitate de eșantionare. Pentru procariote, pe baza feedback-ului comunității anterioare, politica noastră actuală este de a oferi adnotarea genomului pentru toate genomurile procariote care îndeplinesc criteriile noastre de calitate. În ultimii ani, ne-am confruntat cu două provocări majore: (i) a ține pasul cu escaladarea rapidă a genomurilor procariote prezentate; și, (ii) abordarea unei inconsecvențe crescânde în adnotarea genomului datorită utilizării atât a unei conducte bazate pe propagare INSDC, cât și a diferitelor versiuni ale unei conducte de adnotare a genomului NCBI de novo, așa cum a fost dezvoltată în timp.odată cu creșterea interesului pentru agenții patogeni umani și avansarea tehnologiei de secvențiere a ADN-ului, numărul genomurilor procariote secvențiate a crescut rapid în ultimul deceniu. Unele tulpini bacteriene sunt adesea indistinguizabile folosind abordările actuale de genotipare, dar diferențele genetice minore pot fi detectate pe baza secvențierii întregului genom, care este utilă pentru caracterizarea căilor de transmisie, identificarea rezistenței la antibiotice și supravegherea focarelor. Pentru a investiga agenții patogeni alimentari sau focarele de infecție, un număr mare de genomi bacterieni aproape identici au fost secvențiați și adnotați în ultimii ani, rezultând numeroase proteine identice, fiecare având un număr de aderare distinct. În 2013 NCBI a introdus un nou model de date despre proteine și prefix de aderare (WP_) pentru colecția RefSeq. Această modificare a redus redundanța proteinelor procariote RefSeq și a facilitat identificarea proteinelor care au fost găsite identic pe mai mult de un genom. De asemenea, a permis o strategie îmbunătățită pentru gestionarea denumirilor de proteine procariote. Aceste înregistrări non-redundante reprezintă secvențe unice de proteine procariote care sunt independente de orice genom bacterian particular și pot fi adnotate pe mai multe tulpini sau specii (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

Din punct de vedere istoric, adnotarea genomilor bacterieni RefSeq a fost propagată din trimiterile INSDC, atunci când sunt disponibile, sau generată folosind diferite versiuni ale conductei de adnotare a genomului procariot al NCBI (care este, de asemenea, oferit ca serviciu pentru trimiterile GenBank). Acest lucru a dus la neconcordanțe acumulate atât în adnotarea structurală, cât și în cea funcțională în setul de date procariote RefSeq. În ultimii doi ani, NCBI a îmbunătățit mai multe aspecte ale conductei de adnotare a genomului procariot pentru a crește capacitatea și a standardiza în continuare regulile de adnotare. Conducta noastră combină un algoritm de apelare a genelor, GeneMarkS +(49,50), cu o abordare de detectare a genelor bazată pe aliniere și este capabilă să adnoteze atât genomurile complete, cât și cele draft WGS. Conducta prezice în prezent gene care codifică proteinele, ARN-uri structurale (5S, 16S și 23S), ARN-uri și ARN-uri mici care nu codifică.

în 2015, am lansat o actualizare cuprinzătoare de adnotare pentru genomurile procariote RefSeq pentru a armoniza adnotarea genomului și a finaliza tranziția la noul model de date despre proteine. Au fost dezvoltate o nouă bază de date cu nume de proteine procariote, specificații de nume și o strategie bazată pe dovezi și sunt în prezent în curs de desfășurare. Până în prezent, peste 3 milioane de înregistrări de proteine au actualizat numele într-o demonstrație inițială a abordării. Noul model de date procariote oferă un avantaj semnificativ pentru gestionarea denumirii, deoarece numele proteinei este purtat cu înregistrarea secvenței de proteine; actualizarea numelui pe acea înregistrare de proteine are ca rezultat propagarea automată a actualizării la toate genomii care sunt adnotați cu acel număr de aderare.

genomurile procariote RefSeq sunt organizate în mai multe categorii noi, cum ar fi genomii de referință și genomii reprezentativi, pe baza atributelor curate și a măsurilor de calitate a asamblării și adnotării (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Genomurile de referință sunt selectate manual’ gold standard ‘ genomuri complete cu adnotare de înaltă calitate și cel mai înalt nivel de suport experimental pentru adnotare structurală și funcțională. În prezent, un mic set de date de 122 genomuri de referință sunt adnotate manual de către grupurile colaboratoare și personalul NCBI. Genomii de referință sunt disponibili la: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Genomii reprezentativi sunt calculați și selectați pentru a reprezenta diverse specii. Genomii reprezentativi sunt disponibili la: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq datele genomului procariote pot fi accesate în baze de date BLAST, resurse web (asamblare, BioProject, genom, Nucleotide și proteine), prin utilitățile de programare NCBI sau pot fi descărcate de pe site-urile genomes sau refseq FTP. O pagină personalizată ‘Microbes’ BLAST, accesată de pe pagina de pornire BLAST, oferă opțiuni pentru a căuta împotriva tuturor Genomurilor procariote RefSeq, subsetul Genomurilor de referință și reprezentative sau pentru a restricționa căutarea la un anumit taxon. Un subset de genomi procarioți sunt adnotați cu un ID de genă NCBI și pot fi recuperați în resursa genetică a NCBI sau de pe site-ul FTP al genei. Pentru archaea, acest lucru este prevăzut pentru majoritatea genomurilor complete. Pentru bacterii, acest lucru este prevăzut pentru genomii de referință și genomii reprezentativi pentru speciile care au cel puțin 10 depuneri de genom.

loci țintiți Procarioți

în procariote, secvența ARN ribozomal 16S a devenit un marker molecular standard pentru descrierea unei noi specii. În timp ce aceste secvențe de marker au devenit utilizate pe scară largă, calitatea datelor secvenței și a meta-datelor asociate transmise bazelor de date INSDC variază considerabil. Recunoscând importanța accesului la date de înaltă calitate pentru acești markeri, NCBI și-a extins proiectul loci vizat pentru a oferi o sursă actualizată de date curate. Proiectul loci vizat menține în prezent aproape 18 000 de secvențe de referință ARN ribozomal 16S, dintre care peste 95% provin din tulpini de tip. Tulpinile de tip sunt considerate exemplarul speciei și este esențial ca datele despre tulpinile de tip să fie adnotate cu metadate corecte și să nu fie contaminate.

această lucrare a implicat o revizuire exhaustivă și o actualizare a bazei de date taxonomice care a fost utilizată împreună cu filtrul entrez al tulpinii de tip NCBI pentru a prelua secvențele candidate. Datele secvenței și taxonomia/meta-datele asociate au fost revizuite și corectate pentru a include cele mai actualizate informații. Dacă o secvență nu a reușit validarea sau nu a putut fi validată cu exactitate, a fost exclusă. Aceste secvențe de referință pot fi acum utilizate ca ‘standarde de aur’ pentru analiza secvențelor rRNA existente și noi.seturile de date bacteriene și Archaeal 16S rRNA sunt disponibile de la BioProject (PRJNA33175 și, respectiv, PRJNA33317). O bază de date BLAST personalizată este de asemenea disponibilă (secvențe ARN ribozomale’16S (bacterii și Archaea)’).

viruși

modelul de date RefSeq pentru viruși diferă de cel al altor organisme. În general, pentru fiecare specie virală este creat un singur genom RefSeq complet. Ocazional, mai multe înregistrări RefSeq sunt create într-o anumită specie virală pentru a reflecta genotipuri bine definite sau tulpini importante de laborator și/sau sălbatice. Genomii suplimentari pentru o anumită specie sunt validați pentru taxonomie și completitudine și apoi indexați ca vecini de secvență (52). Atât genomul RefSeq, cât și genomul vecin sunt recuperabile prin resursa specializată a genomului Viral (http://www.ncbi.nlm.nih.gov/genome/viruses/) și din paginile nucleotidelor și genomului Entrez folosind legăturile „genomului RefSeq pentru specii” și „alte secvențe genomice INSDC” (52).

taxonomia este o preocupare majoră pentru genomica virală, deoarece există 3186 de specii virale recunoscute oficial de Comitetul Internațional pentru taxonomia virusurilor (ICTV) (53) și 4834 genomuri complete atât din speciile virale oficiale, cât și provizorii disponibile din bazele de date INSDC. Instrumentul NCBI Pairwise Sequence comparation (PASC) a fost dezvoltat pentru a ajuta la clasificarea genomilor virali pe baza alinierilor globale și/sau locale între genomi (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Domeniul de aplicare al acestui instrument a fost extins pentru a include o serie de familii de viruși și alte grupuri taxonomice și a fost utilizat pentru a sprijini delimitarea noilor criterii taxonomice (54-57).

o altă problemă emergentă în genomica virală este adnotarea inconsistentă și / sau inexactă între secvențele genomului viral conexe. Această problemă reflectă adesea diferite procese de adnotare și lucrări experimentale în curs de desfășurare și poate duce la confuzie în rândul consumatorilor de date și poate face dificilă analiza comparativă între genomi. Această problemă este abordată în cadrul resursei de variație a virusului NCBI (http://www.ncbi.nlm.nih.gov/genome/viruses/variație/) unde sunt utilizate conducte de calcul pentru a furniza adnotări standardizate actualizate pentru mai mulți viruși (58). În prezent, aceste conducte calculează limitele standardizate ale genelor și proteinelor pentru toate secvențele virusului gripal, virusul Dengue și virusul West Nile și denumirile standardizate ale genelor și proteinelor și termenii de metadate pentru aceștia și alți doi viruși, coronavirusul respirator din Orientul Mijlociu și Ebolavirusul. Aceste date standardizate sunt apoi utilizate într-o interfață de căutare specializată, centrată pe metadate, care facilitează regăsirea ușoară a secvențelor pe baza unor criterii biologice specifice.

menținerea unor standarde de adnotare actualizate, acceptate pe scară largă, necesită o colaborare continuă cu comunitatea științifică mai mare. Grupul de lucru pentru adnotarea genomului viral NCBI a fost înființat pentru a mobiliza consorții de baze de date publice, centre de secvențiere și grupuri de cercetare pentru a dezvolta adnotarea secvenței standardizate, precum și pentru a izola schemele de denumire pentru diferite grupuri de viruși (59-63). Această abordare nu numai că stabilește standarde pentru adnotarea virală, ci reprezintă și aceste standarde în cadrul înregistrării actuale RefSeq, asigurând accesibilitatea tuturor utilizatorilor și emitenților bazei de date. Colaborări similare sunt, de asemenea, necesare pentru a sprijini valoarea adăugată, resurse interpretative, cum ar fi HIV-1, Baza de date de interacțiune umană (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirusuri/hiv-1/interacțiuni/) (64). Colaboratorii de la Institutul de cercetare din sud furnizează HIV-1 documentat, interacțiuni moleculare umane curate din literatură, iar NCBI menține o resursă ușor de utilizat, unde utilizatorii pot interoga anumite tipuri de interacțiuni și pot găsi mai multe informații despre genele implicate.

direcții viitoare

proiectul RefSeq este unic în oferirea unui set de date de secvență de referință de transcrieri, proteine și genomi care cuprinde toate regatele vieții și a fost menținut și actualizat în mod activ în timp pentru a încorpora strategii de calcul îmbunătățite, noi tipuri de date și noi cunoștințe. Am demonstrat capacitatea și capacitatea de a răspunde la recentele creșteri rapide ale numărului de genomi secvențiați trimise la bazele de date INSDC. Am definit un set divers de politici și strategii pentru Curarea și adnotarea speciilor eucariote, procariote și virale pentru a satisface nevoile diferite ale comunităților specifice organismului. Setul de date RefSeq este utilizat pe scară largă ca standard de referință pentru multe analize diferite, inclusiv aplicații clinice umane și patogene, genomică comparativă, teste de Expresie, interpretarea variației secvenței și atât construcția matricei, cât și a sondei. La NCBI, setul de date RefSeq este integrat în mai multe resurse, inclusiv asamblare, explozie, Epigenomică, Gene (unde adnotarea RefSeq este baza principală pentru majoritatea intrărilor de Gene), Genome, dbSNP, dbVar, Variation Viewer și multe altele.

vom continua să vizăm curația manuală pentru a îmbunătăți informațiile structurale și funcționale pentru genomii umani și alte vertebrate. Abordarea noastră conservatoare de curație manuală asigură calitatea și fiabilitatea continuă a înregistrărilor RefSeq umane, mouse și alte înregistrări ‘cunoscute’, care servesc nevoilor celor care au nevoie de o definiție bine susținută a exonilor alternativi (mai puține fals pozitive). Adăugarea datelor ARN-Seq la conducta noastră de adnotare a crescut semnificativ adnotarea variantelor alternative de îmbinare ca model RefSeqs pentru a servi nevoilor celor care doresc o definiție mai cuprinzătoare, dar încă bine susținută, a exomului (mai puține negative false). În timp ce atât Refseq-urile cunoscute, cât și cele de model raportează dovezile de sprijin pe înregistrarea secvenței, ele folosesc abordări distincte pentru a face acest lucru. Eforturile viitoare vor fi îndreptate spre armonizarea raportării dovezilor atât pentru Refseq-urile’ cunoscute’, cât și pentru’ model’, astfel încât utilizatorii să poată identifica mai ușor aceste informații. De asemenea, vom adăuga un nou tip de date la colecția RefSeq umană și șoarece în viitorul apropiat pentru a reprezenta elemente de reglementare și funcționale raportate experimental cu consecințe funcționale cunoscute (sau deduse în mod rezonabil).

pentru genomii procarioți, continuăm să lucrăm la rafinarea aspectelor adnotării structurale generate de conducta de adnotare a genomului procariot. Munca noastră către o nouă abordare pentru gestionarea informațiilor funcționale este încă în curs de perfecționare și va fi descrisă în altă parte. Anticipăm re-adnotarea întregului set de date genom procariote RefSeq atunci când devin disponibile noi versiuni ale conductei noastre de adnotare procariotă (pentru a îmbunătăți adnotarea structurală). Decizia de a adnota toate procariotele RefSeq folosind o singură metodă, împreună cu volumul mare al acestui set de date, necesită o abordare diferită care utilizează mai multe surse de dovezi pentru a furniza informații funcționale. Numele de proteine vor fi actualizate în mod continuu, organizate pe familii de proteine sau categorii de tipuri de dovezi. Obiectivele noastre pentru anul următor includ o mai mare integrare a Rfam (65) în conducta noastră de adnotare, colaborare extinsă, nume de proteine îmbunătățite și dovezi de sprijin pentru raportarea înregistrării secvenței de proteine.mulțumim comunității științifice pentru feedback-ul constructiv, sugestiile, rapoartele de eroare și colaborările din ultimii 15 ani care au contribuit la calitatea și acuratețea secvenței reprezentate, adnotarea structurală și adnotarea funcțională.

finanțare

programul de cercetare Intramural al NIH, Biblioteca Națională de Medicină. Finanțare pentru taxa de acces deschis: programul de cercetare intramurală al Institutelor Naționale de sănătate, Biblioteca Națională de Medicină.

Declarație privind conflictul de interese. Nici unul declarat.

Nosek
B. A.
Alter
G.

bănci
G. C.

Borsboom
D.

Bowman
S. D.
breckler
S. J.

buck
S.

Chambers
C. D.

China
G.

Christensen
G.

și colab.

standarde științifice. Promovarea unei culturi deschise de cercetare
știință
2015
348
1422
1425

Gri
K. A.

Yates
B.
sigiliu
R. L.

Wright
M. W.

Bruford
E. A.

Genenames.org: resursele HGNC în 2015
acizi nucleici Res.
2015
43
D1079
D1085

Ruzicka
L.

Bradford
Y. M.

Frazer
Howe
D. G.
padoc
H.

Ramachandran
S.

singer
A.
Bull
S.

Van Slyke
C. E.

vultur
A. E.

și colab.

ZFIN, zebrafish organism model de baze de date: Actualizări și noi direcții
Geneza
2015
53
498
509
UniProt
C.

UniProt: un hub pentru proteine informații
acizi Nucleici Res.
2015
43
D204
212

Kozomara
A.

Griffiths-Jones
S.

miRBase: adnotarea microARN-urilor de înaltă încredere folosind date de secvențiere profundă
acizi nucleici Res.
2014
42
D68
73

McGarvey
K. M.
Goldfarb
T.

Cox
E.

Farrell
C. M.

Gupta
T.

joardar
V. S.

kodali
V. K.

Murphy
M. R.

O ‘ Leary
N. A.
Pujar
S.
adnotarea genomului Mouse-ului prin proiectul RefSeq
Mamm. Genomul
2015
26
379
390

Dalgleish
R.

flicek
P.
Cunningham
F.

astashyn
A.

Tully
R. E.
Proctor
G.

câine
Y.
McLaren
W. M.

Larsson
P.

Vaughan
B. W.

și colab.

Locus Reference genomic sequences: baza îmbunătățită pentru descrierea variantelor de ADN uman
Genome Med.
2010
2
24

Schoch
C. L.

Robbertse
B.

Robert
V.
vu
D.

Cardinali
G.
Irinyi
L.

Meyer
W.
Nilsson
R. H.
Hughes
K.
Miller
A. N.

și colab.

găsirea acelor în căpițe: legarea denumirilor științifice, a specimenelor de referință și a datelor moleculare pentru ciuperci
baza de date
2014
1
21
Zhang
G.

it
C.

It
Q.
It
it
B.

Larkin
D. M.
Lee
C.

Storz
J. F.
Antunes
A.
greenwold
M. J.
Meredith
R. W.

și colab.

genomică Comparativă relevă perspective în aviară genomului evoluția și adaptarea
Știința
2014
346
1311
1320
Jarvis
E. D.

Mirarab
S.

Aberer
A. J.

Acesta
B.

Houde
P.

Acesta
C.

Ho
S. Y.

Lauch
B. C.

Nabholz
B.
Howard
J. T.

și colab.

analizele genomului întreg rezolvă ramurile timpurii din arborele vieții păsărilor moderne
știință
2014
346
1320
1331

Farrell
C. M.
O ‘ Leary
N. A.
harte
R. A.
Loveland
J. E.

wilming
L. G.

Wallin
C.
Diekhans
M.
Barrell
D.
Searle
S. M.
Aken
B.

și colab.

starea Actuală și noile caracteristici ale Consens Codificare Secvența de baze de date
Acizi Nucleici Res.
2014
42
D865
D872
Pruitt
K. D.

Tatusova
T.

Maglott
D.R.

secvențe de referință NCBI (RefSeq): o bază de date de secvențe non-redundante curate de genomi, transcrieri și proteine
acizi nucleici Res.
2007
35
D61
D65

Hopkins
B. D.

fin
B.
Steinbach
Dendy
M.

Rapp
Z.
Shaw
J.

Ross
K.

Yu
J. S.
Hodakoski
C.
Mense
S.

și colab.

Pe secretat PTEN fosfatazei care intră în celule pentru a modifica semnalizare și de supraviețuire
Știința
2013
341
399
402
Liang
H.

A
S.

Yang
J.

Jia
X

Wang
P.

câine
X.
Zhang
Zoo
X.
McNutt
M. A.
sheng
W. H.

și colab.

PTENalpha, izoforma PTEN tradusă prin inițiere alternativă, reglează funcția mitocondrială și metabolismul energetic
Metabul celular.
2014
19
836
848

Bolouri
H.

modelarea rețelelor de reglementare a genomului cu date mari
tendințe Genet.: TIG
2014
30
182
191

Fagerberg
Hallstrom
B. M.

oksvold
P.

Kampf
C.
djureinovic
D.
odeberg
J.
habuka
M.
tahmasebpoor
S.

Danielsson
A.
Edlund
K.

și colab.

scanarea expresiei specifice țesutului uman prin integrarea la nivel de genom a transcriptomicii și proteomicii pe bază de anticorpi
Mol. Celula. Proteomica : MCP
2014
13
397
406
Bernstein
B. E.

stamatoyannopoulos
J. A.

Costello
J. F.

talie
B.

Milosavljevic
A.

Meissner
Kellis
M.
Marra
M. A.
Beaudet
A. L.
Ecker
J. R.

și colab.

consorțiul de cartografiere epigenomică a foii de parcurs NIH
Nat. Biotehnol.
2010
28
1045
1048
Hoffman
M. M.
Ernst
J.

Wilder
S. P.
Kundaje
A.

Harris
R. S.

Libbrecht
M.
giardine
B.

Ellenbogen
p.m.

bilmes
J. A.

Birney
E.

și colab.

adnotarea integrativă a elementelor cromatinei din datele codificate
acizi nucleici Res.
2013
41
827
841

erti
A.
Garrett-Engele
P.
MacIsaac
K. D.
Stevens
R. C.
Sriram
S.
câine
R.
Rohl
C. A.
Johnson
J. M.
Babak
T.
Atlasul cantitativ al poliadenilării la cinci mamifere
genom Res.
2012
22
1173
1183
lin
M. F.

jungreis
I.

kellis
M.
filocsf: metoda genomică comparativă pentru a distinge regiunile de codificare și necodificare a proteinelor
bioinformatică
2011
27
i275
282
pret
A. L.

Jones
N. C.

Pevzner
P. A.

de novo identificarea familiilor repetate în genomi mari
bioinformatică
2005
21 Suppl 1
i351
358

kodzius
R.

Kojima
M.

nishiyori
H.
Nakamura
M.
Fukuda
S.
Tagami
M.
Sasaki
D.
Imamura
K.
Kai
C.
Harbers
M.

și colab.

CAGE: analiza cap a expresiei genelor
Nat. Metode
2006
3
211
222
Morris
Mattick
J. S.
creșterea ARN-ului reglator
nat. Părinte Genet.
2014
15
423
437

Evin
G.

Hince
C.
BACE1 ca țintă terapeutică în boala Alzheimer: rațiune și starea actuală
medicamente îmbătrânire
2013
30
755
764

Yu
X.

it
Z.
ARN lung necodificat hotair:o oncogenă nouă (recenzie)
mol. Med. Rep.
2015
12
5611
5618

Zasloff
M.

peptide antimicrobiene în sănătate și boală
N. Engl. J. Med.
2002
347
1199
1200

Lander
E. S.
Linton
L. M.
birren
B.

Nusbaum
C.
Zody
M. C.
Baldwin
J.
Devon
K.
Dewar
K.

Doyle
M.
FitzHugh
W.

și colab.

secvențierea inițială și analiza genomului uman
natura
2001
409
860
921
perețidiv
Lee
X.
it
X.

Veldman
G. M.
Finnerty
H.
racie
L.

lavallie
E.

Tang
X. Y.
Edouard
P.
Howes
S.

și colab.

Syncytin este un captiv retrovirale plic proteine implicate în morfogenezei placentare umane
Natura
2000
403
785
789
Marzluff
W. F.

Gongidi
P.

Pădure
K. R.

Jin
J.

Maltais
L. J.
genele histonice dependente de replicare umană și șoarece
genomică
2002
80
487
498
div> div>div> div>div> div> v.
karpiuk
tieg
B.
Kriegs
M.
dikomey
E.
krebber
H.
begus-nahrmann
Y.

Johnsen
S. A.

subsetul genelor histone H2B produce ARNm poliadenilat într-o varietate de condiții celulare
PLoS One
2013
8
e63745
Barbosa

Peixeiro

Romao
L.

reglarea expresiei genelor prin cadre de citire deschise în amonte și boli umane
PLOS Genet.
2013
9
e1003529
Rajput
Murphy
T. D.

Pruitt
K. D.

refseq curarea și adnotarea genelor antizim și inhibitor antizim la vertebrate
acizi nucleici Res.
2015
43
7270
7279

Zhang
Z. Q.
biodiversitate animală: Schița taxonomiei de nivel superior și studiul bogăției taxonomice (Addenda 2013)
Zootaxa
2013
3703
1
82

Holt
R. A.

Subramanian
G. M.

Halpern
Sutton
G. G.

charlab
R.

nusskern
D. R.
wincker
P.

Clark
A. G.

Ribeiro
J. M.
Wides
R.

și colab.

secvența genomului țânțarului malariei Anopheles gambiae
știință
2002
298
129
149

Cavaler
M.

arican-goktas
H. D.

ittiprasert
W.
odoemelam
E. C.
Miller
A. N.

Bridger
J. M.

schistosomi și melci: o întâlnire moleculară
față. Genet.
2014
5
230

secvențierea genomului, C.
perspective în insecte sociale din genomul de creștere Apis mellifera
natura
2006
443
931
949
Xia
Q.
Zhou
Z.
Lu
C.

Cheng
D.
Dai
F.
It
B.
Zhao
P.
zha
X.
Cheng
T.
Chai
C.

și colab.

un proiect de secvență pentru genomul viermelui de mătase domesticit (Bombyx mori)
știință
2004
306
1937
1940
Zhang
G.

Fang
X.
Guo
X.
It
L.
Luo
R.
Xu
F.
yang
Zhang
L.

Wang
X.

Qi
H.

și colab.

oyster genomului dezvăluie stres de adaptare și de complexitatea shell formarea

Natura
2012
490
49
54
i5K, Consorțiul
Cea de-i5K Inițiativă: avansarea artropode genomica pentru cunoaștere, sănătatea, agricultura, și a mediului
J. Ereditate
2013
104
595
600

oamenii de Știință
G. C. o.

Bracken-Grissom
H.

Collins
A. G.

Collins
T.
Crandall
K.
Distel
D.
Dunn
C.

giribet

G.
eglefin
S.
Knowlton
N.

și colab.

Global Nevertebrate Genomics Alliance (GIGA): dezvoltarea resurselor comunitare pentru a studia diverse genomi nevertebrate
J. Ereditate
2014
105
1
18
Schoch
C. L.

Seifert
K. A.

huhndorf
S.
Robert
V.
spouge
J. L.
Levesque
C. A.
câine
W.
bolchacova
E.
Voigt
K.

Crous
P. W.

și colab.

regiunea de distanțiere transcrisă internă ribozomală nucleară (ITS) ca marker universal de coduri de bare ADN pentru ciuperci
Proc. Natl. Acad. Sci. U. S. A.
2012
109
6241
6246
Visagie
C. M.div
Houbraken
J.

frisvad

J. C.
Hong
S. B.
Klaassen
C. H.
Perron
G.
Seifert
K. A.
Varga
J.
Yaguchi
Samson
R. A.

identificarea și bom din genul Penicillium
stud. Mycol.
2014
78
343
371
Corte
L.

spune Cagno
R.
Groenewald
M.

roscini
L.

colabella
C.

Gobbetti
M.

Cardinali
G.
diversitatea fenotipică și moleculară a tulpinilor Meyerozyma guilliermondii izolate din alimente și alte nișe de mediu, indicii pentru speciația incipientă
alimente Microbiol.
2015
48
206
215

Federhen
S.

stoc material în baza de date NCBI taxonomie
acizi nucleici res.
2015
43
D1086
D1098

Nilsson
R. H.

tedersoo
L.

Ryberg
kristiansson
E.

Hartmann
M.

unterseher
M.

Porter
T. M.
Bengtsson-palme
J.
Walker
D. M.

de Sousa
F.

și colab.

setul de date cuprinzător, actualizat automat fungic its sequence pentru controlul chimera bazat pe referință în eforturile de secvențiere a mediului
Microb. Circa / JSME
2015
30
145
150
Mittelbach
yurkov
A. M.

Nocentini
NEPI
weigend
M.
Begerow
D.

zaharurile Nectar și vizitarea păsărilor definesc linsul floral pentru drojdia basidiomicetă din Insulele Canare
BMC Ecol.
2015
15
2

Irinyi
L.

Serena
C.

Garcia-hermoso
D.

Arabatzis
Desnos-Ollivier
M.
vu
D.
cardinali
G.
Arthur
I.
Normand
A. C.
Giraldo
A.

și colab.

Societatea Internațională de Micologie umană și animală (ISHAM)-baza sa de date de coduri de bare ADN de referință–instrumentul standard controlat de calitate pentru identificarea de rutină a ciupercilor patogene umane și animale
Med. Mycol.
2015
53
313
337
Schoch
C. L.

Seifert
K. A.

Huhndorf
St.
Robert
V.
Spouge
J. L.

Levesque
C. A.
Chen
W.
codare de bare fungică
C.
Consorțiul de coduri de bare fungice autor, L.
regiunea distanțierului transcris intern ribozomal nuclear (its) ca marker universal de coduri de bare ADN pentru ciuperci
proc. Natl. Acad. Sci. U. S. A.
2012
109
6241
6246
Besemer
J.

lomsadze
A.

borodovsky
M.

genemarks: o metodă de auto-formare pentru predicția genei începe în genomi microbiene. Implicații pentru găsirea motivelor de secvență în regiunile de reglementare
acizi nucleici Res.
2001
29
2607
2618

Borodovsky
M.

Lomsadze
A.
identificarea genei în genomuri procariote, fagi, metagenomi și secvențe EST cu genemarks suite
Curr. Protocolul. Microbiol.
2014
32
Unitatea 1 7

Tatusova
T.

Ciufo
S.

federhen
S.

Fedorov
B.

McVeigh
R.

O ‘ Neill
K.

Tolstoi
I.
Zaslavsky
L.

actualizare privind resursele genomului microbian RefSeq
acizi nucleici Res.
2015
43
d599
D605

brister
J. R.
ako-Adjei
D.
bao
Y.
Blinkova
O.
resursa genomilor virali NCBI
acizi nucleici res.
2015
43
D571
D577

Adams
M. J.

Lefkowitz
E. J.

King
A. M.

Bamford
D. H.

Breitbart
M.

Davison
A. J.

Ghabrial
S. A.
gorbalenya
A. E.
Knowles
N. J.
Krell
P.

și colab.

vot de ratificare a propunerilor taxonomice către Comitetul Internațional pentru taxonomia virușilor (2015)
Arch. Inel.
2015
160
1837
1850
Bao

chetvernin
V.

tatusova
T.

Compararea secvenței perechilor (PASC) și aplicarea sa în taxonomia filovirusurilor
viruși
2012
4
1318
1327

Bao
Y.

chetvernin
V.

tatusova
T.
îmbunătățiri la compararea secvenței pereche (pasc): instrumentul web bazat pe genom pentru taxonomia virusului
Arch. Inel.
2014
159
3293
3304
Kuhn
JH

durrwald
R.
bao
Y.

Briese
T.

dioxid
K.

Clawson
A. N.

derisi
J. L.

Garten
jahrling
P. B.

kolodziejek
J.

și colab.

reorganizarea taxonomică a familiei Bornaviridae
Arch. Inel.
2015
160
621
632

Radoshitzky
S. R.

bao
Y.

buchmeier
M. J.

charrel
R. N.
Clawson
A. N.
Clegg
C. S.
derisi
J. L.

emonet
S.

Gonzalez
J. P.
Kuhn
J. H.

și colab.

trecutul, prezentul și viitorul taxonomiei arenavirusului
Arch. Inel.
2015
160
1851
1874
Brister
J. R.

bao
Y.

Jdanov
S. A.

ostapchuck
Y.
chetvernin
V.
kiryutin
B.

Zaslavsky
L.
Kimelman
Tatusova
T. A.
resursă de variație a virusului–actualizări recente și direcții viitoare
acizi nucleici res.
2014
42
d660
665
Seto
D.
chodosh
J.
Brister
J. R.

Jones
M. S.

membrii cercetării adenovirus, C.
folosind secvența întregului genom pentru a caracteriza și denumi adenovirusurile umane
J. Ferrule.
2011
85
5701
5702

Matthijnssens
J.
ciarlet
M.

McDonald
S. M.
attoui
H.

Banyai
K.

brister
J. R.

Buesa
J.

esona
M. D.

Estes
M. K.
Gentsch
J. R.

și colab.

uniformitatea tulpinii de rotavirus BOM propusă de grupul de lucru pentru taxonomia rotavirusului (Rcwg)
Arch. Inel.
2011
156
1397
1413
Brister
J. R.

bao
Y.

Kuiken
C.
Lefkowitz
E. J.

le Mercier
P.

Leplae
R.

Madupu

R.
Scheuermann
R. H.
Schobel
S.
Seto
D.

și colab.

către standardele de adnotare a genomului viral, raport din Atelierul de adnotare NCBI 2010
viruși
2010
2
2258
2268
Brister
J. R.

le Mercier
P.

Hu
J. C.
adnotarea genomului virusului microbian-Adunarea trupelor pentru a lupta împotriva atacului secvenței
Virologie
2012
434
175
180
Kuhn
Andersen
bao
Y.

Bavari
S.

Becker

Bennett
R. S.
Bergman
N. H.

Blinkova
O.
Bradfute
Brister
J. R.

și colab.

filovirus RefSeq intrări: evaluarea și selectarea variantelor de tip filovirus, secvențe tipice și nume
viruși
2014
6
3663
3682
ako-Adjei
D.
Fu
W.

Wallin
C.

Katz
K. S.

cântec
G.
Darji
Brister
J. R.
Ptak
R. G.
Pruitt
K. D.

HIV-1, Baza de date de interacțiune umană: starea actuală și noile caracteristici
acizi nucleici res.
2015
43
d566
570
Nawrocki
Burge
S. W.
Bateman
A.

Daub
J.
Eberhardt
R. Y.

Eddy
S. R.
Floden
E. W.

Gardner
P. P.

Jones
T. A.

Tate
J.

și colab.

Rfam 12.0: actualizări ale bazei de date a familiilor de ARN
acizi nucleici Res.
2015
43
D130
D137

publicat de Oxford University Press în numele Nucleic Acids Research 2015. Această lucrare este scrisă de(a) angajat al Guvernului SUA și este în domeniul public în SUA.

Lasă un răspuns

Adresa ta de email nu va fi publicată.