- Abstract
- INTRODUKSJON
- RefSeq tiltredelsesprefikser
- GENERERING AV REFSEQ-DATASETTET
- TILGANG TIL REFSEQ-DATASETTET
- VEKST og STATISTIKK
- Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq-utgivelsen, Per FTP-utgivelseskatalog
- VIRVELDYR
- RefSeqGene project
- Inkorporering AV RNA-Seq og andre datatyper i transkriptbasert kurering
- Lange ikke-kodende Rna (lncrna)
- Funksjonell merknad
- Antimikrobielle peptider (Ampere)
- Endogene retrovirus (Erv)
- Replikasjonsavhengige histoner
- Regulatoriske oppstrøms åpne leserammer (uorf)
- Antizyme gener
- VIRVELLØSE DYR
- PLANTER
- ALGER, SOPP, NEMATODER og PROTOZOER
- Fungal targeted loci
- PROKARYOTER
- prokaryote målrettede loci
- VIRUS
- FUTURE DIRECTIONS
- FINANSIERING
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeq-prosjektet utnytter dataene som sendes Inn Til INTERNATIONAL Nucleotid Sequence Database Collaboration (INSDC) mot en kombinasjon av beregning, manuell kurering og samarbeid for å produsere et standard sett med stabile, ikke-redundante referansesekvenser. RefSeq-prosjektet forsterker disse referansesekvensene med aktuell kunnskap, inkludert publikasjoner, funksjonelle funksjoner og informativ nomenklatur. Databasen representerer for tiden sekvenser fra mer enn 55 000 organismer (>4800 virus, >40 000 prokaryoter og >10 000 eukaryoter; RefSeq release 71), alt fra en enkelt post til komplett genomer. Dette papiret oppsummerer den nåværende statusen til de virale, prokaryote og eukaryote grenene Av RefSeq-prosjektet, rapporterer om forbedringer av datatilgang og detaljer innsats for å ytterligere utvide den taksonomiske representasjonen av samlingen. Vi fremhever også ulike funksjonelle kureringsinitiativer som støtter flere bruksområder Av RefSeq-data, inkludert taksonomisk validering, genomannotasjon, komparativ genomikk og klinisk testing. Vi oppsummerer vår tilnærming til å utnytte tilgjengelige RNA-Seq og andre datatyper i vår manuelle kureringsprosess for vertebrate, plante og andre arter, og beskriver en ny retning for prokaryote genomer og proteinnavnbehandling.
INTRODUKSJON
I de siste 15 årene Har National Center For Biotechnology Information (NCBI) RefSeq database fungert som en viktig ressurs for genomisk, genetisk og proteomisk forskning. RefSeq-prosjektets levering av kuraterte og stabile annoterte referansegenomer, transkripsjoner og proteiner for utvalgte virus, mikrober, organeller og eukaryote organismer, har gjort det mulig for forskere å fokusere på de beste representative sekvensdataene i motsetning Til de overflødige dataene I GenBank, og å entydig referere til spesifikke genetiske sekvenser. RefSeq-samlingen gir eksplisitt koblede genom -, transkripsjons-og proteinsekvensposter som inneholder publikasjoner, informativ nomenklatur og standardiserte og utvidede funksjonsanmerkninger. RefSeq-poster er integrert I NCBIS ressurser, inkludert Nukleotid -, Protein-Og BLAST-databasene, og kan enkelt identifiseres ved søkeordet ‘RefSeq’ og ved deres distinkte tiltredelsesprefikser som definerer deres type (Tabell 1). Alle RefSeq-data er underlagt kvalitetssikringskontroller med noen spesialiserte QA-tester utviklet for forskjellige taxa – eller datatyper. For eksempel gjennomgår alle virale RefSeqs taksonomisk gjennomgang av NCBI-ansatte før offentlig utgivelse. RefSeq tiltredelser er mye sitert i vitenskapelige publikasjoner og genetiske databaser fordi de gir et stabilt og konsistent koordinatsystem som kan brukes som en baseline for rapportering av genspesifikke data, klinisk variasjon og kryss-arter sammenligninger. Disse referansesekvensstandardene blir stadig viktigere fordi nøyaktig rapportering og reproduserbarhet er viktige komponenter for beste praksis innen biomedisinsk forskning (1).
RefSeq tiltredelsesprefikser
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer | AP_3 | protein | Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost | XP_3, 5 | protein | Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring |
yp_3 | protein | proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring |
wp_6 | protein | Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom |
prefiks . | Molekyltype. | Bruk kontekst . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer | AP_3 | protein | Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost | XP_3, 5 | protein | Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring |
yp_3 | protein | proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring |
wp_6 | protein | Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom |
1det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 tall etterfulgt av sekvensversjonsnummeret.
2det komplette tiltredelsesformatet består av prefikset etterfulgt av INSDC-tiltredelsesnummeret Som RefSeq-posten er basert på, etterfulgt av RefSeq-sekvensversjonsnummeret.
3det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 eller 9 tall etterfulgt av sekvensversjonsnummeret.
4poster med dette tiltredelsesprefikset er kuratert av NCBI-ansatte eller en modellorganismedatabase, eller er i samlingen av tiltredelser som kuratorer jobber med. Disse postene er referert til som’ kjent ‘ RefSeq datasett.
5poster med dette tiltredelsesprefikset genereres gjennom enten eukaryote genome annotation pipeline eller small eukaryote genome annotation pipeline. Poster generert via den første metoden er referert til som ‘modell’ RefSeq datasett.
6det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 9 tall etterfulgt av versjonsnummeret. Versjonsnummeret er alltid’.1 ‘ disse postene er ikke gjenstand for oppdatering. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer | AP_3 | protein | Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost | XP_3, 5 | protein | Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring |
yp_3 | protein | proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring |
wp_6 | protein | Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom |
prefiks . | Molekyltype. | Bruk kontekst . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | Proteiner annotert PÅ NM_ transkripttilgang eller annotert på genomiske molekyler uten et instantiert transkripsjon (f. eks. NOEN mitokondrielle genomer, virale genomer og referansebakterielle genomer | AP_3 | protein | Proteiner annotert PÅ AC_ genomiske tiltredelser eller annotert på genomiske molekyler uten en instantiert transkripsjonspost | XP_3, 5 | protein | Proteiner annotert på xm_ transkripttilgang eller annotert på genomiske molekyler uten en instantiert transkriptoppføring |
yp_3 | protein | proteiner annotert på genomiske molekyler uten en instantiert transkriptoppføring |
wp_6 | protein | Proteiner som ikke er redundante på tvers av flere stammer og arter. Et enkelt protein av denne typen kan annoteres på mer enn ett prokaryotisk genom |
1det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 tall etterfulgt av sekvensversjonsnummeret.
2det komplette tiltredelsesformatet består av prefikset etterfulgt av INSDC-tiltredelsesnummeret Som RefSeq-posten er basert på, etterfulgt av RefSeq-sekvensversjonsnummeret.
3det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 6 eller 9 tall etterfulgt av sekvensversjonsnummeret.
4poster med dette tiltredelsesprefikset er kuratert av NCBI-ansatte eller en modellorganismedatabase, eller er i samlingen av tiltredelser som kuratorer jobber med. Disse postene er referert til som’ kjent ‘ RefSeq datasett.
5poster med dette tiltredelsesprefikset genereres gjennom enten eukaryote genome annotation pipeline eller small eukaryote genome annotation pipeline. Poster generert via den første metoden er referert til som ‘modell’ RefSeq datasett.
6det komplette tiltredelsesnummerformatet består av prefikset, inkludert understrek, etterfulgt av 9 tall etterfulgt av versjonsnummeret. Versjonsnummeret er alltid’.1 ‘ disse postene er ikke gjenstand for oppdatering. Se online dokumentasjon for mer informasjon: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
i de senere år har avanserte sekvenseringsteknikker muliggjort en betydelig økning i hele genommonteringsinnlegg til de offentlige databasene. Som et resultat Har RefSeq-prosjektet utvidet dybden og bredden av taxa som inngår i datasettet, hovedsakelig gjennom forbedringer av flere interne annotasjonsrørledninger. Alle taxa er i omfang For RefSeq inkludering; imidlertid er annotasjon ofte begrenset til de organismer som en høy kvalitet primærgenom-samling er tilgjengelig med ubestridt organisasjonsinformasjon. Vi kan derfor ekskludere noen kategorier av data som ikke oppfyller våre kvalitetsstandarder. Ekskluderte datasett inkluderer: metagenomer, forsamlinger med lave contig n50-verdier eller spesielt høyt antall uplasserte stillas / contigs(dvs. høy fragmentering), eller genomer som har betydelig mismatch eller indel variasjon sammenlignet med andre nært beslektede genomer for arten (f.eks. noen prokaryoter).Et unikt aspekt Av RefSeq datasettet er den kombinerte tilnærmingen til å utnytte beregning, samarbeid og kurering av NCBI vitenskapelige ansatte. SOM et stort bioinformatikkanlegg har NCBI investert i å utvikle robuste prosessflyter for å generere merknad og utføre kvalitetssikringstester for eukaryote og prokaryote genomer, transkripsjoner og proteiner. Forbedringer i viral genomer prosessflyten pågår. RefSeq-gruppen samarbeider med en rekke ekspertgrupper, inkludert offisielle nomenklaturmyndigheter (f. eks. HUGO Gene Nomenclature Committee (HGNC) og Zebrafish Information Network (ZFIN) for henholdsvis menneske-og sebrafiskgenavn), UniProtKB (proteinnavn) og miRBase (microRNAs) (2-5). Disse og andre samarbeidene bidrar til å opprettholde Og forbedre Kvaliteten på RefSeq-datasettet gjennom QA-rapporter, utveksling av gen-og sekvensinformasjon og utveksling av funksjonell informasjon. NCBI-ansatte gir også kureringsstøtte for virus, prokaryoter, eukaryoter, organeller, plasmider og målrettede prosjekter, inkludert kuratering av gener og sekvenser For Homo sapiens, Mus musculus og andre organismer. RefSeq kuratorer forbedre kvaliteten på databasen gjennom gjennomgang AV QA testresultater, involvering i valg av visse innganger for genom annotasjon behandling, sekvensanalyse, taksonomisk analyse, og funksjonell gjennomgang. Curation støtter også forbedringer av genom annotasjon rørledninger som innhold eksperter bidra til å definere programmatiske tilnærminger for å modellere både typisk og atypisk biologi. For eukaryoter, spesielt pattedyr, definerer transkriptbasert kurering «beste» sekvensrepresentanter (som «kjent» RefSeqs; Tabell 1 fotnote) som brukes som et primært inngangsreagens til eukaryotisk genom-annotasjonsrørledning (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Forbedringer i input reagens kvalitet i sin tur legge betydelig kvalitet og reproduserbarhet til den resulterende genom merknad. Denne typen manuell konservering har historisk vært fokusert på menneske og mus på grunn av deres unike biomedisinske betydning (6). Mer nylig har disse kureringsinnsatsene gitt større oppmerksomhet Til Rattus norvegicus, Danio rerio, Bos taurus og Gallus gallus. Disse artene er relevante for menneskers helse så vel som landbruksbærbarhet.i dette papiret rapporterer vi om vår fremgang i å utvide RefSeq-datasettet til å inkludere mer varierte organismer, beskrive forbedringer i datatilgang og gi eksempler som illustrerer økt fokus på å gi fylogenetisk nyttige datasett samt funksjonell funksjonsannonsering på RefSeq-transkripsjon og proteinregistre. Vi forventer at disse anstrengelsene og forbedringene I RefSeq-datasettet vil fortsette å bidra til fremme av medisinsk translasjonsforskning, landbruksforbedringer, fylogenetisk identifikasjon og evolusjonære studier.
GENERERING AV REFSEQ-DATASETTET
RefSeq-sekvensposter genereres ved forskjellige metoder avhengig av sekvensklassen og organismen. Archaeal og bakterielle genomer (Se prokaryoter seksjon) er annotert VED HJELP AV NCBIS prokaryote genome annotation pipeline (http://www.ncbi.nlm.nih.gov/books/NBK174280/), mens et lite antall referanse bakterielle genomer støttes av samarbeid og manuell kurering. RefSeq eukaryote genomer er gitt ved hjelp av to prosessflyter. Flertallet av plante -, dyr -, insekt-og leddyrgenomer er annotert av eukaryote genome annotation pipeline. Denne rørledningen genererer annoteringsresultater basert på tilgjengelige transkriptdata (inkludert RNA-Seq og transcriptome shotgun assembly (tsa) data), samt proteinhomologi, ab initio-prediksjon (i stor grad når transkriptomdata er utilgjengelige) og tilgjengelige kjente (kuraterte) RefSeq-transkripsjoner og proteiner (Se Tabell 1). Pipeline-generated annotation (modell RefSeqs) kan eller ikke har støtte for den komplette exon-kombinasjonen fra en enkelt bevisjustering, men kan ha RNA-Seq-støtte for exon-par. De eukaryotiske genomene som har blitt kommentert av denne rørledningen, rapporteres offentlig med lenker for å laste ned dataene VIA FTP, for å vise eller utføre EN BLASTSPØRRING mot det annoterte genomet, eller for å få tilgang til en detaljert annotasjonsrapporteringsoversikt (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rørledningen for en delmengde av eukaryoter, inkludert sopp, protozoer og nematoder, innebærer forplantning av merknader som Har blitt sendt Til International Nucleotid Sequence Database Collaboration (INSDC), med formatstandardisering, til En RefSeq-kopi av den innsendte genomsamlingen (se Alger, Sopp, Nematoder og Protozoer).NCBI ansatte gir mesteparten Av RefSeq organelle genom annotasjon gjennom forplantning FRA INSDC innsending. Mammalian mitokondrier annotasjon er ofte supplert med manuell kurering. RefSeq-prosjektet opprettholder også referansesekvenser for målrettede loci-prosjekter Som RefSeqGene, som er medlem Av Locus Reference Genomic (Lrg) collaboration (7), for bakterie-og sopp ribosomal rrna loci, og for sopp interne transkriberte spacer-sekvenser (ITS) (8). I tillegg er et betydelig antall mennesker, mus og andre transkripsjoner og proteiner gitt gjennom samarbeid og manuell kurering som inkluderer sekvensanalyse og litteraturvurdering.NCBIS prokaryote (se nedenfor) og eukaryote annotasjonsrørledninger har holdt tritt med det økende antall genomsamlinger sendt TIL INSDC ved å gi konsekvent merknad På RefSeq-kopier av utvalgte høykvalitets innleverte genomsamlinger. Hittil har 245 eukaryotiske genomer, inkludert 170 vertebrate genomer, blitt annotert av denne rørledningen, hvorav mer enn 120 arter ble annotert de siste 20 årene. Blant denne gruppen er 52 fuglearter som inkluderer representative arter av de fleste fugleordener (9,10). Det har også vært en betydelig utvidelse i antall RefSeq-annoterte samlinger for ikke-menneskelige primater, andre pattedyr, fisk, planter og leddyr.
TILGANG TIL REFSEQ-DATASETTET
RefSeq-hjemmesiden http://www.ncbi.nlm.nih.gov/refseq/ er et sentralt knutepunkt for Alle aspekter Av RefSeq-datasettet. Dette nettstedet inneholder lenker som veileder brukerne gjennom en generell beskrivelse av prosjektet, samt faktaark, vekststatistikk og informasjon om mer fokuserte RefSeq-prosjekter som prokaryote genome re-annotation initiative, Consensus Coding Sequence (CCDS) project (11) RefSeqGene project, Og Targeted Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/) prosjekter. Lenker til den nyeste omfattende FTP utgivelsen og detaljert dokumentasjon på format og innhold av utgivelsen kan bli funnet i ‘Kunngjøringer’ delen Av RefSeq hjemmeside. Tidligere RefSeq kunngjøringer er også tilgjengelig fra denne siden. Vi oppfordrer på det sterkeste til å laste Ned RefSeq-data direkte fra NCBI, da nedlastinger fra andre bioinformatikk-og genomleserressurser kanskje ikke inneholder alle tilgjengelige data, eller kan bare gjenspeile justeringer Av RefSeq-transkripsjoner til et genom i stedet for genommerkningsresultatene som genereres av NCBI.RefSeq-sekvensdata kan nås interaktivt ved Hjelp Av NCBIs Nukleotid-og Proteindatabaser, I BLASTDATABASER, GJENNOM NCBIS programmatiske grensesnitt (E-verktøy) eller via FILE transfer protocol (FTP). E-utilities støtter skripttilgang for å laste Ned RefSeq-data i en rekke formater basert på enten søkeord eller tiltredelseslister. www.ncbi.nlm.nih.gov/books/NBK25501/) og opplæringsvideoer er tilgjengelige fra NCBIS YouTube-kanal (https://www.youtube.com/user/NCBINLM). Både Nukleotid – Og Proteindatabasene tillater at spørringsresultater begrenses til Bare RefSeq-poster ved å velge ‘RefSeq’ under ‘Kildedatabasen’ i filter-sidepanelet. RefSeq-data kan også nås fra ANDRE NCBI-databaser, inkludert Assembly, BioProject, Gene og Genome ved å følge koblingene som er gitt Til Nukleotid -, Protein-eller FTP-ressurser Informasjon Om kureringsendringer i RefSeq-gruppen eller NCBI-oppdateringer som påvirker RefSeq-databasen, rapporteres gjennom Flere kilder, inkludert REFSEQ FTP-utgivelsesnotater, periodiske publiserte rapporter, NCBI-Kunngjøringene News feed http://www.ncbi.nlm.nih.gov/news/ og GJENNOM NCBI Insights Blog http://ncbiinsights.ncbi.nlm.nih.gov/. Brukere kan også abonnere på refseq-announce mail-listen for å motta periodiske oppdateringer om prosjektet og et sammendrag av innholdet i Hver RefSeq FTP-utgivelse (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
RefSeq data distribueres VIA FTP gjennom to nettsteder, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) og genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes refseq FTP-siden gir daglige oppdateringer av alle nye Og oppdaterte RefSeq-poster, ukentlige oppdateringer av enkelte datatyper og en bi-månedlig omfattende RefSeq-utgivelse (/refseq/release/). I tillegg oppdateres utvalgte organisasjonsspesifikke transkripsjoner og proteindatasett, inkludert menneske og mus, ukentlig. Den RefSeqGene underkatalog oppdateres daglig, med justeringer til genomet utgitt med hver merknad kjøre. Den omfattende bi-månedlige RefSeq utgivelsen er organisert av taksonomiske (f. eks virveldyr pattedyr) eller andre grupperinger (f.eks mitokondrier). Data kan også lastes ned for Hele RefSeq samlingen fra/refseq/release/ complete / katalogen. RefSeq-utgivelsen gir en fordel for de som ønsker å opprettholde periodiske oppdateringer av enten hele samlingen eller en enkelt gruppe. Det inkluderer også poster som ikke er tilgjengelige FRA ftp-området companion genomes, for eksempel transkripsjoner i samlingen som vedlikeholdes uavhengig av, og kanskje ikke er merket på, en genomsamling. Utgivelsen er utstyrt med betydelig dokumentasjon av filene installert (/refseq/release/ release-catalog/) inkludert MD5 sjekksummer, en liste over alle installerte filer, samt versjonsmerknader og kunngjøringer (/refseq/release/release-notes/).
RefSeq data kan også lastes ned fra GENOMES FTP-området. I August 2014 NCBI annonsert en større omorganisering av DETTE FTP-området som nå gir montering og organisme-basert tilgang Til Både GenBank og RefSeq genomer (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Denne katalogen er videre delt inn i underkataloger basert på de samme gruppene som brukes I RefSeq-utgivelsen, som hver gir flere underavdelinger etter art. Genomes FTP-området gir filer som representerer Alle RefSeq genom samlinger rapportert I NCBI Assembly resource (www.ncbi.nlm.nih.gov/assembly/). fordelen med genomes nettstedet er at dataene kan nås på en assembly – eller organismespesifikk måte. Data som leveres inkluderer genom og produkt (transkript/protein) sekvens, merknad, assembly rapporter og statistikk, OG MD5 sjekksummer; disse dataene oppdateres når genommonteringen og / eller merknaden oppdateres. Dette området omfatter Ikke RefSeq sekvenser som er utenfor rammen av et genom montering eller produkter som ikke er merket på et genom.
VEKST og STATISTIKK
RefSeq FTP release 71 (juli 2015) inneholder mer enn 77 millioner sekvensposter for mer enn 55 000 organismer. Tabell 2 oppsummerer Veksten Av RefSeq datasett i det siste året i form av organismer og antall sekvens poster representert per Hver REFSEQ utgivelse FTP katalogområde. Bakterielle genomer og proteiner utgjør hoveddelen Av RefSeq-datasettet(56% av de totale tiltredelsene og 76% av > 52 millioner proteintiltak). Betydelig økning i antall organismer, proteiner, og totale poster er sett for virvelløse, plante, og eukaryote organismer som er i samsvar med økt antall og gjennomstrømning av genom sekvensering prosjekter. En viktig faktor for Fortsatt høy vekst Av RefSeq data er forbedringer i genom rørledninger som genererer annoterte RefSeq genomer. Spesielt inkluderer dette økt kapasitet i NCBIS prokaryote genome annotation pipeline, re-utvikling av prosessflyten som forplanter annotasjon fra eukaryote GenBank genomer til RefSeq genomer, og inkorporering AV RNA-Seq-bevis i NCBIS eukaryote genome annotation pipeline og dens innvirkning på generering av Modell RefSeqs (XM_, XR_ og XP_ accessions, Tabell 1).
Årlig vekst i antall organismer, proteiner og transkripsjoner representert i den omfattende RefSeq-utgivelsen, Per FTP-utgivelseskatalog
Utgivelse Katalog . | Organismer . | % Endring . | Transkripsjoner . | % Endring . | Proteiner . | % Endring . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Endring . | Transkripsjoner . | % Endring . | Proteiner . | % Endring . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (f. eks archaea.acc_taxid_growth.txt og relaterte filer). Den prosentvise årlige endringen er basert på sammenligning av datatellinger For RefSeq release 71 (juli 2015) og RefSeq release 66 (juli 2014).
Utgivelse Katalog . | Organismer . | % Endring . | Transkripsjoner . | % Endring . | Proteiner . | % Endring . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Endring . | Transkripsjoner . | % Endring . | Proteiner . | % Endring . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (f. eks archaea.acc_taxid_growth.txt og relaterte filer). Den prosentvise årlige endringen er basert på sammenligning av datatellinger For RefSeq release 71 (juli 2015) og RefSeq release 66 (juli 2014).
den dramatiske nedgangen i antall plasmid protein poster, og dermed i antall totale tiltredelser, gjenspeiler ferdigstillelse Av En RefSeq bakteriegenom re-annotation prosjekt (http://www.ncbi.nlm.nih.gov/refseq/ om / prokaryoter / reannotation/) og vedtakelsen av den nye datamodellen for prokaryoter, inkludert deres plasmider. I denne nye datamodellen kan En Enkelt RefSeq-ikke-redundant proteintilgang bli annotert på mer enn en genomisk sekvensrekord når oversettelse av disse genomiske proteinkodende regionene resulterer i et identisk protein (se http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteiner/). Redundans i alle bakterielle proteiner ble også betydelig redusert; det er imidlertid ikke tydelig her på grunn av fortsatte signifikante økninger i antall bakterielle genomer som er inkludert i datasettet. Disse endringene resulterte også i en samlet nedgang i antall archaeal protein poster.
VIRVELDYR
En utvalgt gruppe virveldyr inkludert Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bim taurus og Danio rerio er hovedfokus i vårt transkripsjons-og litteraturbaserte manuelle kureringsarbeid. Kuratorer arbeider generelt fra lister over gener med datakonflikter identifisert ved kvalitetssikringstester( QA), hvorav noen tidligere ble beskrevet (12). De følger et detaljert sett med retningslinjer når de analyserer hvert gen for å sikre konsistens på tvers av personer i det kuraterte datasettet. Denne analysen innebærer grundig sekvensvurdering og litteraturgjennomgang for å lage referanseutskrifter, proteiner, pseudogener og RefSeqGene-poster. RefSeq-kuratorer genererer transkripsjonsvarianter, løser sekvensfeil, fjerner unøyaktig informasjon, oppdaterer poster for å korrekt representere lokusens biologi og legge til verdifull funksjonell informasjon til Noen RefSeq-poster, for eksempel forbedrede proteinnavn, et sammendrag av funksjonen til genproduktet, funksjonelle egenskaper av genet og/eller relevante publikasjoner. Manuell kurering og litteraturgjennomgang Av RefSeq-gruppen kan resultere i representasjon av unike varianter og isoformer som ikke ville bli spådd når de bare var basert på beregningsanalyse. For eksempel viste litteraturgjennomgang av det humane tumorsuppressorgenet, pten (fosfatase og tensin homolog, GeneID: 5728) eksistensen av en lengre proteinisoform som følge av bruk av et alternativt in-frame oppstrøms CUG initieringskodon funnet i midten av en palindromisk sekvens oppstrøms for det kanoniske mRNA-oversettelseskodonet startkodon (13). Sterke eksperimentelle data indikerte at denne mitokondrielle-spesifikke isoformen initierer med et leucin, snarere enn et metionin (14). RefSeq-datamodellen for eukaryoter gir ett transkripsjon eksplisitt knyttet til ett protein. Derfor ble to identiske transkripsjonsposter gitt for å reflektere oversettelse fra de alternative initieringskodonene; NP_000305. 3 representerer 403 aminosyreproteinet som bruker det kanoniske metioninstartkodonet, mens NP_001291646. 2 representerer det mitokondrielle lokaliserte 576 aminosyreproteinet som initierer med leucin. Dermed tjener kurasjonsprosessen et dobbelt formål med å gi nøyaktige referansesekvenser som letter presis og reproduserbar genomannotasjon og gir poster som inneholder relevant biologisk informasjon. I denne delen diskuterer vi nylige oppdateringer, forbedringer vi har gjort i vår manuelle kureringsprosess, og eksempler på fokuserte kureringsprosjekter.
RefSeqGene project
RefSeqGene-delprosjektet definerer menneskelige genomiske sekvenser som skal brukes som referansestandarder for godt karakteriserte gener, spesielt for bruk av det kliniske genetikkmiljøet. Disse sekvensene tjener som et stabilt grunnlag for rapportering av patogene varianter, for å etablere konvensjoner for nummerering av eksoner og introner, og for å definere koordinatene til andre varianter. Hver Refseqgen-post fokuserer på en genspesifikk genomisk region og er typisk annotert med En delmengde Av RefSeq-transkripsjoner og proteiner valgt av domeneeksperter. Disse valgene bestemme exon funksjoner. Justeringer av eldre versjoner Av den kanoniske RefSeq transkripsjon / protein, samt andre kjente RefSeqs, er inkludert. Disse postene inkluderer vanligvis 5 kilobaser (kb) sekvens oppstrøms av focus genet, og 2 kb sekvens nedstrøms, for å støtte representasjon av potensielle regulatoriske områder eller slettinger som strekker seg utover genet funksjonen. En RefSeqGene-post kan inneholde annotasjonsinformasjon for andre gener som befinner seg innenfor sine grenser. RefSeqGene poster gjennomgås først av locus-spesifikke databaser og NCBI ansatte. RefSeqGene er medlem AV lrg-samarbeidet (7) som gir ytterligere gjennomgang av sekvensdataene før man legger TIL en lrg-tiltredelse. Et nylig arbeidsfokus utvidet antall RefSeqGene-poster til å representere alle gener som minst to kliniske tester har blitt sendt TIL NIH Genetic Testing Registry (GTR). På denne tiden er det 5596 RefSeqGene poster, hvorav 633 har EN LRG tiltredelse. RefSeqGene-poster kan hentes ved å søke I Nukleotiddatabasen med ‘refseqgene’, ved DERES lrg-tiltredelser, ved Å bla Gjennom RefSeqGene-nettstedet (www.ncbi.nlm.nih.gov/refseq/rsg/), ELLER VIA FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
Inkorporering AV RNA-Seq og andre datatyper i transkriptbasert kurering
Et hovedmål For RefSeq-kurasjonsprosjektet er å representere transkript-og proteinreferansesekvenser av høy kvalitet og full lengde. Som sådan er våre kurasjonskriterier primært basert på konvensjonelt transkripsjon (mRNA og ESTs) og proteinjusteringer og publisert bevis. Imidlertid har vertebrate transkriptome prosjekter blitt stadig mer komplekse med de fleste nye transkriptdata som for tiden genereres av kortlesesekvenseringsteknologi. Genomfattende studier som ser på globale mønstre av promotorassosierte epigenetiske merker, gir også bevis på aktive promotorer og / eller aktiv transkripsjon. RefSeq-gruppen har justert kurasjonspraksis for å innlemme disse nye datatypene for å forbedre vår manuelle merknad, spesielt i tilfeller der et gen eller en variant mangler rikelig konvensjonell transkripsjonsstøtte. Disse rna-Seq-og epigenomiske studiene har generert enorme datasett som gir en utfordring for genannotasjonsgrupper for eksempel gjennom potensielle falske positiver og mangel på støtte for langtrekkende eksonkombinasjoner (15). RefSeq kuratorer redusere mot falske positiver ved selektivt å innlemme bare høy kvalitet datasett for vurdering i vår genom annotasjon rørledning og i manuell annotasjon prosessen. RefSeq-kuratorer visualiserer transkripsjonsjusteringer, variasjonsdata og filtrerte rna-Seq-data i tilpassede skjermer i et internt justeringsverktøy innlemmet i NCBI Genome Workbench-plattformen (http://www.ncbi.nlm.nih.gov/tools/gbench/). Kurering av humane gener benytter analysert RNA-Seq leser Fra Illumina BodyMap 2 (BioProject: PRJEB2445) og Human Protein Atlas prosjekter (BioProject: PRJEB4337) (16). I tillegg kuratorer bruke promoter-assosiert histon modifikasjon merker Som H3K4me3 FRA NIH Veikart Epigenomic Mapping Consortium (REMC; (17) OG ENCODE (Encyclopedia OF DNA Elements) prosjekt (18) for å verifisere tilstedeværelsen av en aktiv promoter. RefSeq-kuratorer vurderer også polyA-seq-data for å bekrefte 3 ‘ fullstendighet av transkripsjoner som mangler en polyA-hale (19). Andre datatyper, inkludert PhyloCSF (20), CpGIslands, RepeatMasker (21) og Cap analyse av genuttrykk (CAGE) data (22), brukes noen ganger som ekstra støtte.
Lange ikke-kodende Rna (lncrna)
RefSeq-gruppen fortsetter å utvide seg betydelig på representasjonen av ikke – kodende strukturelle og mikro-rna, transkriberte pseudogener og de stort sett ukarakteriserte lncrna. Denne klassen av gener er generelt definert som transkripsjoner >200 nt i lengde som mangler sterkt proteinkodingspotensial (23). lncRNA RefSeq-poster genereres ved kurering og gjennom eukaryotisk genomannotasjonsrørledning for lncRNA-gener. NCBI opprettholder for tiden over 540 000 eukaryote Lncrna RefSeq-poster, hvorav over 6700 har blitt kuratert og bare noen få hundre har blitt funksjonelt karakterisert. Av disse har mange vært involvert i menneskelig sykdom,SOM BACE1-AS som kan spille en rolle i Patofysiologien Til Alzheimers sykdom, OG HOTAIR som har vært assosiert med flere kreftformer (24,25). De aller fleste lncrna har ukjente funksjoner, og fraværet av lange åpne leserammer gir en utfordring når det gjelder å bekrefte transkripsjonens fullstendighet. Dessuten, lncRNA innleveringer TIL INSDC er i stor grad basert På Tsa fra kort lese datasett som kan omfatte artifactual exon kombinasjoner. RefSeq-kuratorer tar en konservativ tilnærming til å representere lncRNA-gener, bare manuelt opprette RefSeqs (med ET NR_ tiltredelsesprefiks) for transkripsjoner av høy kvalitet som vi har viss sikkerhet for exon-strukturen. Ideelt sett bør transkripsjonsstøtten spleises med minst tre eksoner, men to ekson-og intronløse transkripsjoner kan representeres hvis de støttes av promotorassosiert epigenomikk, poly (A)-bevis, ekstra cdna-er og/eller RNA-Seq-data. RefSeq lncRNA-poster for ikke-kodende gener kan hentes fra NCBIS Nukleotiddatabase ved hjelp av søkestrengen ‘biomol ncrna lncrna’ og velge RefSeq-filteret fra venstre kolonne.
Funksjonell merknad
det unike bidraget fra kuraterte eukaryotiske RefSeq-transkripsjonsposter er at de integrerer funksjonell informasjon med en referansesekvens. RefSeq curation staff legger til gensammendrag, nomenklatur, transkripsjonsvarianttekst, gen-og sekvensattributter og funksjonelle funksjoner som er tilgjengelige På RefSeq-posten og / eller Gjennom Genressursen (http://www.ncbi.nlm.nih.gov/gene). I det siste året Har RefSeq-ansatte fulgt flere dyptgående annotasjonsprosjekter, hvorav noen er kort beskrevet i de følgende avsnittene, for å legge til funksjonelle data til bestemte sett med gener der beregningsverktøy ikke er i stand til å representere biologisk kunnskap nøyaktig. Disse prosjektene inkluderer annotering av antimikrobielle peptider, endogene retrovirus, replikasjonsavhengige histoner, regulatoriske uorfer og antizymer.
Antimikrobielle peptider (Ampere)
Forsterkere var et nylig herdingsfokus (http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/) (26). Forsterkere er naturlig forekommende peptider som finnes i et mangfoldig utvalg av arter og har vært involvert i mange immunroller, inkludert bakteriedrepende, antivirale, antifungale og til og med antitumoraktiviteter. En liste over over 130 menneskelige gener som koder for en Eller flere eksperimentelt beviste Forsterkere ble samlet fra flere offentlig TILGJENGELIGE AMP datasett og også utvunnet fra publikasjoner. De fleste Av Disse Forsterkerne hadde ikke tidligere blitt identifisert I RefSeq-databasen, og ingen AV AMP-databasene koblet peptidene til deres kodende gen. RefSeq-kuratorer kommenterte Manuelt RefSeq-postene for hvert amp-kodende humant gen for å sikre at det funksjonelle peptidet ble kommentert, for å inkludere en publikasjon som beskriver peptidets antimikrobielle aktivitet, for å legge til en kort oppsummering som beskriver den antimikrobielle aktiviteten til den kodede AMP, og å lagre en ny RefSeq-attributt ‘Protein has antimicrobial activity’ som er inkludert I RefSeq-attributtstrukturert kommentar (F. EKS. NM_001124. 2 FOR ADM; GeneID: 133). For å få tilgang til alle de kuraterte humane transkript-eller protein AMP-postene, søk i nukleotid-eller proteindatabasen ved hjelp Av ‘Protein has antimicrobial activity’. For tiden vil dette søket finne 191 RefSeq-poster, inkludert spleisevarianter og proteinisoformer.
Endogene retrovirus (Erv)
Endogene retrovirus (Erv) er genomiske loci som er avledet fra forfedrenes innføring av et eksogent retrovirus i vertsgenomet. Erv loci er generelt ute Av omfang For RefSeq; imidlertid annoterer vi full lengde erv-proteinkodende loci som kartlegger til et enkelt genomisk sted hvis de har utviklet seg til å tjene en vertsfunksjon, er forbundet med en kjent sykdom, og/eller hvis de har blitt tildelt nomenklatur av en offisiell nomenklaturkomite. Omtrent 8% av det menneskelige genomet er av retroviral opprinnelse (27); men på grunn av deres gamle opprinnelse har de fleste menneskelige erv loci akkumulert nonsensmutasjoner og kan ikke lenger kode et protein. Syncytinproteiner, som er involvert i placentautvikling (28), er et velkjent unntak fra dette. Humane syncytin-1-og syncytin-2-proteiner er kodet av GENENE ERVW-1 (NM_001130925.1, NM_014590.3) og ERVFRD-1 (NM_207582.2). Til dags dato har vi opprettet 67 RefSeqs FOR erv loci, som inkluderer poster som representerer ERV-gener fra et mangfoldig sett av pattedyr. En Ny RefSeq attributt kategori med tittelen ‘endogen retrovirus’ ble opprettet for disse postene og vises i en strukturert kommentar På RefSeq posten. Disse postene kan hentes fra Nukleotiddatabasen ved å søke etter ‘endogent retrovirus’.
Replikasjonsavhengige histoner
en rask syntese av histon mrna er nødvendig under celledeling for å produsere store mengder histonproteiner. Kritisk for denne prosessen er de replikasjonsavhengige histongener som oppreguleres under G1 / S-fasen av cellesyklusen (29). Et Spesifikt RefSeq-prosjekt ble gjennomført med sikte på å kuratere hele settet av replikasjonsavhengige histonproteinkodende gener i menneske og mus. Disse genene har en kanonisk 3 ‘ histon nedstrøms element (HDE) – sekvens i den genomiske sekvensen, og de resulterende modne mrna mangler karakteristisk poly(A) haler og slutter i stedet kort tid etter EN rna-stem-loop-struktur (30). Hde-elementet er funnet på forløperutskriften, men er ikke inkludert på det behandlede transkripsjonen representert Av RefSeq. Plasseringen av konserverte 16 nukleotid stem-loop struktur sekvens er angitt På RefSeq posten som en funksjon merknad med tittelen ‘stem-loop’. Et eksempel kan ses PÅ RefSeq-oppføringen NM_003539. 3 FOR HIST1H4D (GeneID: 8360). Til dags dato, 127 menneske og mus replikering-avhengige histone RefSeq poster har blitt kuratert og En RefSeq attributt lagt som kan brukes til å hente disse postene fra Nukleotid database ved hjelp av søkestrengen ‘replikering-avhengige histone’.
Regulatoriske oppstrøms åpne leserammer (uorf)
Oversettelse av en oppstrøms åpen leseramme (uORF) kan negativt påvirke oversettelsen av den primære proteinkodende åpne leserammen (pORF) (31). Denne effekten er ikke alltid helt stille pORF oversettelse og kan være avhengig av celletype, utviklingsstatus eller cellulær tilstand. Derfor, selv om uORFs kan forutsies fra seks-ramme oversettelse av en transkripsjon, den regulatoriske effekten av dette elementet må bestemmes gjennom eksperimentell validering. RefSeq-kuratorer gjennomgikk litteraturen for å finne transkripsjoner med eksperimentelle bevis på regulatoriske uorfer og oppdaterte de tilsvarende RefSeq-transkripsjonene for å legge til en misc_feature som betegner plasseringen av disse uorfene. Et eksempel er RefSeq-oppføringen NM_000392.4 for ABCC2 (GeneID: 1244). En Ny RefSeq attributt kategori med tittelen ‘regulatory uORF’ ble opprettet og vises i en strukturert kommentar på Disse RefSeq poster. Både annotert funksjonen og attributtet sitere støtte publikasjonen Av PubMed ID. Hittil har 260 poster blitt annotert med dette attributtet, og disse postene kan hentes fra Nukleotiddatabasen ved å søke etter ‘ regulatory uORF ‘
Antizyme gener
Et Av Målene Med RefSeq-prosjektet er å representere gener med eksepsjonell biologi som ikke følger standard dekodingsregler for proteinsyntese. Ornithin decarboxylase antizyme genet er et slikt eksempel, hvor en programmert + 1 ribosomal frameshifting mekanisme oppstår og kan ikke forutsies av konvensjonelle beregningsverktøy. Et sett med vertebrate antizyme transkripsjon og protein poster ble nylig gjenstand for en manuell annotasjonsinnsats for å skape standarder for å forbedre annotering av disse genproduktene ved eukaryote genome annotation pipeline (32). RefSeq-postene ble manuelt annotert med split CDS-funksjonen for å gjenspeile ribosomal glidning, og inkluderer en ‘ribosomal glidning’ – attributt med publisert bevis, ulike diverse funksjonsanmerkninger (for eksempel plasseringen av frameshift-siden) og en kort oppsummering som beskriver funksjonen OG nye egenskaper av genet (F.EKS.NM_139081. 2). Disse postene kan hentes fra Enten Nukleotid eller Protein database med søket: virveldyr refseq ribosomal glidning antizyme. Dette søket finner for tiden 242 RefSeq-poster (NM eller NP), som inkluderer transkripsjonsvarianter og proteinisoformer.
VIRVELLØSE DYR
virvelløse arter representerer de aller fleste eksisterende metazoans (33); imidlertid er bare et relativt lite antall representert av sekvenserte genomer. Dette til tross for at mange arter har kritisk biomedisinsk betydning Som Anopheles gambiae, en vektor for malaria og Biomphalaria glabrata, en vektor for schistosomiasis (34,35). Andre virvelløse dyr, Inkludert Apis mellifera, Bombyx mori og Crassostrea gigas, har betydelig kommersiell verdi (36-38). RefSeq gruppen har gjort en innsats for å øke antallet og omfanget av virvelløse genomer representert i datasettet ved å gi merknad via eukaryote genome merknad rørledning eller ved å spre merknad FRA INSDC innleveringer På RefSeq kopi av disse genomene. For begge prosessflyter er vi avhengige av offentlig tilgjengelighet av høykvalitets genomer I INSDC databaser og NCBIS Assembly database (www.ncbi.nlm.nih.gov/assembly/). til dags dato 46 virvelløse genomer har blitt kommentert AV NCBI inkludert representative arter av insekter, edderkoppdyr, bløtdyr og basal akkordater. Vi forventer en betydelig utvidelse i antall insekter og andre invertebrate genomer annotert som følge av genominitiativer som i5k (39), 1kite (1k Insect Transcriptome Evolution, http://www.1kite.org/) og Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).
PLANTER
RefSeq fortsetter å utvide mangfoldet av plantearter representert i datasettet. Hittil har 61 plantearter blitt inkludert I RefSeq genomes datasett (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/ plant/) hvorav 33 arter ble annotert gjennom eukaryote genome annotation pipeline; resten Er RefSeq kopier av annoterte genomer sendt TIL INSDC. I fremtiden vil flere plantegenomer valgt For RefSeq-inkludering bli behandlet av eukaryote annotation pipeline, i stedet for å spre annotasjon fra INSDC-innsendingen. Dette er en endring av politikken For RefSeq plant genomer og vil resultere i større samlet konsistens av plante annotasjon data innenfor RefSeq datasett. Flertallet Av RefSeq transkripsjoner og proteiner tilgjengelig for plantearter er ‘modell’ poster (XM_, XP_ Og Xr_ tiltredelser; Tabell 1), med en mindre undergruppe av ‘kjente’ poster (NM_, NR_, NP_) som opprettholdes uavhengig av annotasjonsprosessen ved en kombinasjon av automatisert behandling og manuell gjennomgang. Manuell konservering av planteutskrift og proteindata er for tiden gitt For Zea mays og Solanum lycopersicum. Den nåværende kurering fokus innebærer omfattende sekvens gjennomgang og er rettet mot å løse QA bekymringer i dagens sett av transkripsjoner. Feiloppløsning er fokusert på å identifisere og fjerne kimære transkripsjoner, overflødige transkripsjoner og gener, og forbedre kvaliteten på den representerte sekvensen ved å vurdere indels og mismatches blant RefSeq-transkripsjonen, den genomiske sekvensen og orthologe data. For planter, streber vi etter å gi en kuratert transkripsjon og protein datasett som er i samsvar med sorten valgt for genomsekvensering og montering. Kurasjonsprotokollen som brukes til vertebrate data brukes også til planter. Dermed Kan RefSeq transkripsjon poster oppdateres til å være basert på en annen INSDC kilde sekvens, eller kan settes sammen fra mer ENN EN INSDC sekvens posten for å gi en transkripsjon fra den foretrukne sorten. HVIS INSDC-transkripsjonsdata ikke er tilgjengelige for den genomiske sorten, kan En RefSeq-transkripsjon genereres fra den samlede genomiske sekvensen basert på en kombinasjon av transkripsjon eller proteinjusteringer, RNA-Seq og/eller publiserte data. Et annet fokusområde er å øke antall støttede kjente proteinkodende transkripsjoner og proteiner, da dette gir et kuratert reagens som kan brukes når man annoterer andre plantegenomer. Til slutt lager vi Flere RefSeqs som representerer splice varianter når det er tilstrekkelig støtte bevis. Dette arbeidet vil forbedre kvaliteten på anlegget RefSeq datasett og vil bidra til forbedringer i fremtidige genom merknader. Det nåværende settet av plantegenomer annotert av rørledningen kan nås på NCBIS eukaryote genome annotation pipeline nettsted http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ med lenker til detaljert annotasjonsrapport og andre ressurser som species BLAST og FTP.
ALGER, SOPP, NEMATODER og PROTOZOER
NCBI liten eukaryote genom rørledningen er en ny automatisert rørledning designet for generering Av RefSeq poster som et resultat av direkte forplantning AV kommenterte INSDC poster. RefSeq poster dermed generert er kopier Av GenBank data med noen formatendringer å overholde RefSeq krav. Den mest bemerkelsesverdige forskjellen mellom DEN opprinnelige INSDC-posten og RefSeq-posten er tillegget Av RefSeq-transkripsjonsproduktet. Selv om den ikke er designet for å generere de novo genom annotasjon, trekker den lille eukaryote genom rørledningen fra flere AV NCBI eukaryote genom annotasjon rørledningsmoduler og deres kode (http://www.ncbi.nlm.nih.gov/books/NBK169439/).Betegnelsen ‘Små Eukaryoter’ refererer til rørledningens primære bruk for å generere RefSeq-genomer for relativt mindre eukaryotiske genomer (sammenlignet med planter og virveldyr) som alger, protozoer, sopp, nematoder og noen leddyr. Imidlertid behandles noen store plantegenomer også ved hjelp av denne rørledningen. Denne rørledningen behandler høykvalitets forsamlinger bestående av kromosomer og / eller stillas og deres komponenter. Disse forsamlingene med høy contig Og stillas N50, høy kvalitet sekvens, og rimelig god INSDC-innsendt merknad prioriteres. Denne rørledningen, som erstatter en historisk prosessflyt som krevde mer manuell støtte, har nylig nådd en offentlig produksjonsfase og gir allerede et økt antall ‘ små ‘ eukaryote genomer representert I RefSeq. Arbeid pågår for å optimalisere rørledningens gjennomstrømning og å legge til mer automatisering og ytterligere minimere kuratorbehandlingsoppgaver. Langsiktige planer inkluderer implementering av et protein-navn styringssystem for å gi, korrigere, eller forbedre PÅ INSDC innsendt navn over tid. Mange av genomene som er i omfang for den lille eukaryoter-rørledningen, kan for tiden ikke behandles av den (store) eukaryotiske genomannotasjonsrørledningen på grunn av taksonomisk mangfold og begrenset tilgjengelighet av transkripsjonsdata som trengs for å trene de novo-annotasjonsrørledningen.
Fungal targeted loci
Fungal morfologi er svært variert, alt fra komplekse multicellulære strukturer til svært enkle enkeltceller. En rekke morfologiske strukturer og sporetyper kan produseres av en enkelt art. Omvendt produserer mange arter lignende morfologier (morphs), men er faktisk genetisk svært fjernt. Inntil nylig kunne en enkelt art være gyldig beskrevet med mer enn ett binomisk navn basert på seksuelle eller aseksuelle morfer. I mange tilfeller, bare en enkelt morph har blitt beskrevet og registrert for en gitt art, selv om arter nært knyttet til det kunne ha flere morphs beskrevet og registrert. Følgelig har sekvenssammenligninger blitt brukt i soppsamfunnet for å skille mellom arter, for å spore arter når de går gjennom komplekse livssykluser og å identifisere kryptiske arter. Som en del av den dynamiske prosessen med taksonomisk revurdering, er mange sopparter korreksjoner ikke alltid oppdatert I GenBank sekvensdata.
for Å være en mer pålitelig ressurs FOR DNA-basert identifikasjon, må referansesekvenser avledet fra typeprøver (som fungerer som referanser for arter) merkes med det riktige og mest oppdaterte artsnavnet. Fungi RefSeq målrettede loci databaser gir denne verdifulle ressursen. FOR EKSEMPEL ER PRJNA177353 Et Bioprojekt som spesielt fokuserer på de interne transkriberte avstandsregionene (ITS) i det nukleære ribosomale cistron som har blitt brukt i mange år som en fylogenetisk markør og nylig godkjent som den formelle strekkodesekvensen Av Sopp (41). ITS RefSeq-databasen startet som et samarbeid med Index Fungorum, MycoBank og UNITE, samt en stor gruppe taksonomiske spesialister. Sekvenser ble valgt, hovedsakelig fra typeprøver med gyldige beskrivelser, og deretter ble nåværende korrekte artsnavn knyttet til sekvensene med sikte på å representere de fleste aksepterte soppordrene (8). Resultater fra denne kureringsinnsatsen har blitt brukt og sitert i ulike publikasjoner (42-46)og har bidratt til ytterligere innsats for å validere undergrupper av referansesekvenser, for eksempel medisinsk signifikante arter (47).målet, med fortsatt kurering, er å legge til sekvenser fra nylig beskrevne ordrer og utvide representasjonen til å omfatte de fleste aksepterte familier med fokus på medisinsk viktige Sopp. Prosessen inkluderer også å gjøre rettelser, erstatte sekvens fra verifisert materiale med sekvens fra type materiale som det blir tilgjengelig og redigere definisjonslinjer eller fjerne RefSeq poster som taksonomiske klassifikasjoner endringer. Dette sikrer AT BLAST søkeresultater riktig vise gjeldende navn. RefSeq sine poster har blitt utvidet til å representere 3,060 sekvenser som representerer 270 familier fra 39 klasser. Under den første samarbeids SIN RefSeq innsats, et mindre sett av sekvens tiltredelser FRA 28s nuclear large subunit ribosomal gen (LSU) ble også samlet, men ikke verifisert. En arbeidsflyt som ligner på its record curation-prosessen ble fulgt, og under fortsatt kurering har DISSE LSU-postene blitt verifisert for sekvenskvalitet, korrekt identifikasjon og nøyaktige kildedata. Nær 500 poster (fra 800 potensielle poster) som representerer >100 familier fra 21 klasser ble verifisert og nylig utgitt. 28s datasettet kan hentes fra BioProject PRJNA51803 (48).
PROKARYOTER
NCBI RefSeq prokaryote genome collection representerer sammensatte prokaryote genomer med ulike nivåer av kvalitet og samplingstetthet. For prokaryoter, basert på tidligere tilbakemeldinger fra samfunnet, er vår nåværende policy å gi genomannotasjon for alle prokaryotiske genomer som oppfyller våre kvalitetskriterier. I de senere år har vi møtt to store utfordringer: (i) å holde tritt med den raske eskaleringen av innsendte prokaryote genomer; og (ii) adressere en økende inkonsekvens i genomannotasjon på grunn av bruken av både EN INSDC-forplantningsbasert rørledning og forskjellige versjoner av EN NCBI de novo-genomannotasjonsrørledning som utviklet over tid.Med den økende interessen for humane patogener og utvikling AV DNA-sekvenseringsteknologi, har antall sekvenserte prokaryotiske genomer økt raskt det siste tiåret. Noen bakteriestammer er ofte uutslettelige ved bruk av nåværende genotypingsmetoder, men mindre genetiske forskjeller kan detekteres på grunnlag av helgenomsekvensering, noe som er nyttig for å karakterisere overføringsveier, identifisere antibiotikaresistens og kartlegge utbrudd. For å undersøke matbårne patogener eller infeksjonsutbrudd, har et stort antall nesten identiske bakterielle genomer blitt sekvensert og annotert de siste årene, noe som resulterer i mange identiske proteiner, som hver har et tydelig tiltredelsesnummer. I 2013 INTRODUSERTE NCBI en ny proteindatamodell og tiltredelsesprefiks (wp_) for RefSeq-samlingen. Denne endringen reduserte redundansen I RefSeq prokaryote proteiner og muliggjorde identifisering av proteiner som var identisk funnet på mer enn ett genom. Det er også tillatt for en forbedret strategi for å håndtere prokaryote protein navn. Disse ikke-redundante postene representerer unike prokaryotiske proteinsekvenser som er uavhengige av et bestemt bakteriegenom og kan annoteres på flere stammer eller arter (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).Historisk Sett ble RefSeq bakteriell genom annotasjon forplantet fra INSDC innleveringer, når tilgjengelig, eller generert ved hjelp av forskjellige versjoner AV NCBIS Prokaryote Genome Annotation Pipeline (som også tilbys som en tjeneste For GenBank innleveringer). Dette resulterte i akkumulerte uoverensstemmelser i både strukturelle og funksjonelle merknader I RefSeq prokaryote datasett. I løpet av de siste to årene NCBI forbedret flere aspekter Av Prokaryote Genome Merknad Rørledningen for å øke kapasiteten og ytterligere standardisere merknad regler. Vår rørledning kombinerer en genkallingsalgoritme, GeneMarkS+ (49,50), med en justeringsbasert gendeteksjonstilnærming og er i stand til å annotere både komplette OG utkast TIL wgs-genomer. Rørledningen forutser for tiden proteinkodende gener, strukturelle Rna (5S, 16S og 23S), trna og små ikke-kodende Rna.I 2015 lanserte Vi en omfattende annotasjonsoppdatering For RefSeq prokaryote genomer for å harmonisere genomannotasjon og fullføre overgangen til den nye proteindatamodellen. En ny prokaryotisk proteinnavndatabase, navnespesifikasjoner og en bevisbasert strategi ble utviklet og er for tiden i ferd med å bli distribuert. Så langt, over 3 millioner protein poster har oppdatert navn i en første demonstrasjon av tilnærmingen. Den nye prokaryote datamodellen gir en betydelig fordel å navngi ledelsen som protein navnet bæres med protein sekvens posten; oppdatere navnet på at protein posten resulterer i automatisk forplante oppdateringen til alle genomer som er kommentert med at tiltredelse nummer.RefSeq prokaryote genomer er organisert i flere nye kategorier som referanse genomer og representative genomer basert på kuraterte attributter og montering og annotasjon kvalitet tiltak (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Referanse genomer er manuelt valgt ‘gold standard’ komplette genomer med høy kvalitet merknad og det høyeste nivået av eksperimentell støtte for strukturelle og funksjonelle merknader. For tiden er et lite datasett av 122 referansegenomer manuelt annotert av samarbeidende grupper og NCBI-ansatte. Referansegenomene er tilgjengelige på: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Representative genomer er beregningsmessig beregnet og valgt for å representere ulike arter. De representative genomene er tilgjengelige på: www.ncbi.nlm.nih.gov/genome/browse/representative RefSeq prokaryote genome data kan nås I BLAST databaser, web-ressurser (Assembly, BioProject, Genome, Nucleotide og Protein), GJENNOM NCBI programmering verktøy, eller kan lastes ned fra genomer eller refseq FTP-områder. En tilpasset ‘Mikrober’ BLAST side, åpnes FRA BLAST hjemmesiden, gir muligheter for å søke mot Alle RefSeq prokaryote genomer, Referanse og Representative genomer undergruppe, eller for å begrense søket til en bestemt taxa. En undergruppe av prokaryote genomer er annotert MED EN NCBI Gene ID og kan hentes I NCBI Gen ressurs eller Fra Gene FTP-området. For archaea er dette gitt for mest komplette genomer. For bakterier er dette gitt for referansegenomer og representative genomer for arter som har minst 10 genominnlegg.
prokaryote målrettede loci
i prokaryoter har 16s ribosomal RNA-sekvensen blitt en standard molekylær markør for beskrivelsen av en ny art. Selv om disse markørsekvensene har blitt mye brukt, varierer kvaliteten på sekvensdataene og tilhørende metadata som sendes TIL insdc-databaser betydelig. Å anerkjenne viktigheten av tilgang til data av høy kvalitet for disse markørene, HAR NCBI utvidet sitt målrettede loci-prosjekt for å gi en oppdatert kilde til kuraterte data. Det målrettede loci-prosjektet opprettholder for tiden nesten 18 000 16s ribosomale rna-referansesekvenser hvorav over 95% er fra typestammer. Typestammene anses som eksemplar av arten, og det er viktig at typestammedata blir annotert med riktige metadata og være fri for forurensning.
dette arbeidet innebar en uttømmende gjennomgang og oppdatering av den underliggende taksonomi-databasen som ble brukt sammen MED NCBIS Type strain Entrez filter for å hente kandidatsekvenser. Sekvensdataene og tilhørende taksonomi / metadata er gjennomgått og korrigert for å inkludere den mest oppdaterte informasjonen. Hvis en sekvens mislyktes validering eller ikke kunne valideres nøyaktig, ble den ekskludert. Disse referansesekvensene kan nå brukes som ‘gullstandarder’ for analyse av eksisterende og nye rrna-sekvenser.
Bakterielle og Archaeal 16s rRNA datasett er tilgjengelig Fra BioProject (HENHOLDSVIS PRJNA33175 og PRJNA33317). En tilpasset BLAST database er også tilgjengelig(‘ 16s ribosomale RNA-sekvenser(Bakterier og Archaea)’).
VIRUS
RefSeq-datamodellen for virus skiller seg fra andre organismer. Generelt er bare ett Komplett RefSeq-genom opprettet for hver viral art. Av Og Til opprettes Flere RefSeq-poster innenfor en gitt viral art for å gjenspeile veldefinerte genotyper eller viktige laboratorie-og/eller villstammer. Ytterligere genomer for en gitt art er validert for taksonomi og fullstendighet og deretter indeksert som sekvens ‘naboer’ (52). Både RefSeq og nabo genomer er gjenfinnbare gjennom den spesialiserte Virale Genomressursen (http://www.ncbi.nlm.nih.gov/genome/viruses/) og Fra Entrez Nukleotid og Genomsider ved hjelp Av ‘RefSeq Genom For Arter ‘og’ Andre INSDC Genomsekvenser ‘ lenker (52).Taksonomi er et stort problem for viral genomikk, da det er 3186 virale arter som er offisielt anerkjent av International Committee on Taxonomy Of Virus (ICTV) (53) og 4834 komplette genomer fra både offisielle og foreløpige virale arter tilgjengelig fra INSDC-databaser. NCBI Pairwise Sequence Comparison (PASC) – verktøyet ble utviklet for å hjelpe til med klassifisering av virale genomer basert på globale og/eller lokale tilpasninger mellom genomene (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Omfanget av dette verktøyet har blitt utvidet til å omfatte en rekke virusfamilier og andre taksonomiske grupper ,og det har blitt brukt til å støtte avgrensningen av nye taksonomiske kriterier (54-57).Et annet fremvoksende problem i viral genomikk er inkonsekvent og / eller unøyaktig merknad blant relaterte virale genomsekvenser. Dette problemet gjenspeiler ofte ulike annoteringsprosesser og pågående eksperimentelt arbeid og kan føre til forvirring blant datakonsumenter og gjøre komparativ analyse mellom genomer vanskelig. Dette problemet er løst i NCBI Virus Variasjon Ressurs (http://www.ncbi.nlm.nih.gov/genome/viruses/ variasjon/) der beregnings rørledninger er ansatt for å gi up-to-date, standardisert merknad for flere virus (58). For tiden beregner disse rørledningene standardiserte gen-og proteingrenser for Alle Influensavirus, Dengue-virus og West Nile – virussekvenser og standardiserte gen-og proteinnavn og metadatabetmer for disse og to andre virus, Middle East respiratory coronavirus og Ebolavirus. Disse standardiserte dataene blir deretter utnyttet i et spesialisert, metadata-sentrisk søkegrensesnitt som muliggjør enkel gjenfinning av sekvenser basert på spesifikke biologiske kriterier.Å Opprettholde oppdaterte, allment aksepterte annotasjonsstandarder krever kontinuerlig samarbeid med det større vitenskapelige samfunn. NCBI Viral Genome Annotation Working Group ble etablert for å utnytte konsortier av offentlige databaser, sekvenseringssentre og forskningsgrupper for å utvikle standardisert sekvensannotasjon samt isolere navneordninger for ulike grupper av virus (59-63). Denne tilnærmingen etablerer ikke bare standarder for viral annotasjon, men representerer også disse standardene i Den nåværende RefSeq-posten, noe som sikrer tilgjengelighet for alle databasebrukere og sendere. Lignende samarbeid er også nødvendig for å støtte verdiskapende, fortolkende ressurser som HIV-1, human interaction database (http://www.ncbi.nlm.nih.gov/genome/viruses/retrovirus/hiv-1/interaksjoner/) (64). Samarbeidspartnere Fra Southern Research Institute gi dokumentert HIV-1, menneskelige molekylære interaksjoner kuratert fra litteraturen OG NCBI opprettholder en brukervennlig ressurs der brukerne kan søke etter bestemte typer interaksjoner og finne mer informasjon om gener involvert.
FUTURE DIRECTIONS
RefSeq-prosjektet er unikt ved å tilby et referansesekvensdatasett av transkripsjoner, proteiner og genomer som omfatter alle livets riker og har blitt aktivt vedlikeholdt og oppdatert over tid for å innlemme forbedrede beregningsstrategier, nye datatyper og ny kunnskap. Vi har vist evne og kapasitet til å svare på de siste raske økninger i antall sekvenserte genomer sendt TIL INSDC databaser. Vi har definert et mangfoldig sett med retningslinjer og strategier for kurering og annotering av eukaryote, prokaryote og virale arter for å møte de ulike behovene til organismespesifikke samfunn. RefSeq-datasettet er mye brukt som referansestandard for mange forskjellige analyser, inkludert kliniske anvendelser av mennesker og patogener, komparativ genomikk, ekspresjonsanalyser, sekvensvariasjonstolkning og både array-og sondekonstruksjon. VED NCBI er RefSeq-datasettet integrert i flere ressurser, inkludert Assembly, BLAST, Epigenomics, Gene( Hvor RefSeq-merknad er det primære grunnlaget for De fleste Genoppføringer), Genom, Dbsnp, dbVar, Variasjonsviser og mer.Vi vil fortsette å målrette manuell kurering for å forbedre strukturell og funksjonell informasjon for menneskelige og andre vertebrate genomer. Vår konservative manuell curation tilnærming sikrer fortsatt høy kvalitet og pålitelighet av menneske, mus, og andre ‘kjente’ RefSeq poster som tjener behovene til de som trenger en godt støttet definisjon av alternative exons (færre falske positiver). Tilsetningen AV RNA-Seq-data til vår annotasjonsrørledning økte vår annotasjon av alternative spleisevarianter som Modellrefseqs for å betjene behovene til de som ønsker en mer omfattende, men fortsatt godt støttet, definisjon av exome (færre falske negativer). Mens både kjente Og modellrefseqs rapporterer støttebeviset på sekvensposten, bruker de forskjellige tilnærminger for å gjøre det. Fremtidig innsats vil være rettet mot å harmonisere evidensrapportering for både ‘kjente’ Og ‘modell’ RefSeqs, slik at brukerne lettere kan identifisere denne informasjonen. Vi vil også legge til en ny datatype Til human and mouse RefSeq-samlingen i nær fremtid for å representere eksperimentelt rapporterte regulatoriske og funksjonelle elementer med kjente (eller rimelig utledede) funksjonelle konsekvenser.
for prokaryote genomer fortsetter vi å jobbe med å raffinere aspekter av den strukturelle annotasjonen som genereres av Prokaryote Genome Annotation Pipeline. Vårt arbeid mot en ny tilnærming til å håndtere funksjonell informasjon blir fortsatt raffinert og vil bli beskrevet andre steder. Vi forventer å annotere Hele RefSeq prokaryote genom datasett når nye versjoner av vår prokaryote annotasjon rørledning blir tilgjengelige (for å forbedre strukturelle annotasjon). Beslutningen om å annotere Alle RefSeq prokaryoter ved hjelp Av en enkelt metode, sammen med selve volumet av dette datasettet, nødvendiggjør en annen tilnærming som utnytter flere kilder til bevis for å gi funksjonell informasjon. Protein navn vil bli oppdatert fortløpende som organisert av protein familier eller kategorier av bevis type. Våre mål for det kommende året inkluderer større integrering Av Rfam (65) i vår annotasjonsrørledning, utvidet samarbeid, forbedrede proteinnavn og rapportering av støttebevis på proteinsekvensregistreringen.Vi vil gjerne takke det vitenskapelige samfunnet for konstruktive tilbakemeldinger, forslag, feilrapporter og samarbeid i løpet av de siste 15 årene som har bidratt til kvaliteten og nøyaktigheten av den representerte sekvensen, strukturell merknad og funksjonell merknad.
FINANSIERING
Intramural Forskningsprogram AV NIH, National Library Of Medicine. Finansiering for open access charge: Det Intramurale Forskningsprogrammet Til National Institutes Of Health, National Library Of Medicine.
Interessekonflikt. Ingen erklært.
– >
et al.
– >
2015
L.
div >
Et Al.
nukleinsyrer res.
2015
> m. r. Mus genom merknad Av RefSeq prosjektet
w. et al.
div>b.
d. h. Et al.
div> r. w. et al.
div> b. c. Et al.
– >
S. m.
et al.
d.R.
du kan velge mellom følgende kategorier: b. d.
et al.
div >
Mcnutt M. A.
et al.
2014
div >
s. et al.
div>
div> et al.
2010
div>
>
et Al.
2013
div>
t.
i. : den komparative genomiske metoden for å skille mellom proteinkoding og ikke-kodende regioner
pevzner
div > k. Et al.
2014
mol. Med. 2015
2002
E. S.
div>
div >
W. et al.
Et al.
j.
Lj genomics
div>
/ div>
div >
a. g. Et al.
Div >
c. dette er en av de mest populære variantene i verden, og du kan også velge en av de mest populære variantene i verden.
/ div >
et al.
et al.
>
et al.
klaassen
k. a. >
2014
div>si cagno
c.
2015
>
et al. den omfattende, automatisk oppdatert sopp sin sekvens datasett for referansebasert chimera kontroll i miljø sekvensering innsats
/ div >
– >
Et al. THE International Society Of Human And Animal Mykologi (ISHAM) – sin referanse DNA barcoding database-kvalitetskontrollert standard verktøy for rutinemessig identifisering av menneske – og dyrepatogene sopp
2015
c.
2012
div >
L. Oppdatering På RefSeq mikrobielle genomer ressurser
d.
blinkova ncbi virale genomer ressurs
2015
i tillegg til dette er det viktig å være oppmerksom på at det ikke er nødvendig å være oppmerksom på at det ikke er nødvendig å være sikker på at det ikke er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig å være sikker på at det er nødvendig. j.
et al. Ratifikasjon stemme på taksonomiske forslag Til Den Internasjonale Komiteen For Taksonomi Av Virus (2015)
2015
forbedringer av parvis sekvens sammenligning (pasc): genomet-basert web verktøy for virus taksonomi
2014
div>
/ div >
et al.
2015
S. R.
s. et al.
div>
Kimelman Tatusova Virus Variasjon Ressurs–siste oppdateringer og fremtidige retninger
medlemmer av adenovirus forskning, C.
2011
div>
esona
Et al.
– >
div > s.
d. et al.
– >
Et al.
katz
g.
div > a. div> j. et al.
Publisert Av Oxford University Press på vegne Av Nukleinsyreforskning 2015. Dette arbeidet er skrevet av(A) us Government employee (s) og er i det offentlige området I USA.