- Abstract
- wprowadzenie
- RefSeq>
- generowanie zbioru danych REFSEQ
- dostęp do zbioru danych REFSEQ
- wzrost i statystyki
- roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, według katalogu wydania FTP
- kręgowce
- RefSeqGene project
- włączenie RNA-Seq i innych typów danych w kuracji opartej na transkrypcji
- Długie niekodujące RNA (lncrna)
- adnotacja funkcjonalna
- peptydy przeciwdrobnoustrojowe (AMPs)
- endogenne retrowirusy (ERVs)
- histony zależne od replikacji
- Regulatory upstream open reading frame (uorfs)
- geny Antyzyme
- Bezkręgowce
- rośliny
- glony, grzyby, nicienie i pierwotniaki
- grzyb celowane loci
- prokarioty
- prokariotyczne loci
- wirusy
- przyszłe kierunki
- finansowanie
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Projekt RefSeq wykorzystuje dane przesłane do międzynarodowej współpracy bazy danych sekwencji nukleotydów (INSDC) przeciwko kombinacji obliczeń, ręcznego doboru i współpracy w celu wytworzenia standardowego zestawu stabilnych, nie redundantnych sekwencji referencyjnych. Projekt RefSeq wzbogaca te sekwencje referencyjne o aktualną wiedzę, w tym publikacje, funkcje funkcjonalne i nomenklaturę informacyjną. Baza danych reprezentuje obecnie sekwencje ponad 55 000 organizmów (>4800 wirusów, >40 000 prokariotów i >10 000 eukariotów; RefSeq release 71), począwszy od pojedynczego rekordu do kompletnych genomów. Niniejszy artykuł podsumowuje obecny status wirusowych, prokariotycznych i eukariotycznych gałęzi projektu RefSeq, raporty na temat ulepszeń dostępu do danych i szczegółowych wysiłków w celu dalszego rozszerzenia reprezentacji taksonomicznej kolekcji. Zwracamy również uwagę na różnorodne inicjatywy w zakresie kuratorowania funkcjonalnego, które wspierają wiele zastosowań danych RefSeq, w tym walidację taksonomiczną, adnotację genomu, genomikę porównawczą i testy kliniczne. Podsumowujemy nasze podejście do wykorzystania dostępnych RNA-Seq i innych typów danych w naszym ręcznym procesie kuracji dla kręgowców, roślin i innych gatunków oraz opisujemy nowy kierunek dla genomów prokariotycznych i zarządzania nazwami białek.
wprowadzenie
przez ostatnie 15 lat Baza Danych RefSeq Narodowego Centrum Informacji biotechnologicznej (NCBI) służyła jako podstawowy zasób w badaniach genomicznych, genetycznych i proteomicznych. Dostarczenie przez projekt RefSeq wyselekcjonowanych i stabilnych adnotowanych genomów referencyjnych, transkryptów i białek dla wybranych wirusów, drobnoustrojów, organelli i organizmów eukariotycznych pozwoliło badaczom skupić się na najlepszych reprezentatywnych danych sekwencyjnych w przeciwieństwie do nadmiarowych danych w GenBank i jednoznacznie odwoływać się do określonych sekwencji genetycznych. Kolekcja RefSeq zapewnia wyraźnie powiązane rejestry genomu, transkrypcji i sekwencji białek, które zawierają publikacje, nomenklaturę informacyjną oraz znormalizowane i rozszerzone adnotacje dotyczące funkcji. Rekordy RefSeq są zintegrowane z zasobami NCBI, w tym bazami danych nukleotydów, białek i BLAST i można je łatwo zidentyfikować za pomocą słowa kluczowego „RefSeq” i ich odrębnych przedrostków akcesyjnych, które definiują ich typ (Tabela 1). Wszystkie dane RefSeq podlegają kontroli jakości (QA) za pomocą specjalistycznych testów QA opracowanych dla różnych taksonów lub typów danych. Na przykład wszystkie wirusowe RefSeq są poddawane przeglądowi taksonomicznemu przez personel NCBI przed publicznym wydaniem. Dostęp do RefSeq jest szeroko cytowany w publikacjach naukowych i genetycznych bazach danych, ponieważ zapewnia stabilny i spójny układ współrzędnych, który może być używany jako punkt odniesienia do raportowania danych specyficznych dla genów, zmienności klinicznej i porównań międzygatunkowych. Te standardy sekwencji odniesienia są coraz ważniejsze, ponieważ dokładne raportowanie i odtwarzalność są kluczowymi elementami najlepszych praktyk w badaniach biomedycznych (1).
RefSeq>
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne |
AP_3 | białko | białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji |
XP_3, 5 | białko | białka adnotowane na |
yp_3 | białko | białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji |
wp_6 | białko | białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być przypisane do więcej niż jednego genomu prokariotycznego |
prefiks . | typ cząsteczki . | użyj kontekstu . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne |
AP_3 | białko | białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji |
XP_3, 5 | białko | białka adnotowane na |
yp_3 | białko | białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji |
wp_6 | białko | białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być adnotowane na więcej niż jednym genomie prokariotycznym |
1 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 cyfr, a następnie numer wersji sekwencji.
2 Kompletny format przystąpienia składa się z przedrostka, po którym następuje numer przystąpienia INSDC, na którym oparty jest rekord RefSeq, a następnie numer wersji sekwencji RefSeq.
3pełny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 lub 9 cyfr, po których następuje numer wersji sekwencji.
4Records z tym prefiksem akcesyjnym zostały kuratorowane przez pracowników NCBI lub bazę danych organizmów modelowych, lub znajdują się w Puli akcesji, z którymi kuratorzy pracują. Rekordy te są określane jako „znany” zbiór danych RefSeq.
5rekordy z tym prefiksem są generowane przez rurociąg adnotacji genomu eukariotycznego lub mały rurociąg adnotacji genomu eukariotycznego. Rekordy wygenerowane za pomocą pierwszej metody są określane jako „modelowy” zbiór danych RefSeq.
6 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 9 cyfr, po których następuje numer wersji. Numer wersji to zawsze”.1 ’ ponieważ zapisy te nie podlegają aktualizacji. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne |
AP_3 | białko | białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji |
XP_3, 5 | białko | białka adnotowane na |
yp_3 | białko | białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji |
wp_6 | białko | białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być przypisane do więcej niż jednego genomu prokariotycznego |
prefiks . | typ cząsteczki . | użyj kontekstu . |
---|---|---|
NC_1 | DNA | Chromosomes |
Linkage Groups | ||
AC_1 | DNA | Chromosomes |
Linkage Groups | ||
NZ_2 | DNA | Chromosomes |
Scaffolds | ||
Used predominantly for prokaryotic genomes. | ||
NT_3 | DNA | Scaffolds |
NW_3 | DNA | Scaffolds |
NG_1 | DNA | Genomic regions. |
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | ||
NM_3,4 | mRNA | protein-coding transcripts |
XM_3,5 | mRNA | protein-coding transcripts |
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes |
XR_3,5 | RNA | non-protein-coding transcripts, as above |
NP_3,4 | protein | białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne |
AP_3 | białko | białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji |
XP_3, 5 | białko | białka adnotowane na |
yp_3 | białko | białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji |
wp_6 | białko | białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być adnotowane na więcej niż jednym genomie prokariotycznym |
1 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 cyfr, a następnie numer wersji sekwencji.
2 Kompletny format przystąpienia składa się z przedrostka, po którym następuje numer przystąpienia INSDC, na którym oparty jest rekord RefSeq, a następnie numer wersji sekwencji RefSeq.
3pełny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 lub 9 cyfr, po których następuje numer wersji sekwencji.
4Records z tym prefiksem akcesyjnym zostały kuratorowane przez pracowników NCBI lub bazę danych organizmów modelowych, lub znajdują się w Puli akcesji, z którymi kuratorzy pracują. Rekordy te są określane jako „znany” zbiór danych RefSeq.
5rekordy z tym prefiksem są generowane przez rurociąg adnotacji genomu eukariotycznego lub mały rurociąg adnotacji genomu eukariotycznego. Rekordy wygenerowane za pomocą pierwszej metody są określane jako „modelowy” zbiór danych RefSeq.
6 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 9 cyfr, po których następuje numer wersji. Numer wersji to zawsze”.1 ’ ponieważ zapisy te nie podlegają aktualizacji. Dodatkowe informacje można znaleźć w dokumentacji online: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
w ostatnich latach zaawansowane techniki sekwencjonowania ułatwiły znaczny wzrost liczby zgłoszeń całego zespołu genomu do publicznych baz danych. W rezultacie projekt RefSeq konsekwentnie rozszerzył głębokość i szerokość taksonów zawartych w zbiorze danych głównie poprzez ulepszenia kilku wewnętrznych potoków adnotacji. Wszystkie taksony są objęte włączeniem RefSeq; jednak adnotacja jest często ograniczona do tych organizmów, dla których wysokiej jakości pierwotny zespół genomu jest dostępny z niekwestionowanymi informacjami o organizmach. W ten sposób możemy wykluczyć niektóre kategorie danych, które nie spełniają naszych standardów jakości. Wykluczone zbiory danych obejmują: metagenomy, zespoły o niskich wartościach contig N50 lub szczególnie dużą liczbę nieumieszczonych rusztowań / stygów(tj. wysoką fragmentację) lub genomy, które mają znaczne niedopasowanie lub zmienność indel w porównaniu z innymi blisko spokrewnionymi genomami dla gatunku (np. niektóre prokarioty).
unikalnym aspektem zbioru danych RefSeq jest połączone podejście wykorzystujące obliczenia, współpracę i opiekę personelu naukowego NCBI. Jako duży zakład bioinformatyczny, NCBI zainwestował w rozwój solidnych przepływów procesowych w celu generowania adnotacji i wykonywania testów zapewnienia jakości dla genomów eukariotycznych i prokariotycznych, transkryptów i białek. Udoskonalenia procesu genomów wirusowych są w toku. Grupa RefSeq współpracuje z wieloma grupami ekspertów, w tym z oficjalnymi organami ds. nomenklatury (np. HUGO Gene Nomenclature Committee (Hgnc) i Zebrafish Information Network (Zfin) dla nazw genów odpowiednio dla ludzi i danio pręgowanego), UniProtKB (nazwy białek) i miRBase (microRNAs) (2-5). Współpraca ta i inne pomagają utrzymać i poprawić jakość zestawu danych RefSeq poprzez raporty QA, wymianę informacji o genach i sekwencjach oraz wymianę informacji funkcjonalnych. Pracownicy NCBI zapewniają również wsparcie kuratorskie dla wirusów, prokariotów, eukariotów, organelli, plazmidów i projektów celowanych, w tym genów i sekwencji dla Homo sapiens, Mus musculus i innych organizmów. Kuratorzy RefSeq poprawiają jakość bazy danych poprzez przegląd wyników testów QA, zaangażowanie w wybór niektórych danych wejściowych do przetwarzania adnotacji genomu, analizę sekwencji, analizę taksonomiczną i przegląd funkcjonalny. Kuracja wspiera również ulepszenia w potokach adnotacji genomu, ponieważ eksperci od treści pomagają zdefiniować programowe podejścia do modelowania zarówno typowej, jak i nietypowej biologii. W przypadku eukariotów, w szczególności ssaków, kuracja oparta na transkrypcji definiuje”najlepszych”przedstawicieli sekwencji (jako „znane” RefSeqs; przypis w tabeli 1), które są używane jako podstawowy odczynnik wejściowy do potoku adnotacji genomu eukariotycznego (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Ulepszenia w jakości odczynnika wejściowego z kolei dodają znaczną jakość i odtwarzalność do wynikowej adnotacji genomu. Ten rodzaj ręcznej kuracji był historycznie skoncentrowany na ludziach i myszach ze względu na ich wyjątkowe znaczenie biomedyczne (6). Ostatnio te wysiłki kuratorskie zwróciły większą uwagę na Rattus norvegicus, Danio rerio, Bos taurus i Gallus gallus. Gatunki te mają znaczenie dla zdrowia ludzkiego, a także dla zrównoważonego rozwoju rolnictwa.
w niniejszym artykule informujemy o naszych postępach w rozszerzaniu zbioru danych RefSeq o bardziej zróżnicowane organizmy, opisujemy ulepszenia w dostępie do danych i dostarczamy przykładów ilustrujących zwiększony nacisk na dostarczanie filogenetycznie użytecznych zbiorów danych, a także adnotację funkcji funkcjonalnych na transkrypcie RefSeq i zapisach białek. Przewidujemy, że te wysiłki i ulepszenia w zbiorze danych RefSeq będą nadal przyczyniać się do postępu medycznych badań translacyjnych, ulepszeń rolniczych, identyfikacji filogenetycznej i badań ewolucyjnych.
generowanie zbioru danych REFSEQ
rekordy sekwencji RefSeq są generowane różnymi metodami w zależności od klasy sekwencji i organizmu. Genomy archaealne i bakteryjne (patrz sekcja Prokaryotes) są adnotowane przy użyciu rurociągu adnotacji genomu prokariotycznego NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), podczas gdy niewielka liczba referencyjnych genomów bakteryjnych jest wspierana przez współpracę i ręczne leczenie. Genomy eukariotyczne RefSeq są dostarczane przy użyciu dwóch przepływów procesowych. Większość genomów roślin, zwierząt, owadów i stawonogów jest adnotowana przez rurociąg adnotacji genomu eukariotycznego. Ten rurociąg generuje wyniki adnotacji na podstawie dostępnych danych transkrypcyjnych (w tym danych RNA-Seq i transcriptome Shotgun assembly (TSA)), jak również homologii białek, predykcji ab initio (głównie wtedy, gdy dane transkryptomu są niedostępne) oraz dostępnych znanych (kuratorskich) transkryptów i białek RefSeq (patrz Tabela 1). Adnotacja generowana przez rurociąg (Model RefSeqs) może, ale nie musi mieć wsparcia dla kompletnej kombinacji egzonów z pojedynczego wyrównania dowodów, ale może mieć wsparcie RNA-Seq dla par egzonów. Genomy eukariotyczne, które zostały adnotowane przez ten rurociąg, są podawane publicznie z linkami do pobrania danych przez FTP, do przeglądania lub wykonywania kwerendy BLAST przeciwko adnotowanemu genomowi lub do dostępu do szczegółowego podsumowania raportu adnotacji (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rurociąg dla podgrupy eukariotów, w tym grzybów, pierwotniaków i nicieni, obejmuje rozmnażanie adnotacji, które zostało przedłożone do międzynarodowej współpracy w bazie danych sekwencji nukleotydów (INSDC), z standaryzacją formatu, do kopii RefSeq przedłożonego zespołu genomu (patrz glony, Grzyby, nicienie i pierwotniaki).
pracownicy NCBI zapewniają większość adnotacji RefSeq organelle genome poprzez propagację z przedłożenia INSDC. Anotacja mitochondriów ssaków jest często uzupełniana manualną kuracją. Projekt RefSeq utrzymuje również sekwencje referencyjne dla docelowych projektów loci, takich jak RefSeqGene, który jest członkiem Locus Reference Genomic (LRG) collaboration (7), dla bakteryjnych i grzybowych rybosomalnych loci rRNA oraz dla wewnętrznych transkrybowanych sekwencji dystansowych grzybów (ITS) (8). Ponadto znaczna liczba ludzkich, mysich i innych transkryptów i białek jest dostarczana poprzez współpracę i ręczną kurację, która obejmuje analizę sekwencji i przegląd literatury.
prokariotyczne rurociągi annotacji NCBI (patrz poniżej) i eukariotyczne nadążają za rosnącą liczbą zespołów genomu przekazywanych do INSDC, zapewniając spójną adnotację na kopiach RefSeq wybranych złożonych zespołów genomu wysokiej jakości. Do tej pory opisano 245 genomów eukariotycznych, w tym 170 genomów kręgowców, z których w ciągu ostatnich 20 lat opisano ponad 120 gatunków. Do tej grupy należą 52 gatunki ptaków, w tym gatunki reprezentatywne większości ptaków (9,10). Nastąpił również znaczny wzrost liczby zespołów opisywanych w RefSeq dla naczelnych, innych ssaków, ryb, roślin i stawonogów.
dostęp do zbioru danych REFSEQ
Strona domowa RefSeqhttp://www.ncbi.nlm.nih.gov/refseq/ jest centralnym hubem dla wszystkich aspektów zbioru danych RefSeq. Ta strona zawiera linki, które prowadzą użytkowników przez ogólny opis projektu, a także arkusze informacyjne, statystyki wzrostu i informacje na temat bardziej ukierunkowanych projektów RefSeq, takich jak Inicjatywa readnotacji genomu prokariotycznego, projekt Consensus Coding Sequence (CCDS) (11) projekt RefSeqGene oraz ukierunkowane projekty Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Linki do najbardziej aktualnego, kompleksowego wydania FTP oraz szczegółowej dokumentacji dotyczącej formatu i treści Wydania można znaleźć w sekcji „Ogłoszenia” na stronie głównej RefSeq. Poprzednie ogłoszenia RefSeq są również dostępne na tej stronie. Zdecydowanie zachęcamy do pobierania danych RefSeq bezpośrednio z NCBI, Ponieważ pliki do pobrania z innych zasobów bioinformatyki i przeglądarki genomów mogą nie zawierać wszystkich dostępnych danych lub mogą jedynie odzwierciedlać dopasowanie transkryptów RefSeq do genomu, a nie Wyniki adnotacji genomu generowane przez NCBI.
dane sekwencji RefSeq można uzyskać interaktywnie za pomocą baz danych nukleotydów i białek NCBIs, w bazach danych BLAST, poprzez programowy interfejs NCBI (e-utilities) lub za pośrednictwem protokołu przesyłania plików (FTP). E-narzędzia obsługują skryptowy dostęp do pobierania danych RefSeq w różnych formatach w oparciu o wyszukiwane hasła lub listy akcesyjne; obszerna dokumentacja jest dostępna w podręczniku NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) oraz Filmy szkoleniowe dostępne są na kanale YouTube NCBI (https://www.youtube.com/user/NCBINLM). Zarówno nukleotydowe, jak i białkowe bazy danych pozwalają na ograniczenie wyników zapytań tylko do rekordów RefSeq, wybierając „RefSeq” w „źródłowej bazie danych” na pasku bocznym filtrów. Dostęp do danych RefSeq można również uzyskać z innych baz danych NCBI, w tym Assembly, BioProject, Gene i Genome, korzystając z linków dostarczonych do zasobów nukleotydowych, białkowych lub FTP informacje o zmianach kuratorskich w grupie RefSeq lub aktualizacjach NCBI, które mają wpływ na bazę RefSeq, są zgłaszane w kilku źródłach, w tym w Uwagach do wydania RefSeq FTP, okresowych publikacjach, komunikatach NCBI kanał informacyjny http://www.ncbi.nlm.nih.gov/news/ oraz na blogu NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Użytkownicy mogą również subskrybować listę mailingową refseq-announce, aby otrzymywać okresowe aktualizacje dotyczące projektu i podsumowanie zawartości każdego wydania FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).
dane RefSeq są dystrybuowane przez FTP za pośrednictwem dwóch stron, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) i genomy (ftp://ftp.ncbi.nlm.nih.gov/genomes/). witryna FTP refseq zapewnia codzienne aktualizacje wszystkich nowych i zaktualizowanych rekordów RefSeq, cotygodniowe aktualizacje niektórych typów danych oraz dwumiesięczne kompleksowe wydanie RefSeq (/refseq/release/). Ponadto wybrane transkrypty specyficzne dla organizmu i zbiory danych białkowych, w tym dla ludzi i myszy, są aktualizowane co tydzień. Podkatalog RefSeqGene jest aktualizowany codziennie, z dopasowaniami do genomu wydawanego przy każdym uruchomieniu adnotacji. Obszerne dwumiesięczne wydanie RefSeq organizowane jest przez taksonomiczne (np. kręgowce) lub inne grupy (np. mitochondria). Dane można również pobrać dla całej kolekcji RefSeq z katalogu/refseq/release/ complete/. Wydanie RefSeq oferuje korzyści dla tych, którzy chcą utrzymywać okresowe aktualizacje kompletnej kolekcji lub pojedynczej grupy. Zawiera również zapisy, które nie są dostępne z witryny FTP genomów towarzyszących, takie jak transkrypty w kolekcji, które są utrzymywane niezależnie od zespołu genomu i nie mogą być obecnie adnotowane na nim. Wydanie zawiera znaczącą dokumentację zainstalowanych plików (/refseq/release/ release-catalog/), w tym sumy kontrolne MD5, listę wszystkich zainstalowanych plików, a także uwagi do wydania i ogłoszenia (/refseq/release/release-notes/).
dane RefSeq można również pobrać ze strony FTP genomes. W sierpniu 2014 NCBI ogłosiło poważną reorganizację tej witryny FTP, która zapewnia teraz montaż i dostęp do genomów GenBank i RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Katalog ten jest dalej podzielony na podkatalogi oparte na tych samych grupach, które są używane w wydaniu RefSeq, z których każda zawiera dodatkowe poddziały według gatunków. Witryna FTP genomes udostępnia pliki reprezentujące wszystkie zespoły genomu RefSeq zgłoszone w zasobie Assembly NCBI (www.ncbi.nlm.nih.gov/assembly/). zaletą miejsca genomów jest to, że dane mogą być dostępne w sposób specyficzny dla zespołu lub organizmu. Dostarczone dane obejmują sekwencję genomu i produktu (transkrypt / białko), adnotację, raporty i statystyki montażu oraz sumy kontrolne MD5; dane te są aktualizowane, gdy zespół genomu i/lub adnotacja są aktualizowane. Obszar ten nie obejmuje sekwencji RefSeq, które są poza zakresem zespołu genomu lub produktów, które nie są adnotowane na genomie.
wzrost i statystyki
RefSeq FTP release 71 (lipiec 2015) zawiera ponad 77 milionów rekordów sekwencji dla ponad 55 000 organizmów. Tabela 2 podsumowuje wzrost zbioru danych RefSeq w ostatnim roku pod względem organizmów i liczby rekordów sekwencji reprezentowanych na każdy obszar katalogu FTP RefSeq release. Genomy i białka bakterii zawierają większość danych RefSeq (56% wszystkich akcesji i 76% >52 miliony akcesji białkowych). Znaczący wzrost W Liczba organizmy, proteiny, i całkowity rejestry widzieć dla bezkręgowiec, roślina, i eukariotic organizmy który jest zgodny z wzrastający liczba i przepustowość Genom sekwencjonowanie projekt. Istotnym czynnikiem dla ciągłego wysokiego tempa wzrostu danych RefSeq są ulepszenia w rurociągach genomu, które generują adnotowane genomy RefSeq. W szczególności, obejmuje to zwiększoną pojemność w prokaryotic Genome annotation pipeline NCBI, re-rozwój procesu przepływu, który propaguje adnotację z eukaryotic GenBank genomy na genomy RefSeq, i włączenie dowodów RNA-Seq w eukaryotic genome annotation pipeline NCBI i jego wpływ na generowanie modelu RefSeqs (xm_, xr_ i xp_ accessions, Tabela 1).
roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, według katalogu wydania FTP
Katalog Wydania . | organizmy . | % Zmiana . | transkrypcje . | % Zmiana . | białka . | % Zmiana . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Zmiana . | transkrypcje . | % Zmiana . | białka . | % Zmiana . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (np. archaea.acc_taxid_growth.txt i pliki pokrewne). Procentowa roczna zmiana opiera się na porównaniu liczby danych dla RefSeq release 71 (lipiec 2015) i RefSeq release 66 (lipiec 2014).
Katalog Wydania . | organizmy . | % Zmiana . | transkrypcje . | % Zmiana . | białka . | % Zmiana . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | % Zmiana . | transkrypcje . | % Zmiana . | białka . | % Zmiana . |
---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 |
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 |
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 |
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 |
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 |
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 |
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 |
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 |
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 |
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 |
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 |
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 |
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (np. archaea.acc_taxid_growth.txt i pliki pokrewne). Procentowa roczna zmiana opiera się na porównaniu liczby danych dla RefSeq release 71 (lipiec 2015) i RefSeq release 66 (lipiec 2014).
dramatyczny spadek liczby zapisów białek plazmidowych, a tym samym liczby całkowitych akcesji, odzwierciedla zakończenie projektu readnotacji genomu bakterii RefSeq (http://www.ncbi.nlm.nih.gov/refseq/o/prokariotach/ reannotacji/) i przyjęcie nowego modelu danych dla prokariotów, w tym ich plazmidów. W tym nowym modelu danych pojedyncze niez redundantne przyłączenie białka RefSeq może być adnotowane na więcej niż jednym rekordzie sekwencji genomowej, gdy translacja tych regionów kodujących białko genomowe daje identyczne białko (patrz http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Redundancja we wszystkich białkach bakteryjnych również znacznie spadła; jednak nie jest to widoczne tutaj z powodu ciągłego znacznego wzrostu liczby genomów bakteryjnych zawartych w zbiorze danych. Zmiany te spowodowały również ogólny spadek liczby zapisów białka archaealnego.
kręgowce
wybrana grupa kręgowców, w tym Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus i Danio rerio, jest głównym celem naszych manualnych wysiłków kuratorskich opartych na transkrypcjach i literaturze. Kuratorzy zazwyczaj pracują na podstawie list genów z konfliktami danych zidentyfikowanymi za pomocą testów zapewniania jakości (QA), z których niektóre zostały wcześniej opisane (12). Podczas analizy każdego genu przestrzegają szczegółowych wytycznych, aby zapewnić spójność międzyosobniczą w dobranym zbiorze danych. Analiza ta obejmuje dogłębną ocenę sekwencji i przegląd literatury w celu stworzenia transkryptów referencyjnych, białek, pseudogenów i rekordów RefSeqGene. Kuratorzy RefSeq generują warianty transkrypcji, rozwiązują błędy sekwencji, usuwają niedokładne informacje, aktualizują rekordy, aby poprawnie reprezentować biologię locus, i dodają cenne informacje funkcjonalne do niektórych rekordów RefSeq, takich jak ulepszone nazwy białek, podsumowanie funkcji produktu genowego, cechy funkcjonalne genu i/lub odpowiednie publikacje. Ręczne przygotowywanie i przegląd literatury przez grupę RefSeq może skutkować przedstawieniem unikalnych wariantów i izoform, których nie można przewidzieć, gdy opierają się wyłącznie na analizie obliczeniowej. Na przykład, przegląd literatury ludzkiego genu supresorowego guza PTEN (phosphatase and tensenin homolog, GeneID: 5728) ujawnił istnienie dłuższej izoformy białka wynikającej z zastosowania alternatywnego kodonu inicjacji CUG znajdującego się w centrum sekwencji palindromicznej przed kanonicznym kodonem początku translacji mRNA (13). Silne dane doświadczalne wskazują, że ta specyficzna dla mitochondriów izoforma inicjuje się z leucyną, a nie metioniną (14). Model danych RefSeq dla eukariotów zapewnia jeden transkrypt wyraźnie powiązany z jednym białkiem. W związku z tym dostarczono dwa identyczne zapisy transkrypcji w celu odzwierciedlenia translacji z alternatywnych kodonów inicjacji; NP_000305.3 reprezentuje białko 403 aminokwasowe, które wykorzystuje kanoniczny kodon metioniny start, podczas gdy NP_001291646.2 reprezentuje zlokalizowane w mitochondriach białko 576 aminokwasowe, które inicjuje leucyną. Tak więc proces kuracji służy podwójnemu celowi zapewnienia dokładnych sekwencji referencyjnych, które ułatwiają precyzyjną i powtarzalną adnotację genomu oraz dostarczanie zapisów zawierających istotne informacje biologiczne. W tej sekcji omówimy najnowsze aktualizacje, ulepszenia, które wprowadziliśmy do naszego ręcznego procesu kuratorskiego oraz przykłady skoncentrowanych projektów kuratorskich.
RefSeqGene project
subprojekt RefSeqGene definiuje ludzkie sekwencje genomowe jako standardy odniesienia dla dobrze scharakteryzowanych genów, szczególnie do użytku przez społeczność genetyków klinicznych. Sekwencje te służą jako stabilna podstawa do zgłaszania wariantów patogennych, do ustanawiania konwencji numeracji eksonów i intronów oraz do definiowania współrzędnych innych wariantów. Każdy rekord RefSeqGene koncentruje się na specyficznym dla genu regionie genomowym i zazwyczaj jest adnotowany podzbiorem transkryptów RefSeq i białek wybranych przez ekspertów w dziedzinie. Te wybory określają funkcje exona. Uwzględniono dopasowania starszych wersji transkryptu/białka kanonicznego RefSeq, jak również innych znanych RefSeq. Zapisy te zazwyczaj obejmują 5 kilobaz (kb) sekwencji przed genem ogniskowym i 2 kb sekwencji przed genem ogniskowym, aby wspierać reprezentację potencjalnych miejsc regulacyjnych lub delecji wykraczających poza cechę genu. Zapis RefSeqGene może zawierać informacje o adnotacji dla innych genów, które znajdują się w jego granicach. Rekordy RefSeqGene są początkowo sprawdzane przez bazy danych specyficzne dla locus i pracowników NCBI. RefSeqGene jest członkiem LRG collaboration (7), który zapewnia dodatkowy przegląd danych sekwencji przed dodaniem akcesji LRG. W ostatnich pracach zwiększono liczbę rekordów RefSeqGene do reprezentowania wszystkich genów, dla których co najmniej dwa testy kliniczne zostały przedłożone do NIH Genetic Testing Registry (GTR). W tej chwili istnieje 5596 rekordów RefSeqGene, z których 633 ma przystąpienie do LRG. Rekordy RefSeqGene można uzyskać, przeszukując bazę danych nukleotydów za pomocą 'refseqgene’, poprzez ich dostęp do LRG, przeglądając stronę internetową RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/) lub przez FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
włączenie RNA-Seq i innych typów danych w kuracji opartej na transkrypcji
głównym celem projektu kuracji RefSeq jest reprezentowanie wysokiej jakości i pełnej długości transkrypcji i sekwencji referencyjnych białek. Jako takie, nasze kryteria kuracji opierają się przede wszystkim na konwencjonalnych transkrypcjach (mRNA i ESTs) oraz dopasowaniach białek i opublikowanych dowodach. Jednak, vertebrate transcriptome projekty stały się coraz bardziej złożone z większość nowych danych transkrypcji obecnie generowane przez short read sekwencjonowania technologii. Badania obejmujące cały genom, analizujące globalne wzorce znaków epigenetycznych związanych z promotorem, również dostarczają dowodów na aktywne promotory i / lub aktywną transkrypcję. Grupa RefSeq dostosowała praktyki kuratorskie, aby włączyć te nowe typy danych, aby poprawić naszą ręczną adnotację, szczególnie w przypadkach, gdy gen lub wariant nie ma obfitego konwencjonalnego wsparcia transkrypcji. Te badania RNA-Seq i epigenomiczne wygenerowały ogromne zbiory danych, które stanowią wyzwanie dla grup adnotacji genów, na przykład poprzez potencjalne fałszywie dodatnie wyniki i brak wsparcia dla kombinacji eksonów dalekiego zasięgu (15). Kuratorzy RefSeq ograniczają wykrywanie fałszywych alarmów poprzez selektywne włączanie do naszego potoku adnotacji genomu i ręcznego procesu adnotacji wyłącznie wysokiej jakości zbiorów danych. Kuratorzy RefSeq wizualizują wyrównania transkrypcji, dane zmian i filtrowane dane RNA-Seq na niestandardowych wyświetlaczach w ramach wewnętrznego narzędzia do wyrównywania włączonego do platformy NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). Kuracja ludzkich genów wykorzystuje analizowane odczyty RNA-Seq z projektów Illumina BodyMap 2 (BioProject: PRJEB2445) i Human Protein Atlas (BioProject: PRJEB4337) (16). Dodatkowo kuratorzy używają znaków modyfikacji histonów związanych z promotorem, takich jak H3K4me3 z NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) oraz projekt ENCODE (Encyclopedia of DNA Elements) (18) mający na celu sprawdzenie obecności aktywnego promotora. Kuratorzy RefSeq oceniają również dane polyA-seq, aby potwierdzić 3 ’ kompletność transkryptów pozbawionych ogona polyA (19). Dodatkowe typy danych, w tym PhyloCSF (20), CpGIslands, RepeatMasker (21) I Cap analysis of gene expression (Cage) data (22), są czasami używane jako dodatkowe wsparcie.
Długie niekodujące RNA (lncrna)
Grupa RefSeq nadal znacząco rozszerza się na reprezentację niekodujących strukturalnych i mikro-RNA, transkrybowanych pseudogenów i w dużej mierze nietypowych lncrna. Ta klasa genów jest ogólnie definiowana jako transkrypty >o długości 200 nt, które nie mają silnego potencjału kodowania białek (23). rekordy RefSeq lncRNA są generowane przez kurację i przez rurociąg adnotacji genomu eukariotycznego dla genów lncRNA. NCBI utrzymuje obecnie ponad 540 000 eukariotycznych rekordów Lncrna RefSeq, z których ponad 6700 zostało kuratorowanych, a tylko kilkaset zostało scharakteryzowanych funkcjonalnie. Wiele z nich jest związanych z chorobami człowieka, takimi jak BACE1-AS, które mogą odgrywać rolę w patofizjologii choroby Alzheimera, oraz HOTAIR, który jest związany z wieloma nowotworami (24,25). Zdecydowana większość lncrna ma nieznane funkcje, a brak długich otwartych ramek odczytu stanowi wyzwanie pod względem potwierdzenia kompletności transkrypcji. Ponadto zgłoszenia lncRNA do INSDC są w dużej mierze oparte na TSA z krótkich odczytywanych zbiorów danych, które mogą obejmować kombinacje artefaktualnych eksonów. Kuratorzy RefSeq przyjmują konserwatywne podejście do reprezentowania genów lncRNA, tylko ręcznie tworząc RefSeqs (z prefiksem Nr_) dla wysokiej jakości transkryptów, dla których mamy pewną pewność co do struktury egzonu. Idealnie, wsparcie transkryptu powinno być łączone z co najmniej trzema eksonami, ale transkrypty dwu-eksonowe i intronless mogą być reprezentowane, jeśli są obsługiwane przez epigenomikę związaną z promotorem, dowody Poli(A), Dodatkowe cDNA i/lub dane RNA-Seq. Rejestry RefSeq lncrna dla niekodujących genów można pobrać z bazy nukleotydów NCBI za pomocą szukanego ciągu „biomol ncrna lncrna” i wybierając filtr RefSeq z lewej kolumny.
adnotacja funkcjonalna
unikalny wkład kuratorów zapisów transkrypcji Eukaryotic RefSeq polega na tym, że integrują informacje funkcjonalne z sekwencją odniesienia. RefSeq curation staff dodaje streszczenia genów, nomenklaturę, tekst wariantu transkrypcji, atrybuty genów i sekwencji oraz cechy funkcjonalne, które są dostępne w rekordzie RefSeq i / lub za pośrednictwem zasobu genów (http://www.ncbi.nlm.nih.gov/gene). W ubiegłym roku pracownicy RefSeq przeprowadzili kilka dogłębnych projektów adnotacji, z których niektóre są krótko opisane w poniższych akapitach, aby dodać dane funkcjonalne do określonych zestawów genów, w których narzędzia obliczeniowe nie są w stanie dokładnie reprezentować wiedzy biologicznej. Projekty te obejmują adnotację peptydów przeciwbakteryjnych, endogennych retrowirusów, histonów zależnych od replikacji, regulatorowych uorfów i antyzymów.
peptydy przeciwdrobnoustrojowe (AMPs)
AMPs były ostatnim celem kuracji (http://ncbiinsights.ncbi.nlm.nih.gov/ 2015/05/21/) (26). AMPs są naturalnie występującymi peptydami, które znajdują się w różnych gatunkach i były zaangażowane w wiele ról odpornościowych, w tym bakteriobójcze, przeciwwirusowe, przeciwgrzybicze, a nawet przeciwnowotworowe. Lista ponad 130 ludzkich genów kodujących jeden lub więcej eksperymentalnie sprawdzonych AMPs została zebrana z kilku publicznie dostępnych zbiorów danych AMP, a także wydobyta z publikacji. Większość z tych Amp nie została wcześniej zidentyfikowana w bazie danych RefSeq, a żadna z baz danych AMP nie łączyła peptydów z ich genem kodującym. Kuratorzy RefSeq ręcznie adnotowali rekordy RefSeq dla każdego ludzkiego genu kodującego AMP, aby upewnić się, że funkcjonalny peptyd został adnotowany, aby dołączyć publikację opisującą aktywność przeciwdrobnoustrojową peptydu, dodać krótkie podsumowanie opisujące aktywność przeciwdrobnoustrojową kodowanego AMP i zapisać nowy atrybut RefSeq „białko ma aktywność przeciwdrobnoustrojową”, który jest zawarty w ustrukturyzowanym komentarzu atrybutu RefSeq (np. NM_001124.2 dla ADM; GeneID: 133). Aby uzyskać dostęp do wszystkich wyselekcjonowanych zapisów ludzkiego transkryptu lub AMP białka, przeszukaj bazę danych nukleotydów lub białek, używając słowa „białko ma aktywność przeciwdrobnoustrojową”. Obecnie w wyszukiwaniu znajduje się 191 rekordów RefSeq, w tym warianty splicingu i izoformy białek.
endogenne retrowirusy (ERVs)
endogenne retrowirusy (ERVs) są loci genomowych, które pochodzą z ancestral insercji egzogennego retrowirusa do genomu gospodarza. ERV loci są na ogół poza zasięgiem RefSeq; jednakże, opisujemy pełnowymiarowe loci kodujące białka ERV, które mapują do pojedynczej lokalizacji genomowej, jeśli ewoluowały do pełnienia funkcji gospodarza, są związane ze znaną chorobą i / lub jeśli zostały przypisane do Nomenklatury przez oficjalny Komitet ds. nomenklatury. Około 8% ludzkiego genomu jest pochodzenia retrowirusowego (27); jednak ze względu na ich starożytne pochodzenie większość ludzkich loci ERV ma nagromadzone mutacje nonsensowne i nie może już kodować białka. Dobrze znanym wyjątkiem są białka syncytyny, które biorą udział w rozwoju łożyska (28). Ludzkie białka syncytin-1 i syncytin-2 są kodowane przez geny ERVW-1 (NM_001130925.1, NM_014590.3) i ERVFRD-1 (NM_207582.2). Do tej pory stworzyliśmy 67 RefSeqs dla ERV loci, które zawierają zapisy reprezentujące geny ERV z różnorodnego zestawu ssaków. Nowa kategoria atrybutów RefSeq zatytułowana „endogenny retrowirus” została stworzona dla tych rekordów i pojawia się w ustrukturyzowanym komentarzu do rekordu RefSeq. Zapisy te można pobrać z bazy danych nukleotydów, wyszukując „endogennego retrowirusa”.
histony zależne od replikacji
szybka synteza mRNA histonów jest wymagana podczas podziału komórki w celu wytworzenia dużych ilości białek histonowych. Kluczowe znaczenie dla tego procesu mają zależne od replikacji geny histonowe, które są regulowane w fazie G1/s cyklu komórkowego (29). Podjęto specjalny projekt RefSeq w celu kuratorowania pełnego zestawu genów kodujących białko histonowe zależne od replikacji u ludzi i myszy. Geny te mają w sekwencji genomowej kanoniczną sekwencję 3′ histonu (HDE), a w wyniku tego Dojrzałe mRNA charakteryzują się brakiem ogonów Poli(a) i zamiast tego kończą się krótko po strukturze pętli macierzystej RNA (30). Element HDE znajduje się w transkrypcji prekursorowej, ale nie jest uwzględniany w transkrypcji przetworzonej reprezentowanej przez RefSeq. Położenie zachowanej 16 nukleotydowej sekwencji struktury stem-loop jest wskazane w rekordzie RefSeq jako adnotacja Cechowa zatytułowana „stem-loop”. Przykład można zobaczyć na pozycji RefSeq Nm_003539. 3 dla HIST1H4D (GeneID: 8360). Do tej pory opracowano 127 rekordów histonu zależnego od replikacji u ludzi i myszy oraz dodano atrybut RefSeq, który można wykorzystać do pobrania tych rekordów z bazy danych nukleotydów za pomocą szukanego ciągu „Histon zależny od replikacji”.
Regulatory upstream open reading frame (uorfs)
tłumaczenie upstream open reading frame (uorf) może negatywnie wpływać na tłumaczenie pierwotnej otwartej ramki do czytania kodującej białko (pORF) (31). Efekt ten nie zawsze całkowicie wycisza translację pORF i może być zależny od typu komórki, stanu rozwojowego lub stanu komórkowego. W związku z tym, chociaż uorf można przewidzieć na podstawie sześciostopniowego tłumaczenia transkryptu, efekt regulacyjny tego elementu musi być określony poprzez walidację eksperymentalną. Kuratorzy RefSeq przejrzeli literaturę w celu znalezienia transkryptów z eksperymentalnymi dowodami regulatorowych uorf i zaktualizowali odpowiednie rekordy transkrypcji RefSeq, aby dodać misc_feature oznaczające lokalizację tych uorf. Przykładem jest wpis RefSeq Nm_000392.4 dla ABCC2 (GeneID: 1244). Nowa kategoria atrybutów RefSeq zatytułowana „regulatory uORF” została utworzona i pojawia się w ustrukturyzowanym komentarzu do tych rekordów RefSeq. Zarówno przypisana funkcja, jak i atrybut cytują publikację wspierającą PubMed ID. Do tej pory 260 rekordów zostało opatrzonych tym atrybutem i zapisy te można pobrać z bazy danych nukleotydów, wyszukując „regulatory uORF”
geny Antyzyme
jednym z celów projektu RefSeq jest reprezentowanie genów o wyjątkowej biologii, które nie przestrzegają standardowych zasad dekodowania syntezy białek. Taki przykład stanowi Gen antyzymowy dekarboksylazy ornitynowej, w którym występuje zaprogramowany Mechanizm Zmiany RAM +1 rybosomalnej i nie można go przewidzieć za pomocą konwencjonalnych narzędzi obliczeniowych. Zestaw transkrypcji antyzymów kręgowców i zapisów białek był ostatnio przedmiotem ręcznego wysiłku adnotacji w celu stworzenia standardów poprawiających adnotację tych produktów genowych przez rurociąg adnotacji genomu eukariotycznego (32). Rekordy RefSeq były ręcznie adnotowane za pomocą funkcji split CDS w celu odzwierciedlenia poślizgu rybosomalnego i zawierały atrybut „poślizgu rybosomalnego” z opublikowanymi dowodami, różne różne adnotacje dotyczące funkcji (takie jak lokalizacja miejsca przesunięcia ramki) oraz krótkie podsumowanie opisujące funkcję i nowe właściwości genu (np. NM_139081.2). Zapisy te można pobrać z bazy nukleotydów lub białek za pomocą zapytania: vertebrates refseq ribosomal slippage antizyme. To wyszukiwanie znajduje obecnie 242 rekordów RefSeq (NM lub NP), które obejmują warianty transkrypcji i izoformy białek.
Bezkręgowce
gatunki bezkręgowców stanowią zdecydowaną większość istniejących metazoanów (33); jednak tylko stosunkowo niewielka liczba jest reprezentowana przez zsekwencjonowane genomy. To pomimo faktu, że wiele gatunków ma krytyczne znaczenie biomedyczne, takie jak Anopheles gambiae, wektor malarii i Biomphalaria glabrata, wektor schistosomiasis (34,35). Inne bezkręgowce, w tym Apis mellifera, Bombyx mori i Crassostrea gigas, mają znaczną wartość handlową (36-38). Grupa RefSeq dołożyła starań, aby zwiększyć liczbę i zakres genomów bezkręgowców reprezentowanych w zbiorze danych, dostarczając adnotację za pośrednictwem potoku adnotacji genomu eukariotycznego lub propagując adnotację z zgłoszeń INSDC na kopię tych genomów RefSeq. W przypadku obu procesów Jesteśmy zależni od publicznej dostępności wysokiej jakości genomów w bazach danych INSDC i Assembly database NCBI (www.ncbi.nlm.nih.gov/assembly/). do tej pory NCBI opisało 46 genomów bezkręgowców, w tym reprezentatywne gatunki owadów, pajęczaków, mięczaków i akordatów bazalnych. Przewidujemy znaczny wzrost liczby genomów owadów i innych bezkręgowców w wyniku inicjatyw genomowych, takich jak i5k (39), 1kite (1k Insect Transcriptome Evolution, http://www.1kite.org/) I Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).
rośliny
RefSeq nadal rozszerza różnorodność gatunków roślin reprezentowanych w zbiorze danych. Do tej pory 61 gatunków roślin zostało włączonych do zbioru danych genomów RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes / refseq / plant/), z których 33 gatunki zostały opatrzone adnotacją za pośrednictwem rurociągu adnotacji genomu eukariotycznego; reszta to kopie adnotowanych genomów RefSeq przekazane INSDC. W przyszłości więcej genomów roślin wybranych do włączenia RefSeq będzie przetwarzanych przez rurociąg adnotacji eukaryote, zamiast propagowania adnotacji z zgłoszenia INSDC. Jest to zmiana polityki dla genomów roślin RefSeq i spowoduje większą ogólną spójność danych adnotacji roślin w zbiorze danych RefSeq. Większość transkryptów RefSeq i białek dostępnych dla gatunków roślin to rekordy „modelowe” (xm_, xp_ i xr_ accessions; Tabela 1), z mniejszym podzbiorem „znanych” rekordów (NM_, NR_, NP_), które są utrzymywane niezależnie od procesu adnotacji przez połączenie automatycznego przetwarzania i ręcznego przeglądu. Obecnie dla Zea mays i Solanum lycopersicum dostarczane są ręczne przetwarzanie transkrypcji roślin i danych dotyczących białka. Obecne skupienie kuratorskie pociąga za sobą obszerny przegląd sekwencji i jest ukierunkowane na rozwiązywanie problemów związanych z jakością w bieżącym zestawie transkrypcji. Rozwiązywanie błędów koncentruje się na identyfikacji i usuwaniu chimerycznych transkryptów, nadmiarowych transkryptów i genów oraz poprawie jakości reprezentowanej sekwencji poprzez ocenę indeli i niedopasowań między transkrypcją RefSeq, sekwencją genomową i danymi ortologicznymi. W przypadku roślin staramy się zapewnić wyselekcjonowany transkrypt i zestaw danych białkowych, który jest zgodny z odmianą wybraną do sekwencjonowania i montażu genomu. Protokół kuracji stosowany dla danych dotyczących kręgowców jest również stosowany dla roślin. Tak więc zapisy transkrypcji RefSeq mogą być aktualizowane tak, aby opierały się na innej sekwencji źródłowej INSDC lub mogą być montowane z więcej niż jednego rekordu sekwencji INSDC w celu dostarczenia transkrypcji z preferowanej odmiany. Jeżeli dane z transkrypcji INSDC nie są dostępne dla odmiany genomowej, to transkrypcja RefSeq może być wygenerowana ze złożonej sekwencji genomowej w oparciu o kombinację transkrypcji lub dopasowań białek, RNA-Seq i / lub opublikowanych danych. Drugim obszarem zainteresowania jest zwiększenie liczby obsługiwanych transkryptów kodujących białka i białek, ponieważ zapewnia to odpowiednio dobrany odczynnik, który może być używany podczas opisywania innych genomów roślinnych. Wreszcie, tworzymy więcej RefSeqs reprezentujących warianty splicingu, gdy istnieją wystarczające dowody potwierdzające. Wysiłki te znacznie poprawią jakość zbioru danych RefSeq zakładu I przyczynią się do poprawy przyszłych adnotacji genomu. Aktualny zestaw genomów roślin adnotowanych przez rurociąg można uzyskać na stronie NCBI eukaryotic genome annotation pipeline http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ z linkami do szczegółowego raportu adnotacji i innych zasobów, takich jak species BLAST i FTP.
glony, grzyby, nicienie i pierwotniaki
mały rurociąg genomu EUKARIOTYCZNEGO NCBI jest nowym zautomatyzowanym rurociągiem zaprojektowanym do generowania rekordów RefSeq w wyniku bezpośredniego propagowania adnotowanych rekordów INSDC. Wygenerowane w ten sposób rekordy RefSeq są kopiami danych GenBank z pewnymi zmianami formatu, aby spełnić wymagania RefSeq. Najbardziej zauważalną różnicą między oryginalnym rekordem INSDC a rekordem RefSeq jest dodanie produktu transkrypcji RefSeq. Chociaż nie zaprojektowano go do generowania adnotacji genomu de novo, mały rurociąg genomu eukariotycznego czerpie z kilku modułów rurociągu adnotacji genomu EUKARIOTYCZNEGO NCBI i ich kodu (http://www.ncbi.nlm.nih.gov/books/NBK169439/).
nazwa „Małe eukarioty” odnosi się do podstawowego zastosowania rurociągu do generowania genomów RefSeq dla stosunkowo mniejszych genomów eukariotycznych (w porównaniu do genomów roślin i kręgowców), takich jak glony, pierwotniaki, grzyby, nicienie i niektóre stawonogi. Jednak niektóre duże genomy roślinne są również przetwarzane za pomocą tego rurociągu. Rurociąg ten przetwarza wysokiej jakości zespoły składające się z chromosomów i / lub rusztowań oraz ich części składowych. Pierwszeństwo mają zespoły z wysokim contig i rusztowaniem N50, wysokiej jakości Sekwencja i dość dobra adnotacja złożona przez INSDC. Ten rurociąg, który zastępuje historyczny przebieg procesu, który wymagał większego wsparcia ręcznego, dopiero niedawno osiągnął fazę produkcji publicznej i już teraz daje zwiększoną liczbę „małych” genomów eukariotycznych reprezentowanych w RefSeq. Trwają prace nad optymalizacją przepustowości potoku oraz dodaniem większej automatyzacji i dalszą minimalizacją zadań związanych z przetwarzaniem kuratorów. Długoterminowe plany obejmują wdrożenie systemu zarządzania nazwami białek w celu dostarczania, poprawiania lub ulepszania nazw zgłoszonych przez INSDC w czasie. Wiele genomów, które są w zasięgu małego rurociągu eukariotów, nie może być obecnie przetwarzanych przez (duży) rurociąg adnotacji genomu eukariotycznego z powodu różnorodności taksonomicznej i ograniczonej dostępności danych transkrypcyjnych potrzebnych do szkolenia rurociągu adnotacji de novo.
grzyb celowane loci
morfologia grzyba jest bardzo zróżnicowana, począwszy od złożonych struktur wielokomórkowych do bardzo prostych pojedynczych komórek. Różne struktury morfologiczne i typy zarodników mogą być wytwarzane przez jeden gatunek. Z drugiej strony wiele gatunków wytwarza podobne morfologie (morfy), ale w rzeczywistości są genetycznie bardzo odległe. Do niedawna pojedynczy gatunek mógł być prawomocnie opisany z więcej niż jedną nazwą dwumianową na podstawie morfologii płciowej lub bezpłciowej. W wielu przypadkach opisano i zarejestrowano tylko jeden Morf dla danego gatunku, chociaż gatunki blisko z nim spokrewnione mogą mieć opisane i zarejestrowane kilka Morf. W związku z tym porównywanie sekwencji zostało zastosowane w społeczności grzybów w celu rozróżnienia między gatunkami, śledzenia gatunków w trakcie złożonych cykli życiowych i identyfikacji gatunków tajemniczych. W ramach dynamicznego procesu ponownej oceny taksonomicznej wiele korekt gatunków grzybów nie zawsze jest aktualnych w danych sekwencyjnych Genbanku.
aby być bardziej wiarygodnym źródłem do identyfikacji opartej na DNA, sekwencje referencyjne pochodzące z okazów typu (które działają jako odniesienia dla gatunków) muszą być oznakowane prawidłową i najbardziej aktualną nazwą gatunku. Bazy loci ukierunkowane na grzyby RefSeq zapewniają ten cenny zasób. Na przykład PRJNA177353 jest Bioprojektem, który w szczególności koncentruje się na wewnętrznych transkrybowanych regionach dystansowych (ITS) w jądrowym cistronie rybosomalnym, który był używany przez wiele lat jako marker filogenetyczny i ostatnio zatwierdzony jako formalna Sekwencja kodów kreskowych grzybów (41). Baza danych its RefSeq powstała w wyniku współpracy z Index Fungorum, MycoBank i UNITE, a także dużą grupą specjalistów taksonomicznych. Sekwencje zostały wybrane, głównie z okazów typowych o prawidłowych opisach, a następnie z sekwencjami powiązano aktualne prawidłowe nazwy gatunków w celu reprezentowania większości akceptowanych rzędów grzybów (8). Wyniki tego wysiłku kuratorskiego były wykorzystywane i cytowane w różnych publikacjach (42-46) i wspomagały dodatkowe wysiłki w walidacji podzbiorów sekwencji referencyjnych, np. gatunków o znaczeniu medycznym (47).
celem, przy ciągłej kuracji, jest dodanie sekwencji z nowo opisanych rzędów i rozszerzenie reprezentacji na większość akceptowanych rodzin z naciskiem na grzyby o znaczeniu medycznym. Proces obejmuje również wprowadzanie korekt, zastępowanie sekwencji ze zweryfikowanego materiału sekwencją z materiału typu, gdy staje się on dostępny i edytowanie linii definicji lub usuwanie rekordów RefSeq w miarę zmian klasyfikacji taksonomicznej. Zapewnia to, że wyniki wyszukiwania BLAST poprawnie wyświetlają bieżącą nazwę. RefSeq jego rekordy zostały rozszerzone do reprezentowania 3,060 sekwencji reprezentujących 270 rodzin z 39 klas. Podczas początkowej współpracy jego RefSeq wysiłku, mniejszy zestaw akcesji sekwencji z 28S jądrowej dużej podjednostki rybosomalnego genu (LSU) zostały również zebrane, ale nie zweryfikowane. Przebieg pracy podobny do procesu kuratorowania rekordów its był śledzony, a podczas dalszego kuratorowania te rekordy LSU zostały zweryfikowane pod kątem jakości sekwencji, prawidłowej identyfikacji i dokładnych danych źródłowych. Blisko 500 rekordów (z 800 potencjalnych rekordów) reprezentujących >zweryfikowano i niedawno wydano 100 rodzin z 21 klas. Zestaw danych 28S można pobrać z Bioprojekt PRJNA51803 (48).
prokarioty
kolekcja prokariotycznych genomów NCBI RefSeq reprezentuje zmontowane genomy prokariotyczne o różnych poziomach jakości i gęstości pobierania próbek. W przypadku prokariotów, opierając się na wcześniejszych opiniach społeczności, naszą obecną polityką jest zapewnienie adnotacji genomu dla wszystkich genomów prokariotycznych, które spełniają nasze kryteria jakości. W ostatnich latach mieliśmy do czynienia z dwoma głównymi wyzwaniami: (i) nadążanie za szybką eskalacją przedłożonych genomów prokariotycznych; oraz (ii) zajęcie się rosnącą niespójnością w adnotacji genomu ze względu na wykorzystanie zarówno rurociągu opartego na propagacji INSDC, jak i różnych wersji rurociągu adnotacji genomu NCBI de novo, opracowanego w czasie.
wraz ze wzrostem zainteresowania ludzkimi patogenami i rozwojem technologii sekwencjonowania DNA, liczba zsekwencjonowanych genomów prokariotycznych gwałtownie wzrosła w ostatniej dekadzie. Niektóre bakteryjne szczepy są często nie do odróżnienia przy użyciu obecnych metod genotypowania, ale drobne różnice genetyczne mogą być wykrywane na podstawie sekwencjonowania całego genomu, który jest przydatny do charakteryzowania szlaków transmisji, identyfikowania oporności na antybiotyki i badania ognisk. Aby zbadać patogeny przenoszone przez żywność lub ogniska infekcji, w ostatnich latach zsekwencjonowano i opatrzono dużą liczbę prawie identycznych genomów bakterii, w wyniku czego powstało wiele identycznych białek, z których każde ma odrębną liczbę akcesji. W 2013 roku NCBI wprowadziło nowy model danych dotyczących białka i prefiks akcesyjny (WP_) dla kolekcji RefSeq. Ta zmiana zmniejszyła redundancję w prokariotycznych białkach RefSeq i ułatwiła identyfikację białek, które były identycznie znalezione na więcej niż jednym genomie. Pozwoliło to również na ulepszoną strategię zarządzania prokariotycznymi nazwami białek. Te nie redundantne zapisy reprezentują unikalne sekwencje białek prokariotycznych, które są niezależne od konkretnego genomu bakterii i mogą być opisywane na wielu szczepach lub gatunkach (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
historycznie, RefSeq bacterial genomes annotation was propagated from INSDC submissions, when available, or generated using different versions of NCBI ’ s Prokaryotic Genome Annotation Pipeline (which is also offer as a service for GenBank submissions). Spowodowało to skumulowane niespójności zarówno w adnotacji strukturalnej, jak i funkcjonalnej w prokariotycznym zbiorze danych RefSeq. W ciągu ostatnich dwóch lat NCBI ulepszyło kilka aspektów potoku adnotacji prokariotycznej genomu, aby zwiększyć pojemność i dalej standaryzować Zasady adnotacji. Nasz rurociąg łączy algorytm wywoływania genów, GeneMarkS+ (49,50), z podejściem do wykrywania genów opartym na wyrównaniu i jest w stanie adnotować zarówno kompletne, jak i szkicowe genomy WGS. Obecnie rurociąg przewiduje geny kodujące białka, strukturalne RNA (5S, 16S i 23s), tRNA i małe niekodujące RNA.
w 2015 roku opublikowaliśmy kompleksową aktualizację adnotacji dla prokariotycznych genomów RefSeq w celu zharmonizowania adnotacji genomu i zakończenia przejścia na nowy model danych o białkach. Opracowano nową bazę nazw prokariotycznych białek, specyfikacje nazw i strategię opartą na dowodach, które są obecnie w trakcie wdrażania. Do tej pory ponad 3 miliony rekordów białek zaktualizowało nazwy w początkowej demonstracji podejścia. Nowy prokariotyczny model danych oferuje znaczną przewagę w zarządzaniu nazwami, ponieważ nazwa białka jest przenoszona z rekordem sekwencji białka; aktualizacja nazwy na tym rekordzie białka powoduje automatyczne rozmnażanie aktualizacji do wszystkich genomów, które są opatrzone tym numerem akcesyjnym.
genomy prokariotyczne RefSeq są zorganizowane w kilka nowych kategorii, takich jak genomy referencyjne i genomy reprezentatywne w oparciu o Wybrane atrybuty oraz miary jakości montażu i adnotacji (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Genomy referencyjne są ręcznie wybieranymi kompletnymi genomami „gold standard” o wysokiej jakości adnotacji i najwyższym poziomie eksperymentalnego wsparcia dla adnotacji strukturalnej i funkcjonalnej. Obecnie mały zbiór danych 122 genomów referencyjnych jest ręcznie adnotowany przez grupy współpracujące i personel NCBI. Genomy referencyjne są dostępne pod adresem: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Genomy reprezentatywne są obliczane obliczeniowo i wybierane do reprezentowania różnych gatunków. Genomy reprezentatywne są dostępne pod adresem: www.ncbi.nlm.nih.gov/genome/browse/representative/.
RefSeq dane genomu prokariotycznego mogą być dostępne w bazach danych BLAST, zasobach internetowych (Assembly, BioProject, Genome, Nucleotide and Protein), za pośrednictwem narzędzi programistycznych NCBI, lub mogą być pobrane z genomów lub witryn FTP refseq. Niestandardowa strona „mikrobów” BLAST, dostępna ze strony głównej BLAST, zawiera opcje wyszukiwania dla wszystkich genomów prokariotycznych RefSeq, podgrupy genomów referencyjnych i reprezentatywnych lub ograniczenia wyszukiwania do konkretnych taksonów. Podgrupa prokariotycznych genomów jest opatrzona identyfikatorem genu NCBI i może być pobrana w zasobie genowym NCBI lub ze strony FTP genu. W przypadku archai, jest to przewidziane dla najbardziej kompletnych genomów. W przypadku bakterii jest to przewidziane dla genomów referencyjnych i genomów reprezentatywnych dla gatunków, które mają co najmniej 10 genomów.
prokariotyczne loci
u prokariotów Sekwencja rybosomalnego RNA 16S stała się standardowym markerem molekularnym dla opisu nowego gatunku. Chociaż te sekwencje znacznikowe stały się szeroko stosowane, jakość danych sekwencji i powiązanych metadanych przesyłanych do baz danych INSDC znacznie się różni. Uznając znaczenie dostępu do wysokiej jakości danych dla tych znaczników, NCBI rozszerzyło projekt targeted loci, aby zapewnić aktualne źródło danych. Docelowy projekt loci utrzymuje obecnie prawie 18 000 rybosomalnych sekwencji referencyjnych RNA 16S, z których ponad 95% pochodzi od szczepów typu. Szczepy typu są uważane za wzór gatunku i istotne jest, aby dane dotyczące szczepów typu były opatrzone poprawnymi metadanymi i były wolne od zanieczyszczeń.
praca ta obejmowała wyczerpujący przegląd i aktualizację bazowej bazy danych taksonomii, która została użyta w połączeniu z filtrem typu Entrez NCBI do pobierania sekwencji kandydatów. Dane sekwencyjne i związane z nimi taksonomie/metadane zostały zweryfikowane i poprawione w celu uwzględnienia najbardziej aktualnych informacji. Jeśli sekwencja nie powiodła się lub nie mogła zostać dokładnie zwalidowana, została wykluczona. Te sekwencje referencyjne mogą być teraz używane jako „złote standardy” do analizy istniejących i nowych sekwencji rRNA.
zestawy danych bakteryjnych i Archaealnych 16S rRNA są dostępne z BioProject (odpowiednio PRJNA33175 i PRJNA33317). Dostępna jest również niestandardowa baza danych BLAST („16S ribosomal RNA sequences (Bacteria and Archaea)”).
wirusy
model danych RefSeq dla wirusów różni się od modelu innych organizmów. Ogólnie rzecz biorąc, dla każdego gatunku wirusa tworzony jest tylko jeden kompletny Genom RefSeq. Czasami w obrębie danego gatunku wirusa tworzy się wiele rekordów RefSeq w celu odzwierciedlenia dobrze zdefiniowanych genotypów lub ważnych szczepów laboratoryjnych i / lub dzikich. Dodatkowe genomy dla danego gatunku są walidowane pod kątem taksonomii i kompletności, a następnie indeksowane jako sekwencja „sąsiadów” (52). Zarówno genomy RefSeq, jak i sąsiadujące są dostępne za pośrednictwem wyspecjalizowanego Źródła genomu wirusowego (http://www.ncbi.nlm.nih.gov/genome/viruses/) oraz ze stron Entrez Nucleotide and Genome wykorzystujących linki do „genomu RefSeq dla gatunków” i „innych sekwencji genomu INSDC” (52).
Taksonomia jest głównym problemem genomiki wirusowej, ponieważ istnieje 3186 gatunków wirusów oficjalnie uznanych przez Międzynarodowy Komitet taksonomii wirusów (ICTV) (53) i 4834 pełnych genomów zarówno oficjalnych, jak i tymczasowych gatunków wirusów dostępnych w bazach danych INSDC. Narzędzie NCBI Pairwise Sequence Comparison (PASC) zostało opracowane, aby pomóc w klasyfikacji genomów wirusowych w oparciu o globalne i/lub lokalne dopasowania między genomami (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Zakres tego narzędzia został rozszerzony o szereg rodzin wirusów i innych grup taksonomicznych, a także został wykorzystany do wsparcia rozgraniczenia nowych kryteriów taksonomicznych (54-57).
innym pojawiającym się problemem w genomice wirusowej jest niespójna i/lub niedokładna adnotacja wśród powiązanych sekwencji genomu wirusa. Kwestia ta często odzwierciedla różne procesy adnotacji i trwające prace eksperymentalne i może prowadzić do dezorientacji wśród konsumentów danych i utrudniać analizę porównawczą między genomami. Ten problem jest rozwiązywany w zasobie NCBI Virus Variation (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/), gdzie stosowane są potoki obliczeniowe, aby zapewnić aktualną, znormalizowaną adnotację dla kilku wirusów (58). Obecnie rurociągi te obliczają znormalizowane granice genów i białek dla wszystkich sekwencji wirusa grypy, wirusa dengi i wirusa Zachodniego Nilu oraz standaryzowane nazwy genów i białek i terminy metadanych dla tych i dwóch innych wirusów, koronawirusa układu oddechowego Bliskiego Wschodu i Ebolawirusa. Te ustandaryzowane dane są następnie wykorzystywane w wyspecjalizowanym, zorientowanym na metadane interfejsie wyszukiwania, który ułatwia pobieranie sekwencji w oparciu o określone kryteria biologiczne.
utrzymanie aktualnych, powszechnie akceptowanych standardów adnotacji wymaga ciągłej współpracy z większym środowiskiem naukowym. Grupa robocza NCBI Viral Genome Annotation Working Group została powołana w celu wykorzystania konsorcjów publicznych baz danych, centrów sekwencjonowania i grup badawczych w celu opracowania standaryzowanej adnotacji sekwencyjnej, a także wyizolowania schematów nazewnictwa dla różnych grup wirusów (59-63). Takie podejście nie tylko ustanawia standardy adnotacji wirusowej, ale także reprezentuje te standardy w bieżącym rekordzie RefSeq, zapewniając dostępność dla wszystkich użytkowników baz danych i zgłaszających. Podobna współpraca jest również konieczna, aby wspierać zasoby interpretacyjne o wartości dodanej, takie jak baza danych dotyczących interakcji z ludźmi HIV-1 (http://www.ncbi.nlm.nih.gov/genome/viruses/retrowirusy/hiv-1/interakcje/) (64). Współpracownicy z Southern Research Institute zapewniają udokumentowane HIV-1, ludzkie interakcje molekularne kuratorem z literatury i NCBI utrzymuje przyjazny dla użytkownika zasób, gdzie użytkownicy mogą kwerendy dla określonych rodzajów interakcji i znaleźć więcej informacji na temat genów zaangażowanych.
przyszłe kierunki
projekt RefSeq jest wyjątkowy w oferowaniu zbioru danych sekwencji referencyjnych transkryptów, białek i genomów, który obejmuje wszystkie królestwa życia i został aktywnie utrzymywany i aktualizowany w czasie, aby włączyć ulepszone strategie obliczeniowe, nowe typy danych i nową wiedzę. Wykazaliśmy zdolność i zdolność reagowania na niedawny szybki wzrost liczby sekwencjonowanych genomów przesyłanych do baz danych INSDC. Zdefiniowaliśmy zróżnicowany zestaw polityk i strategii kuratorowania i adnotacji gatunków eukariotycznych, prokariotycznych i wirusowych, aby zaspokoić różne potrzeby społeczności specyficznych dla organizmów. Zestaw danych RefSeq jest szeroko stosowany jako standard odniesienia dla wielu różnych analiz, w tym zastosowań klinicznych u ludzi i patogenów, genomiki porównawczej, testów ekspresji, interpretacji zmienności sekwencji oraz konstrukcji tablic i sond. W NCBI zbiór danych RefSeq jest zintegrowany z wieloma zasobami, w tym Assembly, BLAST, Epigenomics, Gene (gdzie adnotacja RefSeq jest podstawową podstawą większości wpisów genów), Genome, dbSNP, dbVar, variation Viewer i więcej.
będziemy nadal koncentrować się na ręcznym doborze, aby poprawić informacje strukturalne i funkcjonalne dla ludzkich i innych genomów kręgowców. Nasze konserwatywne podejście do ręcznego doboru zapewnia stałą wysoką jakość i niezawodność ludzkich, mysich i innych „znanych” rekordów RefSeq, które służą potrzebom tych, którzy potrzebują dobrze obsługiwanej definicji alternatywnych eksonów (mniej fałszywych alarmów). Dodanie danych RNA-Seq do naszego potoku adnotacji znacznie zwiększyło naszą adnotację alternatywnych wariantów splicingu jako modelu RefSeqs, aby zaspokoić potrzeby tych, którzy chcą bardziej kompleksowej, ale nadal dobrze wspieranej definicji exome (mniej fałszywych negatywów). Podczas gdy zarówno znane, jak i modelowe RefSeqs zgłaszają dowody wsparcia w rekordzie sekwencji, używają do tego różnych podejść. Przyszłe wysiłki będą ukierunkowane na harmonizację raportowania dowodów zarówno dla „znanych”, jak i „modelowych” RefSeqs, aby użytkownicy mogli łatwiej zidentyfikować te informacje. W niedalekiej przyszłości dodamy również nowy typ danych do kolekcji RefSeq dla ludzi i myszy, aby reprezentować doświadczalnie zgłaszane elementy regulacyjne i funkcjonalne ze znanymi (lub rozsądnie wnioskowanymi) konsekwencjami funkcjonalnymi.
w przypadku genomów prokariotycznych kontynuujemy prace nad udoskonaleniem aspektów adnotacji strukturalnej generowanej przez rurociąg adnotacji genomu prokariotycznego. Nasza praca nad nowym podejściem do zarządzania informacjami funkcjonalnymi jest nadal udoskonalana i zostanie opisana w innym miejscu. Przewidujemy ponowną adnotację całego zestawu danych genomów Prokaryotycznych RefSeq, gdy pojawią się nowe wersje naszego potoku adnotacji prokaryotycznej (w celu poprawy adnotacji strukturalnej). Decyzja o adnotacji wszystkich prokariotów RefSeq przy użyciu jednej metody, wraz z samą objętością tego zbioru danych, wymaga innego podejścia, które wykorzystuje wiele źródeł dowodów w celu dostarczenia informacji funkcjonalnych. Nazwy białek będą aktualizowane na bieżąco według rodzin białek lub kategorii typów dowodów. Nasze cele na nadchodzący rok obejmują większą integrację Rfam (65) w naszym potoku adnotacji, rozszerzoną współpracę, ulepszone nazwy białek i raportowanie dowodów potwierdzających zapis sekwencji białek.
chcielibyśmy podziękować społeczności naukowej za konstruktywne informacje zwrotne, sugestie, raporty o błędach i współpracę w ciągu ostatnich 15 lat, które przyczyniły się do jakości i dokładności reprezentowanej sekwencji, adnotacji strukturalnej i adnotacji funkcjonalnej.
finansowanie
Finansowanie opłaty otwartego dostępu: wewnętrzny program badawczy Narodowego Instytutu Zdrowia, National Library of Medicine.
Oświadczenie o konflikcie interesów. Brak deklaracji.
i in.
itp.
Kozomara
i in.
itp.
itp.
i in.
itp.
itp.
i in.
i wsp.
i in.
i in.
Lin
et al.
i in.
itp.
/div>
div>
itp.
i in.
itp.
itp.
itp.
i in.
i in.
i in.
itp.
i in.
i in.
i in.
itp.
i in.