Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation | Nucleic Acids Research

Abstract

The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). Projekt RefSeq wykorzystuje dane przesłane do międzynarodowej współpracy bazy danych sekwencji nukleotydów (INSDC) przeciwko kombinacji obliczeń, ręcznego doboru i współpracy w celu wytworzenia standardowego zestawu stabilnych, nie redundantnych sekwencji referencyjnych. Projekt RefSeq wzbogaca te sekwencje referencyjne o aktualną wiedzę, w tym publikacje, funkcje funkcjonalne i nomenklaturę informacyjną. Baza danych reprezentuje obecnie sekwencje ponad 55 000 organizmów (>4800 wirusów, >40 000 prokariotów i >10 000 eukariotów; RefSeq release 71), począwszy od pojedynczego rekordu do kompletnych genomów. Niniejszy artykuł podsumowuje obecny status wirusowych, prokariotycznych i eukariotycznych gałęzi projektu RefSeq, raporty na temat ulepszeń dostępu do danych i szczegółowych wysiłków w celu dalszego rozszerzenia reprezentacji taksonomicznej kolekcji. Zwracamy również uwagę na różnorodne inicjatywy w zakresie kuratorowania funkcjonalnego, które wspierają wiele zastosowań danych RefSeq, w tym walidację taksonomiczną, adnotację genomu, genomikę porównawczą i testy kliniczne. Podsumowujemy nasze podejście do wykorzystania dostępnych RNA-Seq i innych typów danych w naszym ręcznym procesie kuracji dla kręgowców, roślin i innych gatunków oraz opisujemy nowy kierunek dla genomów prokariotycznych i zarządzania nazwami białek.

wprowadzenie

przez ostatnie 15 lat Baza Danych RefSeq Narodowego Centrum Informacji biotechnologicznej (NCBI) służyła jako podstawowy zasób w badaniach genomicznych, genetycznych i proteomicznych. Dostarczenie przez projekt RefSeq wyselekcjonowanych i stabilnych adnotowanych genomów referencyjnych, transkryptów i białek dla wybranych wirusów, drobnoustrojów, organelli i organizmów eukariotycznych pozwoliło badaczom skupić się na najlepszych reprezentatywnych danych sekwencyjnych w przeciwieństwie do nadmiarowych danych w GenBank i jednoznacznie odwoływać się do określonych sekwencji genetycznych. Kolekcja RefSeq zapewnia wyraźnie powiązane rejestry genomu, transkrypcji i sekwencji białek, które zawierają publikacje, nomenklaturę informacyjną oraz znormalizowane i rozszerzone adnotacje dotyczące funkcji. Rekordy RefSeq są zintegrowane z zasobami NCBI, w tym bazami danych nukleotydów, białek i BLAST i można je łatwo zidentyfikować za pomocą słowa kluczowego „RefSeq” i ich odrębnych przedrostków akcesyjnych, które definiują ich typ (Tabela 1). Wszystkie dane RefSeq podlegają kontroli jakości (QA) za pomocą specjalistycznych testów QA opracowanych dla różnych taksonów lub typów danych. Na przykład wszystkie wirusowe RefSeq są poddawane przeglądowi taksonomicznemu przez personel NCBI przed publicznym wydaniem. Dostęp do RefSeq jest szeroko cytowany w publikacjach naukowych i genetycznych bazach danych, ponieważ zapewnia stabilny i spójny układ współrzędnych, który może być używany jako punkt odniesienia do raportowania danych specyficznych dla genów, zmienności klinicznej i porównań międzygatunkowych. Te standardy sekwencji odniesienia są coraz ważniejsze, ponieważ dokładne raportowanie i odtwarzalność są kluczowymi elementami najlepszych praktyk w badaniach biomedycznych (1).

RefSeq>

Tabela 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne
AP_3	białko	białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji
XP_3, 5	białko	białka adnotowane na
yp_3	białko	białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji
wp_6	białko	białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być przypisane do więcej niż jednego genomu prokariotycznego

prefiks .	typ cząsteczki .	użyj kontekstu .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne
AP_3	białko	białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji
XP_3, 5	białko	białka adnotowane na
yp_3	białko	białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji
wp_6	białko	białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być adnotowane na więcej niż jednym genomie prokariotycznym

1 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 cyfr, a następnie numer wersji sekwencji.

2 Kompletny format przystąpienia składa się z przedrostka, po którym następuje numer przystąpienia INSDC, na którym oparty jest rekord RefSeq, a następnie numer wersji sekwencji RefSeq.

3pełny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 lub 9 cyfr, po których następuje numer wersji sekwencji.

4Records z tym prefiksem akcesyjnym zostały kuratorowane przez pracowników NCBI lub bazę danych organizmów modelowych, lub znajdują się w Puli akcesji, z którymi kuratorzy pracują. Rekordy te są określane jako „znany” zbiór danych RefSeq.

5rekordy z tym prefiksem są generowane przez rurociąg adnotacji genomu eukariotycznego lub mały rurociąg adnotacji genomu eukariotycznego. Rekordy wygenerowane za pomocą pierwszej metody są określane jako „modelowy” zbiór danych RefSeq.

6 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 9 cyfr, po których następuje numer wersji. Numer wersji to zawsze”.1 ’ ponieważ zapisy te nie podlegają aktualizacji. See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

Table 1.

RefSeq accession prefixes

Prefix .	Molecule type .	Use context .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne
AP_3	białko	białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji
XP_3, 5	białko	białka adnotowane na
yp_3	białko	białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji
wp_6	białko	białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być przypisane do więcej niż jednego genomu prokariotycznego

prefiks .	typ cząsteczki .	użyj kontekstu .
NC_1	DNA	Chromosomes
		Linkage Groups
AC_1	DNA	Chromosomes
		Linkage Groups
NZ_2	DNA	Chromosomes
		Scaffolds
		Used predominantly for prokaryotic genomes.
NT_3	DNA	Scaffolds
NW_3	DNA	Scaffolds
NG_1	DNA	Genomic regions.
		A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene)
NM_3,4	mRNA	protein-coding transcripts
XM_3,5	mRNA	protein-coding transcripts
NR_3,4	RNA	non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes
XR_3,5	RNA	non-protein-coding transcripts, as above
NP_3,4	protein	białka adnotowane na nm_ transkrypcji lub adnotowane na cząsteczkach genomowych bez instancji transkrypcji (np. niektóre genomy mitochondrialne, genomy wirusowe i referencyjne genomy bakteryjne
AP_3	białko	białka adnotowane na AC_ akcesjach genomowych lub adnotowane na cząsteczkach genomowych bez instancjowanego zapisu transkrypcji
XP_3, 5	białko	białka adnotowane na
yp_3	białko	białka ADNOTOWANE na cząsteczkach genomowych bez rekordu transkrypcji
wp_6	białko	białka, które nie są zbędne dla wielu szczepów i gatunków. Pojedyncze białko tego typu może być adnotowane na więcej niż jednym genomie prokariotycznym

1 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 cyfr, a następnie numer wersji sekwencji.

2 Kompletny format przystąpienia składa się z przedrostka, po którym następuje numer przystąpienia INSDC, na którym oparty jest rekord RefSeq, a następnie numer wersji sekwencji RefSeq.

3pełny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 6 lub 9 cyfr, po których następuje numer wersji sekwencji.

6 kompletny format numeru przystąpienia składa się z przedrostka, w tym podkreślnika, po którym następuje 9 cyfr, po których następuje numer wersji. Numer wersji to zawsze”.1 ’ ponieważ zapisy te nie podlegają aktualizacji. Dodatkowe informacje można znaleźć w dokumentacji online: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.

w ostatnich latach zaawansowane techniki sekwencjonowania ułatwiły znaczny wzrost liczby zgłoszeń całego zespołu genomu do publicznych baz danych. W rezultacie projekt RefSeq konsekwentnie rozszerzył głębokość i szerokość taksonów zawartych w zbiorze danych głównie poprzez ulepszenia kilku wewnętrznych potoków adnotacji. Wszystkie taksony są objęte włączeniem RefSeq; jednak adnotacja jest często ograniczona do tych organizmów, dla których wysokiej jakości pierwotny zespół genomu jest dostępny z niekwestionowanymi informacjami o organizmach. W ten sposób możemy wykluczyć niektóre kategorie danych, które nie spełniają naszych standardów jakości. Wykluczone zbiory danych obejmują: metagenomy, zespoły o niskich wartościach contig N50 lub szczególnie dużą liczbę nieumieszczonych rusztowań / stygów(tj. wysoką fragmentację) lub genomy, które mają znaczne niedopasowanie lub zmienność indel w porównaniu z innymi blisko spokrewnionymi genomami dla gatunku (np. niektóre prokarioty).

unikalnym aspektem zbioru danych RefSeq jest połączone podejście wykorzystujące obliczenia, współpracę i opiekę personelu naukowego NCBI. Jako duży zakład bioinformatyczny, NCBI zainwestował w rozwój solidnych przepływów procesowych w celu generowania adnotacji i wykonywania testów zapewnienia jakości dla genomów eukariotycznych i prokariotycznych, transkryptów i białek. Udoskonalenia procesu genomów wirusowych są w toku. Grupa RefSeq współpracuje z wieloma grupami ekspertów, w tym z oficjalnymi organami ds. nomenklatury (np. HUGO Gene Nomenclature Committee (Hgnc) i Zebrafish Information Network (Zfin) dla nazw genów odpowiednio dla ludzi i danio pręgowanego), UniProtKB (nazwy białek) i miRBase (microRNAs) (2-5). Współpraca ta i inne pomagają utrzymać i poprawić jakość zestawu danych RefSeq poprzez raporty QA, wymianę informacji o genach i sekwencjach oraz wymianę informacji funkcjonalnych. Pracownicy NCBI zapewniają również wsparcie kuratorskie dla wirusów, prokariotów, eukariotów, organelli, plazmidów i projektów celowanych, w tym genów i sekwencji dla Homo sapiens, Mus musculus i innych organizmów. Kuratorzy RefSeq poprawiają jakość bazy danych poprzez przegląd wyników testów QA, zaangażowanie w wybór niektórych danych wejściowych do przetwarzania adnotacji genomu, analizę sekwencji, analizę taksonomiczną i przegląd funkcjonalny. Kuracja wspiera również ulepszenia w potokach adnotacji genomu, ponieważ eksperci od treści pomagają zdefiniować programowe podejścia do modelowania zarówno typowej, jak i nietypowej biologii. W przypadku eukariotów, w szczególności ssaków, kuracja oparta na transkrypcji definiuje”najlepszych”przedstawicieli sekwencji (jako „znane” RefSeqs; przypis w tabeli 1), które są używane jako podstawowy odczynnik wejściowy do potoku adnotacji genomu eukariotycznego (http://www.ncbi.nlm.nih.gov/books/NBK169439/). Ulepszenia w jakości odczynnika wejściowego z kolei dodają znaczną jakość i odtwarzalność do wynikowej adnotacji genomu. Ten rodzaj ręcznej kuracji był historycznie skoncentrowany na ludziach i myszach ze względu na ich wyjątkowe znaczenie biomedyczne (6). Ostatnio te wysiłki kuratorskie zwróciły większą uwagę na Rattus norvegicus, Danio rerio, Bos taurus i Gallus gallus. Gatunki te mają znaczenie dla zdrowia ludzkiego, a także dla zrównoważonego rozwoju rolnictwa.

w niniejszym artykule informujemy o naszych postępach w rozszerzaniu zbioru danych RefSeq o bardziej zróżnicowane organizmy, opisujemy ulepszenia w dostępie do danych i dostarczamy przykładów ilustrujących zwiększony nacisk na dostarczanie filogenetycznie użytecznych zbiorów danych, a także adnotację funkcji funkcjonalnych na transkrypcie RefSeq i zapisach białek. Przewidujemy, że te wysiłki i ulepszenia w zbiorze danych RefSeq będą nadal przyczyniać się do postępu medycznych badań translacyjnych, ulepszeń rolniczych, identyfikacji filogenetycznej i badań ewolucyjnych.

generowanie zbioru danych REFSEQ

rekordy sekwencji RefSeq są generowane różnymi metodami w zależności od klasy sekwencji i organizmu. Genomy archaealne i bakteryjne (patrz sekcja Prokaryotes) są adnotowane przy użyciu rurociągu adnotacji genomu prokariotycznego NCBI (http://www.ncbi.nlm.nih.gov/books/NBK174280/), podczas gdy niewielka liczba referencyjnych genomów bakteryjnych jest wspierana przez współpracę i ręczne leczenie. Genomy eukariotyczne RefSeq są dostarczane przy użyciu dwóch przepływów procesowych. Większość genomów roślin, zwierząt, owadów i stawonogów jest adnotowana przez rurociąg adnotacji genomu eukariotycznego. Ten rurociąg generuje wyniki adnotacji na podstawie dostępnych danych transkrypcyjnych (w tym danych RNA-Seq i transcriptome Shotgun assembly (TSA)), jak również homologii białek, predykcji ab initio (głównie wtedy, gdy dane transkryptomu są niedostępne) oraz dostępnych znanych (kuratorskich) transkryptów i białek RefSeq (patrz Tabela 1). Adnotacja generowana przez rurociąg (Model RefSeqs) może, ale nie musi mieć wsparcia dla kompletnej kombinacji egzonów z pojedynczego wyrównania dowodów, ale może mieć wsparcie RNA-Seq dla par egzonów. Genomy eukariotyczne, które zostały adnotowane przez ten rurociąg, są podawane publicznie z linkami do pobrania danych przez FTP, do przeglądania lub wykonywania kwerendy BLAST przeciwko adnotowanemu genomowi lub do dostępu do szczegółowego podsumowania raportu adnotacji (http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/). Rurociąg dla podgrupy eukariotów, w tym grzybów, pierwotniaków i nicieni, obejmuje rozmnażanie adnotacji, które zostało przedłożone do międzynarodowej współpracy w bazie danych sekwencji nukleotydów (INSDC), z standaryzacją formatu, do kopii RefSeq przedłożonego zespołu genomu (patrz glony, Grzyby, nicienie i pierwotniaki).

pracownicy NCBI zapewniają większość adnotacji RefSeq organelle genome poprzez propagację z przedłożenia INSDC. Anotacja mitochondriów ssaków jest często uzupełniana manualną kuracją. Projekt RefSeq utrzymuje również sekwencje referencyjne dla docelowych projektów loci, takich jak RefSeqGene, który jest członkiem Locus Reference Genomic (LRG) collaboration (7), dla bakteryjnych i grzybowych rybosomalnych loci rRNA oraz dla wewnętrznych transkrybowanych sekwencji dystansowych grzybów (ITS) (8). Ponadto znaczna liczba ludzkich, mysich i innych transkryptów i białek jest dostarczana poprzez współpracę i ręczną kurację, która obejmuje analizę sekwencji i przegląd literatury.

prokariotyczne rurociągi annotacji NCBI (patrz poniżej) i eukariotyczne nadążają za rosnącą liczbą zespołów genomu przekazywanych do INSDC, zapewniając spójną adnotację na kopiach RefSeq wybranych złożonych zespołów genomu wysokiej jakości. Do tej pory opisano 245 genomów eukariotycznych, w tym 170 genomów kręgowców, z których w ciągu ostatnich 20 lat opisano ponad 120 gatunków. Do tej grupy należą 52 gatunki ptaków, w tym gatunki reprezentatywne większości ptaków (9,10). Nastąpił również znaczny wzrost liczby zespołów opisywanych w RefSeq dla naczelnych, innych ssaków, ryb, roślin i stawonogów.

dostęp do zbioru danych REFSEQ

Strona domowa RefSeqhttp://www.ncbi.nlm.nih.gov/refseq/ jest centralnym hubem dla wszystkich aspektów zbioru danych RefSeq. Ta strona zawiera linki, które prowadzą użytkowników przez ogólny opis projektu, a także arkusze informacyjne, statystyki wzrostu i informacje na temat bardziej ukierunkowanych projektów RefSeq, takich jak Inicjatywa readnotacji genomu prokariotycznego, projekt Consensus Coding Sequence (CCDS) (11) projekt RefSeqGene oraz ukierunkowane projekty Loci (http://www.ncbi.nlm.nih.gov/refseq/targetedloci/). Linki do najbardziej aktualnego, kompleksowego wydania FTP oraz szczegółowej dokumentacji dotyczącej formatu i treści Wydania można znaleźć w sekcji „Ogłoszenia” na stronie głównej RefSeq. Poprzednie ogłoszenia RefSeq są również dostępne na tej stronie. Zdecydowanie zachęcamy do pobierania danych RefSeq bezpośrednio z NCBI, Ponieważ pliki do pobrania z innych zasobów bioinformatyki i przeglądarki genomów mogą nie zawierać wszystkich dostępnych danych lub mogą jedynie odzwierciedlać dopasowanie transkryptów RefSeq do genomu, a nie Wyniki adnotacji genomu generowane przez NCBI.

dane sekwencji RefSeq można uzyskać interaktywnie za pomocą baz danych nukleotydów i białek NCBIs, w bazach danych BLAST, poprzez programowy interfejs NCBI (e-utilities) lub za pośrednictwem protokołu przesyłania plików (FTP). E-narzędzia obsługują skryptowy dostęp do pobierania danych RefSeq w różnych formatach w oparciu o wyszukiwane hasła lub listy akcesyjne; obszerna dokumentacja jest dostępna w podręczniku NCBI (www.ncbi.nlm.nih.gov/books/NBK25501/) oraz Filmy szkoleniowe dostępne są na kanale YouTube NCBI (https://www.youtube.com/user/NCBINLM). Zarówno nukleotydowe, jak i białkowe bazy danych pozwalają na ograniczenie wyników zapytań tylko do rekordów RefSeq, wybierając „RefSeq” w „źródłowej bazie danych” na pasku bocznym filtrów. Dostęp do danych RefSeq można również uzyskać z innych baz danych NCBI, w tym Assembly, BioProject, Gene i Genome, korzystając z linków dostarczonych do zasobów nukleotydowych, białkowych lub FTP informacje o zmianach kuratorskich w grupie RefSeq lub aktualizacjach NCBI, które mają wpływ na bazę RefSeq, są zgłaszane w kilku źródłach, w tym w Uwagach do wydania RefSeq FTP, okresowych publikacjach, komunikatach NCBI kanał informacyjny http://www.ncbi.nlm.nih.gov/news/ oraz na blogu NCBI Insights http://ncbiinsights.ncbi.nlm.nih.gov/. Użytkownicy mogą również subskrybować listę mailingową refseq-announce, aby otrzymywać okresowe aktualizacje dotyczące projektu i podsumowanie zawartości każdego wydania FTP RefSeq (http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/).

dane RefSeq są dystrybuowane przez FTP za pośrednictwem dwóch stron, refseq (ftp://ftp.ncbi.nlm.nih.gov/refseq/) i genomy (ftp://ftp.ncbi.nlm.nih.gov/genomes/). witryna FTP refseq zapewnia codzienne aktualizacje wszystkich nowych i zaktualizowanych rekordów RefSeq, cotygodniowe aktualizacje niektórych typów danych oraz dwumiesięczne kompleksowe wydanie RefSeq (/refseq/release/). Ponadto wybrane transkrypty specyficzne dla organizmu i zbiory danych białkowych, w tym dla ludzi i myszy, są aktualizowane co tydzień. Podkatalog RefSeqGene jest aktualizowany codziennie, z dopasowaniami do genomu wydawanego przy każdym uruchomieniu adnotacji. Obszerne dwumiesięczne wydanie RefSeq organizowane jest przez taksonomiczne (np. kręgowce) lub inne grupy (np. mitochondria). Dane można również pobrać dla całej kolekcji RefSeq z katalogu/refseq/release/ complete/. Wydanie RefSeq oferuje korzyści dla tych, którzy chcą utrzymywać okresowe aktualizacje kompletnej kolekcji lub pojedynczej grupy. Zawiera również zapisy, które nie są dostępne z witryny FTP genomów towarzyszących, takie jak transkrypty w kolekcji, które są utrzymywane niezależnie od zespołu genomu i nie mogą być obecnie adnotowane na nim. Wydanie zawiera znaczącą dokumentację zainstalowanych plików (/refseq/release/ release-catalog/), w tym sumy kontrolne MD5, listę wszystkich zainstalowanych plików, a także uwagi do wydania i ogłoszenia (/refseq/release/release-notes/).

dane RefSeq można również pobrać ze strony FTP genomes. W sierpniu 2014 NCBI ogłosiło poważną reorganizację tej witryny FTP, która zapewnia teraz montaż i dostęp do genomów GenBank i RefSeq (ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). Katalog ten jest dalej podzielony na podkatalogi oparte na tych samych grupach, które są używane w wydaniu RefSeq, z których każda zawiera dodatkowe poddziały według gatunków. Witryna FTP genomes udostępnia pliki reprezentujące wszystkie zespoły genomu RefSeq zgłoszone w zasobie Assembly NCBI (www.ncbi.nlm.nih.gov/assembly/). zaletą miejsca genomów jest to, że dane mogą być dostępne w sposób specyficzny dla zespołu lub organizmu. Dostarczone dane obejmują sekwencję genomu i produktu (transkrypt / białko), adnotację, raporty i statystyki montażu oraz sumy kontrolne MD5; dane te są aktualizowane, gdy zespół genomu i/lub adnotacja są aktualizowane. Obszar ten nie obejmuje sekwencji RefSeq, które są poza zakresem zespołu genomu lub produktów, które nie są adnotowane na genomie.

wzrost i statystyki

RefSeq FTP release 71 (lipiec 2015) zawiera ponad 77 milionów rekordów sekwencji dla ponad 55 000 organizmów. Tabela 2 podsumowuje wzrost zbioru danych RefSeq w ostatnim roku pod względem organizmów i liczby rekordów sekwencji reprezentowanych na każdy obszar katalogu FTP RefSeq release. Genomy i białka bakterii zawierają większość danych RefSeq (56% wszystkich akcesji i 76% >52 miliony akcesji białkowych). Znaczący wzrost W Liczba organizmy, proteiny, i całkowity rejestry widzieć dla bezkręgowiec, roślina, i eukariotic organizmy który jest zgodny z wzrastający liczba i przepustowość Genom sekwencjonowanie projekt. Istotnym czynnikiem dla ciągłego wysokiego tempa wzrostu danych RefSeq są ulepszenia w rurociągach genomu, które generują adnotowane genomy RefSeq. W szczególności, obejmuje to zwiększoną pojemność w prokaryotic Genome annotation pipeline NCBI, re-rozwój procesu przepływu, który propaguje adnotację z eukaryotic GenBank genomy na genomy RefSeq, i włączenie dowodów RNA-Seq w eukaryotic genome annotation pipeline NCBI i jego wpływ na generowanie modelu RefSeqs (xm_, xr_ i xp_ accessions, Tabela 1).

roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, według katalogu wydania FTP

Tabela 2.

roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, na katalog wydania FTP

Katalog Wydania .	organizmy .	% Zmiana .	transkrypcje .	% Zmiana .	białka .	% Zmiana .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Zmiana .	transkrypcje .	% Zmiana .	białka .	% Zmiana .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics / (np. archaea.acc_taxid_growth.txt i pliki pokrewne). Procentowa roczna zmiana opiera się na porównaniu liczby danych dla RefSeq release 71 (lipiec 2015) i RefSeq release 66 (lipiec 2014).

Tabela 2.

roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, na katalog wydania FTP

Katalog Wydania .	organizmy .	% Zmiana .	transkrypcje .	% Zmiana .	białka .	% Zmiana .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

Release Directory .	Organisms .	% Zmiana .	transkrypcje .	% Zmiana .	białka .	% Zmiana .
Archaea	952	12	1109	318	1037407	-5
Bacteria	39660	40	19650	488	40194748	14
Fungi	3367	18	1438749	17	1440956	17
Invertebrate	1786	29	1435978	76	1367317	74
Mitochondrion	5732	24	112	-15	83208	24
Plant	847	59	2181963	86	2067971	75
Plasmid	2139	31	12	9	126725	-62
Plastid	843	54	120	0	72579	50
Protozoa	273	27	849678	46	865048	45
Vertebrate_mammalian	776	14	3778288	44	3266845	39
Vertebrate_other	2755	26	2097939	85	2023378	84
Viral	4850	17	0	0	230360	15
Complete	55267	34	11803354	56	52494032	20

dramatyczny spadek liczby zapisów białek plazmidowych, a tym samym liczby całkowitych akcesji, odzwierciedla zakończenie projektu readnotacji genomu bakterii RefSeq (http://www.ncbi.nlm.nih.gov/refseq/o/prokariotach/ reannotacji/) i przyjęcie nowego modelu danych dla prokariotów, w tym ich plazmidów. W tym nowym modelu danych pojedyncze niez redundantne przyłączenie białka RefSeq może być adnotowane na więcej niż jednym rekordzie sekwencji genomowej, gdy translacja tych regionów kodujących białko genomowe daje identyczne białko (patrz http://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/). Redundancja we wszystkich białkach bakteryjnych również znacznie spadła; jednak nie jest to widoczne tutaj z powodu ciągłego znacznego wzrostu liczby genomów bakteryjnych zawartych w zbiorze danych. Zmiany te spowodowały również ogólny spadek liczby zapisów białka archaealnego.

kręgowce

wybrana grupa kręgowców, w tym Homo sapiens, Mus musculus, Rattus norvegicus, Gallus gallus, Bos taurus i Danio rerio, jest głównym celem naszych manualnych wysiłków kuratorskich opartych na transkrypcjach i literaturze. Kuratorzy zazwyczaj pracują na podstawie list genów z konfliktami danych zidentyfikowanymi za pomocą testów zapewniania jakości (QA), z których niektóre zostały wcześniej opisane (12). Podczas analizy każdego genu przestrzegają szczegółowych wytycznych, aby zapewnić spójność międzyosobniczą w dobranym zbiorze danych. Analiza ta obejmuje dogłębną ocenę sekwencji i przegląd literatury w celu stworzenia transkryptów referencyjnych, białek, pseudogenów i rekordów RefSeqGene. Kuratorzy RefSeq generują warianty transkrypcji, rozwiązują błędy sekwencji, usuwają niedokładne informacje, aktualizują rekordy, aby poprawnie reprezentować biologię locus, i dodają cenne informacje funkcjonalne do niektórych rekordów RefSeq, takich jak ulepszone nazwy białek, podsumowanie funkcji produktu genowego, cechy funkcjonalne genu i/lub odpowiednie publikacje. Ręczne przygotowywanie i przegląd literatury przez grupę RefSeq może skutkować przedstawieniem unikalnych wariantów i izoform, których nie można przewidzieć, gdy opierają się wyłącznie na analizie obliczeniowej. Na przykład, przegląd literatury ludzkiego genu supresorowego guza PTEN (phosphatase and tensenin homolog, GeneID: 5728) ujawnił istnienie dłuższej izoformy białka wynikającej z zastosowania alternatywnego kodonu inicjacji CUG znajdującego się w centrum sekwencji palindromicznej przed kanonicznym kodonem początku translacji mRNA (13). Silne dane doświadczalne wskazują, że ta specyficzna dla mitochondriów izoforma inicjuje się z leucyną, a nie metioniną (14). Model danych RefSeq dla eukariotów zapewnia jeden transkrypt wyraźnie powiązany z jednym białkiem. W związku z tym dostarczono dwa identyczne zapisy transkrypcji w celu odzwierciedlenia translacji z alternatywnych kodonów inicjacji; NP_000305.3 reprezentuje białko 403 aminokwasowe, które wykorzystuje kanoniczny kodon metioniny start, podczas gdy NP_001291646.2 reprezentuje zlokalizowane w mitochondriach białko 576 aminokwasowe, które inicjuje leucyną. Tak więc proces kuracji służy podwójnemu celowi zapewnienia dokładnych sekwencji referencyjnych, które ułatwiają precyzyjną i powtarzalną adnotację genomu oraz dostarczanie zapisów zawierających istotne informacje biologiczne. W tej sekcji omówimy najnowsze aktualizacje, ulepszenia, które wprowadziliśmy do naszego ręcznego procesu kuratorskiego oraz przykłady skoncentrowanych projektów kuratorskich.

RefSeqGene project

subprojekt RefSeqGene definiuje ludzkie sekwencje genomowe jako standardy odniesienia dla dobrze scharakteryzowanych genów, szczególnie do użytku przez społeczność genetyków klinicznych. Sekwencje te służą jako stabilna podstawa do zgłaszania wariantów patogennych, do ustanawiania konwencji numeracji eksonów i intronów oraz do definiowania współrzędnych innych wariantów. Każdy rekord RefSeqGene koncentruje się na specyficznym dla genu regionie genomowym i zazwyczaj jest adnotowany podzbiorem transkryptów RefSeq i białek wybranych przez ekspertów w dziedzinie. Te wybory określają funkcje exona. Uwzględniono dopasowania starszych wersji transkryptu/białka kanonicznego RefSeq, jak również innych znanych RefSeq. Zapisy te zazwyczaj obejmują 5 kilobaz (kb) sekwencji przed genem ogniskowym i 2 kb sekwencji przed genem ogniskowym, aby wspierać reprezentację potencjalnych miejsc regulacyjnych lub delecji wykraczających poza cechę genu. Zapis RefSeqGene może zawierać informacje o adnotacji dla innych genów, które znajdują się w jego granicach. Rekordy RefSeqGene są początkowo sprawdzane przez bazy danych specyficzne dla locus i pracowników NCBI. RefSeqGene jest członkiem LRG collaboration (7), który zapewnia dodatkowy przegląd danych sekwencji przed dodaniem akcesji LRG. W ostatnich pracach zwiększono liczbę rekordów RefSeqGene do reprezentowania wszystkich genów, dla których co najmniej dwa testy kliniczne zostały przedłożone do NIH Genetic Testing Registry (GTR). W tej chwili istnieje 5596 rekordów RefSeqGene, z których 633 ma przystąpienie do LRG. Rekordy RefSeqGene można uzyskać, przeszukując bazę danych nukleotydów za pomocą 'refseqgene’, poprzez ich dostęp do LRG, przeglądając stronę internetową RefSeqGene (www.ncbi.nlm.nih.gov/refseq/rsg/) lub przez FTP (ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).

włączenie RNA-Seq i innych typów danych w kuracji opartej na transkrypcji

głównym celem projektu kuracji RefSeq jest reprezentowanie wysokiej jakości i pełnej długości transkrypcji i sekwencji referencyjnych białek. Jako takie, nasze kryteria kuracji opierają się przede wszystkim na konwencjonalnych transkrypcjach (mRNA i ESTs) oraz dopasowaniach białek i opublikowanych dowodach. Jednak, vertebrate transcriptome projekty stały się coraz bardziej złożone z większość nowych danych transkrypcji obecnie generowane przez short read sekwencjonowania technologii. Badania obejmujące cały genom, analizujące globalne wzorce znaków epigenetycznych związanych z promotorem, również dostarczają dowodów na aktywne promotory i / lub aktywną transkrypcję. Grupa RefSeq dostosowała praktyki kuratorskie, aby włączyć te nowe typy danych, aby poprawić naszą ręczną adnotację, szczególnie w przypadkach, gdy gen lub wariant nie ma obfitego konwencjonalnego wsparcia transkrypcji. Te badania RNA-Seq i epigenomiczne wygenerowały ogromne zbiory danych, które stanowią wyzwanie dla grup adnotacji genów, na przykład poprzez potencjalne fałszywie dodatnie wyniki i brak wsparcia dla kombinacji eksonów dalekiego zasięgu (15). Kuratorzy RefSeq ograniczają wykrywanie fałszywych alarmów poprzez selektywne włączanie do naszego potoku adnotacji genomu i ręcznego procesu adnotacji wyłącznie wysokiej jakości zbiorów danych. Kuratorzy RefSeq wizualizują wyrównania transkrypcji, dane zmian i filtrowane dane RNA-Seq na niestandardowych wyświetlaczach w ramach wewnętrznego narzędzia do wyrównywania włączonego do platformy NCBI Genome Workbench (http://www.ncbi.nlm.nih.gov/tools/gbench/). Kuracja ludzkich genów wykorzystuje analizowane odczyty RNA-Seq z projektów Illumina BodyMap 2 (BioProject: PRJEB2445) i Human Protein Atlas (BioProject: PRJEB4337) (16). Dodatkowo kuratorzy używają znaków modyfikacji histonów związanych z promotorem, takich jak H3K4me3 z NIH Roadmap Epigenomic Mapping Consortium (REMC; (17) oraz projekt ENCODE (Encyclopedia of DNA Elements) (18) mający na celu sprawdzenie obecności aktywnego promotora. Kuratorzy RefSeq oceniają również dane polyA-seq, aby potwierdzić 3 ’ kompletność transkryptów pozbawionych ogona polyA (19). Dodatkowe typy danych, w tym PhyloCSF (20), CpGIslands, RepeatMasker (21) I Cap analysis of gene expression (Cage) data (22), są czasami używane jako dodatkowe wsparcie.

Długie niekodujące RNA (lncrna)

Grupa RefSeq nadal znacząco rozszerza się na reprezentację niekodujących strukturalnych i mikro-RNA, transkrybowanych pseudogenów i w dużej mierze nietypowych lncrna. Ta klasa genów jest ogólnie definiowana jako transkrypty >o długości 200 nt, które nie mają silnego potencjału kodowania białek (23). rekordy RefSeq lncRNA są generowane przez kurację i przez rurociąg adnotacji genomu eukariotycznego dla genów lncRNA. NCBI utrzymuje obecnie ponad 540 000 eukariotycznych rekordów Lncrna RefSeq, z których ponad 6700 zostało kuratorowanych, a tylko kilkaset zostało scharakteryzowanych funkcjonalnie. Wiele z nich jest związanych z chorobami człowieka, takimi jak BACE1-AS, które mogą odgrywać rolę w patofizjologii choroby Alzheimera, oraz HOTAIR, który jest związany z wieloma nowotworami (24,25). Zdecydowana większość lncrna ma nieznane funkcje, a brak długich otwartych ramek odczytu stanowi wyzwanie pod względem potwierdzenia kompletności transkrypcji. Ponadto zgłoszenia lncRNA do INSDC są w dużej mierze oparte na TSA z krótkich odczytywanych zbiorów danych, które mogą obejmować kombinacje artefaktualnych eksonów. Kuratorzy RefSeq przyjmują konserwatywne podejście do reprezentowania genów lncRNA, tylko ręcznie tworząc RefSeqs (z prefiksem Nr_) dla wysokiej jakości transkryptów, dla których mamy pewną pewność co do struktury egzonu. Idealnie, wsparcie transkryptu powinno być łączone z co najmniej trzema eksonami, ale transkrypty dwu-eksonowe i intronless mogą być reprezentowane, jeśli są obsługiwane przez epigenomikę związaną z promotorem, dowody Poli(A), Dodatkowe cDNA i/lub dane RNA-Seq. Rejestry RefSeq lncrna dla niekodujących genów można pobrać z bazy nukleotydów NCBI za pomocą szukanego ciągu „biomol ncrna lncrna” i wybierając filtr RefSeq z lewej kolumny.

adnotacja funkcjonalna

unikalny wkład kuratorów zapisów transkrypcji Eukaryotic RefSeq polega na tym, że integrują informacje funkcjonalne z sekwencją odniesienia. RefSeq curation staff dodaje streszczenia genów, nomenklaturę, tekst wariantu transkrypcji, atrybuty genów i sekwencji oraz cechy funkcjonalne, które są dostępne w rekordzie RefSeq i / lub za pośrednictwem zasobu genów (http://www.ncbi.nlm.nih.gov/gene). W ubiegłym roku pracownicy RefSeq przeprowadzili kilka dogłębnych projektów adnotacji, z których niektóre są krótko opisane w poniższych akapitach, aby dodać dane funkcjonalne do określonych zestawów genów, w których narzędzia obliczeniowe nie są w stanie dokładnie reprezentować wiedzy biologicznej. Projekty te obejmują adnotację peptydów przeciwbakteryjnych, endogennych retrowirusów, histonów zależnych od replikacji, regulatorowych uorfów i antyzymów.

peptydy przeciwdrobnoustrojowe (AMPs)

AMPs były ostatnim celem kuracji (http://ncbiinsights.ncbi.nlm.nih.gov/ 2015/05/21/) (26). AMPs są naturalnie występującymi peptydami, które znajdują się w różnych gatunkach i były zaangażowane w wiele ról odpornościowych, w tym bakteriobójcze, przeciwwirusowe, przeciwgrzybicze, a nawet przeciwnowotworowe. Lista ponad 130 ludzkich genów kodujących jeden lub więcej eksperymentalnie sprawdzonych AMPs została zebrana z kilku publicznie dostępnych zbiorów danych AMP, a także wydobyta z publikacji. Większość z tych Amp nie została wcześniej zidentyfikowana w bazie danych RefSeq, a żadna z baz danych AMP nie łączyła peptydów z ich genem kodującym. Kuratorzy RefSeq ręcznie adnotowali rekordy RefSeq dla każdego ludzkiego genu kodującego AMP, aby upewnić się, że funkcjonalny peptyd został adnotowany, aby dołączyć publikację opisującą aktywność przeciwdrobnoustrojową peptydu, dodać krótkie podsumowanie opisujące aktywność przeciwdrobnoustrojową kodowanego AMP i zapisać nowy atrybut RefSeq „białko ma aktywność przeciwdrobnoustrojową”, który jest zawarty w ustrukturyzowanym komentarzu atrybutu RefSeq (np. NM_001124.2 dla ADM; GeneID: 133). Aby uzyskać dostęp do wszystkich wyselekcjonowanych zapisów ludzkiego transkryptu lub AMP białka, przeszukaj bazę danych nukleotydów lub białek, używając słowa „białko ma aktywność przeciwdrobnoustrojową”. Obecnie w wyszukiwaniu znajduje się 191 rekordów RefSeq, w tym warianty splicingu i izoformy białek.

endogenne retrowirusy (ERVs)

endogenne retrowirusy (ERVs) są loci genomowych, które pochodzą z ancestral insercji egzogennego retrowirusa do genomu gospodarza. ERV loci są na ogół poza zasięgiem RefSeq; jednakże, opisujemy pełnowymiarowe loci kodujące białka ERV, które mapują do pojedynczej lokalizacji genomowej, jeśli ewoluowały do pełnienia funkcji gospodarza, są związane ze znaną chorobą i / lub jeśli zostały przypisane do Nomenklatury przez oficjalny Komitet ds. nomenklatury. Około 8% ludzkiego genomu jest pochodzenia retrowirusowego (27); jednak ze względu na ich starożytne pochodzenie większość ludzkich loci ERV ma nagromadzone mutacje nonsensowne i nie może już kodować białka. Dobrze znanym wyjątkiem są białka syncytyny, które biorą udział w rozwoju łożyska (28). Ludzkie białka syncytin-1 i syncytin-2 są kodowane przez geny ERVW-1 (NM_001130925.1, NM_014590.3) i ERVFRD-1 (NM_207582.2). Do tej pory stworzyliśmy 67 RefSeqs dla ERV loci, które zawierają zapisy reprezentujące geny ERV z różnorodnego zestawu ssaków. Nowa kategoria atrybutów RefSeq zatytułowana „endogenny retrowirus” została stworzona dla tych rekordów i pojawia się w ustrukturyzowanym komentarzu do rekordu RefSeq. Zapisy te można pobrać z bazy danych nukleotydów, wyszukując „endogennego retrowirusa”.

histony zależne od replikacji

szybka synteza mRNA histonów jest wymagana podczas podziału komórki w celu wytworzenia dużych ilości białek histonowych. Kluczowe znaczenie dla tego procesu mają zależne od replikacji geny histonowe, które są regulowane w fazie G1/s cyklu komórkowego (29). Podjęto specjalny projekt RefSeq w celu kuratorowania pełnego zestawu genów kodujących białko histonowe zależne od replikacji u ludzi i myszy. Geny te mają w sekwencji genomowej kanoniczną sekwencję 3′ histonu (HDE), a w wyniku tego Dojrzałe mRNA charakteryzują się brakiem ogonów Poli(a) i zamiast tego kończą się krótko po strukturze pętli macierzystej RNA (30). Element HDE znajduje się w transkrypcji prekursorowej, ale nie jest uwzględniany w transkrypcji przetworzonej reprezentowanej przez RefSeq. Położenie zachowanej 16 nukleotydowej sekwencji struktury stem-loop jest wskazane w rekordzie RefSeq jako adnotacja Cechowa zatytułowana „stem-loop”. Przykład można zobaczyć na pozycji RefSeq Nm_003539. 3 dla HIST1H4D (GeneID: 8360). Do tej pory opracowano 127 rekordów histonu zależnego od replikacji u ludzi i myszy oraz dodano atrybut RefSeq, który można wykorzystać do pobrania tych rekordów z bazy danych nukleotydów za pomocą szukanego ciągu „Histon zależny od replikacji”.

Regulatory upstream open reading frame (uorfs)

tłumaczenie upstream open reading frame (uorf) może negatywnie wpływać na tłumaczenie pierwotnej otwartej ramki do czytania kodującej białko (pORF) (31). Efekt ten nie zawsze całkowicie wycisza translację pORF i może być zależny od typu komórki, stanu rozwojowego lub stanu komórkowego. W związku z tym, chociaż uorf można przewidzieć na podstawie sześciostopniowego tłumaczenia transkryptu, efekt regulacyjny tego elementu musi być określony poprzez walidację eksperymentalną. Kuratorzy RefSeq przejrzeli literaturę w celu znalezienia transkryptów z eksperymentalnymi dowodami regulatorowych uorf i zaktualizowali odpowiednie rekordy transkrypcji RefSeq, aby dodać misc_feature oznaczające lokalizację tych uorf. Przykładem jest wpis RefSeq Nm_000392.4 dla ABCC2 (GeneID: 1244). Nowa kategoria atrybutów RefSeq zatytułowana „regulatory uORF” została utworzona i pojawia się w ustrukturyzowanym komentarzu do tych rekordów RefSeq. Zarówno przypisana funkcja, jak i atrybut cytują publikację wspierającą PubMed ID. Do tej pory 260 rekordów zostało opatrzonych tym atrybutem i zapisy te można pobrać z bazy danych nukleotydów, wyszukując „regulatory uORF”

geny Antyzyme

jednym z celów projektu RefSeq jest reprezentowanie genów o wyjątkowej biologii, które nie przestrzegają standardowych zasad dekodowania syntezy białek. Taki przykład stanowi Gen antyzymowy dekarboksylazy ornitynowej, w którym występuje zaprogramowany Mechanizm Zmiany RAM +1 rybosomalnej i nie można go przewidzieć za pomocą konwencjonalnych narzędzi obliczeniowych. Zestaw transkrypcji antyzymów kręgowców i zapisów białek był ostatnio przedmiotem ręcznego wysiłku adnotacji w celu stworzenia standardów poprawiających adnotację tych produktów genowych przez rurociąg adnotacji genomu eukariotycznego (32). Rekordy RefSeq były ręcznie adnotowane za pomocą funkcji split CDS w celu odzwierciedlenia poślizgu rybosomalnego i zawierały atrybut „poślizgu rybosomalnego” z opublikowanymi dowodami, różne różne adnotacje dotyczące funkcji (takie jak lokalizacja miejsca przesunięcia ramki) oraz krótkie podsumowanie opisujące funkcję i nowe właściwości genu (np. NM_139081.2). Zapisy te można pobrać z bazy nukleotydów lub białek za pomocą zapytania: vertebrates refseq ribosomal slippage antizyme. To wyszukiwanie znajduje obecnie 242 rekordów RefSeq (NM lub NP), które obejmują warianty transkrypcji i izoformy białek.

Bezkręgowce

gatunki bezkręgowców stanowią zdecydowaną większość istniejących metazoanów (33); jednak tylko stosunkowo niewielka liczba jest reprezentowana przez zsekwencjonowane genomy. To pomimo faktu, że wiele gatunków ma krytyczne znaczenie biomedyczne, takie jak Anopheles gambiae, wektor malarii i Biomphalaria glabrata, wektor schistosomiasis (34,35). Inne bezkręgowce, w tym Apis mellifera, Bombyx mori i Crassostrea gigas, mają znaczną wartość handlową (36-38). Grupa RefSeq dołożyła starań, aby zwiększyć liczbę i zakres genomów bezkręgowców reprezentowanych w zbiorze danych, dostarczając adnotację za pośrednictwem potoku adnotacji genomu eukariotycznego lub propagując adnotację z zgłoszeń INSDC na kopię tych genomów RefSeq. W przypadku obu procesów Jesteśmy zależni od publicznej dostępności wysokiej jakości genomów w bazach danych INSDC i Assembly database NCBI (www.ncbi.nlm.nih.gov/assembly/). do tej pory NCBI opisało 46 genomów bezkręgowców, w tym reprezentatywne gatunki owadów, pajęczaków, mięczaków i akordatów bazalnych. Przewidujemy znaczny wzrost liczby genomów owadów i innych bezkręgowców w wyniku inicjatyw genomowych, takich jak i5k (39), 1kite (1k Insect Transcriptome Evolution, http://www.1kite.org/) I Global Invertebrate Genome Alliance (http://giga.nova.edu/) (40).

rośliny

RefSeq nadal rozszerza różnorodność gatunków roślin reprezentowanych w zbiorze danych. Do tej pory 61 gatunków roślin zostało włączonych do zbioru danych genomów RefSeq (ftp://ftp.ncbi.nlm.nih.gov / genomes / refseq / plant/), z których 33 gatunki zostały opatrzone adnotacją za pośrednictwem rurociągu adnotacji genomu eukariotycznego; reszta to kopie adnotowanych genomów RefSeq przekazane INSDC. W przyszłości więcej genomów roślin wybranych do włączenia RefSeq będzie przetwarzanych przez rurociąg adnotacji eukaryote, zamiast propagowania adnotacji z zgłoszenia INSDC. Jest to zmiana polityki dla genomów roślin RefSeq i spowoduje większą ogólną spójność danych adnotacji roślin w zbiorze danych RefSeq. Większość transkryptów RefSeq i białek dostępnych dla gatunków roślin to rekordy „modelowe” (xm_, xp_ i xr_ accessions; Tabela 1), z mniejszym podzbiorem „znanych” rekordów (NM_, NR_, NP_), które są utrzymywane niezależnie od procesu adnotacji przez połączenie automatycznego przetwarzania i ręcznego przeglądu. Obecnie dla Zea mays i Solanum lycopersicum dostarczane są ręczne przetwarzanie transkrypcji roślin i danych dotyczących białka. Obecne skupienie kuratorskie pociąga za sobą obszerny przegląd sekwencji i jest ukierunkowane na rozwiązywanie problemów związanych z jakością w bieżącym zestawie transkrypcji. Rozwiązywanie błędów koncentruje się na identyfikacji i usuwaniu chimerycznych transkryptów, nadmiarowych transkryptów i genów oraz poprawie jakości reprezentowanej sekwencji poprzez ocenę indeli i niedopasowań między transkrypcją RefSeq, sekwencją genomową i danymi ortologicznymi. W przypadku roślin staramy się zapewnić wyselekcjonowany transkrypt i zestaw danych białkowych, który jest zgodny z odmianą wybraną do sekwencjonowania i montażu genomu. Protokół kuracji stosowany dla danych dotyczących kręgowców jest również stosowany dla roślin. Tak więc zapisy transkrypcji RefSeq mogą być aktualizowane tak, aby opierały się na innej sekwencji źródłowej INSDC lub mogą być montowane z więcej niż jednego rekordu sekwencji INSDC w celu dostarczenia transkrypcji z preferowanej odmiany. Jeżeli dane z transkrypcji INSDC nie są dostępne dla odmiany genomowej, to transkrypcja RefSeq może być wygenerowana ze złożonej sekwencji genomowej w oparciu o kombinację transkrypcji lub dopasowań białek, RNA-Seq i / lub opublikowanych danych. Drugim obszarem zainteresowania jest zwiększenie liczby obsługiwanych transkryptów kodujących białka i białek, ponieważ zapewnia to odpowiednio dobrany odczynnik, który może być używany podczas opisywania innych genomów roślinnych. Wreszcie, tworzymy więcej RefSeqs reprezentujących warianty splicingu, gdy istnieją wystarczające dowody potwierdzające. Wysiłki te znacznie poprawią jakość zbioru danych RefSeq zakładu I przyczynią się do poprawy przyszłych adnotacji genomu. Aktualny zestaw genomów roślin adnotowanych przez rurociąg można uzyskać na stronie NCBI eukaryotic genome annotation pipeline http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/ z linkami do szczegółowego raportu adnotacji i innych zasobów, takich jak species BLAST i FTP.

glony, grzyby, nicienie i pierwotniaki

mały rurociąg genomu EUKARIOTYCZNEGO NCBI jest nowym zautomatyzowanym rurociągiem zaprojektowanym do generowania rekordów RefSeq w wyniku bezpośredniego propagowania adnotowanych rekordów INSDC. Wygenerowane w ten sposób rekordy RefSeq są kopiami danych GenBank z pewnymi zmianami formatu, aby spełnić wymagania RefSeq. Najbardziej zauważalną różnicą między oryginalnym rekordem INSDC a rekordem RefSeq jest dodanie produktu transkrypcji RefSeq. Chociaż nie zaprojektowano go do generowania adnotacji genomu de novo, mały rurociąg genomu eukariotycznego czerpie z kilku modułów rurociągu adnotacji genomu EUKARIOTYCZNEGO NCBI i ich kodu (http://www.ncbi.nlm.nih.gov/books/NBK169439/).

nazwa „Małe eukarioty” odnosi się do podstawowego zastosowania rurociągu do generowania genomów RefSeq dla stosunkowo mniejszych genomów eukariotycznych (w porównaniu do genomów roślin i kręgowców), takich jak glony, pierwotniaki, grzyby, nicienie i niektóre stawonogi. Jednak niektóre duże genomy roślinne są również przetwarzane za pomocą tego rurociągu. Rurociąg ten przetwarza wysokiej jakości zespoły składające się z chromosomów i / lub rusztowań oraz ich części składowych. Pierwszeństwo mają zespoły z wysokim contig i rusztowaniem N50, wysokiej jakości Sekwencja i dość dobra adnotacja złożona przez INSDC. Ten rurociąg, który zastępuje historyczny przebieg procesu, który wymagał większego wsparcia ręcznego, dopiero niedawno osiągnął fazę produkcji publicznej i już teraz daje zwiększoną liczbę „małych” genomów eukariotycznych reprezentowanych w RefSeq. Trwają prace nad optymalizacją przepustowości potoku oraz dodaniem większej automatyzacji i dalszą minimalizacją zadań związanych z przetwarzaniem kuratorów. Długoterminowe plany obejmują wdrożenie systemu zarządzania nazwami białek w celu dostarczania, poprawiania lub ulepszania nazw zgłoszonych przez INSDC w czasie. Wiele genomów, które są w zasięgu małego rurociągu eukariotów, nie może być obecnie przetwarzanych przez (duży) rurociąg adnotacji genomu eukariotycznego z powodu różnorodności taksonomicznej i ograniczonej dostępności danych transkrypcyjnych potrzebnych do szkolenia rurociągu adnotacji de novo.

grzyb celowane loci

morfologia grzyba jest bardzo zróżnicowana, począwszy od złożonych struktur wielokomórkowych do bardzo prostych pojedynczych komórek. Różne struktury morfologiczne i typy zarodników mogą być wytwarzane przez jeden gatunek. Z drugiej strony wiele gatunków wytwarza podobne morfologie (morfy), ale w rzeczywistości są genetycznie bardzo odległe. Do niedawna pojedynczy gatunek mógł być prawomocnie opisany z więcej niż jedną nazwą dwumianową na podstawie morfologii płciowej lub bezpłciowej. W wielu przypadkach opisano i zarejestrowano tylko jeden Morf dla danego gatunku, chociaż gatunki blisko z nim spokrewnione mogą mieć opisane i zarejestrowane kilka Morf. W związku z tym porównywanie sekwencji zostało zastosowane w społeczności grzybów w celu rozróżnienia między gatunkami, śledzenia gatunków w trakcie złożonych cykli życiowych i identyfikacji gatunków tajemniczych. W ramach dynamicznego procesu ponownej oceny taksonomicznej wiele korekt gatunków grzybów nie zawsze jest aktualnych w danych sekwencyjnych Genbanku.

aby być bardziej wiarygodnym źródłem do identyfikacji opartej na DNA, sekwencje referencyjne pochodzące z okazów typu (które działają jako odniesienia dla gatunków) muszą być oznakowane prawidłową i najbardziej aktualną nazwą gatunku. Bazy loci ukierunkowane na grzyby RefSeq zapewniają ten cenny zasób. Na przykład PRJNA177353 jest Bioprojektem, który w szczególności koncentruje się na wewnętrznych transkrybowanych regionach dystansowych (ITS) w jądrowym cistronie rybosomalnym, który był używany przez wiele lat jako marker filogenetyczny i ostatnio zatwierdzony jako formalna Sekwencja kodów kreskowych grzybów (41). Baza danych its RefSeq powstała w wyniku współpracy z Index Fungorum, MycoBank i UNITE, a także dużą grupą specjalistów taksonomicznych. Sekwencje zostały wybrane, głównie z okazów typowych o prawidłowych opisach, a następnie z sekwencjami powiązano aktualne prawidłowe nazwy gatunków w celu reprezentowania większości akceptowanych rzędów grzybów (8). Wyniki tego wysiłku kuratorskiego były wykorzystywane i cytowane w różnych publikacjach (42-46) i wspomagały dodatkowe wysiłki w walidacji podzbiorów sekwencji referencyjnych, np. gatunków o znaczeniu medycznym (47).

celem, przy ciągłej kuracji, jest dodanie sekwencji z nowo opisanych rzędów i rozszerzenie reprezentacji na większość akceptowanych rodzin z naciskiem na grzyby o znaczeniu medycznym. Proces obejmuje również wprowadzanie korekt, zastępowanie sekwencji ze zweryfikowanego materiału sekwencją z materiału typu, gdy staje się on dostępny i edytowanie linii definicji lub usuwanie rekordów RefSeq w miarę zmian klasyfikacji taksonomicznej. Zapewnia to, że wyniki wyszukiwania BLAST poprawnie wyświetlają bieżącą nazwę. RefSeq jego rekordy zostały rozszerzone do reprezentowania 3,060 sekwencji reprezentujących 270 rodzin z 39 klas. Podczas początkowej współpracy jego RefSeq wysiłku, mniejszy zestaw akcesji sekwencji z 28S jądrowej dużej podjednostki rybosomalnego genu (LSU) zostały również zebrane, ale nie zweryfikowane. Przebieg pracy podobny do procesu kuratorowania rekordów its był śledzony, a podczas dalszego kuratorowania te rekordy LSU zostały zweryfikowane pod kątem jakości sekwencji, prawidłowej identyfikacji i dokładnych danych źródłowych. Blisko 500 rekordów (z 800 potencjalnych rekordów) reprezentujących >zweryfikowano i niedawno wydano 100 rodzin z 21 klas. Zestaw danych 28S można pobrać z Bioprojekt PRJNA51803 (48).

prokarioty

kolekcja prokariotycznych genomów NCBI RefSeq reprezentuje zmontowane genomy prokariotyczne o różnych poziomach jakości i gęstości pobierania próbek. W przypadku prokariotów, opierając się na wcześniejszych opiniach społeczności, naszą obecną polityką jest zapewnienie adnotacji genomu dla wszystkich genomów prokariotycznych, które spełniają nasze kryteria jakości. W ostatnich latach mieliśmy do czynienia z dwoma głównymi wyzwaniami: (i) nadążanie za szybką eskalacją przedłożonych genomów prokariotycznych; oraz (ii) zajęcie się rosnącą niespójnością w adnotacji genomu ze względu na wykorzystanie zarówno rurociągu opartego na propagacji INSDC, jak i różnych wersji rurociągu adnotacji genomu NCBI de novo, opracowanego w czasie.

wraz ze wzrostem zainteresowania ludzkimi patogenami i rozwojem technologii sekwencjonowania DNA, liczba zsekwencjonowanych genomów prokariotycznych gwałtownie wzrosła w ostatniej dekadzie. Niektóre bakteryjne szczepy są często nie do odróżnienia przy użyciu obecnych metod genotypowania, ale drobne różnice genetyczne mogą być wykrywane na podstawie sekwencjonowania całego genomu, który jest przydatny do charakteryzowania szlaków transmisji, identyfikowania oporności na antybiotyki i badania ognisk. Aby zbadać patogeny przenoszone przez żywność lub ogniska infekcji, w ostatnich latach zsekwencjonowano i opatrzono dużą liczbę prawie identycznych genomów bakterii, w wyniku czego powstało wiele identycznych białek, z których każde ma odrębną liczbę akcesji. W 2013 roku NCBI wprowadziło nowy model danych dotyczących białka i prefiks akcesyjny (WP_) dla kolekcji RefSeq. Ta zmiana zmniejszyła redundancję w prokariotycznych białkach RefSeq i ułatwiła identyfikację białek, które były identycznie znalezione na więcej niż jednym genomie. Pozwoliło to również na ulepszoną strategię zarządzania prokariotycznymi nazwami białek. Te nie redundantne zapisy reprezentują unikalne sekwencje białek prokariotycznych, które są niezależne od konkretnego genomu bakterii i mogą być opisywane na wielu szczepach lub gatunkach (www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).

historycznie, RefSeq bacterial genomes annotation was propagated from INSDC submissions, when available, or generated using different versions of NCBI ’ s Prokaryotic Genome Annotation Pipeline (which is also offer as a service for GenBank submissions). Spowodowało to skumulowane niespójności zarówno w adnotacji strukturalnej, jak i funkcjonalnej w prokariotycznym zbiorze danych RefSeq. W ciągu ostatnich dwóch lat NCBI ulepszyło kilka aspektów potoku adnotacji prokariotycznej genomu, aby zwiększyć pojemność i dalej standaryzować Zasady adnotacji. Nasz rurociąg łączy algorytm wywoływania genów, GeneMarkS+ (49,50), z podejściem do wykrywania genów opartym na wyrównaniu i jest w stanie adnotować zarówno kompletne, jak i szkicowe genomy WGS. Obecnie rurociąg przewiduje geny kodujące białka, strukturalne RNA (5S, 16S i 23s), tRNA i małe niekodujące RNA.

w 2015 roku opublikowaliśmy kompleksową aktualizację adnotacji dla prokariotycznych genomów RefSeq w celu zharmonizowania adnotacji genomu i zakończenia przejścia na nowy model danych o białkach. Opracowano nową bazę nazw prokariotycznych białek, specyfikacje nazw i strategię opartą na dowodach, które są obecnie w trakcie wdrażania. Do tej pory ponad 3 miliony rekordów białek zaktualizowało nazwy w początkowej demonstracji podejścia. Nowy prokariotyczny model danych oferuje znaczną przewagę w zarządzaniu nazwami, ponieważ nazwa białka jest przenoszona z rekordem sekwencji białka; aktualizacja nazwy na tym rekordzie białka powoduje automatyczne rozmnażanie aktualizacji do wszystkich genomów, które są opatrzone tym numerem akcesyjnym.

genomy prokariotyczne RefSeq są zorganizowane w kilka nowych kategorii, takich jak genomy referencyjne i genomy reprezentatywne w oparciu o Wybrane atrybuty oraz miary jakości montażu i adnotacji (www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/) (51). Genomy referencyjne są ręcznie wybieranymi kompletnymi genomami „gold standard” o wysokiej jakości adnotacji i najwyższym poziomie eksperymentalnego wsparcia dla adnotacji strukturalnej i funkcjonalnej. Obecnie mały zbiór danych 122 genomów referencyjnych jest ręcznie adnotowany przez grupy współpracujące i personel NCBI. Genomy referencyjne są dostępne pod adresem: http://www.ncbi.nlm.nih.gov/genome/browse/reference/. Genomy reprezentatywne są obliczane obliczeniowo i wybierane do reprezentowania różnych gatunków. Genomy reprezentatywne są dostępne pod adresem: www.ncbi.nlm.nih.gov/genome/browse/representative/.

RefSeq dane genomu prokariotycznego mogą być dostępne w bazach danych BLAST, zasobach internetowych (Assembly, BioProject, Genome, Nucleotide and Protein), za pośrednictwem narzędzi programistycznych NCBI, lub mogą być pobrane z genomów lub witryn FTP refseq. Niestandardowa strona „mikrobów” BLAST, dostępna ze strony głównej BLAST, zawiera opcje wyszukiwania dla wszystkich genomów prokariotycznych RefSeq, podgrupy genomów referencyjnych i reprezentatywnych lub ograniczenia wyszukiwania do konkretnych taksonów. Podgrupa prokariotycznych genomów jest opatrzona identyfikatorem genu NCBI i może być pobrana w zasobie genowym NCBI lub ze strony FTP genu. W przypadku archai, jest to przewidziane dla najbardziej kompletnych genomów. W przypadku bakterii jest to przewidziane dla genomów referencyjnych i genomów reprezentatywnych dla gatunków, które mają co najmniej 10 genomów.

prokariotyczne loci

u prokariotów Sekwencja rybosomalnego RNA 16S stała się standardowym markerem molekularnym dla opisu nowego gatunku. Chociaż te sekwencje znacznikowe stały się szeroko stosowane, jakość danych sekwencji i powiązanych metadanych przesyłanych do baz danych INSDC znacznie się różni. Uznając znaczenie dostępu do wysokiej jakości danych dla tych znaczników, NCBI rozszerzyło projekt targeted loci, aby zapewnić aktualne źródło danych. Docelowy projekt loci utrzymuje obecnie prawie 18 000 rybosomalnych sekwencji referencyjnych RNA 16S, z których ponad 95% pochodzi od szczepów typu. Szczepy typu są uważane za wzór gatunku i istotne jest, aby dane dotyczące szczepów typu były opatrzone poprawnymi metadanymi i były wolne od zanieczyszczeń.

praca ta obejmowała wyczerpujący przegląd i aktualizację bazowej bazy danych taksonomii, która została użyta w połączeniu z filtrem typu Entrez NCBI do pobierania sekwencji kandydatów. Dane sekwencyjne i związane z nimi taksonomie/metadane zostały zweryfikowane i poprawione w celu uwzględnienia najbardziej aktualnych informacji. Jeśli sekwencja nie powiodła się lub nie mogła zostać dokładnie zwalidowana, została wykluczona. Te sekwencje referencyjne mogą być teraz używane jako „złote standardy” do analizy istniejących i nowych sekwencji rRNA.

zestawy danych bakteryjnych i Archaealnych 16S rRNA są dostępne z BioProject (odpowiednio PRJNA33175 i PRJNA33317). Dostępna jest również niestandardowa baza danych BLAST („16S ribosomal RNA sequences (Bacteria and Archaea)”).

wirusy

model danych RefSeq dla wirusów różni się od modelu innych organizmów. Ogólnie rzecz biorąc, dla każdego gatunku wirusa tworzony jest tylko jeden kompletny Genom RefSeq. Czasami w obrębie danego gatunku wirusa tworzy się wiele rekordów RefSeq w celu odzwierciedlenia dobrze zdefiniowanych genotypów lub ważnych szczepów laboratoryjnych i / lub dzikich. Dodatkowe genomy dla danego gatunku są walidowane pod kątem taksonomii i kompletności, a następnie indeksowane jako sekwencja „sąsiadów” (52). Zarówno genomy RefSeq, jak i sąsiadujące są dostępne za pośrednictwem wyspecjalizowanego Źródła genomu wirusowego (http://www.ncbi.nlm.nih.gov/genome/viruses/) oraz ze stron Entrez Nucleotide and Genome wykorzystujących linki do „genomu RefSeq dla gatunków” i „innych sekwencji genomu INSDC” (52).

Taksonomia jest głównym problemem genomiki wirusowej, ponieważ istnieje 3186 gatunków wirusów oficjalnie uznanych przez Międzynarodowy Komitet taksonomii wirusów (ICTV) (53) i 4834 pełnych genomów zarówno oficjalnych, jak i tymczasowych gatunków wirusów dostępnych w bazach danych INSDC. Narzędzie NCBI Pairwise Sequence Comparison (PASC) zostało opracowane, aby pomóc w klasyfikacji genomów wirusowych w oparciu o globalne i/lub lokalne dopasowania między genomami (http://www.ncbi.nlm.nih.gov/sutils/pasc/). Zakres tego narzędzia został rozszerzony o szereg rodzin wirusów i innych grup taksonomicznych, a także został wykorzystany do wsparcia rozgraniczenia nowych kryteriów taksonomicznych (54-57).

innym pojawiającym się problemem w genomice wirusowej jest niespójna i/lub niedokładna adnotacja wśród powiązanych sekwencji genomu wirusa. Kwestia ta często odzwierciedla różne procesy adnotacji i trwające prace eksperymentalne i może prowadzić do dezorientacji wśród konsumentów danych i utrudniać analizę porównawczą między genomami. Ten problem jest rozwiązywany w zasobie NCBI Virus Variation (http://www.ncbi.nlm.nih.gov/genome/viruses/variation/), gdzie stosowane są potoki obliczeniowe, aby zapewnić aktualną, znormalizowaną adnotację dla kilku wirusów (58). Obecnie rurociągi te obliczają znormalizowane granice genów i białek dla wszystkich sekwencji wirusa grypy, wirusa dengi i wirusa Zachodniego Nilu oraz standaryzowane nazwy genów i białek i terminy metadanych dla tych i dwóch innych wirusów, koronawirusa układu oddechowego Bliskiego Wschodu i Ebolawirusa. Te ustandaryzowane dane są następnie wykorzystywane w wyspecjalizowanym, zorientowanym na metadane interfejsie wyszukiwania, który ułatwia pobieranie sekwencji w oparciu o określone kryteria biologiczne.

utrzymanie aktualnych, powszechnie akceptowanych standardów adnotacji wymaga ciągłej współpracy z większym środowiskiem naukowym. Grupa robocza NCBI Viral Genome Annotation Working Group została powołana w celu wykorzystania konsorcjów publicznych baz danych, centrów sekwencjonowania i grup badawczych w celu opracowania standaryzowanej adnotacji sekwencyjnej, a także wyizolowania schematów nazewnictwa dla różnych grup wirusów (59-63). Takie podejście nie tylko ustanawia standardy adnotacji wirusowej, ale także reprezentuje te standardy w bieżącym rekordzie RefSeq, zapewniając dostępność dla wszystkich użytkowników baz danych i zgłaszających. Podobna współpraca jest również konieczna, aby wspierać zasoby interpretacyjne o wartości dodanej, takie jak baza danych dotyczących interakcji z ludźmi HIV-1 (http://www.ncbi.nlm.nih.gov/genome/viruses/retrowirusy/hiv-1/interakcje/) (64). Współpracownicy z Southern Research Institute zapewniają udokumentowane HIV-1, ludzkie interakcje molekularne kuratorem z literatury i NCBI utrzymuje przyjazny dla użytkownika zasób, gdzie użytkownicy mogą kwerendy dla określonych rodzajów interakcji i znaleźć więcej informacji na temat genów zaangażowanych.

przyszłe kierunki

projekt RefSeq jest wyjątkowy w oferowaniu zbioru danych sekwencji referencyjnych transkryptów, białek i genomów, który obejmuje wszystkie królestwa życia i został aktywnie utrzymywany i aktualizowany w czasie, aby włączyć ulepszone strategie obliczeniowe, nowe typy danych i nową wiedzę. Wykazaliśmy zdolność i zdolność reagowania na niedawny szybki wzrost liczby sekwencjonowanych genomów przesyłanych do baz danych INSDC. Zdefiniowaliśmy zróżnicowany zestaw polityk i strategii kuratorowania i adnotacji gatunków eukariotycznych, prokariotycznych i wirusowych, aby zaspokoić różne potrzeby społeczności specyficznych dla organizmów. Zestaw danych RefSeq jest szeroko stosowany jako standard odniesienia dla wielu różnych analiz, w tym zastosowań klinicznych u ludzi i patogenów, genomiki porównawczej, testów ekspresji, interpretacji zmienności sekwencji oraz konstrukcji tablic i sond. W NCBI zbiór danych RefSeq jest zintegrowany z wieloma zasobami, w tym Assembly, BLAST, Epigenomics, Gene (gdzie adnotacja RefSeq jest podstawową podstawą większości wpisów genów), Genome, dbSNP, dbVar, variation Viewer i więcej.

będziemy nadal koncentrować się na ręcznym doborze, aby poprawić informacje strukturalne i funkcjonalne dla ludzkich i innych genomów kręgowców. Nasze konserwatywne podejście do ręcznego doboru zapewnia stałą wysoką jakość i niezawodność ludzkich, mysich i innych „znanych” rekordów RefSeq, które służą potrzebom tych, którzy potrzebują dobrze obsługiwanej definicji alternatywnych eksonów (mniej fałszywych alarmów). Dodanie danych RNA-Seq do naszego potoku adnotacji znacznie zwiększyło naszą adnotację alternatywnych wariantów splicingu jako modelu RefSeqs, aby zaspokoić potrzeby tych, którzy chcą bardziej kompleksowej, ale nadal dobrze wspieranej definicji exome (mniej fałszywych negatywów). Podczas gdy zarówno znane, jak i modelowe RefSeqs zgłaszają dowody wsparcia w rekordzie sekwencji, używają do tego różnych podejść. Przyszłe wysiłki będą ukierunkowane na harmonizację raportowania dowodów zarówno dla „znanych”, jak i „modelowych” RefSeqs, aby użytkownicy mogli łatwiej zidentyfikować te informacje. W niedalekiej przyszłości dodamy również nowy typ danych do kolekcji RefSeq dla ludzi i myszy, aby reprezentować doświadczalnie zgłaszane elementy regulacyjne i funkcjonalne ze znanymi (lub rozsądnie wnioskowanymi) konsekwencjami funkcjonalnymi.

w przypadku genomów prokariotycznych kontynuujemy prace nad udoskonaleniem aspektów adnotacji strukturalnej generowanej przez rurociąg adnotacji genomu prokariotycznego. Nasza praca nad nowym podejściem do zarządzania informacjami funkcjonalnymi jest nadal udoskonalana i zostanie opisana w innym miejscu. Przewidujemy ponowną adnotację całego zestawu danych genomów Prokaryotycznych RefSeq, gdy pojawią się nowe wersje naszego potoku adnotacji prokaryotycznej (w celu poprawy adnotacji strukturalnej). Decyzja o adnotacji wszystkich prokariotów RefSeq przy użyciu jednej metody, wraz z samą objętością tego zbioru danych, wymaga innego podejścia, które wykorzystuje wiele źródeł dowodów w celu dostarczenia informacji funkcjonalnych. Nazwy białek będą aktualizowane na bieżąco według rodzin białek lub kategorii typów dowodów. Nasze cele na nadchodzący rok obejmują większą integrację Rfam (65) w naszym potoku adnotacji, rozszerzoną współpracę, ulepszone nazwy białek i raportowanie dowodów potwierdzających zapis sekwencji białek.

chcielibyśmy podziękować społeczności naukowej za konstruktywne informacje zwrotne, sugestie, raporty o błędach i współpracę w ciągu ostatnich 15 lat, które przyczyniły się do jakości i dokładności reprezentowanej sekwencji, adnotacji strukturalnej i adnotacji funkcjonalnej.

finansowanie

Finansowanie opłaty otwartego dostępu: wewnętrzny program badawczy Narodowego Instytutu Zdrowia, National Library of Medicine.

Oświadczenie o konflikcie interesów. Brak deklaracji.

Nosek

Alter

banki

z. s.

borsbum

Bowman

s. d.

breckler

s. j.

zbiornik

Chambers

C. D.

Chiny

Christensen

i in.

standardy naukowe. Promocja kultury otwartych badań

Nauka

2015

348

1422

1425

Szary

K. A.

Yates

Sił

L. P.

Right

Бруфорд

E. A.

Genenames.org : zasoby HGNC w 2015 roku

kwasy nukleinowe Odp.

2015

D1079

D1085

Rużyckaja

Bradford

J. M.

Fraser

Hou

. D. R.

Paddock

Ramachandran

Piosenkarka

Bull

Van Слайк

C. E.

Orzeł

A. E.

itp.

Zfin, Danio rerio model ciała bazie: aktualizacje i nowe kierunki

Geneza

2015

498

509

tak

I tak: koncentrator białka informacje

kwasów nukleinowych rez.

2015

D204

212

Kozomara

Griffiths-Jones

miRBase: opisywanie mikroRNA z wysokim stopniem ufności przy użyciu danych głębokiego sekwencjonowania

kwasy nukleinowe Rez.

2014

D68

div>k. m.

Goldfarb

Cox

Farrell

k. m.

Gupta

joardar

Kodali

Murphy

Mr.

O ’ Leary

pujar

Streszczenie genomu myszy projektu RefSeq

Mamm. Genom

2015

379

390

Dalglish

fliczek

Cunningham

astashin

Tully

R. E.

Proctor

pies

McLaren

Larsson

Won

B. W.

i in.

sekwencje referencyjne genomu locus: ulepszona podstawa do opisania wariantów ludzkiego DNA

Genom med.

2010

Schoch

C. L.

robberze

Robert

Кардинали

Irini

Meyer

Nilsson

P. H.

Hughes

Miller

A. N.

itp.

Szukaj igły w stogach siana: związek nazw naukowych, wzorcowych próbek i molekularnych danych na grzyby

Baza danych

2014

Zhang

To jest

Larkin

D. M.

czy

Storz

J.F.

Antunes

Greenwold

MJ.

Meredith

itp.

genomika porównawcza ujawnia zrozumienie ewolucji i adaptacji genomu ptaków

Nauka

2014

346

1311

1320

Jarvis

E. D.

mirarab

aberer

A. J.

Haud

S. ja

lauch

Nabholz

Howard

J.T.

i in.

Analiza całego genomu pozwala zidentyfikować wczesne gałęzie na drzewie życia współczesnych ptaków

Nauka

2014

346

1320

1331

Farrell

K. M.

O ’ Leary

N. A.

Hart

R. A.

Loveland

Wilming

Уоллин

Диеханс

Burrell

Searle

S. M.

Акен

itp.

Aktualny stan i nowe możliwości bazy danych консенсусных kodowania sekwencji

kwasy nukleinowe Rez.

2014

D865

D872

Pruitt

tatusova

maglotte

d.R.

sekwencje referencyjne NCBI (RefSeq): wyselekcjonowana baza danych bez zbędnych sekwencji genomów, transkryptów i białek

lista kwasów nukleinowych.

2007

D61

D65

div> B. D.

fine

Steinbach

Dandy

Rapp

Show

Ross

J. S.

Ходакоски

Менсе

itp.

Wydzielane alkalicznej PTEN, która wnika w komórki do zmiany transmisji sygnałów i przetrwania

Nauka

2013

341

399

402

Liang

Jan

Jia

Wang

pies

Zhang

Zoo

McNutt

Sheng

i in.

ptenalpha, izoforma PTEN tłumaczona przez alternatywną inicjację, reguluje funkcję mitochondriów i metabolizm energetyczny

procesy metaboliczne w komórkach.

2014

836

848

Boluri

Modelowanie sieci regulacyjnych genomu przy użyciu dużych zbiorów danych

trendy genomu.: TIG

2014

182

191

div>

Fagerberg

Hallström

oxwold

Kampf

djurinović

audeberg

Habuka

Tahmasebpur

Danielsson

Edlund

i wsp.

skanowanie ludzkiej ekspresji specyficznej dla tkanki poprzez integrację transkryptomiki i proteomiki opartej na przeciwciałach w skali całego genomu

Mol. Komórka. Proteomika : MCP

2014

397

406

Bernstein

B. E.

STAMATOJANNOPOULOS

J.A.

Costello

J.F.

Milosavlevich

Meissner

Kellys

Marra

M. A.

Bode

A. L.

Eker

J.R.

i in.

Konsorcjum mapujące epigenomikę mapy drogowej NIH

Nats. Biotechnologia.

2010

1045

1048

Hoffman

Ernst

Wilder

S. P.

Kundaje

Harris

R. S.

Libbrecht

Jardine

Ellenbogen

p. m.

bilmes

J.A.

Birney

i in.

integracyjna adnotacja elementów chromatyny z danych kodujących

kwasy nukleinowe OTV.

2013

827

841

Дерти

Garrett-Энгеле

Макисаак

K. D.

Stevens

P. K.

Шрирам

Pies

Rol

K. A.

Johnson

J.M.

Babak

ilościowe Atlas poliadenylacji w pięciu ssaków

genomu rez.

2012

1173

1183

Lin

jungreis

Kellys

phylocsf: metoda genomiki porównawczej do rozróżniania regionów kodujących i niekodujących białka

Bioinformatyka

2011

i275

282

Cena

A. L.

Jones

N. S.

Pevzner

P. A.

Identyfikacja rodzin powtórzeń De novo w dużych genomach

Bioinformatics

2005

21 Dodatek 1

i351

358

Кодзиус

Kojima

Нисиери

Nakamura

Fukuda

Тагами

Sasaki

Imamura

Kai

Harbers

et al.

komórka: cap analiza ekspresji genów

Nats. Metody

2006

211

222

Morris

Mattik

J. S.

wzrost regulacyjnego RNA

nat. Rev. Genet.

2014

423

437

evin

Hins

BACE1 jako cel terapeutyczny w chorobie Alzheimera: uzasadnienie i obecny stan

leki przeciwstarzeniowe

2013

755

764

długi niekodujący RNA Hotair: nowy onkogen (przegląd)

mol. Miód. REP.

2015

5611

5618

Zasloff

peptydy przeciwdrobnoustrojowe w zdrowiu i chorobie

N. ang. J. Med.

2002

347

1199

1200

Lander

Linton

birren

Nusbaum

Zody

Baldwin

Devon

Dewar

Doyle

Fitzhugh

i in.

sekwencjonowanie pierwotne i analiza ludzkiego genomu

natura

2001

409

860

921

ściany

czy

Veldman

Finnerty

rasi

lavalli

Tan

X. Y.

Edward

House

itp.

Синцитин jest jeńcem ретровирусным białko płaszcza, uczestniczących w ludzkim morfogenezę łożysko

Przyroda

2000

403

785

789

Марцлуфф

W. F.

Гонгиди

Las

K. P.

Jean

Maltais

geny histonowe zależne od replikacji człowieka i myszy

genomika

2002

487

498

/div>

div>

dający

Karpiuk

tig

Kriegs

divomei

krebber

begus-nachrmann

YU.

Джонсен

S. A.

Podzbiór genów histonów H2B produkując полиаденилированные mrna w różnych komórek warunkach

PLOS One

2013

e63745

Barbosa

Пейшейру

Ромао

Regulacja ekspresji genów poprzez wznoszący się otwarte ramki odczytu i choroby człowieka

Ploso Genet.

2013

e1003529

Rajput

Murphy

T.D.

Pruitt

K. D.

refsekuracja i adnotacja genów antyzymów i inhibitorów antyzymu u kręgowców

kwasy nukleinowe rez.

2015

7270

7279

różnorodność biologiczna zwierząt: Schemat taksonomii wysokiego poziomu i przegląd таксономического bogactwa (Dodatki 2013)

Зоотакса

2013

3703

Holt

P. A.

Субраманьян

R. M.

Халперн

Sutton

Шарлаб

Нусскерн

urodzinowych

Винкер

Clark

A. R.

Ribeiro

J. M.

Видес

itp.

Sekwencja genomu plasmodium komara Anopheles gambiae

Nauka

2002

298

129

149

Rycerz

Арикан-Гоктас

H. D.

Иттипрасерт

Одоемелам

E. S.

Miller

A. N.

Bridger

J.M.

schistosomy i ślimaki: spotkanie molekularne

Front. Genetyk.

2014

230

sekwencjonowanie genomu, C.

zrozumienie owadów społecznych z genomu rosnącej Apis mellifera

natura

2006

443

931

949

Xia

Zhou

Cheng

Dai

Zhao

Jae

Cheng

herbata

i in.

szkic sekwencji genomu udomowionego jedwabnika (Bombyx mori)

nauka

2004

306

1937

1940

Fang

Luo

yang

Zhang

Wang

itp.

Genom ostrygi ujawnia adaptacji do stresu i trudności kształtowania umywalki

Przyroda

2012

490

i5K, Konsorcjum

Inicjatywa i5K: promocja genomics stawonogów do wiedzy, zdrowia człowieka, rolnictwa i środowiska

J. Dziedziczenie

2013

104

595

600

Naukowcy

G. C. o.

Bracken -Grissom

Tych.

Collins

A. R.

Collins

Crandall

Дистел

Danych

Гирибет

Пикша

Ноултон

itp.

Globalny sojusz na genomics bezkręgowców (GIGA): rozwój zasobów społeczności do nauki różnych genomów bezkręgowców

J. Dziedziczność

2014

105

Schoch

Seifert

K. A.

hundorf

Robert

Levesque

C. A.

pies

Bolczakowa

Voigt

KRUS

P. w.

itp.

Region wewnętrznego transkrybowanego elementu dystansowego rybosomu jądrowego (ITS) jako uniwersalny marker kodu kreskowego DNA dla grzybów

Proc. Natl. Akademia nauk USA

2012

109

6241

6246

Висагие

C. M.

Хоубракен

Фрисвад

J. C.

Hong

S. B.

Клаассен

K. H.

Peronie

Seifert

K. A.

Varga

Jaguchi

Samson

identyfikacja i opis rodzaju Penicillium

Ogier. Mikol.

2014

343

371

Cagno

Grunewald

roskini

colabella

Gobbetti

Kardynali

fenotypowa i molekularna różnorodność szczepów meyerozyma guilliermondii izolowanych z żywności i innych nisz ekologicznych wskazuje na powstającą specjację

Mikrobiol żywności.

2015

206

215

Federhen

Materiał giełdowy w bazie danych taksonomii NCBI

kwasy nukleinowe OTV.

2015

D1086

D1098

Nilsson

P. H.

Тедерсу

Moc

Райберг

Кристианссон

Hartmann

Унтерсехер

Porter

T. M.

Bengtsson-Palma

Walker

de Souza

i in.

kompleksowy, automatycznie aktualizowany zestaw danych sekwencji grzybów ITS do kontroli chimer na podstawie danych referencyjnych w ramach działań sekwencjonowania Środowiskowego

drobnoustrój. O/JSME

2015

145

150

Mittelbach

Jurków

nocentini

Nepi

weigend

Beger

cukry nektarowe i wizyty ptaków określają środowisko kwiatowe dla drożdży podstawnokomórkowych na Wyspach Kanaryjskich

BMC Ecol.

2015

Irini

Serena

Garcia-Hermoso

Арабатзис

Деснос-Олливье

Кардинали

Arthur

Normand

Giraldo

i in.

Międzynarodowe Towarzystwo Mykologii człowieka i zwierząt (ISHAM) – jego referencyjna baza danych DNA kod kreskowy – standardowe narzędzie z kontrolą jakości do rutynowej identyfikacji grzybów chorobotwórczych ludzi i zwierząt

miód. Mikol.

2015

313

337

Schoch

Seifert

K. A.

Hundorf

St.

Robert

J.L.

Levesque

S. A.

Chen

Kody kreskowe grzybów

Autor konsorcjum kodów kreskowych grzybów, L.

region jądrowego rybosomalnego wewnętrznego transkrybowanego odstępnika (its) jako uniwersalny marker kodu kreskowego dna dla grzybów

proc. Natl. Akad. nauki USA.

2012

109

6241

6246

Besemer

Lomsadze

Borodovsky

znaczniki genetyczne: metoda samokształcenia do przewidywania wyzwalania genów w genomach drobnoustrojów. Znaczenie dla znalezienia motywów sekwencji w regionach regulatorowych

kwasy nukleinowe.

2001

2607

2618

/div>

Lomsadze

Identyfikacja genów w prokariotycznych genomach, fagach, metagenomach i sekwencjach EST za pomocą zestawu znaczników genomowych

Curr. Protokół. Mikrobiol.

2014

Blok 1 7

Tatusova

Chiufo

federhen

Fedorow

McVey

O ’ Neill

Zasławski

aktualizacja zasobów RefSeq dla genomów drobnoustrojów

kwasy nukleinowe.

2015

D599

D605

brister

J.R.

ako-Ajay

Bao

Blinkova

zasób genomów wirusowych NCBI

kwasy nukleinowe otw.

2015

D571

D577

Adams

Lefkowitz

King

Bamford

Breitbart

Davison

Gabriel

Garbala

Knowles

Krell

i in.

głosowanie nad ratyfikacją propozycji taksonomicznych Międzynarodowemu Komitetowi taksonomii wirusów (2015)

Arch. Końcówka.

2015

160

1837

1850

Bao

/div>

Porównaj попарных sekwencji (PASC) i jego zastosowanie w taksonomii filovirus

Wirusy

2012

1318

1327

Bao

Четвернин

Татусова

Ulepszenia w porównaniu попарных sekwencji (PASC): internetowe narzędzie do taksonomii wirusów na podstawie genomu

Łuk. Końcówka.

2014

159

3293

3304

Kun

Durrwald

Bao

Breeze

dwutlenek

clauson

A. N.

derisi

J.L.

Garten

Jarling

Kołodziejek

itp.

reorganizacja taksonomiczna rodziny Bornaviridae

Arch. Końcówka.

2015

160

621

632

Radoszycki

S.R.

Bao

buchmeyer

Charrel

Clauson

Clegg

Derisi

J. w.L.

Emonet

Gonzalez

J.P.

Kun

J.X.

i in.

przeszłość, teraźniejszość i przyszłość taksonomii arenawirusów

Arh. Końcówka.

2015

160

1851

1874

brister

J.R.

Bao

Żdanow

S. A.

Ostapczuk

div> B.

kiryutin

Zasławski

Kimelman

Tatusova

zasób o odmianach wirusów – najnowsze aktualizacje i wskazówki na przyszłość

kwasy nukleinowe rez.

2014

D660

665

Seto

Chodosz

j. w.

brister

J.w.R.

Jones

uczestnicy badania adenowirusa, S.

wykorzystanie sekwencji całego genomu do scharakteryzowania i nazwania ludzkich adenowirusów

J. Wskazówka.

2011

5701

5702

Matteinssens

ciarlet

Macdonald

s. m.

attui

baniai

brister

J.R.

Buesa

Esona

M. D.

Estes

Gench

J.R.

i in.

jednorodność specyfikacji szczepu rotawirusa zaproponowanej przez Grupę Roboczą taksonomii rotawirusa (RCWG)

Arch. Końcówka.

2011

156

1397

1413

Bao

Quiken

Lefkowitz

ej.

Le Mercier

Leple

Madupu

Scheuermann

R. H.

Schobel

Seto

i in.

w drodze do standardów adnotacji genomu wirusa, raport z warsztatów adnotacji NCBI 2010

wirusy

2010

2258

2268

brister

j.R.

Le Mercier

J. C.

Adnotacja genomu wirusa drobnoustrojów – zbieranie żołnierzy do walki z atakiem sekwencji

wirusologia

2012

434

175

180

kun

J.H.

Andersen

Bao

Bawari

Becker

Bennett

R. S.

Bergman

NH.

Blinkova

Bradfoot

brister

J.P.

itp.

Nagrania Filovirus RefSeq: ocena i wybór rodzaju филовируса opcje, typowe sekwencje i nazwy

Wirusy

2014

3663

3682

Ako-Аджей

Валлин

Katz

S. c.

piosenka

Darji

brister

J.R.

ptak

Pruitt

HIV-1, Baza Danych interakcji z ludźmi: aktualny stan i nowe możliwości

kwasy nukleinowe.

2015

D566

570

Nawrocki

Burge

Bateman

kicz

Eberhardt

R. J.

Eddie

Floden

E. W.

Gardner

ppt

Jones

Tate

i in.

Rfam 12.0: aktualizacje bazy danych rodzin RNA

kwasy nukleinowe OTV.

2015

D130

D137

opublikowany przez Oxford University Press w imieniu Nucleic Acids Research 2015. Ta praca jest napisana przez(a) pracownika rządowego USA i jest w domenie publicznej w USA.

Abstract

wprowadzenie

RefSeq>

generowanie zbioru danych REFSEQ

dostęp do zbioru danych REFSEQ

wzrost i statystyki

roczny wzrost liczby organizmów, białek i transkryptów reprezentowanych w kompleksowym wydaniu RefSeq, według katalogu wydania FTP

kręgowce

RefSeqGene project

włączenie RNA-Seq i innych typów danych w kuracji opartej na transkrypcji

Długie niekodujące RNA (lncrna)

adnotacja funkcjonalna

peptydy przeciwdrobnoustrojowe (AMPs)

endogenne retrowirusy (ERVs)

histony zależne od replikacji

Regulatory upstream open reading frame (uorfs)

geny Antyzyme

Bezkręgowce

rośliny

glony, grzyby, nicienie i pierwotniaki

grzyb celowane loci

prokarioty

prokariotyczne loci

wirusy

przyszłe kierunki

finansowanie

Dodaj komentarz Anuluj pisanie odpowiedzi