- Abstract
- はじめに
- RefSeqアクセッション接頭辞
- REFSEQデータセットの生成
- REFSEQデータセットへのアクセス
- 成長と統計
- FTPリリースディレクトリごとの包括的なRefSeqリリースで表される生物、タンパク質、および転写物の数の年間成長率
- 脊椎動物
- RefSeqGeneプロジェクト
- 転写物ベースのキュレーションにおけるRNA-Seqおよび他のデータ型の取り込み
- Long non-coding Rna(lncRNAs)
- 機能的注釈
- 抗菌ペプチド(AMPs)
- 内因性レトロウイルス(Erv)
- 複製依存性ヒストン
- 調節上流オープンリーディングフレーム(uORFs)
- Antizyme genes
- 無脊椎動物
- 植物
- 藻類、真菌、線虫および原生動物
- 真菌標的遺伝子座
- 真菌 様々な形態学的構造および胞子タイプは、単一の種によって生成することができる。 逆に、多くの種は類似の形態(形態)を産生するが、実際には遺伝的に非常に遠い。 最近まで、単一の種は、性的または無性の形態に基づいて複数の二項名で有効に記述することができました。 多くの場合、特定の種については単一のモーフのみが記載され、記録されているが、それに密接に関連する種はいくつかのモーフが記載され、記録されている可能性がある。 その結果、配列比較は、彼らが複雑なライフサイクルを経て進行するように種を追跡し、不可解な種を識別するために、種を区別するために、真菌のコミュ 分類学的再評価の動的プロセスの一部として、多くの真菌種の修正は、GenBank配列データにおいて常に最新ではない。
- 原核生物
- 原核生物の標的遺伝子座
- ウイルス
- 将来の方向性
- 資金調達
Abstract
The RefSeq project at the National Center for Biotechnology Information (NCBI) maintains and curates a publicly available database of annotated genomic, transcript, and protein sequence records (http://www.ncbi.nlm.nih.gov/refseq/). RefSeqプロジェクトは、国際塩基配列データベース共同研究(INSDC)に提出されたデータを、計算、手動キュレーション、および共同作業の組み合わせに対して活用して、安定した非冗長参照配列の標準セットを生成する。 RefSeqプロジェクトは、出版物、機能的特徴および有益な命名法を含む現在の知識でこれらの参照配列を増強する。 このデータベースは現在、55,000以上の生物(>>>10,000真核生物;RefSeq release71)からの配列を表しています。 本稿では、RefSeqプロジェクトのウイルス、原核生物、および真核生物の枝の現在の状況を要約し、データアクセスの改善について報告し、コレクションの分類学的表現をさらに拡大するための努力を詳細にします。 また、分類学的検証、ゲノムアノテーション、比較ゲノミクス、臨床試験など、RefSeqデータの複数の使用をサポートする多様な機能キュレーションイニシアチブを強調しています。 我々は、脊椎動物、植物、および他の種のための私たちの手動キュレーションプロセスで利用可能なRNA-Seqと他のデータ型を利用するための我々のアプローチを要約し、原核生物のゲノムとタンパク質名管理のための新しい方向性を記述します。
はじめに
過去15年間、国立バイオテクノロジー情報センター(NCBI)RefSeqデータベースは、ゲノム、遺伝的およびプロテオミクス研究のための不可欠なリソー RefSeqプロジェクトは、選択されたウイルス、微生物、オルガネラ、および真核生物のためのキュレーションされた安定した注釈付き参照ゲノム、転写産物、およ RefSeqコレクションは、出版物、有益な命名法、および標準化され、拡張された特徴の注釈を組み込む明示的にリンクされたゲノム、転写産物、およびタンパク質配列レコードを提供します。 RefSeqレコードは、ヌクレオチド、タンパク質、BLASTデータベースを含むNCBIのリソースに統合されており、キーワード’RefSeq’とそのタイプを定義する明確なアクセッション接頭辞 すべてのRefSeqデータは、異なる分類群またはデータ型用に開発されたいくつかの特殊なQAテストによる品質保証(QA)チェックの対象となります。 例えば、すべてのウイルスRefseqは、公開前にNCBIスタッフによって分類学的レビューを受けます。 RefSeq accessionsは、遺伝子特異的データ、臨床変異、および種間比較を報告するためのベースラインとして使用できる安定した一貫した座標系を提供するため、科学出版物や遺伝子データベースに広く引用されている。 正確な報告と再現性が生物医学研究のベストプラクティスにとって不可欠な要素であるため、これらの参照配列標準はますます重要になっています(1)。
RefSeqアクセッション接頭辞
Prefix . | Molecule type . | Use context . | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
AC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
NZ_2 | DNA | Chromosomes | |||||||||||||||||
Scaffolds | |||||||||||||||||||
Used predominantly for prokaryotic genomes. | |||||||||||||||||||
NT_3 | DNA | Scaffolds | |||||||||||||||||
NW_3 | DNA | Scaffolds | |||||||||||||||||
NG_1 | DNA | Genomic regions. | |||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | |||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | |||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | |||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | |||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | |||||||||||||||||
NP_3,4 | protein | NM_transcript accessionsに注釈を付けたタンパク質、またはインスタンス化された転写物を含まないゲノム分子に注釈を付けたタンパク質(例えば いくつかのミトコンドリアゲノム、ウイルスゲノム、および参照細菌ゲノム | |||||||||||||||||
AP_3 | タンパク質 | AC_genomic accessionsに注釈を付けたタンパク質 | |||||||||||||||||
XP_3,5 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | |
yp_3 | タンパク質 | 実体化された転写記録を持たないゲノム分子に注釈されたタンパク質 | |||||||||||||||||
wp_6 | タンパク質 | 複数の株および種にわたって非冗長であるタンパク質。 このタイプの単一のタンパク質は、複数の原核生物ゲノムに注釈を付けることができる |
プレフィックス。 | 分子タイプ。 th> | コンテキストを使用します。 | コンテキストを使用します | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
AC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
NZ_2 | DNA | Chromosomes | |||||||||||||||||
Scaffolds | |||||||||||||||||||
Used predominantly for prokaryotic genomes. | |||||||||||||||||||
NT_3 | DNA | Scaffolds | |||||||||||||||||
NW_3 | DNA | Scaffolds | |||||||||||||||||
NG_1 | DNA | Genomic regions. | |||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | |||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | |||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | |||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | |||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | |||||||||||||||||
NP_3,4 | protein | NM_transcript accessionsに注釈を付けたタンパク質、またはインスタンス化された転写物を含まないゲノム分子に注釈を付けたタンパク質(例えば いくつかのミトコンドリアゲノム、ウイルスゲノム、および参照細菌ゲノム | |||||||||||||||||
AP_3 | タンパク質 | AC_genomic accessionsに注釈を付けたタンパク質 | |||||||||||||||||
XP_3,5 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | |
yp_3 | タンパク質 | 実体化された転写記録を持たないゲノム分子に注釈されたタンパク質 | |||||||||||||||||
wp_6 | タンパク質 | 複数の株および種にわたって非冗長であるタンパク質。 このタイプの単一のタンパク質は、複数の原核生物ゲノムに注釈を付けることができます |
1完全なアクセッション番号の形式は、アンダースコアを含む接頭辞、6つの数字、シーケンスバージョン番号が続くことで構成されています。
2完全なアクセッション形式は、接頭辞の後にREFSEQレコードの基礎となるINSDCアクセッション番号の後にRefSeqシーケンスバージョン番号の後に構成されます。
3完全なアクセッション番号の形式は、アンダースコアを含む接頭辞、6または9の数字、シーケンスバージョン番号が続くことで構成されます。
4このアクセッション接頭辞を持つレコードは、NCBIスタッフまたはモデル生物データベースによってキュレーションされているか、キュレーターが作業するアクセ これらのレコードは、”既知の”RefSeqデータセットと呼ばれます。
5このアクセッション接頭辞を持つレコードは、真核生物ゲノムアノテーションパイプラインまたは小さな真核生物ゲノムアノテーションパイプラインのいずれかを介して生成されます。 最初のメソッドによって生成されたレコードは、’model’RefSeqデータセットと呼ばれます。
6完全なアクセッション番号の形式は、アンダースコアを含む接頭辞と、9つの数字の後にバージョン番号が続くことで構成されます。 バージョン番号は常に’です。これらのレコードは更新の対象ではないため、1’。 See online documentation for additional information: www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
Prefix . | Molecule type . | Use context . | |||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
AC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
NZ_2 | DNA | Chromosomes | |||||||||||||||||
Scaffolds | |||||||||||||||||||
Used predominantly for prokaryotic genomes. | |||||||||||||||||||
NT_3 | DNA | Scaffolds | |||||||||||||||||
NW_3 | DNA | Scaffolds | |||||||||||||||||
NG_1 | DNA | Genomic regions. | |||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | |||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | |||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | |||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | |||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | |||||||||||||||||
NP_3,4 | protein | NM_transcript accessionsに注釈を付けたタンパク質、またはインスタンス化された転写物を含まないゲノム分子に注釈を付けたタンパク質(例えば いくつかのミトコンドリアゲノム、ウイルスゲノム、および参照細菌ゲノム | |||||||||||||||||
AP_3 | タンパク質 | AC_genomic accessionsに注釈を付けたタンパク質 | |||||||||||||||||
XP_3,5 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | |
yp_3 | タンパク質 | 実体化された転写記録を持たないゲノム分子に注釈されたタンパク質 | |||||||||||||||||
wp_6 | タンパク質 | 複数の株および種にわたって非冗長であるタンパク質。 このタイプの単一のタンパク質は、複数の原核生物ゲノムに注釈を付けることができる |
プレフィックス。 | 分子タイプ。 th> | コンテキストを使用します。 | コンテキストを使用します | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
AC_1 | DNA | Chromosomes | |||||||||||||||||
Linkage Groups | |||||||||||||||||||
NZ_2 | DNA | Chromosomes | |||||||||||||||||
Scaffolds | |||||||||||||||||||
Used predominantly for prokaryotic genomes. | |||||||||||||||||||
NT_3 | DNA | Scaffolds | |||||||||||||||||
NW_3 | DNA | Scaffolds | |||||||||||||||||
NG_1 | DNA | Genomic regions. | |||||||||||||||||
A genomic region record may represent a single or multiple genetic loci (e.g. rRNA targeted locus, RefSeqGene, non-transcribed pseudogene) | |||||||||||||||||||
NM_3,4 | mRNA | protein-coding transcripts | |||||||||||||||||
XM_3,5 | mRNA | protein-coding transcripts | |||||||||||||||||
NR_3,4 | RNA | non-protein-coding transcripts including lncRNAs, structural RNAs, transcribed pseudogenes, and transcripts with unlikely protein-coding potential from protein-coding genes | |||||||||||||||||
XR_3,5 | RNA | non-protein-coding transcripts, as above | |||||||||||||||||
NP_3,4 | protein | NM_transcript accessionsに注釈を付けたタンパク質、またはインスタンス化された転写物を含まないゲノム分子に注釈を付けたタンパク質(例えば いくつかのミトコンドリアゲノム、ウイルスゲノム、および参照細菌ゲノム | |||||||||||||||||
AP_3 | タンパク質 | AC_genomic accessionsに注釈を付けたタンパク質 | |||||||||||||||||
XP_3,5 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | Xm_transcript accessionsに注釈を付けたタンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | タンパク質 | |
yp_3 | タンパク質 | 実体化された転写記録を持たないゲノム分子に注釈されたタンパク質 | |||||||||||||||||
wp_6 | タンパク質 | 複数の株および種にわたって非冗長であるタンパク質。 このタイプの単一のタンパク質は、複数の原核生物ゲノムに注釈を付けることができます |
1完全なアクセッション番号の形式は、アンダースコアを含む接頭辞、6つの数字、シーケンスバージョン番号が続くことで構成されています。
2完全なアクセッション形式は、接頭辞の後にREFSEQレコードの基礎となるINSDCアクセッション番号の後にRefSeqシーケンスバージョン番号の後に構成されます。
3完全なアクセッション番号の形式は、アンダースコアを含む接頭辞、6または9の数字、シーケンスバージョン番号が続くことで構成されます。
4このアクセッション接頭辞を持つレコードは、NCBIスタッフまたはモデル生物データベースによってキュレーションされているか、キュレーターが作業するアクセ これらのレコードは、”既知の”RefSeqデータセットと呼ばれます。
5このアクセッション接頭辞を持つレコードは、真核生物ゲノムアノテーションパイプラインまたは小さな真核生物ゲノムアノテーションパイプラインのいずれかを介して生成されます。 最初のメソッドによって生成されたレコードは、’model’RefSeqデータセットと呼ばれます。
6完全なアクセッション番号の形式は、アンダースコアを含む接頭辞と、9つの数字の後にバージョン番号が続くことで構成されます。 バージョン番号は常に’です。これらのレコードは更新の対象ではないため、1’。 追加情報については、オンラインドキュメントを参照してください。www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/.
近年、高度な配列決定技術は、公開データベースへの全ゲノムアセンブリの提出の大幅な増加を容易にしています。 その結果、RefSeqプロジェクトは、主にいくつかの社内アノテーションパイプラインの改善を通じて、データセットに含まれる分類群の深さと幅を一致的に拡 すべての分類群は、RefSeq包含の範囲内にあります; しかし、アノテーションは、多くの場合、高品質の一次ゲノムアセンブリが競合していない生物情報で利用可能である生物に限定されています。 したがって、当社は、当社の品質基準を満たさないデータの一部のカテゴリを除外することがあります。 除外されたデータセットには、メタゲノム、コンティグN50値が低いアセンブリ、または未配置の足場/コンティグの数が特に多い(すなわち、高い断片化)、または種の他の密接に関連するゲノム(例えば、いくつかの原核生物)と比較して有意なミスマッチまたはインデル変異を有するゲノムが含まれる。
RefSeqデータセットのユニークな側面は、NCBI科学スタッフによる計算、コラボレーション、キュレーションを活用する組み合わせたアプローチです。 大規模なバイオインフォマティクス施設として、NCBIは、注釈を生成し、真核生物および原核生物のゲノム、転写産物、およびタンパク質の品質保証試験を実行するための堅牢なプロセスフローの開発に投資してきました。 ウイルスゲノムのプロセスフローの改善が進行中である。 RefSeqグループは、公式の命名当局を含む多数の専門家グループと協力しています(例: ヒトおよびゼブラフィッシュ遺伝子名のためのヒューゴ遺伝子命名委員会(HGNC)およびゼブラフィッシュ情報ネットワーク(ZFIN))、UniProtKB(タンパク質名)およびmiRBase(microRNAs)(2-5)。 これらおよびその他の共同作業は、Qaレポート、遺伝子および配列情報の交換、および機能情報の交換を通じて、RefSeqデータセットの品質の維持および改善に役 NCBIスタッフはまた、ウイルス、原核生物、真核生物、オルガネラ、プラスミド、およびホモサピエンス、ムスmusculusおよび他の生物のための遺伝子や配列のキュレーショ RefSeqキュレーターは、QAテスト結果のレビュー、ゲノム注釈処理、配列分析、分類学的分析、および機能的レビューのための特定の入力の選択への関与を通じて、データベー キュレーションはまた、コンテンツの専門家が典型的および非定型生物学の両方をモデル化するためのプログラム的アプローチを定義するのに役立 真核生物、特に哺乳動物の場合、転写物ベースのキュレーションは、真核生物ゲノムアノテーションパイプライン(http://www.ncbi.nlm.nih.gov/books/NBK169439/)への一次入力試薬として使用される”最良の”配列代表(”既知の”RefSeqs;表1脚注)を定義する。 入力試薬の品質の改善は、結果として得られるゲノムアノテーションに有意な品質と再現性を追加します。 手動キュレーションのこのタイプは、歴史的に理由は、彼らのユニークな生物医学的重要性のヒトとマウスに焦点を当ててきました(6)。 最近では、これらのキュレーションの取り組みは、Rattus norvegicus、Danio rerio、Bos taurus、Gallus gallusに大きな注目を集めています。 これらの種は、人間の健康だけでなく、農業の持続可能性に関連しています。
本稿では、より多様な生物を含むようにRefSeqデータセットを拡大し、データアクセスの改善を説明し、系統発生的に有用なデータセットだけでなく、RefSeqトランスクリプトとタンパク質レコード上の機能的特徴アノテーションを提供することに焦点を当てた例を提供するために、RefSeqデータセットを拡大する際の進捗状況を報告します。 これらの取り組みとRefSeqデータセットの改善は、医療翻訳研究、農業改良、系統発生同定、進化研究の進歩に引き続き貢献することを期待しています。
REFSEQデータセットの生成
RefSeqシーケンスレコードは、シーケンスクラスと生物に応じて異なるメソッドによって生成されます。 古細菌および細菌ゲノム(原核生物のセクションを参照)は、NCBIの原核生物ゲノム注釈パイプライン(http://www.ncbi.nlm.nih.gov/books/NBK174280/)を使用して注釈され、少数の参照細菌 RefSeq真核生物ゲノムは、二つのプロセスフローを使用して提供されています。 植物、動物、昆虫および節足動物のゲノムの大部分は、真核生物のゲノム注釈パイプラインによって注釈されている。 このパイプラインは、利用可能な転写データ(RNA-Seqおよびトランスクリプトームショットガンアセンブリ(TSA)データを含む)、ならびにタンパク質相同性、ab initio予測(主にトランスクリプトームデータが利用できない場合)、および利用可能な既知の(キュレーションされた)RefSeq転写産物およびタンパク質に基づいて注釈結果を生成する(表1参照)。 パイプライン生成注釈(モデルRefSeqs)は、単一の証拠アライメントからの完全なエクソンの組み合わせをサポートしていてもいなくてもよいが、エクソン対のRNA-Seqをサポートしていてもよい。 このパイプラインによって注釈された真核生物ゲノムは、FTPによるデータのダウンロード、注釈されたゲノムに対するBLASTクエリの表示または実行、または詳細な注釈レポート要約(http://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/)へのアクセスのためのリンクで公に報告されている。 真菌、原生動物、線虫を含む真核生物のサブセットのパイプラインには、国際ヌクレオチド配列データベース共同研究(INSDC)に提出された注釈を、フォーマット標準化とともに、提出されたゲノムアセンブリのRefSeqコピーに伝播することが含まれる(藻類、真菌、線虫および原生動物を参照)。
NCBIスタッフは、INSDC提出からの伝播を通じてRefSeqオルガネラゲノム注釈の大部分を提供します。 哺乳類のミトコンドリアのアノテーションは、多くの場合、手動のキュレーションで補われています。 RefSeqプロジェクトはまた、遺伝子座参照ゲノム(LRG)コラボレーション(7)のメンバーであるRefSeqGene、細菌および真菌リボソームrRNA遺伝子座、および真菌内部転写スペーサー配列(ITS)(8)のような標的遺伝子座プロジェクトのための参照配列を維持している。 さらに、かなりの数のヒト、マウス、および他の転写産物およびタンパク質は、配列分析および文献レビューを含むコラボレーションおよび手動キュレーションNCBIの原核生物(下記参照)および真核生物アノテーションパイプラインは、選択された高品質の提出されたゲノムアセンブリのRefSeqコピーに一貫したアノテーションを提供することにより、INSDCに提出されたゲノムアセンブリの数の増加に追いついている。 これまでに、170の脊椎動物ゲノムを含む245の真核生物ゲノムがこのパイプラインによって注釈されており、そのうち120以上の種が過去20年間に注釈されている。 このグループの中には、ほとんどの鳥の注文(9,10)の代表種を含む52の鳥種があります。 また、非ヒト霊長類、他の哺乳類、魚類、植物、節足動物のRefSeq注釈付きアセンブリの数が大幅に増加しています。
REFSEQデータセットへのアクセス
RefSeqホームページhttp://www.ncbi.nlm.nih.gov/refseq/は、RefSeqデータセットのすべての側面の中心ハブです。 このサイトでは、プロジェクトの一般的な説明だけでなく、ファクトシート、成長統計、および原核生物ゲノム再アノテーションイニシアチブ、コンセンサスコーディングシーケンス(CCDS)プロジェクト(11)Refseq Geneプロジェクト、および標的遺伝子座(http://www.ncbi.nlm.nih.gov/refseq/targetedloci/)プロジェクトなどのより焦点を当てたRefSeqプロジェクトに関する情報をユーザーに案内するリンクを提供しています。 最新の包括的なFTPリリースへのリンクと、リリースの形式と内容に関する詳細なドキュメントは、RefSeqホームページの”Announcements”セクションにあります。 以前のRefSeqの発表は、このページからも入手できます。 他のバイオインフォマティクスおよびゲノムブラウザリソースからのダウンロードには、利用可能なデータのすべてが含まれていない場合や、NCBIによ
RefSeq配列データは、NCBIのヌクレオチドおよびタンパク質データベース、BLASTデータベース、NCBIのプログラマティックインターフェイス(E-utilities)、またはファイル転送プロトコル(FTP)を介して対話的にアクセスすることができる。 E-utilitiesは、検索用語またはアクセッションリストのいずれかに基づいて、さまざまな形式でRefSeqデータをダウンロードするためのスクリプトアクセスをサポー www.ncbi.nlm.nih.gov/books/NBK25501/)とトレーニングビデオはNCBIのYouTubeチャンネル(https://www.youtube.com/user/NCBINLM)から入手できます。 ヌクレオチドデータベースとタンパク質データベースの両方で、フィルターサイドバーの”ソースデータベース”の下にある”RefSeq”を選択することにより、クエリ結果をRefSeqレコー RefSeqデータベースに影響を与えるRefSeqグループまたはNCBIアップデート内のキュレーション変更に関する情報は、RefSeq FTPリリースノート、定期的な公開レポート、NCBI Announcements News feedhttp://www.ncbi.nlm.nih.gov/news/、NCBI Insights Bloghttp://ncbiinsights.ncbi.nlm.nih.gov/。 また、ユーザーはrefseq-announceメールリストを購読して、プロジェクトに関する定期的な更新と各RefSeq FTPリリースの内容の要約(http://www.ncbi.nlm.nih.gov/mailman/listinfo/refseq-announce/)を受け取ることもできます。
RefSeqデータはFTP経由で二つのサイトrefseq(ftp://ftp.ncbi.nlm.nih.gov/refseq/)とゲノム(ftp://ftp.ncbi.nlm.nih.gov/genomes refseq FTPサイトは、すべての新規および更新されたRefSeqレコードの毎日の更新、一部のデータ型の毎週の更新、および隔月の包括的なRefSeqリリース(/refseq/release/)を提供します。 さらに、選択された生物特異的転写産物およびヒトおよびマウスを含むタンパク質データセットは、毎週更新されます。 RefSeqGeneサブディレクトリは毎日更新され、アノテーションの実行ごとにリリースされたゲノムへのアラインメントが更新されます。 包括的な隔月RefSeqリリースは、分類学的(例えば脊椎動物哺乳類)または他のグループ(例えばミトコンドリア)によって編成されています。 RefSeqコレクション全体のデータは、/refseq/release/complete/ディレクトリからダウンロードすることもできます。 RefSeqリリースは、完全なコレクションまたは単一のグループのいずれかの定期的な更新を維持したい人のための利点を提供しています。 また、ゲノムアセンブリから独立して維持され、現在は注釈されていない可能性のあるコレクション内の転写物など、コンパニオンゲノムFTPサイトから入手できないレコードも含まれています。 このリリースには、MD5チェックサム、インストールされているすべてのファイルのリスト、リリースノートとアナウンス(/refseq/release/release-notes/)など、インストールされているファ
RefSeqデータは、genomes FTPサイトからもダウンロードできます。 2014年、NCBIはこのFTPサイトの大規模な再編を発表し、GenBankとRefSeqゲノムの両方へのアセンブリと生物ベースのアクセスを提供しています(ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/). このディレクトリは、RefSeqリリースで使用されているのと同じグループに基づいてさらにサブディレクトリに分割され、それぞれが種別に追加のサブディ GENOMES FTPサイトでは、NCBIのアセンブリリソース(www.ncbi.nlm.nih.gov/assemblyゲノムサイトの利点は、データがアセンブリまたは生物特異的な方法でアクセスできることである。 提供されるデータには、ゲノムおよび産物(転写物/タンパク質)配列、注釈、アセンブリレポートおよび統計、およびMD5チェックサムが含まれます; これらのデータは、ゲノムアセンブリおよび/または注釈が更新されるときに更新される。 この領域には、ゲノムアセンブリの範囲外のRefSeq配列、またはゲノムに注釈が付けられていない製品は含まれません。
成長と統計
RefSeq FTPリリース71(July2015)には、77以上の55,000以上の生物のシーケンスレコードが含まれています。 表2は、各RefSeqリリースFTPディレクトリ領域ごとに表されるシーケンスレコードの生物と数の観点から、昨年のRefSeqデータセットの成長をまとめたものです。 細菌ゲノムとタンパク質は、RefSeqデータセットの大部分を構成しています(総アクセッションの56%、>52万タンパク質アクセッションの76%)。 生物、タンパク質、および総記録の数の有意な増加は、ゲノム配列決定プロジェクトの数とスループットの増加と一致している無脊椎動物、植物、および真核生物のために見られています。 RefSeqデータの継続的な高成長率の重要な要因は、注釈付きRefSeqゲノムを生成するゲノムパイプラインの改善です。 特に、これには、NCBIの原核生物ゲノムアノテーションパイプラインにおける容量の増加、真核生物GenBankゲノムからRefSeqゲノムへのアノテーションを伝播するプロセスフローの再開発、NCBIの真核生物ゲノムアノテーションパイプラインにおけるRNA-Seq証拠の取り込み、およびモデルRefseqの生成への影響(XM_、XR_およびXP_accessions、表1)が含まれる。
FTPリリースディレクトリごとの包括的なRefSeqリリースで表される生物、タンパク質、および転写物の数の年間成長率
リリースディレクトリ。 th> | %変更します。 th> | %変更します。 | タンパク質。 | %変更します。 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 | |||||||
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 | |||||||
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 | |||||||
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 | |||||||
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 | |||||||
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 | |||||||
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 | |||||||
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 | |||||||
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 | |||||||
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 | |||||||
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 | |||||||
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 | |||||||
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | %変更します。 th> | %変更します。 | タンパク質。 | %変更します。 | |||
---|---|---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 | ||
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 | ||
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 | ||
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 | ||
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 | ||
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 | ||
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 | ||
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 | ||
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 | ||
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 | ||
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 | ||
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 | ||
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/(例:古細菌。acc_taxid_growth。txtおよび関連ファイル)。 年間変化率は、RefSeqリリース71(July2015)とRefSeqリリース66(July2014)のデータ数の比較に基づいています。
リリースディレクトリ。 th> | %変更します。 th> | %変更します。 | タンパク質。 | %変更します。 | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 | |||||||
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 | |||||||
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 | |||||||
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 | |||||||
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 | |||||||
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 | |||||||
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 | |||||||
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 | |||||||
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 | |||||||
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 | |||||||
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 | |||||||
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 | |||||||
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
Release Directory . | Organisms . | %変更します。 th> | %変更します。 | タンパク質。 | %変更します。 | |||
---|---|---|---|---|---|---|---|---|
Archaea | 952 | 12 | 1109 | 318 | 1037407 | -5 | ||
Bacteria | 39660 | 40 | 19650 | 488 | 40194748 | 14 | ||
Fungi | 3367 | 18 | 1438749 | 17 | 1440956 | 17 | ||
Invertebrate | 1786 | 29 | 1435978 | 76 | 1367317 | 74 | ||
Mitochondrion | 5732 | 24 | 112 | -15 | 83208 | 24 | ||
Plant | 847 | 59 | 2181963 | 86 | 2067971 | 75 | ||
Plasmid | 2139 | 31 | 12 | 9 | 126725 | -62 | ||
Plastid | 843 | 54 | 120 | 0 | 72579 | 50 | ||
Protozoa | 273 | 27 | 849678 | 46 | 865048 | 45 | ||
Vertebrate_mammalian | 776 | 14 | 3778288 | 44 | 3266845 | 39 | ||
Vertebrate_other | 2755 | 26 | 2097939 | 85 | 2023378 | 84 | ||
Viral | 4850 | 17 | 0 | 0 | 230360 | 15 | ||
Complete | 55267 | 34 | 11803354 | 56 | 52494032 | 20 |
aCounts are based on statistics reports that are available from the RefSeq FTP site at ftp://ftp.ncbi.nlm.nih.gov/refseq/release/release-statistics/(例:古細菌。acc_taxid_growth。txtおよび関連ファイル)。 年間変化率は、RefSeqリリース71(July2015)とRefSeqリリース66(July2014)のデータ数の比較に基づいています。
プラスミドタンパク質レコードの数の劇的な減少、したがって総アクセッションの数は、RefSeq細菌ゲノム再アノテーションプロジェクト(http://www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/reannotation/)の完了と、そのプラスミドを含む原核生物の新しいデータモデルの採用を反映している。 この新しいデータモデルでは、それらのゲノムタンパク質コード領域の翻訳が同一のタンパク質をもたらすときに、単一のRefSeq非冗長タンパク質アクセ すべての細菌タンパク質の冗長性も有意に減少したが、データセットに含まれる細菌ゲノムの数が継続的に有意に増加しているため、ここでは明らかではない。 これらの変更はまたarchaeal蛋白質の記録の数の全面的な低下で起因した。
脊椎動物
Homo sapiens、Mus musculus、Rattus norvegicus、Gallus gallus、Bos taurus、Danio rerioを含む脊椎動物の選択グループは、私たちの転写および文献ベースの手動キュレーション努力の主要な焦点です。 キュレーターは、一般的に、品質保証(QA)テストによって同定されたデータ競合を持つ遺伝子のリストから作業し、そのうちのいくつかは、以前に記載されていた(12)。 彼らは、キュレーションされたデータセット内のクロスパーソンの一貫性を確保するために、各遺伝子を分析する際のガイドラインの詳細なセッ この分析には、参照転写産物、タンパク質、偽遺伝子およびRefSeqGeneレコードを作成するための詳細な配列評価および文献レビューが含まれます。 RefSeqキュレーターは、転写変異体を生成し、配列エラーを解決し、不正確な情報を削除し、遺伝子座の生物学を正しく表すためにレコードを更新し、改良されたタンパク質名、遺伝子産物の機能の要約、遺伝子の機能的特徴、および/または関連する出版物などの貴重な機能情報をRefSeqレコードに追加する。 RefSeqグループによる手動キュレーションと文献レビューは、計算解析のみに基づいているときに予測されないユニークな変異体とアイソフォームの表現をもたら 例えば、ヒト腫瘍抑制遺伝子PTENの文献レビュー(phosphatase and tensin homolog,GeneID:5728)は、カノニカルmRNA翻訳開始コドンの上流の回文配列の中心に見られる代替のインフレーム上流CUG開始コドンの使用に起因するより長いタンパク質アイソフォームの存在を明らかにした(13)。 強い実験データは、このミトコンドリア特異的アイソフォームではなく、メチオニン(14)よりも、ロイシンで開始することを示した。 真核生物のためのRefSeqデータモデルは、明示的に一つのタンパク質にリンクされた一つの転写産物を提供します。 NP_000305.3は標準的なメチオニン開始コドンを使用する403アミノ酸タンパク質を表し、NP_001291646.2はロイシンで開始するミトコンドリア局在576アミノ酸タンパク質を表す。 したがって、キュレーションプロセスは、正確で再現性のあるゲノム注釈を容易にする正確な参照配列を提供し、関連する生物学的情報を含む記録を提 このセクションでは、最近の更新、手動のキュレーションプロセスに加えた改善、集中したキュレーションプロジェクトの例について説明します。
RefSeqGeneプロジェクト
RefSeqGeneサブプロジェクトは、特に臨床遺伝学コミュニティで使用するために、よく特徴付けられた遺伝子の参照標準として使用 これらの配列は、病原性変異体の報告、エクソンとイントロンの番号付けの規則の確立、および他の変異体の座標の定義のための安定した基盤とな 各Refseq Geneレコードは、遺伝子特異的ゲノム領域に焦点を当て、典型的には、ドメインの専門家によって選択されたRefSeq転写産物とタンパク質のサブセットで注釈 これらの選択は、エクソンの特徴を決定します。 標準的なRefSeq転写物/タンパク質の古いバージョンの整列、ならびに他の既知のRefseqが含まれている。 これらの記録は、典型的には、遺伝子の特徴を超えて拡張する潜在的な調節部位または欠失の表現をサポートするために、焦点遺伝子の上流の配列の5キ Refseqgeneレコードは、その境界内に位置する他の遺伝子の注釈情報を含むことができる。 RefSeqGeneレコードは、軌跡固有のデータベースとNCBIスタッフによって最初にレビューされます。 RefSeqGeneは、LRGアクセッションを追加する前にシーケンスデータの追加レビューを提供するLRG collaboration(7)のメンバーです。 最近の研究の焦点は、少なくとも二つの臨床試験がNIH遺伝子検査レジストリ(GTR)に提出されているすべての遺伝子を表すためにRefSeqGeneレコードの数を拡大し この時点で5596のRefSeqGeneレコードがあり、そのうち633はLRGアクセッションを持っています。 RefSeqGeneレコードは、’refseqgene’でヌクレオチドデータベースを検索し、そのlrgアクセッションによって、RefSeqGeneのwebサイトを閲覧することによって検索することができます(www.ncbi.nlm.nih.gov/refseq/rsg/)、またはFTP(ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/RefSeqGene/).
転写物ベースのキュレーションにおけるRNA-Seqおよび他のデータ型の取り込み
RefSeqキュレーションプロジェクトの主な目標は、高品質で完全長の転写物およびタンパク質参照配列を表現することである。 このように、私たちのキュレーション基準は、主に従来の転写産物(mRNAとESTs)とタンパク質のアライメントと公開された証拠に基づいています。 しかし、脊椎動物のトランスクリプトームプロジェクトは、現在、短い読み取りシーケンス技術によって生成された新しいトランスクリプトデータの大部分 プロモーター関連エピジェネティックマークのグローバルなパターンを見てゲノム全体の研究はまた、アクティブなプロモーターおよび/またはアクテ RefSeqグループは、特に遺伝子や変異体が豊富な従来の転写産物のサポートを欠いている場合には、私たちの手動注釈を強化するために、これらの新しいデー これらのRNA-Seqとエピゲノム研究は、潜在的な偽陽性と長距離エクソンの組み合わせ(15)のサポートの欠如を介して、例えば遺伝子注釈グループのための挑戦を提示する巨大なデータセットを生成しています。 RefSeqキュレーターは、ゲノムアノテーションパイプラインと手動アノテーションプロセスに考慮するために、高品質のデータセットのみを選択的に組み込 RefSeqキュレーターは、NCBI Genome Workbenchプラットフォームに組み込まれた社内アライメントツール(http://www.ncbi.nlm.nih.gov/tools/gbench/)内のカスタマイズされたディスプレイ内のトランスクリプトアラインメント、バリエーションデータ、およびフィルタリングされたRNA-Seqデータを視覚化します。 ヒト遺伝子のキュレーションは、Illumina Bodymap2(Bioproject:PRJEB2 4 4 5)およびHuman Protein Atlas projects(Bioproject:PRJEB4 3 3 7)(1 6)から解析されたRNA−Seqの読み取りを利用する。 さらにキュレーターは、nih Roadmap Epigenomic Mapping Consortium(REMC)のh3K4Me3などのプロモーター関連ヒストン修飾マークを使用します; 活性プロモーターの存在を検証するためのENCODE(Encyclopedia o f DNA Elements)プロジェクト(1 8)。 RefSeqキュレーターはまた、polyA-seqデータを評価して、polyA尾を欠いている転写物の3’完全性を確認する(19)。 PhyloCSF(20)、CpGIslands、RepeatMasker(21)および遺伝子発現のCap分析(CAGE)データ(22)を含む追加のデータ型は、追加のサポートとして使用されることがあります。
Long non-coding Rna(lncRNAs)
RefSeqグループは、非コーディング構造およびマイクロRna、転写された偽遺伝子、および主に特徴づけられていないlncRNAsの表現を大幅に拡大し続けている。 このクラスの遺伝子は、一般に、強いタンパク質コードの可能性を欠く長さが200ntの転写産物であると定義される(23)。 lncRNA RefSeqレコードは、キュレーションによって、lncrna遺伝子のための真核生物ゲノムアノテーションパイプラインを介して生成されます。 NCBIは現在、540 000以上の真核生物lncRNA RefSeqレコードを維持しており、そのうち6700以上がキュレーションされており、機能的に特徴づけられているのはわずか数百人である。 これらのうち、多くは、アルツハイマー病の病態生理学において役割を果たし得るBACE1-AS、および複数の癌に関連しているHOTAIRなど、ヒト疾患に関与している(24,25)。 LncRNAの大部分は未知の機能を有し、長い開いた読み取りフレームが存在しないことは、転写物の完全性を確認するという点で課題を提示する。 さらに、INSDCへのlncRNAの提出は、主に人工的なエクソンの組み合わせを含むことができる短い読み取りデータセットからのTSAsに基づいています。 RefSeqキュレーターは、手動で我々はエクソン構造のいくつかの確実性を持っているため、高品質の転写産物のための(NR_アクセッション接頭辞を持つ)Refseqを作成し、lncRNA遺伝子を表現するために保守的なアプローチを取ります。 理想的には、転写物サポートは、少なくとも三つのエクソンとスプライシングされるべきであるが、二つのエクソンとイントロンレス転写物は、プロモーター関連エピゲノミクス、ポリ(A)証拠、追加のcdna、および/またはRNA-Seqデータによってサポートされている場合に表すことができる。 検索文字列’biomol ncrna lncrna’を使用し、左の列からRefSeqフィルターを選択することにより、NCBIのヌクレオチドデータベースから非コード遺伝子のRefSeq lncRNAレコードを検索できます。
機能的注釈
キュレーションされた真核生物RefSeqトランスクリプトレコードのユニークな貢献は、彼らが参照配列と機能情報を統合することです。 RefSeqキュレーションスタッフは、RefSeqレコード上および/または遺伝子リソース(http://www.ncbi.nlm.nih.gov/gene)を介して利用可能な遺伝子要約、命名法、転写変異体テキスト、遺伝子 昨年、RefSeqのスタッフは、計算ツールが生物学的知識を正確に表現することができない特定の遺伝子セットに機能データを追加するために、いくつかの詳細な注釈プロジェクトを追求してきました。 これらのプロジェクトは、抗菌ペプチド、内因性レトロウイルス、複製依存性ヒストン、規制uORFs、および抗酵素の注釈が含まれています。
抗菌ペプチド(AMPs)
AMPsは、最近のキュレーションフォーカスでした(http://ncbiinsights.ncbi.nlm.nih.gov/2015/05/21/)(26)。 AMPsは種の多様な配列にあり、殺菌、抗ウィルス性、antifungalおよびantitumor活動を含む多くの免疫の役割で関係した自然発生するペプチッドである。 一つ以上の実験的に証明されたAMPsをコードする130以上のヒト遺伝子のリストは、いくつかの公に利用可能なAMPデータセットから収集され、また出版物か これらのAMPsのほとんどはRefSeqデータベースで以前に同定されておらず、AMPデータベースのどれもペプチドをコード遺伝子に接続していませんでした。 RefSeqキュレーターは、機能性ペプチドが注釈されたことを確認するために、ペプチドの抗菌活性を記述する出版物を含めるために、エンコードされたAMPの抗菌活性を記述する簡単な要約を追加するために、RefSeq属性構造化コメントに含まれる新しいRefSeq属性’Protein has anticrobial activity’を格納するために、各AMPエンコードされたヒト遺伝子のRefSeqレコードに手動で注釈を付けた(例:NM_001124.2FOR ADM;GeneID:133)。 キュレーションされたヒト転写物またはタンパク質AMPレコードのすべてにアクセスするには、”タンパク質は抗菌活性を有する”を使用してヌクレオチドまたはタンパク質データベースを検索する。 現在、この検索では、スプライスバリアントとタンパク質アイソフォームを含む191のRefSeqレコードが検索されます。
内因性レトロウイルス(Erv)
内因性レトロウイルス(Erv)は、宿主ゲノムへの外因性レトロウイルスの先祖の挿入に由来するゲノム座 ERV遺伝子座は、一般的にRefSeqの範囲外です; しかし、我々は、彼らがホスト機能を果たすために進化してきた場合、既知の疾患に関連付けられている、および/またはそれらが公式の命名委員会によ ヒトゲノムの約8%はレトロウイルス起源である(27);しかし、その古代の起源のために、ほとんどのヒトERV遺伝子座はナンセンス変異を蓄積しており、もはや 胎盤の発達に関与するシンシチンタンパク質(28)は、これに対するよく知られた例外である。 ヒトsyncytin-1およびsyncytin-2タンパク質は、ERVW-1(NM_001130925.1,NM_014590.3)およびERVFRD-1(NM_207582.2)遺伝子によってコードされている。 現在までに、我々は、哺乳動物の多様なセットからのERV遺伝子を表すレコードを含むERV遺伝子座のための67Refseqを作成しました。 これらのレコードに対して’endogenous retrovirus’という名前の新しいRefSeq属性カテゴリが作成され、RefSeqレコードの構造化コメントに表示されます。 これらのレコードは、’内因性レトロウイルス’を検索することにより、ヌクレオチドデータベースから検索することができます。
複製依存性ヒストン
大量のヒストンタンパク質を産生するためには、細胞分裂中にヒストンmrnaの迅速な合成が必要である。 このプロセスにとって重要なのは、細胞周期のG1/S期の間にアップレギュレートされる複製依存性ヒストン遺伝子である(29)。 特定のRefSeqプロジェクトは、ヒトおよびマウスにおける複製依存性ヒストン蛋白質コード遺伝子の完全なセットをキュレーションする目的で行われた。 これらの遺伝子は、ゲノム配列中に標準的な3’ヒストン下流要素(HDE)配列を有し、得られた成熟mrnaは、特徴的にポリ(A)尾を欠いており、代わりにRNAステムループ構造(30)の直後に終了する。 HDE要素は、前駆体転写物上に見出されるが、Refseqによって表される処理された転写物上には含まれない。 保存された1 6ヌクレオチドのstem−loop構造配列の位置は、「stem−loop」と題された特徴注釈としてRefseqレコード上に示されている。 例は、Hist1H4D(GeneID)のRefSeqエントリNM_003539.3で見ることができます: 8360). これまでに、127個のヒトおよびマウス複製依存ヒストンRefSeqレコードがキュレーションされ、検索文字列’replication-dependent histone’を使用してヌクレオチドデータベースからこれらのレコードを取得するために使用できるRefSeq属性が追加されている。
調節上流オープンリーディングフレーム(uORFs)
上流オープンリーディングフレーム(uORF)の翻訳は負のプライマリタンパク質コードオープンリーディングフレーム(pORF)(31)の翻訳に影響を与える可能性があります。 この効果は、必ずしも完全にpORF翻訳を沈黙させるわけではなく、細胞型、発達状態または細胞状態に依存している可能性がある。 したがって、uORFsは転写物の六フレーム翻訳から予測することができるが、この要素の調節効果は実験的検証を通じて決定されなければならない。 RefSeqキュレーターは、規制uorfの実験的証拠と転写産物を見つけるために文献を見直し、これらのuorfの場所を示すmisc_featureを追加するために、対応するRefSeq転写記録を更 例として、RefSeqエントリNM_000392があります。4ABCC2(GeneID:1244)のために。 ‘Regulatory uORF’という名前の新しいRefSeq属性カテゴリが作成され、これらのRefSeqレコードの構造化コメントに表示されます。 注釈付きの機能と属性の両方が、PubMed IDによってサポートされている出版物を引用します。 現在までに260件のレコードがこの属性で注釈されており、これらのレコードは’regulatory uORF’
Antizyme genes
RefSeqプロジェクトの目標の一つは、タンパク質合成の標準的なデコーディング規則に従わない例外的な生物学を持つ遺伝子を表現することである。 オルニチンデカルボキシラーゼ抗酵素遺伝子は、プログラムされた+1リボソームフレームシフト機構が発生し、従来の計算ツールでは予測できないような例である。 脊椎動物の抗酵素転写産物とタンパク質記録のセットは、最近、真核生物ゲノム注釈パイプライン(32)によってこれらの遺伝子産物の注釈を改善するた RefSeqレコードは、リボソームの滑りを反映するために、手動で分割CDS機能で注釈を付け、公開された証拠、様々なその他の特徴の注釈(例えば、フレームシフト部位の位置など)と遺伝子の機能と新規な特性を説明する簡単な要約(例えばNM_139081.2)と”リボソームの滑り”属性が含まれていました。 これらのレコードは、検索クエリでヌクレオチドまたはタンパク質データベースのいずれかから検索することができます:vertebrates refseq ribosomal slippage antizyme。 この検索では、現在、転写産物変異体およびタンパク質アイソフォームを含む242のRefSeqレコード(NMまたはNP)が検索されます。
無脊椎動物
無脊椎動物の種は、現存するメタゾアン(33)の大部分を表しますが、配列決定されたゲノムによって表されるのは比較的少数です。 これは、多くの種がマラリアのベクターであるAnopheles gambiaeや住血吸虫症のベクターであるBiomphalaria glabrataなどの重要な生物医学的重要性を持っているという事実にもかかわ Apis mellifera、Bombyx mori、Crassostrea gigasを含む他の無脊椎動物は、重要な商業的価値を持っています(36-38)。 RefSeqグループは、真核生物ゲノムアノテーションパイプラインを介してアノテーションを提供するか、INSDC提出からそれらのゲノムのRefSeqコピーにアノテーションを伝播することにより、データセットに表される無脊椎動物のゲノムの数と範囲を増やす努力をしてきました。 両方のプロセスフローについて、我々はINSDCデータベースとNCBIのアセンブリデータベース(www.ncbi.nlm.nih.gov/assembly現在までに46の無脊椎動物のゲノムは昆虫、クモ形類、軟体動物および基底の脊索動物の代表種を含むNCBIによって注釈されています。 I5k(39)、1KITE(1K Insect Transcriptome Evolution,http://www.1kite.org/http://giga.nova.edu/)(40)などのゲノムイニシアチブの結果として注釈された昆虫および他の無脊椎動物ゲノムの数が大幅に拡大すると予想されている。
植物
RefSeqは、データセットに表される植物種の多様性を拡大し続けています。 これまでに、61種の植物種がRefSeqゲノムデータセットに含まれています(ftp://ftp…..ncbiだnlm.nih.gov/genomes/refseq/plant/)のうち33種が真核生物ゲノム注釈パイプラインを介して注釈され、残りはINSDCに提出された注釈付きゲノムのRefSeqコピーです。 将来的には、RefSeq包含のために選択されたより多くの植物ゲノムは、真核生物の注釈パイプラインではなく、INSDC提出から注釈を伝播することによって処理 これは、RefSeq植物ゲノムのポリシーの変更であり、RefSeqデータセット内の植物注釈データの全体的な一貫性が向上します。 植物種で利用可能なRefSeq転写産物およびタンパク質の大部分は、”モデル”レコード(XM_、XP_およびXR_accessions;表1)であり、”既知”レコード(NM_、NR_、NP_)のより小さなサブセットであり、自動化された処理および手動レビューの組み合わせによって注釈プロセスとは独立して維持される。 植物転写物およびタンパク質データの手動キュレーションは、現在、Zea maysおよびSolanum lycopersicumのために提供されている。 現在のキュレーションの焦点は、広範なシーケンスレビューを伴い、転写物の現在のセットでQAの懸念を解決することを目的としています。 エラーの解決は、識別し、キメラ転写産物、冗長転写産物および遺伝子を除去し、RefSeq転写産物、ゲノム配列、およびオルソログデータ間のインデルとミスマッチを評価することにより、表現された配列の品質を向上させることに焦点を当てています。 植物のために、我々はゲノム配列決定とアセンブリのために選択された品種と一致しているキュレーションされた転写産物とタンパク質データセットを提 脊椎動物のデータに使用されるキュレーションプロトコルは、植物にも使用されます。 したがって、Refseq転写物記録は、異なるINSDC供給源配列に基づくように更新されてもよく、または好ましい品種からの転写物を提供するために、2つ以上のINSDC配列記録から組み立てられてもよい。 INSDC転写物データがゲノム品種について利用可能でない場合、Refseq転写物は、転写物またはタンパク質整列、RNA−Seq、および/または公表されたデータの組合せに基づ 焦点の第二の領域は、これが他の植物ゲノムに注釈を付けるときに使用することができるキュレーション試薬を提供するように、サポートされている既知のタンパク質コード転写産物およびタンパク質の数を増やすことです。 最後に、十分な支持証拠がある場合、スプライスバリアントを表すRefseqをより多く作成しています。 これらの取り組みは、植物RefSeqデータセットの品質を大幅に向上させ、将来のゲノムアノテーションの改善に貢献します。 パイプラインによって注釈された植物ゲノムの現在のセットは、NCBIの真核生物ゲノム注釈パイプラインのウェブサイトhttp://www.ncbi.nlm.nih.gov/genome/annotation_euk/all/で、詳細な注釈レポートや種BLASTやFTPなどの他のリソースへのリンクを使用してアクセスすることができる。
藻類、真菌、線虫および原生動物
NCBI小真核ゲノムパイプラインは、注釈付きINSDCレコードの直接伝播の結果としてRefSeqレコードの生成のために設計された新しい自動化されたパイプラインです。 このようにして生成されたRefSeqレコードは、RefSeq要件に準拠するためにいくつかの形式の変更を伴うGenBankデータのコピーです。 元のINSDCレコードとRefSeqレコードの最も顕著な違いは、RefSeqトランスクリプト製品の追加です。 De novoゲノム注釈を生成するようには設計されていませんが、小さな真核生物ゲノムパイプラインは、NCBI真核生物ゲノム注釈パイプラインモジュールとそのコード(http://www.ncbi.nlm.nih.gov/books/NBK169439/)のいくつかから描画されます。
“小さな真核生物”の名称は、藻類、原生動物、真菌、線虫、節足動物などの比較的小さな真核生物のゲノム(植物および脊椎動物のゲノムと比較して)のRefSeqゲノムを生成するためのパイプラインの主な用途を指します。 しかし、いくつかの大規模な植物ゲノムもこのパイプラインを使用して処理されます。 このパイプラインは、染色体および/または足場とそのコンポーネントからなる高品質のアセンブリを処理します。 高いcontigおよび足場N50、良質順序および適度によいINSDC堤出された注釈が付いているそれらのアセンブリは優先順位を付けられます。 より多くの手動サポートを必要とした歴史的なプロセスフローを置き換えるこのパイプラインは、ごく最近、公共の生産段階に達しており、すでにRefSeqに表 パイプラインのスループットを最適化し、より多くの自動化を追加し、学芸員の処理タスクをさらに最小限に抑える作業が進行中です。 長期計画には、時間の経過とともにINSDC提出された名前を提供、修正、または改善するために、タンパク質名管理システムを実装することが含まれます。 小真核生物パイプラインの範囲にあるゲノムの多くは、分類学的多様性とde novoアノテーションパイプラインを訓練するために必要な転写データの限られた利用可能性のために、現在、(大)真核生物ゲノムアノテーションパイプラインで処理することができない。
真菌標的遺伝子座
真菌の形態は、複雑な多細胞構造から非常に単純な単一細胞に至るまで、非常に多様である。
真菌 様々な形態学的構造および胞子タイプは、単一の種によって生成することができる。 逆に、多くの種は類似の形態(形態)を産生するが、実際には遺伝的に非常に遠い。 最近まで、単一の種は、性的または無性の形態に基づいて複数の二項名で有効に記述することができました。 多くの場合、特定の種については単一のモーフのみが記載され、記録されているが、それに密接に関連する種はいくつかのモーフが記載され、記録されている可能性がある。 その結果、配列比較は、彼らが複雑なライフサイクルを経て進行するように種を追跡し、不可解な種を識別するために、種を区別するために、真菌のコミュ 分類学的再評価の動的プロセスの一部として、多くの真菌種の修正は、GenBank配列データにおいて常に最新ではない。
DNAベースの同定のためのより信頼性の高いリソースであるためには、(種の参照として機能する)タイプ標本から派生した参照配列は、正確かつ最新の種名 真菌RefSeq標的遺伝子座データベースは、この貴重なリソースを提供します。 例えば、PRJNA177353は、系統発生マーカーとして長年にわたって使用され、最近真菌の正式なバーコード配列として承認されている核リボソームシストロンの内部転写スペーサ(ITS)領域に特化したバイオプロジェクトである(41)。 ITS RefSeqデータベースは、Index Fungorum、MycoBank、UNITE、および分類学の専門家の大規模なグループとのコラボレーションとして始まりました。 配列は、主に有効な説明のタイプ標本から、選択され、その後、現在の正しい種名は、受け入れられた真菌の順序(8)のほとんどを表すことを目的とした配列 このキュレーション努力からの結果は、様々な出版物(42-46)によって使用され、引用されており、参照配列のサブセット、例えば医学的に有意な種(47)を検証する
目的は、継続的なキュレーションで、新たに記載された順序から配列を追加し、医学的に重要な真菌に焦点を当てて受け入れられた家族のほとんどを含 このプロセスには、修正、検証された材料からのシーケンスのタイプ材料からのシーケンスへの置き換え、定義行の編集、分類学的分類の変更に応じたRefSeqレコー これにより、BLAST検索結果に現在の名前が正しく表示されます。 RefSeq ITSレコードは、3,060個のクラスから270個の家族を表す39個のシーケンスを表すように拡張されています。 最初の共同Its RefSeq努力の間に、28S核ラージサブユニットリボソーム遺伝子(LSU)からの配列アクセッションの小さなセットも収集されたが、検証されていません。 ITSレコードキュレーションプロセスと同様のワークフローが続き、継続的なキュレーション中に、これらのLSUレコードは、シーケンスの品質、正しい識別、および正確なソー >100ファミリを表す500レコード(800の潜在的なレコードから)に近い21クラスが検証され、最近リリースされました。 28Sデータセットは、BioProject PRJNA51803(48)から取得できます。NCBI RefSeq原核生物ゲノムコレクションは、品質とサンプリング密度の異なるレベルで組み立てられた原核生物ゲノムを表しています。
原核生物
原核生物のゲノムコレクションは、原核生物のゲノムを表しています。 原核生物については、過去のコミュニティからのフィードバックに基づいて、私たちの現在のポリシーは、私たちの品質基準を満たすすべての原核生物のゲノムアノテーションを提供することです。 近年、我々は二つの大きな課題に直面している:(i)提出された原核生物ゲノムの急速なエスカレーションに追いつくこと、および(ii)INSDC伝播ベースのパイプライン
ヒト病原体への関心の高まりとDNA配列決定技術の進歩に伴い、配列決定された原核生物ゲノムの数はここ十年で急速に増加しています。 いくつかの細菌株は、多くの場合、現在のジェノタイピングのアプローチを使用して区別がつかないが、マイナーな遺伝的違いは、伝達経路を特徴付ける抗生物質耐性を同定し、流行を調査するために有用である全ゲノムシーケンスに基づいて検出することができます。 食物媒介性病原体または感染の発生を調査するために、近年、ほぼ同一の細菌ゲノムの多数が配列決定され、注釈が付けられており、それぞれが明確なアクセッション番号を有する多数の同一のタンパク質が得られている。 2013年、NCBIはRefSeqコレクションのための新しいタンパク質データモデルとアクセッション接頭辞(WP_)を導入しました。 この変化は、RefSeq原核生物タンパク質の冗長性を減少させ、同じように複数のゲノム上で発見されたタンパク質の同定を容易にした。 また、原核生物のタンパク質名を管理するための改善された戦略を可能にした。 これらの非冗長レコードは、任意の特定の細菌ゲノムとは独立しており、複数の株または種に注釈を付けることができるユニークな原核生物タンパク質www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/).
歴史的に、RefSeq細菌ゲノム注釈は、利用可能な場合、INSDC提出から伝播されたか、NCBIの原核生物ゲノム注釈パイプライン(GenBank提出のためのサービスとしても提供されている)の異なるバージョンを使用して生成された。 これにより、RefSeq原核生物データセットの構造的および機能的注釈の両方に矛盾が蓄積されました。 NCBIは過去2年間、原核生物ゲノム注釈パイプラインのいくつかの側面を改善して、容量を増やし、注釈ルールをさらに標準化しました。 私たちのパイプラインは、アライメントベースの遺伝子検出アプローチと、遺伝子呼び出しアルゴリズム、GeneMarkS+(49,50)を組み合わせて、完全かつドラフトWGSゲノ パイプラインは現在、タンパク質コード遺伝子、構造Rna(5S、16sおよび23S)、trnaおよび小さな非コードRnaを予測しています。
2015年には、ゲノム注釈を調和させ、新しいタンパク質データモデルへの移行を完了するために、RefSeq原核生物ゲノムの包括的な注釈更新をリリースしました。 新しい原核生物タンパク質名データベース、名前仕様、および証拠に基づく戦略が開発され、現在展開されている過程にあります。 これまでのところ、3万以上のタンパク質レコードは、アプローチの最初のデモで名前を更新しています。 そのタンパク質レコードの名前を更新すると、そのアクセッション番号で注釈が付けられたすべてのゲノムに更新が自動的に伝播されます。
RefSeq原核生物ゲノムは、キュレーションされた属性およびアセンブリおよび注釈品質尺度に基づいて、参照ゲノムおよび代表ゲノムなどのいくつかの新www.ncbi.nlm.nih.gov/refseq/about/prokaryotes/)(51) 参照ゲノムは、高品質の注釈と構造的および機能的注釈のための実験的サポートの最高レベルで手動で選択された”ゴールドスタンダード”完全なゲノムです。 現在、122の参照ゲノムの小さなデータセットは、共同グループとNCBIスタッフによって手動で注釈が付けられています。 参照ゲノムは、http://www.ncbi.nlm.nih.gov/genome/browse/reference/で入手できます。 代表的なゲノムは、計算的に計算され、多様な種を表すように選択される。 代表的なゲノムは次の場所で入手可能です。www.ncbi.nlm.nih.gov/genome/browse/representative/.
RefSeq原核生物ゲノムデータは、BLASTデータベース、webリソース(アセンブリ、BioProject、ゲノム、ヌクレオチド、タンパク質)でNCBIのプログラミングユーティリティを介してアクセスするか、genomesまたはrefseq FTPサイトからダウンロードすることができる。 BLASTホームページからアクセスするカスタム”微生物”BLASTページには、すべてのRefSeq原核生物ゲノム、参照および代表的なゲノムサブセットに対して検索するか、特定の分類群に検索を制限するオプションが用意されています。 原核生物ゲノムのサブセットは、NCBI遺伝子IDで注釈され、NCBIの遺伝子リソースまたは遺伝子FTPサイトから取得することができる。 古細菌の場合、これはほとんどの完全なゲノムに提供されます。 細菌の場合、これは参照ゲノムのために提供され、少なくとも10個のゲノム提出を有する種のための代表的なゲノムである。
原核生物の標的遺伝子座
原核生物では、16SリボソームRNA配列は、新しい種の記述のための標準的な分子マーカーとなっています。 これらのマーカー配列は広く使用されるようになっているが,INSDCデータベースに提出されるシーケンスデータおよび関連メタデータの品質はかなり変化する。 これらのマーカーのための高品質のデータへのアクセスの重要性を認識し、NCBIは、キュレーションされたデータの最新のソースを提供するために、その標的遺伝子座 標的遺伝子座プロジェクトは、現在、95%以上がタイプ株からであるほぼ18 000 16SリボソームRNA参照配列を維持しています。 タイプ株は、種の模範と考えられており、タイプ株データが正しいメタデータで注釈され、汚染から自由であることが不可欠である。
この作業は、候補配列を取得するためにNCBIのタイプ株Entrezフィルタと組み合わせて使用された基礎となる分類データベースへの徹底的なレビューと更新 シーケンスデータとそれに関連する分類/メタデータは、最新の情報を含むように見直され、修正されています。 シーケンスが検証に失敗した場合、または正確に検証できなかった場合は除外されました。 これらの参照配列は、現在、既存および新規のrRNA配列の分析のための「金本位」として使用することができる。
細菌および古細菌16S rRNAデータセットは、BioProject(それぞれPRJNA33175およびPRJNA33317)から入手可能である。 カスタムBLASTデータベースも利用可能です(’16SリボソームRNA配列(細菌および古細菌)’)。
ウイルス
ウイルスのRefSeqデータモデルは、他の生物のそれとは異なります。 一般に、ウイルス種ごとに完全なRefSeqゲノムが1つだけ作成されます。 時折、複数のRefSeqレコードは、明確に定義された遺伝子型または重要な実験室および/または野生株を反映するために、所定のウイルス種内に作成されます。 与えられた種のための追加のゲノムは、分類学と完全性のために検証され、その後、配列”隣人”(52)として索引付けされます。 RefSeqおよび近隣のゲノムは両方専門にされたウイルスのゲノムリソース(http://www.ncbi.nlm.nih.gov/genome/viruses/)および”RefSeq Genome for Species”および”Other INSDC Genome Sequences”リンク(52)を使用してEntrezのヌクレオチド
分類学は、ウイルスの分類に関する国際委員会(ICTV)(53)によって正式に認識された3186のウイルス種と、INSDCデータベースから入手可能な公式および仮のウイル NCBI Pairwise Sequence Comparison(PASC)ツールは、ゲノム間のグローバルおよび/またはローカルアラインメントに基づくウイルスゲノムの分類を支援するために開発されました(http://www.ncbi.nlm.nih.gov/sutils/pasc/)。 このツールの範囲は、ウイルスファミリーや他の分類群の数を含むように拡張されており、新しい分類学的基準(54-57)の境界をサポートするために使用され
ウイルスゲノミクスにおけるもう一つの新たな問題は、関連するウイルスゲノム配列の間で一貫性のないおよび/または不正確な注釈である。 この問題は、多くの場合、異なる注釈プロセスと進行中の実験作業を反映しており、データ消費者の間で混乱を招き、ゲノム間の比較分析を困難にする この問題は、NCBIウイルスバリエーションリソース(http://www.ncbi.nlm.nih.gov/genome/viruses/variation/)内で対処されており、いくつかのウイルスに対して最新の標準化された注釈を提 現在、これらのパイプラインは、すべてのインフルエンザウイルス、デング熱ウイルス、ウェストナイルウイルスの標準化された遺伝子とタンパク質の境界を計算し、これらと他の2つのウイルス、中東呼吸器コロナウイルスとエボラウイルスの標準化された遺伝子とタンパク質の名前とメタデータ用語を計算しています。 この標準化されたデータは、特定の生物学的基準に基づいて配列を簡単に検索することを容易にする、特殊なメタデータ中心の検索インターフェイス内で活用されます。
広く受け入れられている最新の注釈基準を維持するには、より大きな科学界との継続的な協力が必要です。 NCBIウイルスゲノムアノテーションワーキンググループは、標準化された配列アノテーションを開発するだけでなく、ウイルスの異なるグループ(59-63)のための命名スキームを単離するために、公共のデータベース、シーケンシングセンター、および研究グループのコンソーシアムを活用するために設立されました。 このアプローチは、ウイルス注釈の標準を確立するだけでなく、現在のRefSeqレコード内のこれらの標準を表し、すべてのデータベースユーザーと送信者のアクセ HIV-1、ヒト相互作用データベース(http://www.ncbi.nlm.nih.gov/genome/viruses/retroviruses/hiv-1/interactions/)などの付加価値のある解釈リソースをサポートするためにも同様の共同作業が必要です(64)。 南部研究所からの協力者は、文書化されたHIV-1、文献からキュレーションされたヒト分子相互作用を提供し、NCBIは、ユーザーが相互作用の特定のタイプを照会し、関
将来の方向性
RefSeqプロジェクトは、転写物、タンパク質、ゲノムの参照配列データセットを提供することでユニークであり、すべての王国を網羅し、改善された計算戦略、新しいデータ型、および新しい知識を組み込むために、時間の経過とともに積極的に維持および更新されています。 私たちは、INSDCデータベースに提出された配列決定されたゲノムの数の最近の急速な増加に対応する能力と能力を実証しました。 私たちは、生物固有のコミュニティの異なるニーズを満たすために、真核生物、原核生物、およびウイルス種のキュレーションと注釈のための政策と戦略の多様なセットを定義しています。 RefSeqデータセットは、ヒトおよび病原体の臨床応用、比較ゲノミクス、発現アッセイ、配列変異の解釈、アレイおよびプローブの構築の両方を含む多くの異なる分析のための参照標準として広く使用されている。 NCBIでは、RefSeqデータセットは、アセンブリ、BLAST、エピゲノミクス、遺伝子(RefSeqアノテーションがほとんどの遺伝子エントリの主な基礎である)、ゲノム、dbSNP、dbVar、Variation Viewerなどを含む複数のリソースに統合されている。
私たちは、ヒトおよび他の脊椎動物のゲノムの構造的および機能的情報を改善するために、手動キュレーションをターゲットにしていきます。 私たちの保守的な手動キュレーションアプローチは、代替エクソン(少ない偽陽性)の十分にサポートされている定義を必要とする人のニーズに応える人間、マウ 私たちのアノテーションパイプラインへのRNA-Seqデータの追加が大幅にエクソームのより包括的な、まだ十分にサポートされている、定義をしたい人のニーズ 既知のRefseqとモデルのRefseqの両方がシーケンスレコードの支持証拠を報告しますが、それらはそうするために別個のアプローチを使用します。 今後の取り組みは、ユーザーがこの情報をより容易に識別できるように、”既知”および”モデル”Refseqの両方の証拠報告を調和させることに向けられます。 また、近い将来、ヒトおよびマウスのRefSeqコレクションに新しいデータ型を追加して、既知の(または合理的に推論された)機能的結果を持つ実験的に報告さ
原核生物ゲノムについては、原核生物ゲノムアノテーションパイプラインによって生成される構造アノテーションの改良に取り組んでいます。 機能情報を管理するための新しいアプローチに向けた私たちの仕事はまだ洗練されており、他の場所で説明されます。 私たちは、私たちの原核生物アノテーションパイプラインの新しいバージョンが利用可能になったとき(構造アノテーションを改善するために)全体RefSeq原核生物ゲノムデータセットを再アノテーションすることを期待しています。 このデータセットの膨大な量と一緒に、単一の方法を使用してすべてのRefSeq原核生物に注釈を付けることを決定するには、機能情報を提供するために、複数の証拠源を活用する別のアプローチが必要です。 タンパク質名は、タンパク質ファミリーまたはエビデンスタイプのカテゴリによって整理された継続的に更新されます。 来年の目標には、アノテーションパイプラインにおけるRfam(65)のより大きな統合、コラボレーションの拡大、タンパク質名の改善、タンパク質シーケンスレコード
私たちは、表現されたシーケンス、構造的注釈、および機能的注釈の品質と精度に貢献してきた過去15年間の建設的なフィードバック、提案、エラーレポート、およ
資金調達
NIH、国立医学図書館の学内研究プログラム。 オープンアクセス料金のための資金:国立衛生研究所、国立医学図書館の学内研究プログラム。
利益相反に関する声明。 何も宣言していない。/div>/div>
Et Al.
enenames.org:2015年のHGNCリソース
/div>
et al.
となっています。div>UniProt: ハブタンパク質の情報
/div>
/div>
et al.
/div>/div>b.ら。
2007
/div>
ら。
/DIV>
/div>
/div>
Et Al.
/div>
: タンパク質コード領域と非コード領域を区別するための比較ゲノミクス法
/div>
/div>
となっています。div>W.F.
ヒストンH2B遺伝子のサブセットは、様々な細胞条件下でポリアデニル化mrnaを生成します
div: 概要の高レベルの分類および調査の分類学的豊かさ(補遺2013)
となっています。div>Subramanian
ジェイ-エム-エム
/div>
et al.
-グリソム
/div>
L.
/div>ら。
/div>
RefSeq微生物ゲノムリソースの更新
O.
/div>ら。
R.
R.
j.l.
div>
ら。
となっています。/div>
/div>/div>
et al。
/div>k.d.
/div>/div>