NCBIのSequence Read Archive(SRA)からGalaxyへ:SARS-CoV-2variant analysis

このチュートリアルの目的は、Galaxyにおける次世代シーケンシングデータの処理を紹介することです。 このチュートリアルでは、Illuminaデータから呼び出すCOVID-19バリアントを使用しますが、バリアント呼び出し自体ではありません。このチュートリアルが完了すると、次のことがわかります。

  • SRAでデータを検索し、この情報をGalaxyに転送する方法
  • Galaxyで基本的なNGSデータ処理を実行す:
    • Illuminaデータの品質管理(QC)
    • マッピング
    • 重複の削除
    • バリアント呼び出しlofreq
    • バリアント注釈
  • データセットコレクションを使用した
  • Jupyterにデータをインポート

###アジェンダlofreq

  • バリアント注釈
  • データセットコレクションを使用した
  • ###アジェンダlofreq
  • データセットコレクションを使用した
  • ###アジェンダ
  • >>>>>>{: .アジェンダ}##このチュートリアルを通る二つのパス私たちは、このチュートリアルをたどることができる二つの軌道を作成しました。1. **軌跡1**-NCBIのSRAで開始し、利用可能なアクセッションを検索→開始(#the-sequence-read-archive)2. **軌道2**-ncbiのSRAをバイパスし、直接銀河で始まります。 →スタート(#バックインギャラクシー)**軌道2**から始めることをお勧めします。#Sequence Read ArchiveThe(https://www.ncbi.nlm.nih.gov/srahttps://www.ncbi.nlm.nih.gov/)の*未組立読み取り*のプライマリアーカイブです。 SRAは、出版物や研究の基礎となる配列決定データを取得するのに最適な場所です。このチュートリアルでは、2つの間の直接接続を使用して、SRAからGalaxyにシーケンスデータを取得する方法について説明します。>>>SRAは元の名前である*Short Read Archive*とも呼ばれています。>{:.コメント}##SRASRAへのアクセスは、そのウェブサイトを介して直接、またはギャラクシーのツールパネルを介して到達することができます。>>>最初は、SRAにアクセスするためのツールパネルオプションは、(https://usegalaxy.org/)にのみ存在します。 Sraへの直接接続のサポートは、Galaxy{:の20.05リリースに含まれます。コメント}>###hands_onハンズオン:Sra Entrezを探索>>https://usegalaxy.org/https://usegalaxy.euhttps://usegalaxy.org.au)またはその他のいずれかのように選択したGalaxyインスタンスに移動します。 (このチュートリアルでは、usegalaxy.org>https://training.galaxyproject.org/training-material/topics/galaxy-interface/tutorials/history/tutorial.html>>1. **”データの取得”の下に表示されるツールのリストで**”SRAサーバー”をクリックします。>https://www.ncbi.nlm.nih.gov/sra)-SRAから直接開始することもできます。 検索ボックスは、ページの上部に表示されます。 “Dolphin”や”kidney”や”dolphin kidney”など、興味のあるものを検索してから、”検索”ボタンをクリックしてください。>>これは、検索文字列に一致する*SRA実験*のリストを返します。 SRA実験は、*SRXエントリ*としても知られており、特定の実験からのシーケンスデータだけでなく、実験自体と他の関連データの説明が含まれています。 名前をクリックすると、返された実験を調べることができます。 詳細については、(https://www.ncbi.nlm.nih.gov/books/NBK56913/)の(https://www.ncbi.nlm.nih.gov/books/n/helpsrakb/)を参照してください。SRA検索ボックスにテキストを入力すると、(https://www.ncbi.nlm.nih.gov/sra/docs/srasearch/)を使用しています。 Entrezは、単純なテキスト検索と、特定のメタデータをチェックし、任意の複雑な論理式を使用する非常に正確な検索の両方をサポートしています。 Entrezは、あなたの検索を絞り込むように、基本から高度に検索をスケールアップすることができます。 高度な検索の構文は困難に見えるかもしれませんが、SRAは特定の構文を生成するためのグラフィカル(https://www.ncbi.nlm.nih.gov/sra/advanced/)を提供します。 そして、我々は以下を参照しなければならないように、SRAの実行セレクタは、私たちの選択したデータを絞り込むためのさらに友好的なユーザイ>>高度なクエリビルダーを含むSRA Entrezインターフェイスを使用して、研究分野のいずれかに関連する一連のSRA実験を識別できるかどうかを{: .hands_on}>###hands_onハンズオン: Entrezを使用してマッチング実験のリストを生成>>SRA Entrezに基本的な知識があるので、このチュートリアルで使用されるシーケンスを見>>https://www.ncbi.nlm.nih.gov/sra>>1. *検索ボックスに`sars-cov-2`と入力し、`Search`をクリックします。>これは、検索に一致するSRA実験の長いリストを返し、そのリストはチュートリアルの演習で使用するには長すぎます。 この時点で、上記で学んだ高度なEntrezクエリビルダーを使用することができます。>しかし、私たちはしません.代わりに、私たちが持っているチュートリアル*リストの結果のために*too longをSRA Runセレクタに送信し、その友好的なイン>>!(../../images/sra_entrez.png){:.hands_on}>###hands_onハンズオン: EntrezからSRA実行セレクタに移動>>RunSelectorを使用して、展開された対話型テーブルとして結果を表示します。>>>>!(../../images/sra_entrez_result.png)>>>>>>>>>Entrez検索を探索していたときに、このテキストに気づいたかもしれません。 このテキストは、検索結果の数がかなり広いウィンドウ内にあるときにのみ表示されます。 いくつかの結果しかない場合は表示されませんし、実行セレクタが受け入れることができるよりも多くの結果がある場合は表示されません。>>>>>>*結果をGalaxyに送信するには、セレクタを実行する必要があります。*表示されているこのリンクをトリガするのに十分な結果を持っていない場合はどうなりますか? その場合、結果パネルの右上にある”送信先”プルダウンメニューで**クリック**することで、実行セレクタにgetを呼び出します。 Selectorを実行するには、`Run Selector`を選択してから`Go`ボタンをクリックします。>!(../../images/sra_entrez_send_to.png)>>>>1。 ***検索結果パネルの上部にある”セレクターを実行する結果を送信”をクリックします。 (このリンクが表示されない場合は、上記のコメントを直接参照してください。){: .hands_on}##SRA Run Selectoreutrezの高度な構文を使用して検索結果を絞り込む方法を以前に学びました。 しかし、私たちがEntrezにいたとき、私たちはその力を利用しませんでした。 代わりに、単純な検索を使用し、すべての結果を実行セレクタに送信しました。 分析を実行する結果の(短い)リストはまだありません。 *私たちは何をしていますか?*EntrezとRun Selectorを使用していますそれらが使用されるように設計されている方法:*Entrezインターフェイスを使用して、Run Selectorが消費できるサイズに結果を絞り込みま *これらのEntrez結果をSRA実行セレクタに送信します*実行セレクタのはるかに友好的なインターフェイスを1に使用します。 私たちが持っているデータをより簡単に理解する1. その知識を使用してそれらの結果を狭くしなさい。>>>>実行セレクタはほとんどを行うことができますが、Entrez検索構文ができることのすべてではありません。 実行セレクタは、使いやすく、強力ですが、固有の限界を持っている*ファセット検索*技術を使用しています。 具体的には、Entrezは、数十、数百、または数千の異なる値を持つ属性を検索する場合に適しています。 実行セレクタは、20未満の異なる値を持つ属性を検索する方が良いでしょう。 幸いなことに、それはほとんどの検索を説明します。{: .コメント}実行セレクタウィンドウはいくつかのパネルに分かれています。***`Filters List`**:左上隅にあります。 これは私達が私達の調査を精製するところである。***’Select’**:最初にRun Selectorに渡されたものと、これまでに選択したものの概要。 (そして、これまでのところ、我々はそれのいずれかを選択していません。)また、食欲をそそるが、まだグレーアウト、”銀河”ボタンに注意してください。***`Found x Items’**最初は、EntrezからSelectorを実行するために送信されたアイテムのリストです。 フィルタを適用すると、このリストは縮小されます。!(../../images/sra_run_selector.png)>>>EntrezインターフェイスはSRA実験(SRXエントリ)をリストしていることを思い出してください。 実行セレクタリスト*実行*—シーケンスデータセット-そして、実験ごとに*一つ以上の*実行があります。 私たちは以前と同じデータを持っていますが、今はそれをより詳細に見ています。{: .コメント}左上の”フィルタリスト”は、連続した数値、または10以下(この数値を変更することができます)の異なる値を持つ結果の列を示しています。 **スクロール**リストを下にフィルタのいくつかを選択します。 フィルタを選択すると、下に*値*ボックスが表示され、このフィルタのオプションと各オプションでの実行数が一覧表示されます。 これらの値/オプションは、データセットメタデータから取得されます。 いくつかの興味深いサウンドフィルタを選択してから、各フィルタのための**選択**一つ以上のオプションを**選択してみてくださ オプションとフィルタの選択を解除してみてください。 これを行うと、見つかった結果の数が減少または増加します。>>>フィルタは、Galaxyへの送信を検討しているデータセットを絞り込む方法ですが、データを理 できない可能性があります(https://www.google.com/search?q=sra+sirs_outcome>次に、異なる列が互いにどのように関連しているかを調べることができます。 `Sirs_outcome`値と`disease_stage`値の間には関係がありますか?{: .ヒント}>###hands_onハンズオン:実行セレクタを使用して結果を絞り込む>>>>>>SRR11772204またはSRR11597145またはSRR11667145>>この手で選んだ一連のランは、結果を制限します異なる地理的分布から3つの実行に。{: .hands_on}これは、数万回の実行から3回の実行にあなたの”見つかったアイテム”リストを減少させます(チュートリアルのための管理可能な数!). しかし、私たちはまだRun Selectorでかなり終わっていません。 “銀河”ボタンはまだグレーアウトされていることに注意してください。 私たちは選択肢を狭めましたが、実際にはまだGalaxyに送信するものを選択していません。最初の列の上部にあるチェックマークをクリックすることで、残りのすべての実行を選択することができます。 `X`をクリックすると、すべての選択を解除できます。>###hands_onハンズオン:実行を選択し、ギャラクシーに送信>>1。 “X”をクリックして、すべての実行を選択します。>そして今、`Galaxy`ボタンはライブです。>1. ***クリック**ページの上部にある”選択”セクションの”ギャラクシー”ボタン。{: .hands_on}##銀河に戻る実行セレクタで”銀河”をクリックすると、いくつかのことが起こります。 まず、Galaxyで開く新しいブラウザタブまたはウィンドウを起動します。 SRAとGalaxy間のハンドシェイクが成功したことを示す*大きな緑色のボックス*が表示され、履歴パネルに新しい「SRA」ジョブが表示されます。 このボックスは、転送がまだ開始されていないことを示す灰色/保留中として開始されるか、黄色/実行中または緑色/完了にまっすぐ進むことがあります。>###hands_onハンズオン: 新しいSRAデータセットを調べます>>1. “SRA”転送が完了したら、データセットのgalaxy-eye(eye)アイコンをクリックします。>>これは、銀河の中央パネルにデータセットを表示します。{: .hands_on}`SRA`データセットはシーケンスデータではなく、SRAからシーケンスデータを取得するために使用するメタデータです。 このメタデータは、実行セレクタの”Found Items”セクションで見た情報を反映しています。 メタデータは、SRAから求めている最終データではありませんが、すべてのメタデータを持つことは、後続の分析ステップで有用であることがよくあります。そのメタデータを使用して、SRAからシーケンスデータを取得します。 SRAは、シーケンスデータ自体を含むあらゆる種類の情報を抽出するためのツールを提供します。 Galaxyツールの「FASTQでの高速ダウンロードと抽出読み取り`は、SRA(https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump>

    SRAで必要なデータを見つける

    まず、遊ぶのに適したデータセットを見つける必要があります。 シーケンス読み取りアーカイブ(SRA)は、米国国立衛生研究所(NIH)によって運営されている未組立読み取りの主要なアーカイブです。 SRAは、出版物や研究の基礎となる配列決定データを取得するのに最適な場所です。 それをしましょう:

    hands_on Hands-on:タスクの説明

    1. ブラウザを指してNCBIのSRAページに移動しますhttps://www.ncbi.nlm.nih.gov/sra
    2. 検索ボックスにSARS-CoV-2 Patient Sequencing From Partners / MGHデータを検索(または、このリンクをクリックするだけです)
    3. webページには多数のSRAデータセットが表示されます(執筆時点では2,223がありました)。 これは、ボストン地域におけるSARS-CoV-2の分析を記述した研究からのデータである。
    4. これらのデータセットを記述するメタデータをダウンロードします。
      • Send to:dropdownをクリックします
      • 選択しますFile
      • フォーマットをRunInfo
      • ファイルの作成をクリックします:これにより、かなり大きなSraRunInfo.csvDownloadsフォルダに作成されます。このファイルをダウンロードしたので、Galaxyインスタンスに移動して処理を開始できます。p>

        コメントコメント

        ダウンロードしたばかりのファイルは、データ自体をシーケンスしていないことに注意してくださ むしろ、シーケンス読み取りのプロパティを記述するメタデータです。 私たちは、このチュートリアルの残りの部分で使用されるだけでいくつかのアクセッションにこのリストをフィルタリングします。p>

        プロセスとフィルタSraRunInfo。ギャラクシーのcsvファイル

        hands_onハンズオン:SraRunInfoをアップロードします。galaxyへのcsvファイル

        1. 次のいずれかのように選択したGalaxyインスタンスに移動します。usegalaxy.org,usegalaxy.eu,usegalaxy.org.au または他のもの。 (このチュートリアルでは、usegalaxy.org).
        2. データのアップロードボタンをクリックします:アップロード
        3. 表示されるダイアログボックスで”ローカルファイルを選択”ボタンをクリックします。ローカルを選択
        4. 検索して選択SraRunInfo.csvコンピュータからファイル
        5. スタートボタンをクリックします
        6. 閉じるボタンを押してダイアログを閉じます
        7. galaxy-eye(eye)アイコンをクリックすると、このファイルの内容を見ることができます。 このファイルには、個々のSRAアクセッションに関する多くの情報が含まれていることがわかります。 この研究では、すべての加盟は、そのサンプルの配列決定された個々の患者に対応しています。

        Galaxyは2,000以上のデータセットをすべて処理できますが、このチュートリアルを我慢できるようにするには、より小さなサブセットを選 特に、このデータの以前の経験では、2つの興味深いデータセットを示していますSRR11954102SRR12733957。 だから、それらを引き出しましょう。

        コメントカットに注意してください

        以下のハンズオンセクションは、カットツールを使用しています。 歴史的な理由のために銀河には二つのカットツールがあります。 この例では、完全な名前のtoolを使用してテーブルから列をカット(cut)します。 ただし、他のツールにも同じロジックが適用されます。 それは単にわずかに異なるインターフェイスを持っています。

        hands_on Hands-on:データのサブセットを作成する

        1. ツールパネルのフィルタとソートセクションでツール”式に一致する行を選択”ツール

          ヒントヒント:ツールの検索

          Galaxyには圧倒的な量のツールがインストールされている可能性があります。 特定のツールを検索するには、ツールパネルの検索ボックスにツール名を入力してツールを検索します。p>

        2. アップロードしたばかりのSraRunInfo.csvデータセットがツールフォームのparam-file”Select lines from”フィールドにリストされていることを確認してくださ”パターン”フィールドに次の式を入力します→SRR12733957|SRR11954102||orSRR12733957SRR11954102を含む行を検索します。
        3. Executeボタンをクリックします。
        4. これは2行を含むファイルを生成します(まあ…1行もヘッダーとして使用されるため、ファイルには3行が表示されます。 それは大丈夫です。)
        5. ツールペインのテキスト操作セクションにあるツール”カット”ツールを使用して、ファイルから最初の列をカットします。
        6. ツールフォームの”カットするファイル”フィールドで、前のステップで生成されたデータセットが選択されていることを確認します。”フィールドのリスト”でColumn: 1
        7. “Delimited by”をComma
        8. に変更します。
        9. HitExecuteこれは二行だけのテキストファイルを生成します:
          SRR12733957SRR11954102

          データセットの識別子があるので、実際のシーケンスデータをダウンロードする必要があります。

          より高速なダウンロードとシーケンスデータをダウンロードし、FASTQで読み取りを抽出

          hands_onハンズオン:タスクの説明

          1. より高速: List of SRA accession, one per line
            • パラメータparam-file”sra accession list”は、前のステップからのツール”Cut”の出力を指す必要があります。
          2. ExecuteSRAデータセットにリストされていた実行のシーケンス読み取りデータセットを取得するツールが実行されます。 時間がかかる場合があります。 だから、これはコーヒーを得るのに良い時間かもしれません。このジョブを送信すると、履歴パネルにいくつかのエントリが作成されます。

            • Pair-end data (fasterq-dump): ペアエンドデータセットが含まれています(使用可能な場合)
            • Single-end data (fasterq-dump)シングルエンドデータセットが含まれています(使用可能な場合)
            • Other data (fasterq-dump)対になっていないデータセットが含まれています(使用可能な場合)
            • fasterq-dump logツールの実行に関する情報が含まれています

          最初の三つの項目は、実際にはデータセットのコレクションです。 Galaxyのコレクションは、実験/分析におけるそれらの間の意味的関係を反映するデータセットの論理的なグループです。 この場合、ツールは、ペアエンド読み取り、単一読み取り、およびその他のために個別のコレクションを作成します。詳細については、コレクションのチュートリアルを参照してください。

          最初に履歴パネルのコレクション名をクリックしてコレクションを探索します。 これにより、コレクション内に表示され、その中のデータセットが表示されます。 その後、履歴の外部レベルに戻ることができます。

          fasterqデータの転送が完了したら(すべてのボックスが緑色/完了)、分析する準備が整いました。

          今何ですか?取得したデータは、Galaxyの任意のシーケンス分析ツールとワークフローを使用して分析できるようになりました。 SRAは、*-seq実験のすべての想像できるタイプのバッキングデータを保持しています。このチュートリアルを実行したが、興味のあるデータセットを取得した場合は、Gtnライブラリの残りの部分でGalaxyで分析する方法のアイデアを参照してくただし、上記のこのチュートリアルの例で使用されているデータセットを取得した場合は、以下のSARS-CoV-2バリアント分析を実行する準備が整いました。

          SARS-Cov-2シーケンスデータの変動解析

          チュートリアルのこの部分では、上記のダウンロードしたデータセットのバリアント呼び出しと基本的な解析を実 まず、Wuhan-Hu-1SARS-CoV-2参照シーケンスをダウンロードしてから、アダプターのトリミング、アライメント、バリアントの呼び出しを実行し、最後に見つかったバリアントの地理的分布を調べます。

          usegalaxyをコメントします。*COVID-19分析プロジェクト

          このチュートリアルでは、データのサブセットを使用し、covid19のvariation Analysissectionを実行します。galaxyproject。org。のデータcovid19.galaxyproject.org 新しいデータセットが公開されるにつれて継続的に更新されます。今日の参照ゲノムデータは、NC_045512.2のアクセッションIDを持つSARS-CoV-2、”重度急性呼吸器症候群コロナウイルス2単離武漢-Hu-1、完全ゲノム”です。このデータは、次のリンクを使用してZenodoから入手できます。p>

          hands_onハンズオン:参照ゲノムデータを取得

          1. 次のファイルを履歴にインポートします:P>

            https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/009/858/895/GCF_009858895.2_ASM985889v3/GCF_009858895.2_ASM985889v3_genomic.fna.gz

            ヒント:リンクを介してインポート

            • リンクの場所をコピー
            • Galaxyアップロードマネージャを開きます(ツールパネルの右上にあるgalaxy-upload)
            • データの貼り付け/フェッチを選択します
            • リンクをテキストフィールドに貼り付けます
            • startを押します
            • ウィンドウを閉じるデフォルトでは、galaxyはurlを名前として使用するため、より便利な名前でファイルの名前を変更します。

          Fastpを使用したアダプタトリミング

          シーケンスアダプタを削除すると、アライメントとバリアント呼び出しが改善されます。 fastp用具は自動的に広く利用された配列のアダプターを検出できます。

          hands_onハンズオン:タスクの説明

          1. 次のパラメータを持つfastpツール:
            • “シングルエンドまたはペア読み取り”:Paired Collection
              • param-file”ペア: list_paired(FASTQツールで高速なダウンロードと抽出読み取りの出力)
            • “出力オプション”で:
              • “出力JSONレポート”:Yes

          bwa-memを使用したマップとのアラインメント

          bwa-memツールは、このチュートリアルで分析しているような短い読み取りシーケンスデータセットのために広く使用されているシーケンスアライナーです。p>

          hands_onハンズオン: シーケンス読み取りを参照ゲノムに整列させる

          1. 次のパラメータを持つBWA-MEMツールでマップします。
            • “履歴から参照ゲノムを選択するか、組み込みのイン”:Use a genome from history and build index
              • param-file”参照シーケンスとして次のデータセットを使用します”:output(入力データセット)
            • “シングルまたはペアエンド読み取り”:Paired Collection
              • param-file”ペアコレクション”:output_paired_coll(fastpツールの出力)
            • “読み取りグループ情報を設定しますか?”: Do not set
            • “分析モードの選択”:1.Simple Illumina mode

          MarkDuplicatesで重複を削除

          MarkDuplicatesツールは、ライブラリ準備アーティファクトとシーケンスアーティファクト 単一分子の人工的な過剰表現を避けるために、これらの人工的な配列を除去することが重要である。P>

          hands_onハンズオン:PCR重複を削除

          1. 次のパラメータを持つMarkDuplicatesツール:
            • param-file”SELECT SAM/BAM dataset or dataset collection”:bam_output(Bwa-MEMツールを使用したMapの出力)
            • “trueの場合、適切なフラグを設定して書き込むのではなく、出力ファイルに重複を書

          samtools statsを使用してアライメント統計を生成

          上記の重複マーキング手順の後、生成したアライメントに関する統計を生成できます。p>

          hands_onハンズオン: Alignment statisticsを生成します。

          • param-file”BAM file”:outFile(MarkDuplicatesツールの出力)
          • “カバレッジ分布の設定”:No
          • “出力”:No
          • “出力”:No
          • “出力”:No
          • “出力”:No
          • “出力”:
          • “samフラグによるフィルタ”:Do not filter
          • “参照シーケンスを使用”:No
          • “領域によるフィルタ”:No
          • “領域によるフィルタ”:Do not filter
          • “領域によるフィルタ”:Do not filter
          • “参照シーケンスを使用”:
          • No

    lofreq viterbiで読み取りを再調整

    読み取り再調整ツールは、挿入と削除の周りのずれを修正します。 これは、変異体を正確に検出するために必要です。

    hands_on Hands-on:indelsの周りの読み取りを再調整

    1. 次のパラメータを持つlofreqツールで読み取りを再調整します。
      • param-file”Reads to realign”:outFile(MarkDuplicatesツールの出力)
      • “レファレンスゲノム”: History
        • param-file”Reference”:output(入力データセット)
      • “高度なオプション”で:
        • “2の基本品質を処理する方法は?”:Keep unchanged

    lofreqでインデルクオリティを追加インデルクオリティを挿入

    このステップでは、インデルクオリティをアラインメントファイルに追加します。 これは、lofreqツールで呼び出しバリアントを使用してバリアントを呼び出すために必要です

    hands_on Hands-on: Indel qualitiesを追加

    1. 次のパラメータを持つlofreqツールでindel qualitiesを挿入します。
      • param-file”Reads”:realigned(再調整読み取りツールの出力)
      • “Indel計算アプローチ”:Dindel
        • “参照ゲノムのソースを選択”:Dindel
          • “参照ゲノムのソースを選択”:Dindel
            • “参照ゲノムのソースを選択”:Dindel
              • “参照ゲノムのソースを選択”:History
                • param-file”reference”:output(入力データセット)

    Lofreqコールバリアントを使用してバリアントを呼び出します

    私たちは今、バリアントを呼び出す準備ができています。

    hands_on Hands-on:呼び出しバリアント

    1. 次のパラメータを持つlofreqツールで呼び出しバリアント:
      • param-file”入力はBAM形式で読み込みます”:output(インデル品質挿入ツールの出力)
      • “参照ゲノムのソースを選択します”:History
        • param-file”Reference”:output(入力データセット)
      • “呼び出しバリアントの種類”:Whole reference
      • “呼び出すバリアントの種類”:Whole reference
      • “呼び出すバリアントの種類”:Whole reference
      • “呼び出すバリアントの種類”: SNVs and indels
      • “バリアント呼び出しパラメータ”:Configure settings
        • “カバレッジ”の:
          • “最小カバレッジ”:50
        • “ベース呼び出し”の:
          • “最小カバレッジ”:
            • “最小カバレッジ”:50
          • “ベース呼び出し”の:
            • “最小カバレッジ”:
              • “最小カバレッジ”:
                • “最小カバレッジ”:
                  • “最小カバレッジ”:
                    • “最小カバレッジ”:
                      • “最小カバレッジ”:
                        • /li>

      パラメータ”: Preset filtering on QUAL score + coverage + strand bias (lofreq call default)

    このステップの出力は、ゲノムブラウザで視覚化できるVCFファイルのコレクションです。

    snpeff effでバリアント効果に注釈を付ける:

    ここで、前のステップで呼び出したバリアントに、SARS-CoV-2ゲノムに与える効果を注釈します。

    hands_onハンズオン:バリアント効果に注釈を付ける

    1. SnpEff eff:次のパラメータを持つツール:
      • param-file”シーケンス変更(SNPs,MNPs,InDels)”: variants(コールバリアントツールの出力)
      • “出力形式”:VCF (only if input is VCF)
      • “下流分析(-csvStats)のために有用なCSVレポートを作成”:Yes
      • “注釈オプション”:`
      • “フィルタ出力”:
      • `フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “フィルタ出力”:
      • “特定の効果をフィルタアウト”:No

    このステップの出力は、バリアント効果を追加したvcfファイルです。

    SnpSift抽出フィールドを使用してバリアントのテーブルを作成します

    VCFからさまざまな効果を選択し、人間にとって理解しやすい表形式のファ

    hands_onハンズオン:バリアントのテーブルを作成します

    1. SnpSift次のパラメータを持つフィールドツールを抽出します。
      • param-file”Vcf形式のバリアント入力ファイル”:snpeff_output(SnpEff effの出力:ツール)
      • “抽出するフィールド”:CHROM POS REF ALT QUAL DP AF SB DP4 EFF.IMPACT EFF.FUNCLASS EFF.EFFECT EFF.GENE EFF.CODON
      • “複数のフィールド区切り文字”: ,
      • “empty field text”:.

    出力ファイルを検査し、このファイルのバリアントがSARS-CoVの地理的分布を示す観測可能なノート興味深い変異体は、SRR1 1 7 7 2 2 0 4における1 4 4 0 8位(1 4 4 0 8C/t)のCからT変異体、SRR1 1 5 9 7 1 4 5における2 8 1 4 4T/cおよびsrr1 1 6 6 7 1 4 5における2 5 5 6 3G/tのcからT変異体を含む。

    Multiqcでデータを要約

    ここでは、データの美しいレポートを生成するMultiQCで分析を要約します。

    hands_onハンズオン:データを要約

    1. 次のパラメータを持つMultiQCツール:
      • “結果”で:
        • param-repeat”結果を挿入”
          • “どのツールが使用されたログを生成しますか?”:fastp
            • param-file”fastpの出力”: report_json(fastpツールの出力)
        • param-repeat”Insert Results”
          • “どのツールが使用されたログを生成しますか?”:Samtools
            • “Samtools出力”で:
              • param-repeat”Samtools出力の挿入”
                • “Samtools出力のタイプ?”:stats
                  • param-file”Samtools統計出力”: output(Samtools統計ツールの出力)
    2. param-repeat”Insert Results”
      • “どのツールが使用されたログを生成しますか?”:Picard
        • “Picard出力”で:
          • param-repeat”挿入Picard出力”
            • “Picard出力のタイプ?”:Markdups
            • param-file”Picard出力”: metrics_file(MarkDuplicatesツールの出力)
    3. param-repeat”Insert Results”
      • “どのツールが使用されたログを生成しますか?/li>
    4. 結論

      おめでとう、あなたは今、sraからシーケンスデータをインポートする方法と、これらのデータセットの分析例を実行する方法を知っています。

      キーポイントキーポイント

      • Sra内のシーケンスデータを直接ギャラクシーにインポートすることができます

      よくある質問

      このチュートリアルについての質問がありますか? あなたの質問がそこにリストされているかどうかを確認するには、バリアント分析トピックのFAQページを そうでない場合は、GTN GitterチャンネルまたはGalaxy Help Forum

      Useful literature

      このチュートリアルで説明されているツール、分析技術、結果の解釈に関するドキュメントや元の出版物へのリンクを含む詳細な情報は、ここで見つけることができます。

      フィードバック

      あなたはインストラクターとしてこの材料を使用しましたか? 私達にそれがどのように行ったかについてのフィードバックを与えること自由に感じます。

      Googleフィードバックフレームをロードするにはここをクリック

      このチュートリアルを引用

      1. Marius van den Beek,Dave Clements,Daniel Blankenberg,Anton Nekrutenko,2021NCBIのSequence Read Archive(SRA)からGalaxy:Sars-CoV-2variant analysis(Galaxy Training Materials) /トレーニング-材料/トピック/バリアント分析/チュートリアル/sars-cov-2/チュートリアル。htmlオンライン;今日アクセス
      2. Batut et al.,2018生物学細胞システムのためのコミュニティ駆動型データ解析トレーニング10.1016/j.cels.2018.05.012

      details BibTeX

      @misc{variant-analysis-sars-cov-2, author = "Marius van den Beek and Dave Clements and Daniel Blankenberg and Anton Nekrutenko", title = "From NCBI's Sequence Read Archive (SRA) to Galaxy: SARS-CoV-2 variant analysis (Galaxy Training Materials)", year = "2021", month = "03", day = "23" url = "\url{/training-material/topics/variant-analysis/tutorials/sars-cov-2/tutorial.html}", note = ""}@article{Batut_2018, doi = {10.1016/j.cels.2018.05.012}, url = {https://doi.org/10.1016%2Fj.cels.2018.05.012}, year = 2018, month = {jun}, publisher = {Elsevier {BV}}, volume = {6}, number = {6}, pages = {752--758.e1}, author = {B{\'{e}}r{\'{e}}nice Batut and Saskia Hiltemann and Andrea Bagnacani and Dannon Baker and Vivek Bhardwaj and Clemens Blank and Anthony Bretaudeau and Loraine Brillet-Gu{\'{e}}guen and Martin {\v{C}}ech and John Chilton and Dave Clements and Olivia Doppelt-Azeroual and Anika Erxleben and Mallory Ann Freeberg and Simon Gladman and Youri Hoogstrate and Hans-Rudolf Hotz and Torsten Houwaart and Pratik Jagtap and Delphine Larivi{\`{e}}re and Gildas Le Corguill{\'{e}} and Thomas Manke and Fabien Mareuil and Fidel Ram{\'{\i}}rez and Devon Ryan and Florian Christoph Sigloch and Nicola Soranzo and Joachim Wolff and Pavankumar Videm and Markus Wolfien and Aisanjiang Wubuli and Dilmurat Yusuf and James Taylor and Rolf Backofen and Anton Nekrutenko and Björn Grüning}, title = {Community-Driven Data Analysis Training for Biology}, journal = {Cell Systems}} 

    コメントを残す

    メールアドレスが公開されることはありません。