画像ベースのプロモーター予測:進化的に生成されたパターンに基づくプロモーター予測法

進化的アプローチによる「画像」の生成

IBPPの基礎は、訓練シーケンスから「画像」を生成し、それを使用して任意の標的配列を評価し、その「画像」との類似性を評価することである。 ランダムな種子画像から始めて、最終的な”画像”は進化的アプローチを用いて得られた。 進化の方法は、このプロセスの基礎となった”画像”に均一化効果をもたらしました。 新しいシード画像は進化過程を通じて継続的に補充されたが、我々は”画像”の多様性が減少傾向を示したことがわかった(図2、S1)。 “–”をヌクレオチドシンボルに置き換えることによって、最初の五世代の多様性が増加した。 しかし、第60世代以降、多様性の減少は減速した(図。 2c)。 多様性は100世代目までには減少し続けているように見えましたが(図。 図2c)に示すように、生成された画像の予測能力をテストするために、この時点で進化を停止した。

試験セット中のプロモーターおよび非プロモーター配列は、第100世代で生成された”画像”でスコア化された。 表1に示すように、プロモーター配列の平均スコアは、非プロモーター配列の平均スコアよりも高かった(p<0.001)。 これは、「画像」がプロモーターと非プロモーターを区別する可能性を有することを示した。 適切なしきい値では、しきい値を超えるスコアを持つ配列はプロモーターとして予測されたが、しきい値を下回るスコアを持つ配列は非プロモーターと予測された。 しかし,プロモーター配列と非プロモーター配列のスコアの間にはまだいくつかの重複があり,この方法は感度と特異性の両方の要件を同時に満たすことができなかったことを示した。

表1″画像”を使用して計算されたプロモーターおよび非プロモーター配列のスコアの比較a。実際、感度は閾値(r=0.999)と負に相関していたのに対し、特異度は閾値(r=0.999;Figcaption>

実際、感度は閾値(r=0.999;figcaption>

実際、感度は閾値(r=0.999;figcaption>

3a)。 しきい値が9未満であったとき、IBPPは87%より高い感度を獲得したが、特異性は70%未満に減少した。 我々の実験では、最高のF1スコアは9(F1=77.9%)のしきい値で得られました。 しかし、実際には、90%未満の特異性はかなりの問題を引き起こす可能性があります。 したがって、閾値は12であり、感度および特異度は58であることが推奨される。2%±5.1%および92.8%±1.6%、それぞれ。 他の種のプロモーターの場合、最適な閾値は異なる場合があります。

図3
図3

IBPPのプロモーター予測能力。 大腸菌β70プロモーター上のIBPPのパフォーマンスは、主にしきい値(a)によって影響された。 “画像”の予測能力は、進化(b)とともに増加した。 結果は55の独立した複製からのものです。 Sn、感度;Sp、特異性;FP、偽陽性率;TP、真陽性率。

“画像”の予測感度は世代にわたって増加し、適合対数回帰モデル(r=0.99;Fig. 3b)。 最初の40世代では、平均TPは0%から47%に増加し、その後徐々に増加し、最終的には58%に達しました第90世代。 対照的に、平均FPは時間の経過とともに実質的に変化せず、ほとんどの世代で5%近く残っていました。 画像の予測性能は、第60世代後にわずかな改善しか示さず、第90世代後にはほとんど変化がないことを考慮すると、100世代は81bpの長さのプロモーターに十分でなければならない。 私たちの実験では、短いシーケンスのための画像の準備は、より少ない世代を必要としました。細菌プロモーターの最もよく知られている特徴は、-10領域(TATAAT)および-35領域(TTGACA)である。

細菌プロモーターの最もよく知られている特徴は、-10領域(TATAAT)および-35領域(TTGACA)であ 「画像」はe.coli β7 0プロモーターから訓練されたので、それらはe.coli β7 0プロモーターに類似したいくつかの特徴を含むべきである。 すべての「画像」で-10領域を検出するのは簡単でしたが、-35領域は常に見つけるのがより困難でした。 さらに、-10領域は常に-35領域よりも早く現れた。 以前の外観のこの機能は、他の機能の外観を変更する可能性があると仮定しました。 異なる特徴の形成を評価するために、アルゴリズムをわずかに修正した。 連続ヌクレオチド文字の文字列が安定して出現すると,領域は固定され,その後の画像生成プロセスでは使用されなかった。 この方法を用いて,画像スコアリングに対するミスマッチペナルティが特徴の形成に及ぼす影響を調べた。 結果(表S1)は、より低いペナルティスコア(0.4)がより長い連続NTsの形成を引き起こしたことを示した。 ペナルティスコアが増加するにつれて、連続NTsの長さは減少した。 -10と-35の領域は、異なる長さの”特徴”として認識することができます。 より高いペナルティスコア(0.75)で生成された”特徴”は”きれい”に見えたが、より低いペナルティスコアで生成された”画像”は、プロモーター予測のためのより良い結果をもたらした(データは示されていない)。

SVMと進化的アルゴリズムを組み合わせる

独立した進化過程で生成された”画像”は、特定の多様性(データは示されていない)を示し、異なる”画像”が相補的な情報を運ぶ可能性があることを示唆している。 したがって、単一の「画像」は、同様の予測能力を示したが、1つの分析における異なる「画像」の組み合わせは、予測性能を改善することができる。 この組み合わせ効果を評価するために,異なる画像によって生成された値からなるベクトルを用いたプロモーター解析にSVMを用いた。

短い配列に対するIBPP-SVMの感度は、ベクターの次元によって大きく影響された(図10)。

短い配列に対するIBPP-SVMの感度は、ベクターの次元によ 4a)。 ベクトルの長さが6以下であったとき、IBPP-SVMの感度は、ベクトル次元の増加とともにわずかに増加した(例えば、64.5%±1.1%2次元ベクトルと68.7%±1.4%5次元 しかし、感度はより高い次元で減少し、31.1%±0.8%の10次元ベクトルに低下した。 対照的に、短い配列に対するIBPP−SVMの特異性は、ベクター長によって影響されず、全ての症例において約9 5%に維持された。 SVMを導入することによる異なる”画像”の組み合わせは,ibppと比較して短いシーケンスの性能を改善した。 同じ試験条件下で、IBPP-SVMを使用して得られた最良の結果(感度=68.7%±1.4%、特異性=94.3%±0.2%)は、閾値12(感度=56.4%±4.9%、特異性=94.1%±1.2%;図4)を有するIBPPのも 4b)。

図4
図4

IBPP-SVMのプロモーター予測能力。 IBPP-SVMの性能を異なる次元のベクトル(a)で試験し,IBPP(b)と比較した。 両結果は三つの独立した複製によるものであった。 Sn、感度;Sp、特異性;FP、偽陽性率;TP、真陽性率。

トレーニングデータセット内のプロモーター配列の数が固定された場合、非プロモーター配列の数が高いほど、感度は S2)。 感度と特異性の関係を5次元ベクトルを用いて分析し、その結果、特異性が85%を超えると感度が急速に低下することが示された。 全体的な性能を考慮すると、IBPP-SVMの最高の性能は89.3%の感度と85.9%の特異性で得られた。

IBPPおよびIBPP-SVMの性能を評価するために、nnpp2.211およびBPROM25の性能を分析するために使用される試験セットをプロモーターおよび非プロモーターに使用した。 これらの同じテストセットを使用して、NNPP2.2は64の感受性を得ました。6%および特異性90.3%、一方BPROMは95.7%の感度および特異性98.9%を得た。 NNPP2.2およびBPROMによって得られたF1スコアは、それぞれ74.1%および97.3%であった。 IBPP-SVMはNNPP2.2よりも高い感度と特異性を示したが、パフォーマンスはまだBPROMのそれに比類のないでした。 この結果は、IBPP-SVMがいくつかの機械学習アルゴリズムと同等またはそれ以上の効率を達成できることを示したが、BPROMと同様の性能を達成するためにはさらなる改善が必要であることを示した。

IBPPのアルゴリズムは、大腸菌プロモーターの-10領域および-35領域などのプロモーターの特徴に関する知識を必要としない。 プロモーターの分類のための統計データに依存する機械学習プログラムとは異なり、プロモーター予測における”画像”の適用は、PWMアプローチのそれに似ています。 “イメージ”は、ヌクレオチドの文字列とそれらの間のギャップで構成されています; したがって、”画像”内の連続ヌクレオチドは細菌プロモーター配列の特徴に似ており、ギャップは特徴間の間隔に似ており、擬似特徴を特定の位置に制限する。 このような”画像”は、SVMやANNのような機械学習アルゴリズムでは容易に構築することができないため、我々は進化的アルゴリズムを適用した。 手動による介入がなければ、”イメージ”は進化プロセスの助けを借りて自己改善するでしょう。 理論的には、この進化系は、リボソーム結合部位やコード配列などの他のタイプの配列からの情報を描画するために適用することができます。

長い配列のパフォーマンス

次に、我々は2,000ntの長い配列に対処するためにIBPPとIBPP-SVMの能力をテストしました。 全ての試験された方法について、Tssに近い位置またはtssから遠い位置で同時にヒットがあったが、ヒットは、Tssに対する相対的な範囲でより集中していた(図5、S3)。 長い配列については、感度と特異性の新しい定義を採用し、範囲内のヒット数が多い予測はより高い感度を示し、範囲外のヒット数が多い予測はより低い特異性を示した。 BPROMは、短い配列についてIBPP−SVMよりも優れていたが、長い配列についてのIBPP−SVMの予測能力は、BPROMの予測能力と同等であった(表2)。 IBPP-SVMの最良の結果は、感度と特異性の両方を考慮してBPROMのそれよりも優れていた10次元ベクトルで得られました。 これは、10次元ベクトルを有するIBPP-SVMが非常に低い感度を示した短い配列の分析とは大きく対照的である(31.08%±0.8%、図。 4). ベクター次元が5であったとき、IBPP−SVMは、短い配列に対しては最高の性能を示したが、長い配列に対しては良好な特異性を示さなかった(表2)。 この比較により,IBPP-SVMは長いシーケンスで優れた性能を達成でき,性能はベクトル次元によって大きく影響されることが明らかになった。

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

その後、長いシーケンスで12と13のしきい値でIBPPをテストしました。 両方の条件下で、IBPPは、BPROMの感度および特異性と同等の感度および特異性を示した(表2)。 12のしきい値とIBPPはわずかに高い感度を持っていたが、より高い特異性は13のしきい値で達成されました。 BPROMは短い配列の解析に非常に優れた性能を持っていたため、長い配列の解析におけるIBPPの性能は私たちの期待を超えていました。 これは、BPROMが2kbよりもはるかに短い遺伝子間配列のために設計されたためである可能性がある。 さらに、この比較ではデフォルトのパラメータセットでのみBPROMを実行したため、長いシーケンスでのBPROMのパフォーマンスは、パラメータの最適化時に改善され 細菌遺伝子は通常、長さが〜l kbであるため、各断片には複数のTSSが存在する可能性があります。 したがって、範囲外のいくつかのヒットは、断片内の他のプロモーターによって引き起こされる可能性がある。

プロモーターの周りのシーケンスは、予測アルゴリズムにバイアスをかける可能性があります。 本研究では,周囲の配列によるIBPPの明らかなバイアスは検出されなかった。 例えば、閾値が1 2であったとき、IBPPは、短い配列についてそれぞれ5 6%および5. したがって、拡張されたシーケンス長自体は、IBPPの性能に悪影響を及ぼさない可能性がある。 この違いの理由は、スコアリングシステムに関連している可能性があります。 短い配列のためのFP率は5.88%であったが、これらのFP配列のスコアは、全体的なTP配列のものよりも低かった。 長いシーケンスに適用すると、これらのFPヒットによって偏っているのではなく、そのようなヒットは近くのTPヒットに向かって描画されます。 さらに,IBPPとSVMの組み合わせは興味深い結果を示し,短い配列の性能と同様に,長い配列の解析のためのIBPP-SVMの性能もIBPPの性能を上回った。 IBPP-SVMに対するベクトル次元の影響は,長い配列解析と短い配列解析の間で大きく異なっていた。 ベクトル次元が10の場合、TPレートは短いシーケンスで31%に低下し、FPレートは2に低下しました。3%であり、ベクトル次元が5のものよりもはるかに低かった。 しかし、同じ条件の下で、10のベクトル長を持つIBPP-SVMは、長いシーケンスのための65.6%のTP率と5のベクトル長を持つものよりも低いFP率を示した。 現時点ではこの現象を説明することはできませんが、結果は長いシーケンス上のこの予測法のさらなる改善のための分解能を見つけることに向か

コメントを残す

メールアドレスが公開されることはありません。