このセクションでは、まず疑似発生、複製、損失、速度、および配列進化モデルPDLRSを紹介します。 最初にいくつかの基本的な用語を定義することから始めます。 種の木は、葉が現存する種を表し、内部頂点が種分化イベントを表す種の進化の歴史を表す根付きの二分木です。 遺伝子ツリーはまた、遺伝子のセットの進化の歴史を表す根ざした二分木です。 遺伝子ツリーは、その葉として遺伝子または偽遺伝子を有していてもよいです。
PDLRSモデル
pdlrsモデルは、擬似発生イベントも含めることによって得られるDLRSモデルの拡張です。 このモデルは、遺伝子系統が根から始まり、その後葉に向かって進化することによって、遺伝子の重複、遺伝子の損失、および速度δ、ε、およびεでの偽生成イベントにさらされている間に、遺伝子系統がどのように進化するかを説明している。 また、遺伝子系統が種樹の頂点に達すると、それは常に(すなわち、、決定論的に)分岐部とそのように含まれる二つの遺伝子系統は、その二つの出てくる種-木のエッジのそれぞれに一つ、種-木の頂点の下で進化し続けます。
このプロセスの間に、遺伝子系統は偽遺伝子系統に切り替えることができますが、偽遺伝子系統は遺伝子系統に戻ることはできません。 擬生成イベントは、遺伝子ツリーに次数2の頂点を導入します。 偽遺伝子系統は、そうでなければ遺伝子系統として動作し、進化中に複製または失われる可能性があり、種樹の頂点に達すると決定的に分岐する。 種木の葉に達する系統は、現存する遺伝子または偽遺伝子を表す遺伝子木の葉を生じさせる。 しかし、そのような現存する葉につながっていない遺伝子ツリーの頂点とエッジは、遺伝子ツリーから剪定されています(図1)。 このプロセスは、頂点とエッジに時間がある種の木で行われるため、各イベントは特定の時間に発生します。 イベントが新しい遺伝子ツリー頂点を作成するたびに、イベントの時間が新しい頂点に関連付けられます。
緩和された分子時計を得るために、速度は各エッジのΣ分布(平均と分散によってパラメータ化)から独立してサンプリングされ、時間tと速度rのエッジには長さlが割り当てられます。 擬生成事象は、遺伝子ツリーに次数2の頂点を導入することを思い出してください。 親の頂点が遺伝子であるエッジでは、遺伝子に適した配列進化のモデルが使用され、親の頂点が擬似遺伝子を表す場合(結果的に子供も擬似遺伝子を表す)、擬似遺伝子に適した配列進化のモデルが使用される。 これらのモデルは様々であるが、ここでは以下に説明する2つのコドンモデルを使用する。
配列進化の二つのモードをモデル化するために、我々はによって提案された二つのコドン置換行列を使用して、一つは偽遺伝子の進化のために、もう一つは遺伝子の進化のために。 瞬時代替率行列からのコドンまるコドンj、q ijするとともに、定めのある場合
がπ jは、平衡周波数のコドンj,cは正規化係数、熱伝導率κが、移行/transversion率により、ωは非と同義語-同義(dN/dS比となります。 Ωを除いて,これらのパラメータは二つの系列進化モードの間で共有される。 擬似遺伝子の場合、ωは1に等しく、停止コドンへの移行が許可されるが、遺伝子の場合、停止コドンへの移行は許可されない。PrIME-PDLRS MCMCフレームワーク
PrIME-PDLRSは、上記のモデルのMCMCベースの分析ツールです。 これは、遺伝子または偽遺伝子としてのこれらの配列の分類とともに、遺伝子および偽遺伝子配列の多重配列アライメントを入力として取る。 それはまた、日付の種-木Sを必要とします。 遺伝子木をG、その辺の長さをl、モデルの他のパラメータをλで表すとしましょう。 パラメータμは、重複率、損失率、擬似発生率、エッジ率平均および変動係数、および配列進化のコドン置換モデルの非同義対同義率(dN/dS)および遷移/転進率を含む化合物である。
遺伝子ツリー内の擬生成頂点(次数2)のセットを示すためにΣを使用します(これらの頂点のうちの2つは同じルートからリーフパス上にあることはで 確率を表すためにP(*)を使用し、確率密度を表すためにp(*)を使用します。
マルコフ連鎖の状態は四重(G、l、λ、Λ)です。 遺伝子ツリーの葉は与えられた配列に対応し、偽遺伝子として分類される配列は、Γに属するgの祖先を持っていなければならない。 現在の状態は(G/l、θ、Ψの受け入れ確率が提案された状態(G’l’θ’,y’)によって決定される比率p(G/l、θ、Ψ|D,S)-p(G’,l’θ’,y’|D、Dは、指定されたデータおよびSの種類-ツリーます。 それぞれのこれらの密度を表現できベイズ等は、例えば、
二つの項P(D|S) の受入れ確率と消、取得した
では、因子p(G,l|λ,S)を計算するためのDPアルゴリズムについて説明しました。 最初にいくつかの重要な概念を定義しましょう。 S′を離散化された種木とすると、種木Sのエッジが追加の離散化頂点で拡張され、すべての拡張頂点がエッジ内で等距離になるようになります(追加ファイル1の図S1を参照してください)。 DPは、単一の遺伝子系統が頂点x≤V(S’)で進化し始めると、ツリー G u(uの親エッジとともにuに根ざした遺伝子ツリー)がlで指定されたエッジ長とともに生成され、さらにuに対応するイベントがy≤V(s’)で発生する確率として定義されるテーブルs(x,y,u)を使用する。 VとwをGのuの子とし、x、y、zをV(S’)の頂点とする。また、t(x,y)を頂点x,y∈V(S’)の間の時間とする。 Λ(u)を次のように定義される関数とする(i)葉u≤L(G)に対して、λ(u)はuが表す遺伝子が見つかる種木の葉であり、(ii)Gの任意の内部頂点uに対して、λ(u)はSにおけるL(G u)の最も最近の共通の祖先である。p11(x,y)を用いて、種木の二つの点の間で”1-to-1″に進化する遺伝子系統の確率を示す。 いくつかのkについて、xで始まる単一の遺伝子は、yでk系統を生じさせ、そのうちのk-1は絶滅し、一つの遺伝子系統は絶滅してもしなくてもよい。 P11π(x,y)を使用して、種木における二つの点xとyの間で”1-1″を進化させる擬遺伝子の確率、すなわち、いくつかのkに対してxから始まる単一の擬遺伝子が、k-1が絶滅するk擬遺伝子系統と、絶滅するかもしれないかどうかの系統を引き起こす可能性を示す。 頂点u∈V(T)が擬生成事象Σを表すすべての頂点に属する祖先が次数2を持つ場合、擬遺伝子と呼ばれます。 これらの「1対1」確率の両方を計算する方法は、追加ファイル1で説明されています。 次の再帰は、動的計画法を使用してテーブルsをどのように計算できるかを記述します。
1u≤L(G)およびx=π(u)の場合、s(x,x,u)=1。2x∈V(S)かつx∈(U)ならば、S(x,x,U)=0である。
3の場合、x∈V(S)\L(S)、u∉y、x=σ(u)
ここで、D L(x)とD R(x)の子孫の左右の子のx S’ます。
4の場合、x∈V(S)\V(S)u∉ψ、
ここで、D(x)はその子孫のxです。
5の場合、x∈V(S),親u( p(u))ではないの結果は現在国際誌に投稿し、zは子供のようなxがσ(L(G u))⊆K(S z)zは先祖のy,し
がε(x,z)の確率で遺伝子系統からいない、葉l∈L(S x’)\L(S z’). しかし、さらにyがxの子である場合、上記の式はs(x,y,u)=p11(x,y)≤(x,y)≤(l(p(u),u)/t(x,y))s(y,y,u)になります。
6の場合、x∈V(S)p(u)は、結果は現在国際誌に投稿し、zは子供のようなxがσ(L(G u))⊆L(S z)zは先祖のy,し
ここで、D(ρ)はその子孫のp.
サンプリングd-気付きを得
このため、地図のpseudogenization頂点の頂点の離散化種ツール”S’または動的計画アルゴリズムを提案します。 遺伝子ツリー Gの擬生成頂点Σを抑制すること(すなわち,各次数二つの頂点を除去し,その端点を隣接させること)により,遺伝子ツリー G*を得る。 で導入されたサンプリングアルゴリズムは、遺伝子木V(G*)の頂点を離散化された種木V(S’)の頂点にマップするために使用されます(追加のファイル1 離散化された種ツリーの頂点に関連付けられた時間点は、G*の頂点に時間点の関連付けを誘導します。 時間点がGの擬生成頂点uの親頂点および子頂点に関連付けられると、入射辺の分岐長を使用して、時間点を容易にuに関連付けることができます。
擬生成構成の比較
我々は、単一の遺伝子ファミリーのσと一緒に二つの擬生成構成Gとg’とσ’の違いを定量化することに興味があります。 Gの頂点λとgの頂点λ’を抑制する(つまり、そのような次数2の頂点をそれぞれ削除し、その端点を隣接させる)と、同じ木G*が得られることに注意して E∗とe∗′をそれぞれ、∗と∗′を抑制することによって導入されたg*の辺の集合とする。 エッジe∈E(G*)がuを抑制することによって作成された場合、uはeの原点と呼ばれます。
注意してください。E∈またはE∈’の任意のエッジf したがって、f∈E ψの場合、fからその下の葉までの任意の経路上にFの下にE ψ’の辺があるか、E ψ’に属するfの上に辺があります。 前者の場合、私たちはfを屋根と呼び、Eの縁はその色合いです。 後者の場合、E θ’の縁は屋根と呼ばれ、fはその陰に属します。
最初の距離、エッジ距離は時間を無視し、代わりにG*の距離に基づいて定義されます。 G*の辺のペアごとに、それらを含む一意の最短経路があり、そのような2つの辺の間の距離は、その経路上の内部頂点の数であると定義されます。
まず、2つの位相距離を定義します(図2)。 の距離pseudogenization頂点数をy、b ψ’がy,b ψは起源の端e e bは、それぞれ、e a e b∈E(G∗)に定義される最小限の長さの間のe e a G∗. 各ルーフエッジf≤E≤またはf≤E≤’について、d m(f)およびd a(e)をfとそのシェードのエッジ間の最大エッジ距離および平均エッジ距離とします。 すべての屋根f≤E≤e≤’上で、G,μとG’,μ’の間の最大位相距離d mと平均位相距離d aをそれぞれd m(f)の最大値とd a(f)の平均値とする。 真の遺伝子木とその擬生成頂点を(G,θ)とし、qを事後確率分布とする。 最後に、トポロジカル距離の予想平均E D aと最大平均M D aを次のように計算します。
を定義し、予想最大のE D m、最大限M D mのトポロジー距離として:
次に、この時間的距離. これらはトポロジーと同様に得られますが、屋根とその色合いの間のエッジ距離を使用する代わりに、屋根の起源に関連する時間とその色合いの起源に関連する時間との間の時間的距離を使用します。
トポロジカルディスタンスは、遺伝子ツリートポロジーに沿って推論された頂点から真の擬生成頂点の距離を測定し、時間的距離は、真の擬生成頂点に関連する時間(種ツリーに沿って)と推論された頂点との間の距離を測定する。
合成および生物学的分析
我々は、合成データ上で我々の方法PrIME-PDLRSをテストし、生物学的データに適用しました。 まず、合成データのテストについて説明します。 エッジ長と擬生成頂点を持つランダムな遺伝子ツリーは、0.5の擬生成速度と生物学的に現実的な重複損失率を持つプライム遺伝子ツリー発電機の修正バージョンを用いて生成された光学データセットの遺伝子ファミリーを分析することによって観察された。 遺伝子配列は、PDLRSモデルに従って作製した。 遺伝子配列は、Bielawskiらによって提案されたコドン置換行列を用いて進化させた。 . 中性コドン置換行列は、同義置換(dN/dS)に非同義の速度比が1.0に設定された擬似遺伝子の進化のために使用されました。 中性コドン置換モデルでは,任意のコドンを停止コドンで置換することができたが,遺伝子進化の場合に用いられる置換モデルではこれは不可能であった。 Dn/ds速度比と転移/転移速度比の二十五の異なる組み合わせを用いて,均一なコドン平衡頻度を用いて二十五の遺伝子ファミリーにわたって遺伝子配列を生成した。 生物学的に現実的なシナリオをシミュレートするために、我々は、http://genserv.anat.ox.ac.uk/downloads/clades/からダウンロードされた視覚データセットの九脊椎動物種の種ツリー(のように得られた)を使用して、推論された擬似生成頂点は、二種類の距離メトリック、すなわち位相距離(遺伝子ツリー)と時間距離(種ツリー)を使用して真の擬似生成頂点と比較した。
生物学的データセットは、脊椎動物の二つの最大の遺伝子ファミリー、すなわち嗅覚受容体と亜鉛指からサブファミリーで構成されていました。 嗅覚受容体は脊椎動物の中で最大の遺伝子ファミリーであることが報告されている。 牛、カモノハシ、霊長類などの種では、偽発生率が高いことが観察されているが、オポッサム、イヌ、マウスおよびラットは比較的低い偽発生率を有する。 ヒト(Homo sapiens)、イヌ(Canis lupus familiaris)、オポッサム(Didelphis virginiana)、およびカモノハシ(Ornithorhynchus anatinus)の種について、http://bioportal.weizmann.ac.il/HORDE/からダウンロードされた。 ヒト(Homosapiens),チンパンジー(Pantroglodytes),オランウータン(Pongoabelii)およびアカゲザル(Macacamulatta)の種にわたって二つの亜鉛フィンガーサブ遺伝子ファミリーを研究した。 この目的のために、我々は(OrthoMCL、相互ベストブラストヒット、およびsyntenyによってサポートされている)高信頼性オーソロガス遺伝子から二つのサブファミリーを選 対応する親/パラログ遺伝子を、PSI−BLASTを使用して検索し、<div id=”2 4 8 4ebc4 3c”></div>から抽出した。 信頼性の高いオルソログ遺伝子は、「KZNFカタログ」()からダウンロードした。 ジンクフィンガー遺伝子ファミリーの偽遺伝子は、断片化された重複の結果として主に進化しているので、偽遺伝子と対応する遺伝子を正確に整列させることは困難であり、明らかに遺伝子ツリーを再構築するために必要な条件である。 9つのサブ遺伝子ファミリーの整列は、手動で停止コドンを可能にし、ギャップ(-7)の作成のためのペナルティを導入し、ギャップ(-1)を拡張し、フレームシフト(-14)を導入し、MACSEとそれらを整列させた後にキュレーションされた。 両方の生物学的データセットの日付の種木は、http://timetree.orgからダウンロードされました。 次に、合成分析に使用したのと同じパイプラインを使用して、サブ遺伝子ファミリーを分析した。 潜在的な遺伝子ツリーは、PrIME-DLRSを使用して再構築され、その後、固定遺伝子ツリーオプションを使用してPrIME-PDLRSによって分析された。 最も高い事後確率を有する最良のプライム-PDLRS状態を有するプライム-DLRS遺伝子ツリーを最も可能性の高い遺伝子ツリーとして選択した。 最も可能性の高い遺伝子ツリーの偽生成イベント以上の後部は、マルコフ鎖トラバーサル中に生成された詳細な実現を使用して分析した。
MCMC解析
ベイジアン解析は、MCMCベースの解析ツール、PrIME-PDLRSを使用して遺伝子ファミリーのために行われました。 MCMCチェーンは,遺伝子ツリー,エッジ長,遺伝子ツリー上の擬生成頂点,出生-死亡および擬生成速度,およびエッジ置換速度の平均および分散などのすべてのパラメータにわたって積分するように設定した。 我々は、出生-死亡率、擬似発生率、遺伝子ツリー、擬似発生頂点、dN/dS速度比、および遷移/移行速度比を含むMCMCプロセス全体で異なるパラメータをサンプリングした。 一つ以上のパラメータは、各反復で摂動されました。 遺伝子木の摂動は,サブツリープルーニングと再グラフト,最近傍交換と再ルート化などの標準的な遺伝子木摂動法を用いて行った。 摂動の後、得られた遺伝子ツリーの妥当性が証明された、すなわち、偽遺伝子系統は遺伝子系統につながることはなかった。 遺伝子ツリーが提案されるたびに、有効な摂動遺伝子ツリーが提案されます。 MCMCチェーンの開始時に初期ツリーを構築するために,隣接結合法を用いた。 提案分布は,擬生成頂点の上向きの移動を提案する確率が下向きの移動を提案する確率と等しいような方法で,遺伝子ツリーの系統を越えて擬生成頂点の移動を提案する。 Dn/ds速度比は切り捨てられた正規分布inからサンプリングされ,遷移/transversion速度比は切り捨てられた正規分布inからサンプリングされる。 出生-死亡率および擬似発生率は、切り捨てられた正規分布からサンプリングされる。 現在の値の周りの速度モデルとエッジ長のパラメータの摂動には切り捨てられた正規提案が使用され、受け入れ比に関して調整パラメータが手作りされた。 置換率パラメータは,分布平均または変動係数のいずれかを摂動させることによって摂動された。 MCMCチェーンが収束しているかどうかを見つけるために、我々は診断ツールとしてVMCMCを使用しました。 最初の実行から、2,500,000のバーンイン期間を使用しても安全であることが観察されました。 残りの実行では、5,000,000回の反復、2,500,000のバーンイン期間、500の間引きを使用しました。 我々は、潜在的な遺伝子ツリーを再構築するための最初のステップとしてPrIME-DLRSを使用しました。 各潜在的な遺伝子ツリーは、固定遺伝子ツリーオプションを有するPrIME-PDLRSを使用して分析した。