Pam vs BLOSUM score matrices

アミノ酸、ヌクレオチドまたは他の進化的な文字は、ある割合で他のものに置き換えられます。 置換モデルが時間可逆的である場合、三つの遷移率、A<>>B、B<>CおよびAが存在する。<>c.

単位時間あたりの100文字あたりの置換単位で、レートがそれぞれ1、1、0であるとします。 ある単位時間の後、もともとAs、Bs、Csで均等に構成されていた300文字のlongsequenceでは、AからBへの置換とbからCへの置換があることが期待されます。 生物における2つの相同配列を比較している場合、両方の配列に対して1つの単位時間が経過しているため、現在の配列間の2つのAからBと2つのBからCsubstitutionsが予想されます。

このプロセスをどれだけ長く実行しても、a by Cの直接置換は決してありません。asoと呼ばれる無限サイトモデルの下では、単一のサイトで複数の置換が発生しないaからCへの置換も決してありません。

しかし、AからBへの置換およびBからCへの置換は一般的であるため、有限sitesmodelの下では、最終的にBは、aが以前にBによって置き換えられた部位でCに置

私は上記のシナリオに基づいてシーケンスの進化をシミュレートし、10単位の時間シミュレーションを実行しました。 この置換から、私は各サイトのパターンの以下の数を観察しました:

A B C
A 91 9 0
B 5 86 9
C 0 9 91

この比較的短い内期間、それはいずれかのように表示されません<>csubstitutionsが発生しました。 しかし、私は100unitsof時間のシミュレーションを再実行すると:

iv 20

A B C
A 55 35 10
B 29 36 35
36 44
覧のように、多くの”a”文字は”c”とその逆に置き換えられています。 より一般的には、有限サイトモデルの多重置換の下では、サイトパターンカウントの分布が、対角カウントに対する非対角カウントの割合を単純に増加させるよりもはるかに平坦になるようにする。PAMスコア行列とBLOSUMスコア行列は、根本的に異なる方法で複数の置換を説明します。

アミノ酸のPAM行列は、遺伝的にコードされたアミノ酸のために使用される単一の文字の略語とともに、MargaretDayhoffによって開発されました。 当初は1978年に出版され、1960年代から編集されていたタンパク質の配列と構造を元にして、”タンパク質の配列と構造”として出版された。

PAMという名前は”point accepted mutation”から来ており、異なるアミノ酸を持つタンパク質に単一のアミノ酸が配置されていることを指します。これらの変異は、少なくとも85%の同一性と非常に類似した配列を比較することによって同定され、観察された置換は、祖先配列と現在の日の配列の

PAMはまた、時間単位を定義し、1PAMは1/100のアミノ酸が突然変異を受けると予想される時間である。 Pam1確率行列は、列jのアミノ酸が行iのアミノ酸に置き換えられる確率を示しています。DayhoffのPAMカウントから計算され、tobe1PAM単位の時間を再スケー ご覧のとおり、pam1行列の非対角確率はすべて非常に小さいです(すべての要素は10,000forlegibilityによってスケーリングされました)。

PAM1

長い時間のアミノ酸置換確率を計算するには、行列に対応する回数を乗算することができます。 したがって、pam250確率行列は、250pam単位の時間が与えられた場所の確率を記述し、PAM1確率行列を250乗に上げることによって導出されました(すべての要素は読みやすさのために100によってスケーリングされました)。:

PAM250

この累乗を使用して導出された置換確率は、複数の置換に対してcorrectlyaccountです。 あなたがより長い時間のために期待するように、対角以外の確率は比例して大きいだけでなく、それらはより平坦です。 たとえば、バリン(V)からイソロイシン(I)への置換の確率は、PAM1行列ではVからヒスタジン(H)への置換よりも33倍大きくなりますが、PAM250行列では4.5倍

スコア行列は、確率行列と観測された基本周波数から計算することができます。

StevenとJorja Henikoffによって開発され、1992年に出版されたBLOSUM行列は、非常に異なるアプローチを取ります。 PAMは行列累乗を用いて進化の定常有限サイトモデルを暗黙的に適用するのに対し,多重置換の効果は異なる時間スケールに対して異なるスコア行列を構築することにより,BLOSUMにおいて暗黙的に扱われる。

相同配列の複数の配列アラインメント内で、保存された連続したアミノ酸ブロックが同定される。 各ブロック内で、multiplesequencesは、それらのペアごとの平均配列同一性があるしきい値よりも高いときにクラスター化されます。 しきい値は、BLOSUM80行列の場合は80%、BLOSUM62の場合は62%、BLOSUM50の場合は50%というようになります。

これは、BLOSUM80の場合、ブロックは平均ペアワイズidが80%を超えないことを意味し、BLOSUM62の場合は62%を超えないことを意味します。

相同配列のアミノ酸置換確率は、クラスター間のペアワイズ比較から計算されます。 これらの確率は、単一および複数の置換の結果であり、複数の置換はより大きな進化的距離でより大きな影響を及ぼす。 したがって、BLOSUM50行列のように、平均的な距離のクラスター間のペアワイズ比較から生成されたスコアマトリクスは、自然に複数の置換の効果を説明します。

彼らは異なるルートを取るが、最終的なBLOSUMとPAMスコアのmatricesare実際にはかなり似ています。 HenikoffとHenikoffによると、次のPAM行列とBLOSUM行列は比較可能です:

PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

For more information on PAM (Dayhoff) and BLOSUM matrices, see Durbin et al.による生物学的配列解析の第2章。、およびウィキペディア。置換行列に関する別の視点については、CompeauとPevznerによるBioinformatics Algorithms(第2版または第3版)の第5章の最後にある「迂回」のセクションを参照してください。

コメントを残す

メールアドレスが公開されることはありません。