matricea scorului PAM vs BLOSUM

aminoacizii, nucleotidele sau orice alt caracter evolutiv sunt înlocuiți de alții într-un anumit ritm. De exemplu, imaginați-vă o secvență evolutivă cu trei stări posibile, A, B și C. Dacă modelul de substituție este reversibil în timp, vor exista trei rate de tranziție, A<>B, B<>C și a<>C.

Să presupunem că ratele sunt 1, 1 și, respectiv, 0 în unități de substituție la 100caractere pe unitate de timp. După o unitate de timp, într-o secvență lungă de 300 de caractere compusă inițial în mod egal din As, Bs și Cs, ne așteptăm să existe o substituție de la A la B și o substituție de la B la C. Dacă comparăm două secvențe omoloage în organismele vii, deoarece o unitate de timp a trecut pentru ambele secvențe, ne-am aștepta la două A la B și două B La Csubstituții între secvențele actuale.

nu contează cât timp desfășurăm acest proces, nu va exista niciodată o înlocuire directă A lui A de către C. De asemenea, nu va exista niciodată o substituție de la A la C sub așa-numitul model de site-uri infinite, unde nu se poate produce mai mult de o substituție pe un singur site.

cu toate acestea, deoarece substituțiile de la A la B și B La C sunt comune, sub un sitesmodel finit, în cele din urmă, B va fi înlocuit cu C într-un sit în care a a fost înlocuit anterior de B. această înlocuire indirectă a lui a cu C (sau echivalent într-un model reversibil în timp, C cu A) devine mai probabilă cu cât perioada de timp separă secvențele omoloage.

am simulat evoluția secvenței pe baza scenariului de mai sus, rulând simularea pentru 10 unități de timp. Din această substituție am observat următoarele numărări pentru fiecare model de site:

A B C
A 91 9 0
B 5 86 9
C 0 9 91

în această durată relativ scurtă, nu apare ca și cum ar fi apărut o<>csubstituții. Cu toate acestea, atunci când am reran simulare pentru 100 unitsof timp:

A B C
A 55 35 10
B 29 36 35
C 20 36 44

după cum puteți vedea, multe caractere „A” au fost înlocuite cu „C” și viceversa. Mai general, sub un model de site-uri finite, substituții multiple fac ca distribuția numărului de modele de site să devină mult mai plată dincolo de creșterea pur și simplu a proporției de off-diagonală în raport cu numărul diagonal.Matricile de scor PAM și BLOSUM reprezintă mai multe substituții înîn mod radical diferit.matricile PAM pentru aminoacizi, împreună cu abrevierile cu o singură literă utilizate pentru aminoacizii codificați genetic, au fost dezvoltate de MargaretDayhoff. Au fost publicate inițial în 1978 și bazate pe proteinsecvențele pe care Dayhoff le compilase încă din anii 1960, publicate ca thatlas of Protein Sequence and Structure.

numele PAM provine de la „mutația acceptată în punct” și se referă la înlocuirea unui singur aminoacid într-o proteină cu un aminoacid diferit.Aceste mutații au fost identificate prin compararea secvențelor foarte similare cu cel puțin 85% identitate și se presupune că orice substituții observate au fost rezultatul unei singure mutații între secvența ancestrală și una dintre secvențele actuale.

PAM definește, de asemenea, o unitate de timp, unde 1 PAM este timpul în care se așteaptă ca 1/100 aminoacizi să sufere o mutație. Matricea de probabilitate PAM1 aratăprobabilitatea ca aminoacidul din coloana j să fie înlocuit cu aminoacidul din rândul I. a fost calculat din numărul Pam al lui Dayhoff și rescaled tobe 1 unitate de timp PAM. După cum puteți vedea, probabilitățile off-diagonale din matricea pam1 sunt foarte mici (toate elementele au fost scalate cu 10.000 pentrulegibilitate):

PAM1

pentru a calcula probabilitățile de înlocuire a aminoacizilor pentru durații mai lungi, matricea poate fi înmulțită de la sine numărul corespunzător de ori. Astfel, matricea de probabilitate PAM250, descriind probabilitățile de plasare date 250 unități de timp PAM, a fost derivată prin ridicarea matricei de probabilitate PAM1 la puterea 250 (toate elementele au fost scalate cu 100 pentru lizibilitate):

PAM250

probabilitățile de înlocuire derivate folosind corect această exponențiarecont pentru mai multe substituții. Nu numai că sunt off-diagonaleprobabilități proporțional mai mare așa cum v-ați aștepta pentru o durată mai lungă de timp, dar ele sunt mai plate. De exemplu, probabilitatea unei înlocuiri a valinei (V)la izoleucină (I) este cu 33 untq mai mare decât înlocuirea V la histadină (H)în matricea PAM1, dar cu doar 4,5 untq mai mare în matricea PAM250.

matricile de scor pot fi apoi calculate din matricile de probabilitate și frecvențele de bază observate.matricile BLOSUM, dezvoltate de Steven și Jorja Henikoff și publicate în 1992, au o abordare foarte diferită. În timp ce PAM aplică implicit un model de evoluție a siturilor finite staționare folosind exponențierea matricei, efectul substituțiilor multiple este tratat implicit în BLOSUM prin construirea diferitelor matrice de scor pentru diferite scale de timp.

în cadrul mai multor alinieri de secvențe omoloage, sunt identificate blocuri de aminoacizi conservați. În cadrul fiecărui bloc, multiplesecvențele sunt grupate atunci când identitatea lor de secvență medie pereche este mai mare decât un anumit prag. Pragul este de 80% pentru matricea BLOSUM80, 62% pentru BLOSUM62, 50% pentru BLOSUM50 și așa mai departe.

aceasta înseamnă că pentru BLOSUM80, blocurile vor avea identități medii în pereche nu mai mari de 80%, pentru BLOSUM62 nu mai mare de 62%, etc.

probabilitățile de înlocuire a aminoacizilor pentru secvențele omoloage sunt calculatedin comparații perechi între clustere. Aceste probabilități vor fi rezultatul substituțiilor unice și multiple, substituțiile multiple având o influență mai mare la distanțe evolutive mai mari. Prin urmare, scorematrices generate de comparații în perechi între clustere de la distanță medie mai mare, cum ar fi matricea BLOSUM50, va explica în mod natural efectul mai mare al substituțiilor multiple.

deși iau rute diferite, matricele finale de scor BLOSUM și PAM sunt de fapt destul de similare. Potrivit lui Henikoff și Henikoff, următoarelepam și BLOSUM matricile sunt comparabile:

PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

For more information on PAM (Dayhoff) and BLOSUM matrices, see Capitolul 2 analiza secvenței biologice de Durbin și colab. și Wikipedia.

actualizare 13 octombrie 2019: pentru o altă perspectivă asupra matricelor de substituție, consultați secțiunea „ocoliri” de la sfârșitul capitolului 5 al algoritmilor Bioinformatici (ediția a 2-A sau a 3-a) de Compeau și Pevzner.

Lasă un răspuns

Adresa ta de email nu va fi publicată.