PAM vs BLOSUM pontszám mátrixok

az aminosavakat, nukleotidokat vagy bármely más evolúciós karaktert bizonyos sebességgel helyettesítik. Ha a helyettesítési modell időben visszafordítható, akkor három átmeneti sebesség lesz, a<>B, B<>C és a<>C.

tegyük fel, hogy az arányok 1, 1, illetve 0, helyettesítési egységenként 100 karakter / időegység. Egy időegység után, egy 300 karakteres hosszú szekvenciában, amely eredetileg AS, Bs és Cs-ből állt, arra számítunk, hogy lesz egy A-B helyettesítés és egy B-C helyettesítés. Ha élő organizmusokban két homológ szekvenciát hasonlítunk össze, mivel mindkét szekvenciára egy időegység telt el, akkor két A-tól B-ig, két B-től Csubstitúcióra számíthatunk a mai szekvenciák között.

nem számít, mennyi ideig futtatjuk ezt a folyamatot, soha nem lesz közvetlen helyettesítés a által C. soha nem lesz A-tól C-ig történő helyettesítés az úgynevezett végtelen helyek modell alatt, ahol egynél több helyettesítés nem fordulhat elő egyetlen helyszínen.

mivel azonban a-tól B-ig és B-től C-ig szubsztitúciók gyakoriak, egy véges sitesmodell alatt végül B helyébe C lép egy olyan helyen, ahol a-t korábban B váltotta fel.

a fenti forgatókönyv alapján szimuláltam a szekvencia evolúcióját, 10 egységnyi idő alatt futtatva a szimulációt. Ebből a helyettesítésből megfigyeltem az egyes helyminták következő számait:

A B C
A 91 9 0
B 5 86 9
C 0 9 91

Ezen a viszonylag rövid időtartamon belül nem tűnik úgy, mintha a<>csubstitutions történt volna. Amikor azonban 100 unitsof időre újratervezem a szimulációt:

A B C
A 55 35 10
B 29 36 35
C 20 36 44

mint látható, sok “a” karaktert “C” – re és viceversa-ra cseréltek. Általánosabban, egy véges helyek alatt több szubsztitúciót modelleznek, mert a helyminták eloszlása sokkal laposabbá válik, túl egyszerűen növelve az átlós arányok arányát az átlós számokhoz képest.A PAM és a BLOSUM score mátrixok több szubsztitúciót is figyelembe vesznekradikálisan különböző módon.

az aminosavak PAM mátrixait, valamint a genetikailag kódolt aminosavakhoz használt egyetlen betű rövidítéseket MargaretDayhoff fejlesztette ki. Eredetileg 1978-ban jelentek meg, és a proteinszekvenciák alapján dayhoff az 1960-as évek óta összeállította őket, a Theatlas of Protein Sequence and Structure néven.

A PAM név a “point accepted mutation” – ből származik, és arra utal, hogy egyetlen aminosavat egy másik aminosavval helyettesítenek egy fehérjében.Ezeket a mutációkat úgy azonosítottuk, hogy összehasonlítottuk a nagyon hasonló szekvenciákat legalább 85% – os azonossággal, és feltételezzük, hogy a megfigyelt szubsztitúciók egyetlen mutáció eredménye voltak az ősi szekvencia és az egyik jelenlegi szekvencia között.

A PAM egy időegységet is meghatároz, ahol 1 PAM az az idő, amelyben 1/100 aminosav várhatóan mutáción megy keresztül. A PAM1 valószínűségi mátrix azt mutatja, hogy a J oszlopban lévő aminosav helyébe az I. dayhoff PAM-számaiból számították ki, átméretezve tobe-t 1 PAM időegység. Mint láthatja, a pam1 mátrixban az átlós valószínűségek mind nagyon kicsiek (az összes elemet 10 000-rel skálázták a hitelesség érdekében):

PAM1

az aminosav-helyettesítési valószínűségek hosszabb időtartamú kiszámításához a mátrix megszorozható önmagával a megfelelő számú alkalommal. Így a PAM250 valószínűségi mátrix, amely leírja a 250 Pam időegységre adott elmozdulási valószínűségeket, a PAM1 valószínűségi mátrix 250 teljesítményre történő emelésével származtatott (az összes elemet 100-mal skáláztákaz olvashatóság érdekében):

PAM250

Az ezzel az exponenciációval származtatott helyettesítési valószínűségek több helyettesítést jelentenek. Nem csak az off-diagonalprobabilities arányosan nagyobb, mint amit elvár egy hosszabb timeduration, de ezek laposabb. Például a valin (V) – izoleucin (I) helyettesítés valószínűsége 33-mal nagyobb, mint a V-hisztadin (H)helyettesítés a PAM1 mátrixban, de csak 4,5-rel nagyobb a PAM250 mátrixban.

pontszám mátrixok ezután kiszámítható a valószínűségi mátrixok ésmegfigyelt alapfrekvenciák.

A Steven és Jorja Henikoff által kifejlesztett és 1992-ben megjelent BLOSUM mátrixok egészen más megközelítést alkalmaznak. Míg a PAM implicit módon alkalmazza az evolúció helyhez kötött véges helyek modelljét mátrix hatványozással, a többszörös szubsztitúciók hatását implicit módon kezelik a BLOSUMBAN azáltal, hogy különböző pontszámmátrixokat alakítanak ki különböző időskálákhoz.

a homológ szekvenciák több szekvenciaillesztésén belül konzervált egymással összefüggő aminosavblokkokat azonosítunk. Az egyes blokkokon belül a multiplesequences akkor csoportosul, ha páros átlagos szekvenciaazonosságuk magasabb, mint valamilyen küszöb. A küszöbérték 80% a BLOSUM80 mátrix esetében, 62% A BLOSUM62 esetében, 50% a BLOSUM50 esetében stb.

Ez azt jelenti, hogy a BLOSUM80 esetében a blokkok átlagos páronkénti identitása nem haladja meg a 80% – ot, a BLOSUM62 esetében nem nagyobb, mint 62%, stb.

a homológ szekvenciák aminosav-helyettesítési valószínűségeit a klaszterek közötti páros összehasonlításokból számítjuk ki. Ezek a valószínűségek egyszeri és többszörös szubsztitúciók eredményei lesznek, több szubsztitúcióval, amelyek nagyobb evolúciós távolságokon nagyobb befolyással bírnak. Ezért scorematrices generált páros összehasonlítások klaszterek között átlagosan nagyobb távolság, mint a BLOSUM50 mátrix, természetesen figyelembe thelarger hatása több helyettesítések.

bár különböző útvonalakat választanak, a végső BLOSUM és PAM score matricák valójában nagyon hasonlóak. Henikoff és Henikoff szerint a következő Pam és BLOSUM mátrixok összehasonlíthatók:

PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

For more information on PAM (Dayhoff) and BLOSUM matrices, see fejezet 2 ofbiológiai szekvencia elemzés Durbin et al. és a Wikipédia.

Update 13 October 2019: a helyettesítési mátrixok másik perspektívájához olvassa el a Compeau és Pevzner bioinformatikai algoritmusok 5.fejezetének (2. vagy 3. kiadás) végén található “kitérők” részt.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.