PAM vs BLOSUM – pistematriisit

aminohapot, nukleotidit tai muut evolutiiviset ominaisuudet korvautuvat muilla jonkin verran. Kuvitelkaa esimerkiksi evoluutiosekvenssi, jossa on kolme mahdollista tilaa, A, B ja C. Jos substituutiomalli on ajallisesti palautuva, siirtymänopeuksia on kolme, a<>b, b<>C ja<>C.

Oletetaan, että korvausyksiköt ovat 1, 1 ja 0 100characteria aikayksikköä kohti. Yhden aikayksikön jälkeen, 300 merkin pituussuhteessa, joka alun perin koostuu yhtä lailla As: stä, Bs: stä ja Cs: stä, odotamme, että siellä on ollut yksi A-B-substituutio ja yksi B-C-substituutio. Jos vertaamme kahta homologista sekvenssiä elävissä organismeissa, koska yksi aikayksikkö on kasautunut molemmille sekvensseille, odottaisimme kahta A: sta B: hen ja kahta B: tä Csubstituutioihin nykyisten sekvenssien välillä.

riippumatta siitä, kuinka kauan suoritamme tätä prosessia, A: ta ei koskaan korvata C: llä.ei myöskään koskaan tule olemaan A: sta C: hen-substituutiota Aso: ksi kutsutussa infinite sites-mallissa, jossa yhdellä paikalla voi esiintyä korkeintaan yksi substituutio.

koska A: sta B: hen ja B: stä C: hen substituutiot ovat yleisiä, äärellisessä asemallissa lopulta B korvataan C: llä paikassa, jossa A on aiemmin korvattu B: llä.tämä A: n epäsuora korvaaminen C: llä (tai vastaavasti A: n käänteisessä mallissa C: llä) käy sitä todennäköisemmäksi, mitä pitempi aika on homologisten sekvenssien jakamisessa.

i yllä olevaan skenaarioon perustuva simuloitu sekvenssievoluutio, jossa simuloidaan 10 aikayksikköä. Tästä korvauksesta seurasin kunkin alueen kaavojen seuraavia laskelmia:

A B C
A 91 9 0
B 5 86 9
C 0 9 91

tämän suhteellisen lyhyen keston aikana ei näytä siltä, että mitään<>csubstituutioita olisi tapahtunut. Kuitenkin Kun uudelleen simulointi 100 unitsof aika:

A B C
A 55 35 10
B 29 36 35
C 20 36 44

kuten näkyy, monet ”a” – merkit on korvattu kirjaimilla ”C” ja sijamerkit. Yleisemmin, alle rajallinen sivustoja malli useita substituutioita, koska jakautuminen sivuston kuvio laskee tulla paljon tasaisempi beyondsimply lisäämällä osuutta off-diagonal suhteessa diagonaalinen laskee.PAM – ja BLOSUM-pistematriiseissa on useita substituutioita eri tavoin.

aminohappojen Pam-matriisit sekä geneettisesti koodatuille aminohapoille tarkoitetut yksikirjaimiset lyhenteet kehitti MargaretDayhoff. Ne julkaistiin alun perin vuonna 1978, ja perustuvat proteinsequences Dayhoff oli koonnut vuodesta 1960, julkaistu nimellä Theatlas of Protein Sequence and Structure.

nimi PAM tulee sanasta ”pistehyväksytty mutaatio”, ja viittaa yhden aminohapon lisääntymiseen proteiinissa, jossa on eri aminohappo.Nämä mutaatiot tunnistettiin vertaamalla hyvin samankaltaisia sekvenssejä vähintään 85%: n identiteettiin, ja oletetaan, että kaikki havaitut substituutiot olivat seurausta yhdestä mutaatiosta esi-isien sekvenssin ja yhden nykyisen päivän sekvenssin välillä.

Pam määrittelee myös aikayksikön, jossa 1 PAM on aika, jossa 1/100 aminohapon oletetaan käyvän mutaatiossa. PAM1-todennäköisyysmatriisi osoittaa todennäköisyyden sille, että J-sarakkeessa oleva aminohappo korvataan rivillä i olevalla aminohapolla. se laskettiin Dayhoffin PAM-luvuista ja muutettiin 1 PAM-aikayksiköksi. Kuten näette, pam1-matriisin diagonaalin ulkopuoliset todennäköisyydet ovat kaikki hyvin pieniä (kaikki alkuaineet skaalattiin 10 000: lla forlegibiliteetin mukaan):

PAM1

aminohappojen korvautumistodennäköisyyksien laskemiseksi pidemmillä aikajänteillä matriisi voidaan kertoa itse vastaavilla kerroilla. Niinpä PAM250-todennäköisyysmatriisi, joka kuvaa 250 Pam-aikayksikölle annettuja todennäköisyyksiä, johdettiin korottamalla PAM1-todennäköisyysmatriisi potenssiin 250 (kaikki elementit skaalattiin 100: lla luettavuutta varten):

PAM250

korvautumistodennäköisyydet, jotka on johdettu käyttämällä tätä eksponentiaatiota oikein monisubstituutioille. Ei vain ovat off-diagonaaliprobabilities suhteellisesti suurempi kuin voit odottaa pidemmän ajan, mutta ne ovat tasaisempia. Esimerkiksi valiinin (V)ja isoleusiinin (I) korvautumisen todennäköisyys on PAM1-matriisissa 33× suurempi kuin histadiini (H) – korvautumisessa, mutta PAM250-matriisissa vain 4,5× suurempi.

Pistematriisit voidaan sitten laskea todennäköisyysmatriiseista ja havaituista perustaajuuksista.

Steven ja Jorja Henikoffin kehittämät ja vuonna 1992 julkaistut blosum-matriisit noudattavat hyvin erilaista lähestymistapaa. Vaikka PAM on implisiittisesti applyinga stationary finite sites model of evolution using matrix exponentiation, the effect of multiple substitutions is dealed with implisiittisesti in BLOSUM by constructing different score matrices for different time scale.

homologisten sekvenssien monisekvenssisissä jaksoissa havaitaan konservoituneita aminohappolohkoja. Kussakin lohkossa multiplesequences ovat ryhmittyneet, kun niiden pareittain keskimääräinen sekvenssin identiteetti on korkeampi kuin jokin kynnys. Raja-arvo on 80% blosum80-matriisille, 62% BLOSUM62: lle, 50% BLOSUM50: lle ja niin edelleen.

tämä tarkoittaa, että BLOSUM80: n osalta blosum80: n blosum62: n kohdalla blosum82: n keskimääräinen paritunnistus ei ole suurempi kuin 80%, ja BLOSUM62: n kohdalla enintään 62% jne.

aminohappojen korvautumistodennäköisyydet homologisille sekvensseille lasketaan klustereiden välisistä parivertailuista. Nämä todennäköisyydet ovat seurausta yksittäisistä ja monisubstituutioista, ja monisubstituutioilla on suurempi vaikutus suuremmilla evolutionaarisilla etäisyyksillä. Näin ollen scorematrices tuotettu parivertailuja klusterien on keskimääräinenegreater etäisyys, kuten blosum50 matriisi, luonnollisesti selittää thewarger vaikutus useita substituutioita.

vaikka ne kulkevat eri reittejä, lopulliset BLOSUM-ja PAM-pistemäärät ovat itse asiassa aika samanlaisia. Henikoffin ja Henikoffin mukaan seuraavat Pam – ja BLOSUM-matriisit ovat vertailukelpoisia:

PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

For more information on PAM (Dayhoff) and BLOSUM matrices, see Durbinin et al: n biologista sekvenssianalyysiä käsittelevä luku 2, ja Wikipedia.

Update 13 October 2019: for another perspective on substitution matrices, see The ”Detours” section at the Class 5 of Bioinformatics Algorithms (2nd or 3rd Edition) by Compeau and Pevzner.

Vastaa

Sähköpostiosoitettasi ei julkaista.