PAM vs BLOSUM score matrices

aminozuren, nucleotiden of enig ander evolutionair karakter worden met enige snelheid door anderen vervangen. Bijvoorbeeld, stel je voor een evolutionaire sequentie met threepossible staten, A, B en C. Als vervanging model is omkeerbaar, therewill worden drie overgang tarieven, Een<>B, B<>C<>C.

stel dat de percentages respectievelijk 1, 1 en 0 in substitutie-eenheden per 100 karakters per tijdseenheid zijn. Na een eenheid van tijd, in een 300 karakter lange reeks oorspronkelijk gelijk samengesteld uit As, Bs en Cs, we verwachten dat er een A tot B substitutie en een B tot C substitutie. Als we twee homologe sequenties in levende organismen vergelijken, omdat er voor beide sequenties één tijdseenheid was, zouden we twee A tot B en twee B tot Csubstituties verwachten tussen de huidige sequenties.

Het maakt niet uit hoe lang we dit proces draaien, er zal nooit een directreplacement van A door C. Er zal ook nooit een substitutie van A tot C zijn onder het zogenaamde infinite sites model, waar niet meer dan één substitutie kan voorkomen op een enkele site.

echter omdat substituties van A tot B en van B tot C gebruikelijk zijn, zal in een eindig sitemodel uiteindelijk B worden vervangen door C op een plaats waar a eerder werd vervangen door B. Deze indirecte vervanging van A door C (of gelijkwaardig in een tijd-omkeerbaar model, C door A) wordt waarschijnlijker naarmate de tijdsperiode die de homologe sequenties scheidt langer duurt.

i gesimuleerde sequentieevolutie op basis van het bovenstaande scenario, waarbij de simulatie gedurende 10 tijdseenheden wordt uitgevoerd. Uit deze substitutie merkte ik de volgende tellingen voor elke site patroon:

A B C
A 91 9 0
B 5 86 9
C 0 9 91

In deze relatief korte duur, het niet verschijnen als Een<>Csubstitutions hebben opgetreden. Maar als ik de simulatie voor 100 unitsvan tijd herlees:

A B C
A 55 35 10
B 29 36 35
C 20 36 44

zoals u kunt zien, zijn veel” A “- tekens vervangen door” C ” en viceversa. Meer in het algemeen, onder een eindige sites model meerdere substituties oorzaak van de verdeling van de site patroon tellingen veel platter te worden daneen eenvoudige verhoging van het aandeel van off-diagonaal ten opzichte van diagonale tellingen.De PAM en BLOSUM score matrices zijn verantwoordelijk voor meerdere substituties opradicaal verschillende manieren.

de PAM-matrices voor aminozuren, samen met de afkorting van één letter die gebruikt wordt voor genetisch gecodeerde aminozuren, werden ontwikkeld door MargaretDayhoff. Ze werden oorspronkelijk gepubliceerd in 1978, en gebaseerd op de proteinsequences die Dayhoff sinds de jaren 1960 had samengesteld, gepubliceerd als theAtlas of Protein Sequence and Structure.

de naam PAM komt van “point accepted mutation”, en verwijst naar deplacement van een enkel aminozuur in een eiwit met een ander aminozuur.Deze mutaties werden geà dentificeerd door zeer gelijkaardige sequenties met minstens 85% identiteit te vergelijken, en aangenomen wordt dat om het even welke waargenomen substituties het resultaat waren van één enkele mutatie tussen de voorouderlijke sequentie en één van de huidige dagsequenties.

PAM definieert ook een tijdseenheid, waarbij 1 PAM de tijd is waarin 1/100 aminozuren naar verwachting een mutatie ondergaan. De pam1 waarschijnlijkheidsmatrix laat de waarschijnlijkheid zien dat het aminozuur in kolom j vervangen wordt door het aminozuur in rij i. het werd berekend op basis van de PAM-tellingen van Dayhoff, en aangepast tot 1 PAM-eenheid van tijd. Zoals u kunt zien, zijn de off-diagonale waarschijnlijkheden in de pam1 matrix allemaal erg klein (alle elementen werden geschaald met 10.000 forlegibility):

PAM1

om de aminozuurvervangingskansen voor langere tijduraties te berekenen, kan de matrix met zichzelf het overeenkomstige aantal keren vermenigvuldigd worden. Aldus werd de PAM250 waarschijnlijkheidsmatrix, die de plaatsingswaarschijnlijkheden beschrijft gegeven 250 PAM-eenheden van tijd, afgeleid door de pam1 waarschijnlijkheidsmatrix op de macht 250 te brengen (alle elementen werden geschaald met 100 voor leesbaarheid):

PAM250

De vervangingswaarschijnlijkheden afgeleid met behulp van deze exponentiation correctlyaccount voor meerdere substituties. Niet alleen zijn de off-diagonale problemen proportioneel groter als je zou verwachten voor een langere tijdsduur, maar ze zijn platter. Bijvoorbeeld, de kans op een valine (V)tot isoleucine (I) vervanging is 33× groter dan een v tot histadine (H)vervanging in de PAM1 matrix, maar slechts 4,5× groter in de PAM250 matrix.

Scorematrices kunnen dan worden berekend uit de waarschijnlijkheidsmatrices en de geobserveerde basisfrequenties.de BLOSUM matrices, ontwikkeld door Steven en Jorja Henikoff en gepubliceerd in 1992, volgen een heel andere benadering. Terwijl PAM impliciet een stationaire eindige plaatsenmodel van evolutie toepast met behulp van matrixexonentiatie, wordt het effect van meerdere substituties impliciet behandeld in BLOSUM door verschillende partituurmatrices voor verschillende tijdschalen samen te stellen.

binnen meerdere sequentie-uitlijningen van homologe sequenties worden behouden aaneengesloten blokken aminozuren geïdentificeerd. Binnen elk blok, multi-sequences worden geclusterd wanneer hun paarsgewijs gemiddelde sequentieidentiteit hoger is dan een bepaalde drempel. De drempelwaarde is 80% voor de blosum80 matrix, 62% voor BLOSUM62, 50% voor BLOSUM50 enzovoort.

Dit betekent dat Voor BLOSUM80 blokken een gemiddelde paarsgewijze identiteit hebben die niet groter is dan 80%, voor BLOSUM62 niet groter dan 62%, enzovoort.

de kans op Aminozuurvervanging voor homologe sequenties wordt berekend op basis van paarsgewijze vergelijkingen tussen clusters. Deze waarschijnlijkheden zullen het resultaat zijn van enkelvoudige en meervoudige substituties, waarbij meervoudige substituties een grotere invloed hebben op grotere evolutionaire afstanden. Daarom zullen scorematrices gegenereerd uit paarsgewijze vergelijkingen tussen clusters van gemiddeld grotere afstand, zoals de blosum50-matrix, van nature het grotere effect van meerdere substituties verklaren.

hoewel ze verschillende routes nemen, zijn de uiteindelijke blosum en PAM Score matrices eigenlijk vrij gelijkaardig. Volgens Henikoff en Henikoff zijn de volgende matrices van Pam en BLOSUM vergelijkbaar:

PAM BLOSUM
PAM250 BLOSUM45
PAM160 BLOSUM62
PAM120 BLOSUM80

For more information on PAM (Dayhoff) and BLOSUM matrices, see hoofdstuk 2 van biological sequence analysis door Durbin et al. en Wikipedia.

Update 13 oktober 2019: voor een ander perspectief op substitutiematrices, raadpleeg de sectie” Detours ” aan het einde van Hoofdstuk 5 van Bioinformatics Algorithms (2nd or 3rd Edition) door Compeau en Pevzner.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.