Gene-pseudogen evolution: a probabilistic approach

ebben a szakaszban először bemutatjuk a Pseudogenization, Duplikation, Loss, Rate and Sequence evolution model, PDLRS-t. Kezdjük azzal, hogy először meghatározunk néhány alapvető kifejezést. A fajfa egy gyökeres bináris fa, amely a fajok evolúciós történetét képviseli, ahol a levelek a fennmaradt fajokat, a belső csúcsok pedig a speciációs eseményeket képviselik. A génfa egy gyökerező bináris fa is, amely egy génkészlet evolúciós történetét képviseli. A génfa levelei lehetnek gének vagy pszeudogének.

A PDLRS modell

a PDLRS modell a DLRS modell kiterjesztése, amelyet pszeudogenizációs események bevonásával is kapunk. A modell leírja, hogy egy génvonal hogyan fejlődik egy fajfán belül, egy gyökérfokozattal, a gyökérből kiindulva, majd a levelek felé fejlődve, miközben ki vannak téve a gén duplikációjának, génvesztés, pszeudogenizációs események sebességgel, 6,, illetve, sorrendben. Továbbá, amikor egy génvonal eléri a fajfa csúcsát, mindig (azaz., determinisztikusan) kettéágazik, és a két így tartalmazott génvonal tovább fejlődik a fajfa csúcsa alatt, a két kimenő fajfa szélén egy-egy.

bár e folyamat során egy génvonal pszeudogén származássá válhat, a pszeudogén származás nem válthat vissza génvonalra. A pszeudogenizációs események két fokú csúcsot vezetnek be a génfában. A pszeudogén vonal egyébként génvonalként viselkedik, az evolúció során megkettőződhet vagy elveszhet, és determinisztikusan kettéágazik, amikor eléri a fajfa csúcsát. A törzs, amely eléri a fajfa leveleit, a génfában levél keletkezik, amely egy fennmaradt gént vagy pszeudogént képvisel. A génfa csúcsait és széleit, amelyek nem vezetnek ilyen fennmaradt levelekhez, a génfáról metszik le (1.ábra). Mivel ez a folyamat egy fajfában zajlik, amelynek csúcsain és élein idő van, minden esemény egy adott időpontban történik. Amikor egy esemény új génfa csúcsot hoz létre, az esemény ideje társul az új csúcshoz.

1.ábra
figure1

Pszeudogenizáció, duplikáció, veszteség, szekvencia evolúció & árak (pdlrs). A gén és a pszeudogén vonalak evolúcióját egy fajfa szélén belül egy születés-halál folyamat modellezi. A gén / pszeudogén származás találkozhat a duplikációs esemény, vagy a speciációs esemény. A génvonal (amelyet fekete vonalak képviselnek) átalakulhat a pszeudogén vonal (barna vonalak képviselik). Minden alkalommal, amikor egy gén / pszeudogén vonal áthalad egy speciációs eseményen, két független génvonalra oszlik. Egy génvonal is elveszhet. Az összes elveszett vonal metszése után megkapjuk a végső génfát. Nyugodt molekuláris órát alkalmaznak az ághossz eléréséhez. Végül egy standard szekvencia-evolúciós modell szekvenciákat generál a génfa felett ághosszúsággal. A zöld és a barna szín a gén, illetve a pszeudogén szekvencia evolúcióját képviseli.

annak érdekében, hogy egy nyugodt molekuláris órát kapjunk, a sebességeket az egyes élekre vonatkozó (átlaggal és varianciával paraméterezett) eloszlástól függetlenül mintavételezzük, és egy T idővel és R sebességgel rendelkező élhez l hosszúságot rendelünk. Emlékezzünk arra, hogy a pszeudogenizációs események két fokú csúcsot vezetnek be a génfában. Egy olyan él felett, ahol a szülői csúcs gén, a gének számára megfelelő szekvencia-evolúció modelljét alkalmazzák, míg amikor a szülői csúcs pszeudogént képvisel (következésképpen a gyermek is pszeudogént képvisel), a szekvencia-evolúció pszeudogénekre alkalmas modelljét alkalmazzák. Ezek a modellek változatosak lehetnek, de itt két alább leírt kodonmodellt használunk.

a szekvencia evolúció két módjának modellezéséhez két kodon szubsztitúciós mátrixot használunk, az egyiket a pszeudogének evolúciójára , a másikat a génekre. A pillanatnyi helyettesítési ráta mátrix kodon azt, hogy kodon j, q ij ez mindkét esetben határozza meg, hogy:

k i j = 0 , ha j különböznek a több, mint egy helyzetben, egy kodon triplett μ π j , térhet el a szinonim transversion κ μ π j , térhet el a szinonim átmenet μ ω π j , különböznek egy nonsynonymous transversion κ μ ω π j , különböznek egy nonsynonymous átmenet

ahol π j az egyensúlyi gyakorisága kodon j, μ egy normalizáló tényező, κ az átmenet/transversion arány, valamint ω a nem szinonimája szinonimája (dN/dS) aránya. Kivéve a xhamstereket, ezek a paraméterek meg vannak osztva a szekvencia evolúciójának két módja között. A pszeudogének esetében az 6 egyenlő az 1-vel, és a stop kodonokra való átmenet megengedett, míg a gének esetében az átmenet a stop kodonra nem megengedett.

A PrIME-PDLRS MCMC keretrendszer

A PrIME-PDLRS egy MCMC alapú elemző eszköz a fent említett modellhez. Bemenetként a gén és a pszeudogén szekvenciák többszörös szekvenciájának összehangolását veszi figyelembe, valamint ezeknek a szekvenciáknak a génekként vagy pszeudogénekként történő besorolását. Szükség van egy keltezett fajra is-fa S. Jelöljünk egy génfát G-vel, annak élhosszait l-vel, a modell egyéb paramétereit pedig xhamsterrel. A paraméter összetett, amely a következőket tartalmazza: duplikációs sebesség; veszteségráta; pszeudogenizációs sebesség; élsebesség átlaga és variációs együtthatója; és nem szinonim szinonim arányok (dN/dS) és átmeneti/transzverziós arányok a szekvencia evolúciójának kodon szubsztitúciós modelljéhez.

a Génfában lévő Pszeudogenizációs csúcsok halmazát (kettes fokozat) jelöljük (e csúcsok közül kettő nem feküdhet ugyanazon a gyökér-levél úton). P (·) – t használunk valószínűség jelölésére, p ( * ) – t pedig valószínűségi sűrűség jelölésére.

A Markov-láncunk egy állapota négyszeres (g, l, ca, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o, o). A génfában lévő levelek megfelelnek az adott szekvenciáknak, és minden pszeudogénnek minősített szekvenciának rendelkeznie kell egy G-ben lévő ősével, amely a Xhamsterhez tartozik. Amikor a jelenlegi állapot (G, l, θ, Ψ), az elfogadási valószínűsége, hogy egy tervezett állami ( G ‘, l ‘, θ ‘, ψ ‘) , határozza meg, ez az arány a p(G, l, θ, Ψ| D, S), p ( G ‘, l ‘, θ ‘, ψ ‘ | D , S ) , ahol D az adott adatok, S a faj-fa idő. Mivel minden ilyen sűrűségű lehet kifejezni segítségével Bayes egyenlőség, pl.,

p ( G , l , θ , ψ | D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P ( D | S)

a két nevező P(D|S) az elfogadási valószínűség kioltják egymást, s megkapjuk

p ( G , l , θ , ψ | D , S ) p ( G ‘, l ‘, θ ‘, ψ ‘| D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P ( D | G ‘, l ‘, ψ ‘) p ( G ‘, l ‘ , ψ ‘| θ ‘, S ) p ( θ ‘ ) .

itt a számláló és a nevező szerkezete azonos, ezért elegendő leírni az előbbi kiszámításának módját. Először is, a tényező P(D|G, l, ons) kiszámítható a dinamikus programozás (DP) algoritmus által javasolt Felsenstein . Azokat az éleket és élrészeket, amelyek esetében a gén vagy pszeudogén szekvenciafejlődési módot kell alkalmazni, a következők határozzák meg: 6. Az egyensúlyi frekvenciákat a gén és a pszeudogén szekvenciák alapján becsüljük meg, és a szekvencia evolúció mindkét modellje megosztja őket. Másodszor, az előzetes p (6) úgy van megválasztva, hogy könnyen kiszámítható legyen. Végül a fő technikai hozzájárulás egy DP algoritmus a génfa valószínűségének és élhosszának kiszámítására a paraméterek és a fajfa alapján a DL modell szerint. A p(G, l, 6, D, S) kiszámításához egy új DP algoritmust javasolunk, amely integrálja a pszeudogenizálás folyamatát és a DL folyamatot.

ban ben, egy DP algoritmust írtak le a p tényező kiszámításához(G, l|ons, s). Először határozzunk meg néhány kulcsfontosságú fogalmat. Legyen s ‘ diszkretizált fajfa, ahol az S fajfa éleit további diszkretizációs csúcsokkal egészítették ki úgy, hogy az összes kibővített csúcs egyenlő távolságra legyen egy élen belül, lásd az S1 ábrát a további fájlban 1. A DP egy táblázatot használ, s (x, y, u), amelyet annak valószínűségeként határoznak meg, hogy amikor egyetlen génvonal fejlődni kezd az X csúcson v ( s’), a fa G u (az u-nál gyökerező génfa az U szülői élével együtt) az L által meghatározott élhosszokkal együtt jön létre, ráadásul az u-nak megfelelő esemény az y-nál történik . Legyen v és w u gyermekei G – ben, és legyen x, y és z V(S’) csúcsai.

legyen a valószínűsége annak, hogy egy él nak, – nek G aránya van r. is, legyen t(x,y) legyen az X, y csúcsok közötti idő v ( s ‘ ) . Legyen a következőképpen definiált függvény(I) egy levélre u ( g), A (Z) (U) az a fajfa levél, amelyben az u által képviselt gén megtalálható, és (ii ) bármely belső csúcsra u nak,-nek G, A(Z) (U) az L (G) legújabb közös őse S-ben. használjuk p11 (x, y) annak valószínűségének jelölésére, hogy egy génvonal “1-től 1-ig” fejlődik a fajfa két pontja között, azaz., egyetlen gén, amely x – nél kezdődik, néhány k esetében k-vonalakat eredményez y-nál, amelyekből a k-1 kihal, és egy génvonal kihalhat vagy nem. P 11 ( X , y)-t használunk annak a valószínűségének jelölésére, hogy egy pszeudogén “1: 1″-hez fejlődik a fajfa két X és y pontja között, vagyis hogy egyetlen X-től kezdődő pszeudogén néhány k esetében k pszeudogén – vonalat eredményez y-nál, amelyekből k-1 kihal, és egy olyan vonalat, amely vagy kihal, vagy nem. Az u (V) számú csúcsot pszeudogénnek nevezzük, ha van egy őse, amely az összes pszeudogenizációs eseményt képviselő csúcshoz tartozik. Mindkét” 1: 1 ” valószínűség kiszámítását az 1. kiegészítő fájl írja le. A következő rekurziók leírják, hogyan számítható ki az S táblázat dinamikus programozással:

1, Ha u ( g ) és X = (U), S(x, x, u) = 1.

2, Ha x v ( s ) és x(u), s(x, x, u) = 0.

3, Ha x∈V ( S ) \L ( S ) ,u∉ψ, illetve x = σ(u)

s ( x , x , u ) = ∑ y ∈ F L ( x ) s ( x , y , v ) ∑ y ∈ D R ( x ) s ( x , y , w ) ,

ahol a D L (x), valamint D R (x) a leszármazottai a bal, majd a jobb gyermeke x S’, ill.

4, Ha x∈V ( S ‘ ) \V ( S ), u∉ψ,

s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } az s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } az s ( x , y , w ) ,

ahol D(x) a készlet leszármazottai x.

5 Ha x∈V ( S ) , szülő u (azaz p(u)) nem pseudogene, z a gyermeke x olyan, hogy σ ( L ( G u ) ) ⊆K ( S z ‘ ) z egy őse, y, akkor

s ( x , y , u ) = p 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) s ( z , y , u)

ahol ε ( x , z ) a valószínűsége annak, hogy egy gén lineage kezdve x nem éri el bármely levél l∈L ( S, x ‘) \L ( S z ‘ ) . Ha azonban Y az X gyermeke, akkor a fenti kifejezések a következőre redukálódnak:

s ( x , y , u ) = p 11 ( x , y ) 6 ( x , y), (l ( p ( u), u ) / t ( x , y ) ) S (y , y, u ) .

6 Ha x∈V ( S) p(u) egy pseudogene, z a gyermeke x olyan, hogy σ ( L ( G u ) ) ⊆L ( S z ‘ ) z egy őse, y, akkor

s ( x , y , u ) = p 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) .

Ha továbbá y x gyermeke, akkor a fenti kifejezések a következőre redukálódnak:,

s ( x , y , u ) = p 11 fő ( X , y ) fő ( X , Y ) fő ( l ( p ( u ) , u ) / t ( x , y ) ) fő (y , Y , u ) .

annak a valószínűsége, hogy a G génfa létrejön, annak a valószínűsége, hogy amikor egyetlen leszármazás kezdődik az S gyökerénél, a G gyökének egyetlen gyermeke C valahol az S egy gyöke alatt következik be, majd a folyamat folytatódik és G-t generál. Ezért,

p ( G , l | θ , ψ , S ) = ∑ y ∈ D ( ρ ) s ( ρ , y , c ) ,

ahol D(ρ) a készlet leszármazottai o.

Mintavételi d-megvalósítások

annak érdekében, hogy A térkép a pseudogenization csúcsa, hogy a csúcsok discretized faj-fa S’, használjuk a dinamikus programozási algoritmust javasolt . Ha EGY g génfa Pszeudogenizációs csúcsait elnyomjuk (azaz minden fok-két csúcsot eltávolítunk, és végpontjait szomszédossá tesszük), akkor egy G * génfát kapunk. A bevezetett mintavételi algoritmus a génfa csúcsainak feltérképezésére szolgál V (G*) a diszkretizált fajfa csúcsaihoz V (S’) (lásd az 1.További fájlt). A diszkretizált fajfa csúcsaihoz kapcsolódó időpontok az időpontok társítását indukálják a G * csúcsaihoz. Miután az időpontokat társították a G pszeudogenizációs csúcs u szülői csúcsához és gyermek csúcsához, egy időpont könnyen társítható u-hoz, a beeső élek elágazási hosszainak felhasználásával.

A pszeudogenizációs konfigurációk összehasonlítása

a G két pszeudogenizációs konfiguráció különbségének számszerűsítése érdekel minket, egy géncsalád két pszeudogenizációs konfigurációja között. Figyeljük meg, hogy ha elnyomjuk a G-ben lévő (G-ben lévő) és a G-ben lévő (G-ben lévő) csúcsokat (azaz eltávolítunk minden ilyen fokozatot-két csúcsot, és a végpontokat szomszédossá tesszük), akkor ugyanazt a G* fát kapjuk. Legyen E ψ E ψ’ a sor szélén G* által bevezetett elnyomja ψ, valamint ψ’, ill. Ha az e(g*) él u elnyomásával jött létre, akkor u-t nevezzük e eredetének.

Megjegyzés , bármely F élre E-ben vagy e-ben (e) 6, az F alatti összes levél pszeudogén. Szóval, ha f ∈ E ψ , akkor ott vagy szélei E ψ’ alatti f bármilyen utat a f a levelek alatt, vagy van egy széle felett f tartozik, hogy E ψ’ . Az előbbi esetben F tetőnek nevezzük, az e’ széleit pedig annak árnyékának. Ez utóbbi esetben az e ” szélét tetőnek nevezzük, az F pedig az árnyékához tartozik.

az első távolság, az Éltávolság figyelmen kívül hagyja az időt, ehelyett a G* – ben megadott távolság alapján kerül meghatározásra. Minden g * élpárhoz tartozik egy egyedi legrövidebb út, amely tartalmazza őket; két ilyen él közötti távolságot úgy definiáljuk, hogy az adott úton lévő belső csúcsok száma legyen.

először két topológiai távolságot határozunk meg (2.ábra). A széle közötti távolság két pseudogenization csúcsot egy ψ b ψ’, ahol ψ , ψ b vagy eredete élek e s e b , illetve olyan, hogy az e , e b ∈ E(G∗), a meghatározott minimális hosszúságú út között e s e b G∗. Minden tetőszél esetében legyen d m (f ) és d a (E) a legnagyobb Éltávolság , illetve az átlagos Éltávolság az F és az árnyék szélei között. Legyen a legnagyobb d m topológiai távolság és az átlagos d a topológiai távolság g, CA, és G’, Ca, d, a legnagyobb D M (f), illetve D A (F) átlaga az összes F tetőre vonatkozóan (F). Legyen a valódi génfa és annak pszeudogenizációs csúcsai (g, 6), q pedig a hátsó valószínűség-Eloszlás. Végül kiszámítjuk a topológiai távolságok várható átlagos E D a és maximális átlagos M D a értékét:

2. ábra
2. ábra

topológiai távolságok két pszeudogenizációs konfiguráció között, D A = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = max (max (1 , 1), max (1 , 2, 2)).

E D a (a ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D a (a ( G , Ψ ) , q ) = max G ‘ , Ψ ‘D ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )

Mi is adjuk meg a várható maximális E D m maximális maximális M D m a topológiai távolságok, mint:

E D m ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D m ( ( G , Ψ ) , q ) = max G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )

Második, mi határozza meg az időbeli távolságok. Ezeket a topológiához hasonlóan kapjuk meg, de a tetők és árnyalataik közötti éltávolságok helyett a tető eredetéhez kapcsolódó idő és az árnyék eredetéhez kapcsolódó idő közötti időbeli távolságokat használjuk.

a topológiai távolság a valódi pszeudogenizációs csúcs távolságát méri a következtetett csúcstól a génfa topológiája mentén, míg az időbeli távolság a valódi pszeudogenizációs csúcshoz kapcsolódó idők (a fajfa mentén) és a következtetett csúcs közötti távolságot méri.

szintetikus és biológiai analízis

A PrIME-PDLRS módszerünket szintetikus adatokon teszteltük, és biológiai adatokra alkalmaztuk. Először leírjuk a szintetikus adatok tesztjeit. Az élhosszúságú és pszeudogenizációs csúcsú véletlenszerű génfákat az elsődleges Génfagenerátor módosított változatával állítottuk elő, amelynek pszeudogenizációs sebessége 0,5 volt, és biológiailag reális duplikációs veszteségi arányokat figyeltek meg az optikai adatkészlet géncsaládjainak elemzésével . A génszekvenciákat a PDLRS modell szerint állítottuk elő. A génszekvenciákat kodon szubsztitúciós mátrixok alkalmazásával fejlesztették ki, amint azt Bielawski et al. . A pszeudogének evolúciójához semleges kodon szubsztitúciós mátrixot használtunk, ahol a nem szinonim szubsztitúciók arányarányát (dN/dS) 1,0-re állítottuk. A semleges kodon szubsztitúciós modellben bármely kodon helyettesíthető egy stop kodonnal, míg a génfejlődés esetén alkalmazott szubsztitúciós modellnél ez nem volt lehetséges. Huszonöt különböző DN/dS arányarány és átmeneti/transzverziós Arány kombinációt használtunk a génszekvenciák előállításához huszonöt géncsaládon keresztül, egységes kodon egyensúlyi frekvenciák alkalmazásával. Annak érdekében, hogy szimulálni egy biológiailag reális forgatókönyv, használtuk a faj-fa (kapott, mint a ) A kilenc gerinces faj optikai adatkészlet, amely letölthető http://genserv.anat.ox.ac.uk/downloads/clades/ a kikövetkeztetett pseudogenization csúcsok ezután összehasonlítottuk a valódi pseudogenization csúcsok segítségével kétféle távolság mérőszámok, azaz topológiai távolság (gén-fa), és időbeli távolság (faj-fa).

a biológiai adatkészletek a gerincesek két legnagyobb géncsaládjának alcsaládjaiból, azaz a szaglóreceptorokból és a cinkujjakból álltak. A szaglóreceptorokról beszámoltak arról, hogy a gerincesek legnagyobb géncsaládja . Az olyan fajokban, mint a tehén, a kacsacsőrű emlős és a főemlősök, magas pszeudogenizációs arányt figyeltek meg, míg az oposszum, a kutyák, az egerek és a patkányok viszonylag alacsony pszeudogenizációs arányt mutatnak . A http://bioportal.weizmann.ac.il/HORDE/-ből hét olyan al-géncsaládot töltöttek le, amelyek fajonként legalább egy pszeudogénnel rendelkeznek az emberi (Homo sapiens), a kutya (Canis lupus familiaris), az opossum (Didelphis virginiana) és a kacsacsőrű emlős (Ornithorhynchus anatinus) fajokra vonatkozóan. Két cinkujj al-géncsaládot is tanulmányoztak az emberi (Homo sapiens), a csimpánz (Pan troglodytes), az orangután (Pongo abelii) és a rhesus makákó (Macaca mulatta) Fajok között. Erre a célra két alcsaládot választottunk a nagy megbízhatóságú ortológ gének közül (amelyeket támogat az OrthoMCL , a reciprocal best BLAST hits és a synteny). A megfelelő szülő/paralóg géneket PSI-BLAST segítségével kerestük, és kivontuk a http://ensembl.org – ből. A nagy megbízhatóságú ortológ géneket a “KZNF katalógusból” töltötték le (http://znf.igb.illinois.edu) . Mivel a cinkujj géncsalád pszeudogénjei többnyire fragmentált duplikációk eredményeként fejlődtek ki, kihívást jelent a pszeudogének és a megfelelő gének helyes összehangolása, ami egyértelműen szükséges feltétele a génfa rekonstruálásának. A kilenc al-géncsalád összehangolását manuálisan kurálták, miután összehangolták őket MACSE-vel , lehetővé téve a stop kodonok létrehozását és szankciókat vezetett be a rés (-7) létrehozására, a rés kiterjesztésére (-1) és a kereteltolás bevezetésére (-14). Mindkét biológiai adatkészlet dátumozott fajfáit letöltöttük http://timetree.org. Az algéncsaládokat ezután ugyanazzal a csővezetékkel elemeztük, mint a szintetikus elemzéshez. A potenciális génfákat PrIME-DLR-k segítségével rekonstruáltuk, amelyeket ezután PrIME-PDLR-ek elemeztek rögzített génfa opcióval. A legvalószínűbb génfának azt a prime-DLRS génfát választották, amelynek a legjobb PrIME-PDLRS állapota van a legnagyobb hátsó valószínűséggel. A legvalószínűbb génfák hátsó pszeudogenizációs eseményeit ezután elemeztük a Markov-lánc bejárása során keletkező részletes felismerések felhasználásával.

MCMC analízis

Bayes-analízist végeztünk a géncsaládokra MCMC alapú elemző eszköz, PrIME-PDLRS alkalmazásával. Az MCMC láncot úgy állították be, hogy integrálja az összes paramétert, azaz a génfát, az élhosszokat, a génfa pszeudogenizációs csúcsait, a születési-halálozási és pszeudogenizációs arányokat, valamint az él szubsztitúciós arányok átlagát és varianciáját. Az MCMC folyamat során különböző paramétereket vettünk fel, beleértve a születési-halálozási arányt, a pszeudogenizációs arányt, a génfát, a pszeudogenizációs csúcsokat, a DN/dS arányarányt és az átmenet/transzverzió arányarányt. Minden iterációnál egy vagy több paraméter zavarodott. A génfa perturbációját standard génfa perturbációs módszerekkel végeztük, mint például a részfa metszése és újraszövegezése, a legközelebbi szomszéd cseréje és újra gyökerezése. Perturbáció után a kapott génfa érvényességét igazoltuk, vagyis egyetlen pszeudogén származás sem vezet génvonalhoz. Érvényes zavart génfa javasolt, minden alkalommal, amikor egy génfa javasolt. A szomszéd összekapcsolási módszert használják a kezdeti fa felépítésére az MCMC lánc elején. A javaslateloszlás a pszeudogenizációs csúcsok mozgatását javasolja a génfa, oly módon, hogy a pszeudogenizációs csúcs felfelé irányuló mozgásának valószínűsége megegyezik a lefelé irányuló mozgás valószínűségével. A dN/dS arányarányokat csonka normál eloszlásból, míg az átmeneti / transzverziós arányarányokat csonka normál eloszlásból veszik . A születési-halálozási és pszeudogenizációs arányokat csonka normális eloszlásból veszik. Csonka normál javaslatokat használtunk a sebességmodell paramétereinek és az aktuális érték körüli élhosszak perturbációjára, az elfogadási arányok tekintetében kézzel készített hangolási paraméterekkel. A szubsztitúciós ráta paramétereit az eloszlási átlag vagy a variációs együttható zavarásával zavarták meg. Annak megállapítása érdekében, hogy az MCMC láncok konvergáltak-e, diagnosztikai eszközként VMCMC-t használtunk. A kezdeti futásoktól kezdve megfigyelték, hogy biztonságos a 2 500 000 égési periódus használata. A többi futáshoz 5 000 000 iterációt, 2 500 000 égési periódust és 500 ritkítást használtunk. Első lépésként PrIME-DLR-eket használtunk a potenciális génfák rekonstruálására. Minden potenciális génfát PrIME-PDLR-ek segítségével elemeztünk rögzített génfa opcióval.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.