Gen-pseudogene evolutie: een probabilistische benadering

in deze sectie introduceren we eerst het Pseudogenisatie, duplicatie, verlies, snelheid en sequentie evolutiemodel, PDLRS. We beginnen met eerst een aantal basisbegrippen te definiëren. Een soort-boom is een gewortelde binaire boom die de evolutionaire geschiedenis van soorten vertegenwoordigt waar Bladeren bestaande soorten vertegenwoordigen en interne hoekpunten speciatiegebeurtenissen vertegenwoordigen. Een gen-boom is ook een gewortelde binaire boom die de evolutionaire geschiedenis van een reeks genen vertegenwoordigt. Een genboom kan genen of pseudogenes als zijn bladeren hebben.

het pdlrs-model

het pdlrs-model is een uitbreiding van het DLRS-model verkregen door ook pseudogenisatiegebeurtenissen op te nemen. Het model beschrijft hoe een genlijn evolueert binnen een soort-boom met een graad één wortel, door bij de wortel te beginnen en vervolgens naar de bladeren te evolueren terwijl aan genduplicatie, genverlies, en pseudogenisatiegebeurtenissen bij tarieven δ, μ, En ψ, respectievelijk worden blootgesteld. Ook, wanneer een gen afstamming een soort-boom vertex bereikt, is het altijd (d.w.z., deterministisch) bifurcaten en de twee zo bevatte gen lijnen blijven evolueren onder de soort-boom vertex, een in elk van de twee uitgaande soorten-boom randen.

hoewel tijdens dit proces een genlijn kan overschakelen naar een pseudogene lijn, mag een pseudogene lijn niet terugschakelen naar een genlijn. Pseudogenisatie gebeurtenissen introduceren graad twee hoekpunten in de Gen-boom. Een pseudogeen geslacht gedraagt zich anders als een gen geslacht, kan het dupliceren of verloren gaan tijdens de evolutie, en het deterministisch bifurcates wanneer het een soort-boom vertex bereikt. Een afstamming die de bladeren van de soort-boom bereikt, geeft aanleiding tot een blad in de Gen-boom, die een bestaand gen of pseudogeen vertegenwoordigt. Hoekpunten en randen van de genboom die niet tot dergelijke overgebleven bladeren leiden, worden echter van de genboom gesnoeid (figuur 1). Aangezien dit proces plaatsvindt in een soort-boom met de tijd op zijn hoekpunten en randen, vindt elke gebeurtenis plaats op een specifieke tijd. Wanneer een gebeurtenis een nieuw vertex van de genboom creëert, wordt de tijd van de gebeurtenis geassocieerd met het nieuwe vertex.

Figure 1
figure1

Pseudogenisatie, duplicatie, verlies, Sequentieevolutie&Rates (PDLRS). De evolutie van een gen en pseudogeen geslacht binnen een boomrand van een soort wordt gemodelleerd door een geboorte-dood proces. Een gen / pseudogene afstamming kan een duplicatiegebeurtenis tegenkomen, of een speciatiegebeurtenis. Een genlijn (vertegenwoordigd door zwarte lijnen) kan worden omgezet in een pseudogene lijn (vertegenwoordigd door bruine lijnen). Elke keer dat een gen/pseudogene lijn door een speciatiegebeurtenis gaat, splitst het zich in twee onafhankelijke genlijnen. Een genlijn kan ook verloren gaan. Na het snoeien van alle verloren geslachten, wordt de uiteindelijke genboom verkregen. Een ontspannen moleculaire klok wordt gebruikt om tak lengtes te verkrijgen. Tenslotte, genereert een standaard opeenvolgingsevolutie model opeenvolgingen over de genboom met vertakkingslengten. Groene en bruine kleuren vertegenwoordigen gen en pseudogene sequentie evolutie, respectievelijk.

om een ontspannen moleculaire klok te verkrijgen, worden de snelheden bemonsterd onafhankelijk van een Γ-verdeling (geparametreerd door een gemiddelde en een variantie) voor elke rand, en wordt een rand met tijd t en snelheid r toegewezen aan een lengte l. ten slotte worden sequenties geëvolueerd over deze genboom met zijn lengtes. Bedenk dat pseudogenisatiegebeurtenissen graad twee hoekpunten in de Gen-boom introduceren. Over een rand waar het ouderlijk vertex een gen is, wordt een model van sequentieevolutie gebruikt dat geschikt is voor genen, terwijl wanneer het ouderlijk vertex een pseudogeen vertegenwoordigt (en, bijgevolg, ook het kind een pseudogeen vertegenwoordigt) een model van sequentieevolutie wordt gebruikt dat geschikt is voor pseudogenes. Deze modellen kunnen worden gevarieerd, maar hier gebruiken we twee hieronder beschreven codon modellen.

om de twee modi van sequentieevolutie te modelleren, gebruiken we twee codon substitutiematrices voorgesteld door, een voor de evolutie van pseudogenes en een andere voor die van genen. De onmiddellijke vervanging tarief matrix van codon ik naar codon j, q ij wordt in beide gevallen bepaald door:

q i j = 0 als i en j verschillen op meer dan één plaats in een codon triplet μ π j , verschillen door een synoniem transversion κ μ π j , verschillen door een synoniem overgang μ ω π j , verschillen door een nonsynonymous transversion μ κ ω π j , verschillen met een nonsynonymous overgang

waar π j is het evenwicht frequentie van codon j, μ is een normaliseren factor, κ is de overgang/transversion verhouding, en ω is de niet-synoniem synoniem (dN/dS) verhouding. Behalve van ω, worden deze parameters gedeeld tussen de twee modi van sequentie evolutie. Voor pseudogenes, ω is gelijk aan 1 en overgang naar codon stoppen is toegestaan, terwijl voor genen overgang naar codon stoppen is niet toegestaan.

het Prime-PDLRS MCMC framework

PrIME-PDLRS is een op MCMC gebaseerd analysetool voor het bovengenoemde model. Het neemt als input een veelvoudige opeenvolgingsuitlijning van gen en pseudogene opeenvolgingen samen met een classificatie van deze opeenvolgingen als genen of pseudogenes. Het vereist ook een gedateerde soort-boom S. Laten we een genboom aanduiden met G, zijn randlengtes met L, en andere parameters van het model met θ. De parameter θ is samengesteld en bevat: de duplicatiesnelheid; verliessnelheid; pseudogenisatiesnelheid; het gemiddelde en de variatiecoëfficiënt van de randsnelheid; en niet-synoniem voor synonieme snelheden (dN/dS) en overgangs – /transversiesnelheden voor codonsubstitutiemodel van sequentieevolutie.

We zullen Ψ gebruiken om de verzameling van pseudogenisatiepunten (graad twee) in de genboom aan te duiden (geen twee van deze hoekpunten mogen op hetzelfde pad van wortel tot blad liggen). We gebruiken P (·) om een waarschijnlijkheid aan te duiden en p (·) om een waarschijnlijkheidsdichtheid aan te geven.

een toestand in onze Markovketen is een viervoudige (G, L, θ, Ψ). De bladeren in de genboom komen overeen met de gegeven opeenvolgingen en om het even welke opeenvolging geclassificeerd als pseudogeen moet een voorouder In G hebben die tot Ψ behoort. Wanneer de huidige toestand (G, l, θ, Ψ) is, wordt de aanvaardingskans van een voorgestelde toestand ( G ‘, l ‘, θ ‘, ψ’) bepaald door de verhouding tussen p(G , l, θ, Ψ| D, S) en p ( G’, l’, θ’, ψ ‘ | D , S), waarbij D de gegeven gegevens is en S de soort-boom met de tijd is. Aangezien elk van deze dichtheden kan worden uitgedrukt met behulp van Bayes gelijkheid, bijvoorbeeld,

p ( G , l , θ , ψ | D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , N ) p ( θ ) P ( D | S)

de twee noemers P(D|S) in de aanvaarding kans heffen elkaar en we verkrijgen

p ( G , l , θ , ψ | D , S ) p ( G ‘, l ‘, θ ‘, ψ ‘| D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , N ) p ( θ ) P ( D | G ‘, l ‘, ψ ‘) p ( G ‘, l ‘ , ψ ‘| θ ‘, S ) p ( θ ‘ ) .

Hier hebben de teller en de noemer dezelfde structuur, dus is het voldoende om te beschrijven hoe de eerste te berekenen. Ten eerste kan de factor P(D|G, l, Ψ) worden berekend met behulp van het dynamic programming (DP) algoritme voorgesteld door Felsenstein . De randen en delen van randen waarvoor het gen of pseudogene wijze van opeenvolgingsevolutie zou moeten worden gebruikt worden gespecificeerd door Ψ. De evenwichtsfrequenties worden geschat op basis van de gen-en pseudogene sequenties, en worden gedeeld door beide modellen van sequentieevolutie. Ten tweede wordt de voorafgaande p (θ) gekozen zodat deze gemakkelijk kan worden berekend. Tot slot is de belangrijkste technische bijdrage van een DP algoritme voor het berekenen van de waarschijnlijkheid van een gen-boom en zijn Rand lengtes gegeven parameters en de soort-boom onder het DL-model. Om p(G, L, θ, Ψ|D, S) te berekenen, stellen we een nieuw DP-algoritme voor dat het pseudogenisatieproces en het DL-proces integreert.

In werd een DP-algoritme beschreven voor de berekening van de factor p(G, L|θ, s). Laten we eerst een aantal kernbegrippen definiëren. Laat S ‘ een gediscretiseerde soortenboom zijn waar de randen van de soortenboom S zijn vergroot met extra discretisatie hoekpunten, zodat alle vergrote hoekpunten op gelijke afstand zijn binnen een rand, zie figuur S1 in aanvullend bestand 1. De DP maakt gebruik van een tabel, s(x, y, u), gedefinieerd als de waarschijnlijkheid dat wanneer een enkele genlijn begint te evolueren op de top x∈V ( S ‘) , de boom G u (de Gen-boom geworteld op u samen met de ouderrand van u) wordt gegenereerd samen met de randlengten gespecificeerd door l en bovendien de gebeurtenis die overeenkomt met u plaatsvindt op y V V ( S ‘ ) . Laat v en w kinderen zijn van u in G, en laat x, y, en z hoekpunten zijn van V (S’).

zij ρ (r) de kans dat een rand van G rate heeft. ook zij t(x, y) de tijd tussen hoekpunten x, y V V ( S’). Zij σ (u) de functie gedefinieerd als volgt ( I) voor een blad U∈L (G ) , σ (u) is het soort-boomblad waarin het gen dat u vertegenwoordigt kan worden gevonden en (ii) voor om het even welke interne vertex u van G, σ(u) is de meest recente gemeenschappelijke voorouder van L(G u ) in S. We gebruiken p11 (x, y) om de waarschijnlijkheid aan te duiden van een genlijn die “1-op-1” evolueert tussen twee punten in de soortenboom, d.w.z., een enkel gen beginnend bij x, voor sommige k geeft aanleiding tot K-lijnen op y waarvan k-1 zal uitsterven en één gen lijn kan al dan niet uitsterven. We gebruiken p 11 ψ (x, y) om de waarschijnlijkheid aan te geven dat een pseudogeen “1-op-1” evolueert tussen twee punten x en y in de soortenboom, dat wil zeggen dat een enkel pseudogeen beginnend bij x, voor sommige k aanleiding geeft tot K pseudogene lijnen op y waarvan k-1 zal uitsterven en een lijn die al dan niet kan uitsterven. Een vertex u V V (T ) wordt een pseudogeen genoemd als het een voorouder heeft die tot alle hoekpunten behoort die pseudogenisatiegebeurtenissen Ψ hebben graad twee. Hoe beide “1-op-1” waarschijnlijkheden te berekenen wordt beschreven in aanvullend bestand 1. De volgende recursies beschrijven hoe de tabel s kan worden berekend met behulp van dynamisch programmeren:

1 Als u∈L ( G ) en x = σ(u), s(x, x, u) = 1.

2 Indien X∈V ( S ) en x ≠ σ(u), s(x, x, u) = 0.

3 Als x∈V ( S ) \L ( S ) ,u∉ψ, en x = σ(u),

s ( x , x , u ) = ∑ y ∈ D L ( x ) s ( x , y , v ) ∑ y ∈ D R ( x ) s ( x , y , w ) ,

waar D L (x) en R (x) zijn de afstammelingen van de linker en de rechter kind van x in S’, respectievelijk.

4 Als x∈V ( S ‘ ) \V ( S ) en u∉ψ,

s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } r ( x , y , v ) ∑ y ∈ D ( x ) \ { x } r ( x , y , w ) ,

waar D(x) is de verzameling van de nakomelingen van x.

5 Als x∈V ( S ) , ouder van u (i.e. p(u)) is geen pseudogeen, en z is een kind van x zodanig dat σ ( L ( G u ) ) ⊆K ( S z ‘) en z is een voorouder van y, dan

s ( x , y , u ) = P 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( U ) , u ) / t ( x , y ) ) ρ ( l ( p ( U ) , u ) / T ( X , y ) ) S ( z , y , u ) ,

waarbij ε ( X , Z ) de kans is dat een genlijn die begint bij X geen blad L∈L ( S X ‘) \L ( S Z’) bereikt . Als y echter bovendien een kind van x is, worden de bovenstaande uitdrukkingen gereduceerd tot,

s (x, y, u) = P 11 ( x , y ) ε ( x , y) ρ ( l ( p ( U), u) / t ( x , y)) s ( y , y , u).

6 Als x∈V ( S ) , p(u) is een pseudogene, en z is een kind van x zodanig dat σ ( L ( G ) ) ⊆L ( S z ) en de z is een voorouder van y, dan is

s ( x , y , u ) = p 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) .

echter, als y bovendien een kind van x is, verminderen de bovenstaande uitdrukkingen tot,

s (x, y, u) = P 11 ψ ( x , y ) ε ( x , y) ρ ( l ( p ( U), u) / t ( x , y)) s ( y , y , u).

de kans dat de genboom G wordt gegenereerd is de kans dat wanneer een enkele afstamming begint bij de wortel van S, het enige kind c van de wortel van G ergens onder de graad één wortel ρ Van S optreedt, en dan gaat het proces verder en genereert G. Vandaar,

p (G, l / θ , ψ, S) = ∑ y ∈ D ( ρ) s ( ρ , y , c),

waarbij D(ρ) de verzameling afstammelingen is van p.

Sampling d-realisaties

om de pseudogenisatie hoekpunten in kaart te brengen met de hoekpunten van gediscretiseerde soorten-boom S’, gebruiken we het dynamische programmeeralgoritme voorgesteld in . Door het onderdrukken van de pseudogenisatiepunten Ψ van een genboom g (d.w.z. het verwijderen van elke graad-twee vertex en het maken van de eindpunten naast elkaar), verkrijgen we een genboom g*. Het bemonsteringsalgoritme dat wordt ingevoerd, wordt gebruikt om de hoekpunten van de genboom V(G*) in kaart te brengen met de hoekpunten van de gediscretiseerde soort-boom V(S’) (zie aanvullend dossier 1). De tijdpunten geassocieerd met de hoekpunten van de gediscretiseerde soortenboom, veroorzaken een associatie van tijdpunten met de hoekpunten van G*. Zodra de tijdpunten zijn geassocieerd met de ouderlijke vertex en kind vertex van een pseudogenisatie vertex u van G, kan een tijdpunt gemakkelijk worden geassocieerd met u, met behulp van de tak lengtes van de invallende randen.

het vergelijken van pseudogenisatieconfiguraties

We zijn geïnteresseerd in het kwantificeren van het verschil tussen twee pseudogenisatieconfiguraties G samen met ψ en G’ samen met ψ’ van een enkele genfamilie. Merk op dat als we de hoekpunten ψ In G en ψ’ in G’ onderdrukken (dat wil zeggen, elk van deze graden verwijderen-twee hoekpunten en de eindpunten aangrenzend maken), respectievelijk, dan wordt dezelfde boom G* verkregen. Zij E ψ en e ψ’ de reeks randen van G* zijn die door het onderdrukken van ψ En ψ’, respectievelijk worden ingevoerd. Als de rand E ∈ E (G*) werd gecreëerd door het onderdrukken van u, dan wordt u de oorsprong van e.

opmerking, voor elke rand f In E ψ OF e ψ’ , alle bladeren onder f zijn pseudogenes. Dus, als f ψ E ψ, dan zijn er ofwel randen van e ψ ‘onder f op een pad van f naar de bladeren eronder of er is een rand boven f die behoort tot e ψ’. In het eerste geval noemen we f een dak en de randen van e ψ ‘ zijn schaduw. In het laatste geval wordt de rand van e ψ’ een dak genoemd en f behoort tot zijn schaduw.

de eerste afstand, randafstand, negeert de tijd en wordt in plaats daarvan gedefinieerd op basis van de afstand In G*. Voor elk paar randen van G* is er een uniek kortste pad dat ze bevat; de afstand tussen twee dergelijke randen wordt gedefinieerd als het aantal interne hoekpunten op dat pad.

eerst definiëren we twee topologische afstanden (Figuur 2). De randafstand tussen twee pseudogenisatiepunten a ψ en B ψ’ waar A ψ , b ψ de oorsprong zijn van randen e a en e b , respectievelijk, zodanig dat e A , E B ∈ E(G∗), wordt gedefinieerd als de minimale lengteweg tussen e A en E b in G∗. Voor elke dakrand f E E ψ Of F ∈ E ψ’ Zijn d m (f) en d a (e) respectievelijk de maximale randafstand en de gemiddelde randafstand tussen f en de randen van de schaduw. De maximale topologische afstand D m en de gemiddelde topologische afstand D A tussen G, ψ en G’, ψ’ zijn respectievelijk het maximum van d m (f ) en het gemiddelde van D a (f) over alle daken f ψ E ψ ψ E ψ’. Laat de ware genboom en zijn pseudogenisatiepunten (g, ψ) en q de posterieure kansverdeling zijn. Tot slot berekenen we de verwachte gemiddelde E D a en de maximale gemiddelde M D een van de topologische afstanden zoals:

Figuur 2
figure2

Topologische Afstanden tussen twee pseudogenization configuraties, D a = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = max ( max (1 , 1) , max (1 , 2 , 2)).

E D a ( ( G , Ψ ) , q ) = ∑ g ‘, Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( g ‘, Ψ ) M D a ( ( G , Ψ ) , q ) = max g ‘, Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( g ‘ , ψ)

We definiëren ook de verwachte maximale e d m en maximale m d m van de topologische afstanden als:

E D m ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D m ((G , Ψ), (G ‘, Ψ ‘) ) q ( g ‘, Ψ ) M D m ( ( G , Ψ ) , q ) = max G ‘, Ψ ‘D m ((G , Ψ), (G ‘, Ψ ) ) q (g’, Ψ )

ten tweede bepalen we de tijdsafstanden. Deze worden verkregen analoog aan de topologische, maar in plaats van het gebruik van de randen afstanden tussen daken en hun tinten, gebruiken we de temporele afstanden tussen de tijd geassocieerd met de oorsprong van een dak en de tijd geassocieerd met de oorsprong van de schaduw.

topologische afstand meet de afstand van een echt pseudogenisatiepunt van de afgeleide langs de genboomtopologie, terwijl de temporele afstand de afstand meet tussen de tijden (langs de soortenboom) die geassocieerd zijn met het echte pseudogenisatiepunt en de afgeleide.

synthetische en biologische analyse

We hebben onze methode PrIME-PDLRS getest op synthetische gegevens en toegepast op biologische gegevens. We beschrijven eerst de tests op synthetische gegevens. Willekeurige gen-bomen met randlengtes en pseudogenisatiepunten werden gegenereerd met behulp van een gewijzigde versie van PrIME-Gen-Tree generator met pseudogenisatiesnelheid van 0,5, en biologisch realistische duplicatie-verliespercentages waargenomen door het analyseren van genfamilies van optische dataset . Gensequenties werden gegenereerd volgens het pdlrs-model. Gensequenties werden geëvolueerd met behulp van codon substitutiematrices zoals voorgesteld door Bielawski et al. . Een neutrale codon substitutiematrix werd gebruikt voor de evolutie van pseudogenes waarbij de rate ratio van niet-synoniem aan synonieme substituties (dN/dS) werd ingesteld op 1.0. In het neutrale codon substitutiemodel kon elk codon worden vervangen door een stopcodon, terwijl dit niet mogelijk was onder het substitutiemodel dat werd gebruikt in het geval van genevolutie. Vijfentwintig verschillende combinaties van DN / dS rate ratio ’s en transversion/transversion rate ratio’ s werden gebruikt om gensequenties te genereren over vijfentwintig genfamilies, gebruikmakend van uniforme codon evenwicht frequenties. Om een biologisch realistisch scenario te simuleren, gebruikten we de species-tree (verkregen als in ) voor de negen gewervelde soorten optische dataset, die werd gedownload van http://genserv.anat.ox.ac.uk/downloads/clades/ De afgeleide pseudogenisatie hoekpunten werden vervolgens vergeleken met de echte pseudogenisatie hoekpunten met behulp van twee soorten afstand metrics, namelijk topologische afstand (gen-tree), en temporele afstand (species-tree).

de biologische datasets bestonden uit subfamilies van de twee grootste genfamilies van gewervelde dieren, namelijk olfactorische receptoren en zinkvingers. Reukreceptoren zijn gemeld om de grootste genfamilie in de gewervelde dieren te zijn . In soorten zoals koe, vogelbekdier, en primaten, een hoge mate van pseudogenisatie is waargenomen, terwijl opossum, honden, muizen en ratten relatief lage mate van pseudogenisatie . Zeven subgenfamilies met bij voorkeur ten minste één pseudogeen per soort werden gedownload van http://bioportal.weizmann.ac.il/HORDE/ voor de soorten mens (Homo sapiens), hond (Canis lupus familiaris), opossum (Didelphis virginiana) en vogelbekdier (Ornithorhynchus anatinus). Twee subgenfamilies van zinkvingers werden ook bestudeerd bij de soorten mens (Homo sapiens), chimpansee (Pan troglodytes), orang-oetan (Pongo abelii) en rhesus makaak (Macaca mulatta). Voor dit doel kozen we twee subfamilies uit de high confidence orthologe genen (die ondersteund worden door OrthoMCL, reciproque best BLAST hits , en synteny). De overeenkomstige ouder – / paralogische genen werden doorzocht met behulp van PSI-BLAST en geëxtraheerd uit http://ensembl.org. De orthologe genen met hoge betrouwbaarheid werden gedownload van ‘The KZNF catalog’ (http://znf.igb.illinois.edu) . Aangezien de pseudogenes in de familie van het zinkvinger gen meestal als resultaat van gefragmenteerde duplicaties geëvolueerd zijn, is het uitdagend om de pseudogenes en overeenkomstige genen correct uit te lijnen, duidelijk een noodzakelijke voorwaarde voor het reconstrueren van de genboom. Alignments van de negen sub-gen families werden handmatig samengesteld na het uitlijnen van hen met MACSE , waardoor stop codons en invoering van sancties voor het creëren van een kloof (-7), uitbreiding van een kloof (-1), en de invoering van frameshift (-14). De gedateerde soorten-bomen voor beide biologische datasets werden gedownload van http://timetree.org. De sub gen-families werden toen geanalyseerd gebruikend de zelfde pijpleiding zoals gebruikt voor synthetische analyse. De potentiële gen-bomen werden gereconstrueerd gebruikend PrIME-DLRS, die toen door PrIME-PDLRS werden geanalyseerd gebruikend vaste gen-boomoptie. De PrIME-DLRS-genboom met de beste PrIME-PDLRS-toestand met de hoogste posterieure waarschijnlijkheid werd geselecteerd als de meest waarschijnlijke genboom. De posterieure over pseudogenisatie gebeurtenissen van de meest waarschijnlijke gen-bomen werden vervolgens geanalyseerd met behulp van de gedetailleerde-realisaties gegenereerd tijdens de Markov keten traversal.

MCMC-analyse

Bayesiaanse analyse werd uitgevoerd voor de genfamilies met behulp van op MCMC gebaseerde analysetool, PrIME-PDLRS. De MCMC keten was opgezet om te integreren over alle parameters, dat wil zeggen gen-boom, rand lengte, pseudogenisatie hoekpunten op Gen-boom, geboorte-dood en pseudogenisatie tarieven, en gemiddelde en variantie van rand substitutie tarieven. We hebben verschillende parameters gedurende het MCMC-proces bemonsterd, waaronder geboorte-sterftecijfers, pseudogenisatiecijfers, genboom -, pseudogenisatiepunten, DN/dS-ratio en transversiepercentages. Een of meer parameters werden verstoord bij elke iteratie. De perturbatie van de Gen-boom werd gedaan gebruikend standaard gen-boom perturbatie methodes zoals subtree snoeien en hertekenen, dichtsbijzijnde buur uitwisseling en re-beworteling. Na een verstoring werd de geldigheid van de resulterende genboom gecertificeerd, dat wil zeggen dat geen pseudogene afstamming tot een gen afstamming leidt. Elke keer als een genboom wordt voorgesteld, wordt een geldige verstoorde genboom voorgesteld. Neighbor Joiningmethode wordt gebruikt om de initiële boom aan het begin van de MCMC-keten te construeren. Het voorstel distributie stelt bewegingen van pseudogenisatie hoekpunten, over de lijnen van een gen-boom, op een zodanige wijze dat de waarschijnlijkheid van het voorstellen van een opwaartse beweging van een pseudogenisatie vertex is gelijk aan de waarschijnlijkheid van het voorstellen van een neerwaartse beweging. De DN/dS-ratio ’s worden bemonsterd uit een verkorte normale verdeling in , terwijl de transitie / transversieratio’ s worden bemonsterd uit een verkorte normale verdeling in . De geboorte-dood en pseudogenisatie tarieven worden bemonsterd van een verkorte normale verdeling in . Verkorte normale voorstellen werden gebruikt voor de verstoring van de parameters van het tariefmodel en randlengten rond de huidige waarde, met afstelling parameters handgemaakt met betrekking tot acceptatie ratio ‘ s. De substitutieparameters werden verstoord door ofwel het verdelingsgemiddelde ofwel de variatiecoëfficiënt te verstoren. Om uit te vinden of de MCMC ketens zijn geconvergeerd, gebruikten we VMCMC als diagnostisch hulpmiddel. Vanaf de eerste runs werd opgemerkt dat het veilig was om een burn-in periode van 2.500.000 te gebruiken. Voor de rest van de runs, gebruikten we 5.000.000 iteraties, burn-in periode van 2.500.000 en dunner worden van 500. We gebruikten PrIME-DLRS als een eerste stap om de potentiële genbomen te reconstrueren. Elke potentiële gen-boom werd geanalyseerd gebruikend PrIME-PDLRS met een vaste gen-boomoptie.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.