Gen-pseudogenevolution: ett probabilistiskt tillvägagångssätt

i detta avsnitt introducerar vi först Pseudogenisering, duplicering, förlust, hastighet och Sekvensutvecklingsmodell, PDLRS. Vi börjar med att först definiera några grundläggande termer. Ett art-träd är ett rotat binärt träd som representerar evolutionär historia av arter där löv representerar bevarade arter och inre hörn representerar specieringshändelser. Ett genträd är också ett rotat binärt träd som representerar evolutionär historia av en uppsättning gener. Ett genträd kan ha gener eller pseudogener som blad.

PDLRS-modellen

PDLRS-modellen är en förlängning av dlrs-modellen erhållen genom att även inkludera pseudogeniseringshändelser. Modellen beskriver hur en gen härstamning utvecklas inuti en art-träd med en grad en rot, genom att börja vid roten och därefter utvecklas mot bladen samtidigt som de utsätts för genduplikation, genförlust, och pseudogenisering händelser i takt med att det finns en skillnad i antal. Också, när en gen härstamning når en art-träd vertex, det alltid (dvs., deterministiskt) bifurcates och de två så innehöll genlinjer fortsätter att utvecklas under artträdets toppunkt, en i var och en av dess två utgående artträdskanter.

Även om en genlinje under denna process kan växla till en pseudogenlinje, får en pseudogenlinje inte växla tillbaka till en genlinje. Pseudogeniseringshändelser introducerar grad två hörn i genträdet. En pseudogen härstamning beter sig annars som en gen härstamning, det kan duplicera eller gå förlorad under evolutionen, och det deterministiskt förgrenar sig när den når en art-träd vertex. En härstamning som når artträdets löv ger upphov till ett blad i genträdet, som representerar en existerande gen eller pseudogen. Hörn och kanter på genträdet som inte leder till några sådana bevarade blad beskärs emellertid från genträdet (Figur 1). Eftersom denna process äger rum i ett artträd med tiden på dess hörn och kanter, inträffar varje händelse vid en viss tidpunkt. När en händelse skapar en ny gen-träd vertex tiden för händelsen är associerad med den nya vertex.

Figur 1
figure1

Pseudogenisering, dubbelarbete, förlust, Sekvensutveckling & priser (pdlr). Utvecklingen av en gen och pseudogen härstamningar inuti en art trädkant modelleras av en födelse-död process. En gen / pseudogen härstamning kan stöta på en dupliceringshändelse eller en specieringshändelse. En genlinje (representerad av svarta linjer) kan omvandlas till en pseudogenlinje (representerad av bruna linjer). Varje gång en gen / pseudogen härstamning passerar genom en speciering händelse, det delas upp i två oberoende gen härstamningar. En genlinje kan också gå förlorad. Efter beskärning av alla förlorade linjer erhålls det slutliga genträdet. En avslappnad molekylär klocka används för att erhålla grenlängder. Slutligen genererar en standardsekvensutvecklingsmodell sekvenser över genträdet med grenlängder. Gröna och bruna färger representerar gen – respektive pseudogensekvensutveckling.

för att erhålla en avslappnad molekylär klocka, samplas priser oberoende av en bisexuell fördelning (parametriserad med ett medelvärde och en varians) för varje kant, och en kant med tiden t och hastighet r tilldelas en längd l. slutligen utvecklas sekvenser över detta genträd med dess längder. Minns att pseudogeniseringshändelser introducerar grad två hörn i genträdet. Över en kant där föräldrakronan är en gen används en modell för sekvensutveckling som är lämplig för gener, medan när föräldrakronan representerar en pseudogen (och följaktligen också barnet representerar en pseudogen) används en modell för sekvensutveckling som är lämplig för pseudogener. Dessa modeller kan varieras, men här använder vi två kodonmodeller som beskrivs nedan.

för att modellera de två lägena för sekvensutveckling använder vi två kodonsubstitutionsmatriser som föreslås av, en för utvecklingen av pseudogener och andra för gener. Den momentana substitution priser matris från kodon jag att kodon j, q ij är i båda fallen bestäms av:

q i j = 0 , om jag och j skiljer på mer än en position i ett kodon triplett μ π j , skiljer sig åt genom att ett synonymt transversion μ κ π j , skiljer sig åt genom att ett synonymt övergången μ ω π j , skiljer sig åt genom en nonsynonymous transversion μ κ ω π j , skiljer sig med en nonsynonymous övergången

där π j är den balans frekvens av kodon j, μ är en normaliserande faktor, κ är övergången/transversion-tal, och ω är den icke-synonyma till synonyma (dN/dS) förhållande. Med undantag för att skilja mellan de två formerna för sekvensutveckling delas dessa parametrar. För pseudogener är 1 lika med 1 och övergången till stoppkodoner är tillåten, medan övergången till stoppkodon inte är tillåten för gener.

PrIME-PDLRS MCMC framework

PrIME-PDLRS är ett MCMC-baserat analysverktyg för ovan nämnda modell. Det tar som inmatning en multipel sekvensinriktning av gen-och pseudogensekvenser tillsammans med en klassificering av dessa sekvenser som gener eller pseudogener. Det kräver också en daterad Art-träd S. Låt oss beteckna ett gen-träd med G, dess kantlängder med l och andra parametrar i modellen med GHz. Parametern är sammansatt, innehållande: dupliceringshastigheten; förlusthastighet; pseudogeniseringshastighet; kanthastighetsmedelvärde och variationskoefficient; och icke-synonymt med synonyma priser (dN/dS) och övergångs – /transversionshastigheter för kodonsubstitutionsmodell för sekvensutveckling.

Vi kommer att använda oss av den uppsättning pseudogeniseringspunkter (grad två) i genträdet (inga två av dessa hörn kan ligga på samma rot till bladväg). Vi använder P(·) för att beteckna en sannolikhet och p(·) för att beteckna en sannolikhetstäthet.

ett tillstånd i vår Markov-kedja är en fyrdubbla (G, l, exporterar, exporterar). Bladen i genträdet motsvarar de givna sekvenserna och vilken sekvens som helst som klassificeras som en pseudogen måste ha en förfader i G som hör till Bisexuell. När den nuvarande tillstånd (G, l, θ, Ψ), godkännande sannolikheten för att ett förslag till staten ( G ’, l ’, θ ’, ψ ) , bestäms av förhållandet mellan p(G, l, θ Ψ| D, N) och p ( G ’, l ’, θ ’, ψ ’ | D , S ) , där D är givna uppgifter och S är den art-träd med tiden. Eftersom var och en av dessa densiteter kan uttryckas med hjälp av Bayes jämställdhet, exempelvis,

p ( G , l , θ ψ | D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P ( D | N ) ,

de två nämnarna P(D|S) i acceptans sannolikhet avbryta varandra och vi få

p ( G , l , θ ψ | D , S ) p ( G ’, l ’, θ ’, ψ ’| D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P ( D | G ’, l ’, ψ ’) p ( G ’, l ’ , ψ ’| θ ’, S ) p ( θ ’ ) .

Här har täljaren och nämnaren samma struktur, så det är tillräckligt att beskriva hur man beräknar den förra. För det första kan faktorn P(D|G, l, Xiaomi) beräknas med hjälp av den dynamiska programmeringsalgoritmen (DP) som föreslagits av Felsenstein . Kanterna och de delar av kanterna för vilka genen eller pseudogen-läget för sekvensutveckling ska användas specificeras av HTTPS: / / . Jämviktsfrekvenserna uppskattas från gen-och pseudogensekvenserna och delas av båda modellerna för sekvensutveckling. För det andra väljs den tidigare p(Xiaomi) så att den lätt kan beräknas. Slutligen är det viktigaste tekniska bidraget från en DP-algoritm för beräkning av sannolikheten för ett genträd och dess kantlängder givna parametrar och artträdet under DL-modellen. För att beräkna p (G, l, 2BG, 2BG|D, S) föreslår vi en ny DP-algoritm som integrerar pseudogeniseringsprocessen och DL-processen.

i, en DP-algoritm för beräkning av faktorn p(G, l|GHz, S) beskrevs. Låt oss först definiera några nyckelbegrepp. Låt S ’ vara ett diskretiserat artträd där kanterna på artträdet har utökats med ytterligare diskretiseringshörn så att alla Förstärkta hörn är lika långt inom en kant, se figur S1 i ytterligare fil 1. DP använder sig av en tabell, s(x, y, u), definierad som sannolikheten för att när en enda genlinje börjar utvecklas vid vertexen x bisexuell V ( S ’) , trädet G u (genträdet rotat vid u tillsammans med föräldrakanten på u) genereras tillsammans med kantlängderna specificerade av l och dessutom inträffar den händelse som motsvarar u Vid y bisexuell V ( S ’ ) . Låt v och w vara barn av u i G, och låt x, y och z vara hörn av V(S’).

låt det vara sannolikheten för att en kant på G har hastighet r. låt också t ( x, y) vara tiden mellan hörn x,y 2BX V (S ’ ) . Låt det vara den funktion som definieras på följande sätt ( i) för ett blad u (g), (u) är det artträdblad där genen som u representerar kan hittas och (ii) för varje inre toppunkt u av G, (U ) är den senaste gemensamma förfadern till L(G) i S. Vi använder p11 (x, y) för att beteckna sannolikheten för en genlinje som utvecklas ”1-till-1” mellan två punkter i artträdet, dvs., en enda gen som börjar vid x, för vissa k ger upphov till k – linjer vid y varav k-1 kommer att utrotas och en genlinje kan eller kanske inte utrotas. Vi använder p 11 2BG (X, y) för att beteckna sannolikheten för att en pseudogen utvecklas ”1-till-1″ mellan två punkter x och y i artträdet, dvs att en enda pseudogen börjar vid x, för vissa k ger upphov till k pseudogen härstamningar vid y varav k-1 kommer att utrotas och en härstamning som kan eller inte kan utrotas. En toppunkt u bisexuell v (T ) kallas en pseudogen om den har en förfader som tillhör alla hörn som representerar pseudogeniseringshändelser. Hur man beräknar båda dessa” 1-till-1 ” sannolikheter beskrivs i ytterligare fil 1. Följande rekursioner beskriver hur tabellen s kan beräknas med hjälp av dynamisk programmering:

1 Om u ( g ) och X = (U), S(x, x, u) = 1.

2 Om x c / v ( s ) och x c / v(u), s(x, x, u) = 0.

3 Om x∈V ( S ) \L ( S ) ,u∉ψ, och x = σ(u),

s ( x , x , u ) = ∑ y ∈ r ( x ) s ( x , y , v ) ∑ y ∈ R ( x ) s ( x , y , w ) ,

där D L (x) och R (x) är ättlingar till vänster och höger barn x i S, respektive.

4 Om x∈V ( S ’ ) \V ( N ) och u∉ψ,

s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } s ( x , y , w ) ,

där D(x) är den uppsättning av ättlingar till x.

5 Om x∈V ( S ) , förälder u (dvs s(u)) är inte en pseudogene, och z är ett barn av x som är sådant att σ ( L ( G-u ) ) ⊆K ( S z ) och z är en förfader till y, därefter

s ( x , y , u ) = p 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) s ( z , y , u ) ,

där ε ( x , z ) är sannolikheten att en gen linjen börjar på x inte nå alla löv l∈L ( S x ’) \L ( S z ’ ) . Men om dessutom y är ett barn av x minskar ovanstående uttryck till,

s ( x , y , u ) = p 11 ( x , y ) 2BG ( x , y ) 2BG ( l ( p ( u ) , u) / t ( x , y ) ) s ( y , y , u ) .

6 Om x∈V ( N ) , p(u) är en pseudogene, och z är ett barn av x som är sådant att σ ( L ( G-u ) ) ⊆L ( S z ) och z är en förfader till y, därefter

s ( x , y , u ) = p 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) .

men om dessutom y är ett barn av x ovanstående uttryck reduceras till,

s ( x , y , u ) = p 11 kg ( x , y ) kg ( x , y ) kg ( L ( p ( u ) , u) / t ( x , y ) ) s ( y , y , u ) .

sannolikheten att genträdet G genereras är sannolikheten att när en enda härstamning börjar vid roten av S, förekommer det enda barnet c i roten av G någonstans under graden en rot-s, och sedan fortsätter processen och genererar G. Därför,

p ( G , l | θ ψ , S ) = ∑ y ∈ D ( ρ ) s ( ρ , y , c ) ,

där D(ρ) är den uppsättning av ättlingar till p.

Provtagning d-insikter

I syfte att kartlägga pseudogenization hörn till hörn av discretized arter träd S’, som vi använder dynamisk programmering algoritm som föreslås i . Genom att undertrycka Pseudogeniseringshörnorna Bisexuell av ett genträd G (dvs avlägsna varje grad-två vertex och göra dess slutpunkter intilliggande) erhåller vi ett genträd G*. Provtagningsalgoritmen som introduceras i används för att kartlägga hörn av genträdet V(G*) till hörn av det diskretiserade artträdet V(S’) (se ytterligare fil 1). De tidpunkter som är förknippade med det diskretiserade artträdets hörn, inducerar en sammanslutning av tidpunkter till G*-hörnen. När tidpunkterna har associerats med föräldra vertex och barn vertex av en pseudogenisering vertex u av G, en tidpunkt kan lätt associeras med u, med hjälp av grenlängderna av de infallande kanterna.

jämförelse av pseudogeniseringskonfigurationer

Vi är intresserade av att kvantifiera skillnaden mellan två pseudogeniseringskonfigurationer G tillsammans med gastronomi och G’ tillsammans med coronaviruset’ av en enda genfamilj. Lägg märke till att om vi undertrycker topparna i G och i g (dvs. ta bort varje sådan grad-två hörn och få dess slutpunkter att bli intilliggande), respektive, erhålls samma träd G*. Låt E och E. O. A. vara den uppsättning kanter på G * som införs genom att undertrycka respektive O. A. A. A. A. A. A. A. A. A. A. A. A. A. A. Om kanten e-e (g*) skapades genom att undertrycka u, kallas u ursprunget till e.

meddelande, för varje kant f i E-E eller e-oc’ , alla blad under f är pseudogener. Så, om F. F. E. F. , så finns det antingen kanterna på E. F. Under f på någon väg från f till bladen under den eller så finns det en kant över f som tillhör E. F. I det förra fallet, vi kallar f ett tak och kanterna på e Macau’ sin skugga. I det senare fallet kallas kanten på E. A. S. A. Ett tak och f tillhör dess skugga.

det första avståndet, kantavståndet, bortser från tiden och definieras istället baserat på avståndet i G*. För varje par kanter av G* finns det en unik kortaste väg som innehåller dem; avståndet mellan två sådana kanter definieras som antalet inre hörn på den vägen.

först definierar vi två topologiska avstånd (Figur 2). Kanten avståndet mellan två pseudogenization hörn ett ψ-och b-ψ’ där ψ , b ψ är ursprunget till kanterna e a och e, b , respektive sådana att e a , e b ∈ E(G∗), definieras som den minsta längden väg mellan e och e b i G∗. Låt d M (f) och d A (E) vara det maximala kantavståndet respektive det genomsnittliga kantavståndet mellan f och kanterna på dess skugga. Låt det högsta topologiska avståndet D M och det genomsnittliga topologiska avståndet D a mellan G, XXL och g’, xlxl’ vara det högsta av d M (f) respektive medelvärdet av D a (f) över alla tak f xlxl e Xlxl E Xlxl’. Låt det sanna genträdet och dess pseudogeniseringshörn vara (G, Xiaomi) och q vara den bakre sannolikhetsfördelningen. Slutligen beräknar vi det förväntade genomsnittet E D A och det maximala genomsnittliga M D a för de topologiska avstånden som:

Figur 2
figure2

topologiska avstånd mellan två pseudogeniseringskonfigurationer, D A = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = max (max (1 , 1) , max (1 , 2 , 2)).

E D a (G , Ψ ) , q ) = ∑ G ’, Ψ ’D a (G , Ψ ) , ( G’ , Ψ ) ) q ( G ’, Ψ ) M D (G , Ψ ) , q ) = max G ’ , Ψ ’D a (G , Ψ ) , ( G’ , Ψ ) ) q ( G ’ , Ψ )

Vi också definiera den maximala förväntade D E D E m och maximal maximal M D m av topologiska avstånd som:

E D m (G , Ψ ) , q ) = ∑ G ’, Ψ ’D m (G , Ψ ) , ( G’ , Ψ ) ) q ( G ’, Ψ ) M D m (G , Ψ ) , q ) = max G ’, Ψ ’D m (G , Ψ ) , ( G’ , Ψ ) ) q ( G ’ , Ψ )

för det Andra, vi definiera den tidsmässiga avstånd. Dessa erhålls analogt med det topologiska, men istället för att använda kantavstånden mellan tak och deras nyanser använder vi de tidsmässiga avstånden mellan tiden i samband med takets ursprung och tiden i samband med dess skugga.

topologiskt avstånd mäter avståndet för ett sant pseudogeniseringsvertex från det antagna längs genträdtopologin, medan det temporala avståndet mäter avståndet mellan tiderna (längs artträdet) som är associerade med det sanna pseudogeniseringsvertexet och det antagna.

syntetisk och biologisk analys

Vi testade vår metod PrIME-PDLRS på syntetiska data och tillämpade den på biologiska data. Vi beskriver först testen på syntetiska data. Slumpmässiga genträd med kantlängder och pseudogeniseringsvinklar genererades med användning av en modifierad version av PrIME-Gen-Tree generator med pseudogeniseringshastighet på 0,5 och biologiskt realistiska dubbelförlusthastigheter observerade genom att analysera genfamiljer av optisk dataset . Gensekvenser genererades enligt PDLRS-modellen. Gensekvenser utvecklades med användning av kodon substitution matriser som föreslagits av Bielawski et al. . En neutral kodonsubstitutionsmatris användes för utvecklingen av pseudogener där hastighetsförhållandet för icke-synonymt med synonyma substitutioner (dN/dS) sattes till 1.0. I den neutrala kodonsubstitutionsmodellen kunde vilket kodon som helst ersättas med ett stoppkodon, medan detta inte var möjligt under den substitutionsmodell som användes vid genutveckling. Tjugofem olika kombinationer av DN/dS-hastighetsförhållanden och övergångs – / transversionshastighetsförhållanden användes för att generera gensekvenser över tjugofem genfamiljer, med användning av enhetliga kodonjämviktsfrekvenser. För att simulera ett biologiskt realistiskt scenario använde vi artträdet (erhållet som i ) för de nio ryggradsdjursarterna av optisk dataset, som hämtades från http://genserv.anat.ox.ac.uk/downloads/clades/ de härledda pseudogeniseringspunkterna jämfördes sedan med de sanna pseudogeniseringspunkterna med hjälp av två typer av avståndsmätningar, dvs topologiskt avstånd (genträd) och tidsmässigt avstånd (artträd).

de biologiska datamängderna bestod av underfamiljer från de två största genfamiljerna hos ryggradsdjur, dvs. olfaktoriska receptorer och zinkfingrar. Olfaktoriska receptorer har rapporterats vara den största genfamiljen i ryggradsdjur . Hos arter som ko, näbbdjur, och primater, en hög grad av pseudogenisering har observerats, medan opossum, hundar, mus och råttor har relativt låg grad av pseudogenisering . Sju subgenfamiljer som företrädesvis hade minst en pseudogen per art hämtades från http://bioportal.weizmann.ac.il/HORDE/ för arten av människa (Homo sapiens), hund (Canis lupus familiaris), opossum (Didelphis virginiana) och platypus (Ornithorhynchus anatinus). Två zinkfingerundergenfamiljer studerades också över arten av människa (Homo sapiens), schimpans (Pan troglodytes), orangutan (Pongo abelii) och rhesus macaque (Macaca mulatta). För detta ändamål valde vi två underfamiljer från de höga förtroendeorthologa generna (som stöds av OrthoMCL , reciprocal best BLAST hits och synteny). Motsvarande förälder / paralogous gener sökte med hjälp av PSI-BLAST och extraherades från http://ensembl.org. De högförtroende orthologa generna laddades ner från”kznf-katalogen”(http://znf.igb.illinois.edu) . Eftersom pseudogenerna i zinkfingergenfamiljen mestadels har utvecklats till följd av fragmenterade duplikationer är det utmanande att korrekt anpassa pseudogenerna och motsvarande gener , helt klart ett nödvändigt villkor för att rekonstruera genträdet. Inriktningar av de nio subgenfamiljerna kuraterades manuellt efter att ha anpassat dem till MACSE , vilket möjliggjorde stoppkodoner och införde påföljder för att skapa ett gap (-7), utvidga ett gap (-1) och introducera frameshift (-14). De daterade artträden för båda de biologiska datamängderna hämtades från http://timetree.org. Subgenfamiljerna analyserades sedan med samma pipeline som användes för syntetisk analys. Potentiella gen-träd rekonstruerades med användning av PrIME-DLR, som sedan analyserades av PrIME-PDLR med användning av fast gen-träd alternativ. PrIME-dlrs-genträdet med bästa PrIME-PDLRS-tillstånd med den högsta bakre sannolikheten valdes som det mest troliga genträdet. De bakre över pseudogeniseringshändelserna hos de mest troliga genträden analyserades sedan med hjälp av de detaljerade realiseringarna som genererades under Markov-kedjans traversal.

MCMC-analys

Bayesian-analys utfördes för genfamiljerna med hjälp av MCMC-baserat analysverktyg, PrIME-PDLRS. MCMC-kedjan var inställd för att integrera över alla parametrar, dvs genträd, kantlängder, pseudogeniseringshörn på genträd, födelse-död och pseudogeniseringshastigheter och medelvärde och varians av kantsubstitutionshastigheter. Vi samplade olika parametrar genom MCMC-processen inklusive födelse-dödsräntor, pseudogeniseringshastighet, genträd, pseudogeniseringshörn, DN/dS-hastighetsförhållande och övergångs – /transversionshastighetsförhållande. En eller flera parametrar stördes vid varje iteration. Störningen av genträdet gjordes med hjälp av vanliga genträdstörningsmetoder såsom subtree beskärning och regrafting, närmaste grannutbyte och återrotning. Efter en störning certifierades giltigheten för det resulterande genträdet, dvs ingen pseudogen härstamning leder till en gen härstamning. Ett giltigt stört genträd föreslås, varje gång ett genträd föreslås. Grannanslutningsmetod används för att konstruera det ursprungliga trädet i början av MCMC-kedjan. Förslaget fördelningen föreslår drag av pseudogenisering hörn, över linjerna i en gen-träd, på ett sådant sätt att sannolikheten för att föreslå en uppåtgående rörelse av en pseudogenisering vertex är lika med sannolikheten för att föreslå en nedåtgående rörelse. DN / dS-hastighetsförhållandena samplas från en stympad normalfördelning i, medan övergångs – / transversionshastighetsförhållandena samplas från en stympad normalfördelning i . Födelse-död och pseudogenisering priser samplas från en stympad normalfördelning i . Trunkerade normala förslag användes för störning av parametrarna för hastighetsmodellen och kantlängderna runt det aktuella värdet, med avstämningsparametrar handgjorda med avseende på acceptansförhållanden. Substitutionshastighetsparametrar stördes genom att antingen störa fördelningsmedlet eller variationskoefficienten. För att hitta om MCMC-kedjorna har konvergerat använde vi VMCMC som ett diagnostiskt verktyg. Från de första körningarna observerades att det var säkert att använda en inbränningsperiod på 2 500 000. För resten av körningarna använde vi 5 000 000 iterationer, inbränningsperiod på 2 500 000 och gallring av 500. Vi använde PrIME-DLRS som ett första steg för att rekonstruera de potentiella genträden. Varje potentiellt gen-träd analyserades med användning av PrIME-PDLRS med ett fast gen-trädalternativ.

Lämna ett svar

Din e-postadress kommer inte publiceras.