Figur 1
Pseudogenisering, Duplisering, Tap, Sekvensutvikling& Priser (pdlrs). Utviklingen av et gen og pseudogen linjer inne i en art tree edge er modellert av en fødsel-død prosess. Et gen / pseudogen avstamning kan komme over en duplisering hendelse, eller en artsdannelse hendelse. En genlinje (representert av svarte linjer) kan konvertere til en pseudogenlinje (representert av brune linjer). Hver gang et gen / pseudogen-avstamning passerer gjennom en spesiasjonshendelse, splittes den i to uavhengige genlinjer. En genlinje kan også gå tapt. Etter beskjæring av alle tapte linjer, oppnås det endelige gent-treet. En avslappet molekylær klokke er ansatt for å oppnå grenlengder. Til slutt genererer en standard sekvensutviklingsmodell sekvenser over gent-treet med grenlengder. Grønne og brune farger representerer henholdsvis gen-og pseudogen sekvensutvikling.
for å oppnå en avslappet molekylær klokke, samples ratene uavhengig av En Γ-fordeling (parameterisert med gjennomsnitt og varians) for hver kant, og en kant med tid t og hastighet r tildeles en lengde l. til Slutt utvikles sekvenser over dette gentreet med dens lengder. Husk at pseudogeniseringshendelser introduserer grad to hjørner i gentreet. Over en kant hvor foreldrevexet er et gen, brukes en modell for sekvensutvikling som er egnet for gener, mens når foreldrevexet representerer et pseudogen (og følgelig også barnet representerer et pseudogen), brukes en modell for sekvensutvikling som er egnet for pseudogener. Disse modellene kan varieres, men her bruker vi to kodonmodeller beskrevet nedenfor.for å modellere de to modusene for sekvensutvikling, bruker vi to kodonsubstitusjonsmatriser foreslått av , en for utviklingen av pseudogener og andre for gener. Momentant substitusjon pris matrix fra codon jeg å codon j, q ij er i begge tilfeller bestemmes ved:
q jeg j = 0 , hvis i og j er forskjellige på mer enn én posisjon i et codon trilling μ π j , forskjellige av en synonymt transversion μ κ π j , forskjellige av en synonymt overgang μ ω π j , forskjellige av en nonsynonymous transversion μ κ ω π j , forskjellige av en nonsynonymous overgang
hvor π j er likevekt frekvens av codon j, μ er en normalisering faktor, κ er overgangen/transversion forhold, og ω er ikke synonymt med å synonymt (dN/dS) forhold. Bortsett fra ω, deles disse parametrene mellom de to modusene for sekvensutvikling. For pseudogener er ω lik 1 og overgang til stoppkodon er tillatt, mens for gener er overgang til stoppkodon ikke tillatt.
PrIME-PDLRS MCMC framework
PrIME-PDLRS Er ET MCMC – basert analyseverktøy for den ovennevnte modellen. Det tar som input en multiple sekvens justering av gen og pseudogen sekvenser sammen med en klassifisering av disse sekvensene som gener eller pseudogener. Det krever også en datert arter-treet S. La oss betegne et gent-tre Med G, dets kantlengder med l og andre parametere av modellen ved θ. Parameteren θ er sammensatt, som inneholder: dupliseringshastigheten; tapshastighet; pseudogeniseringshastighet; kantrate gjennomsnitt og variasjonskoeffisient; og ikke-synonymt med synonyme priser (dN/dS) og overgang/transversjonsrater for kodons substitusjonsmodell for sekvensutvikling.
Vi vil bruke Ψ for å betegne settet av pseudogeniseringshoder (grad to) i gentreet (ingen av disse toppene kan ligge på samme rot til bladbane). Vi bruker P (·) for å betegne en sannsynlighet og p (·) for å betegne en sannsynlighetstetthet.
En stat I Vår Markov-kjede er en firedobbelt (G, l, θ, Ψ). Bladene i gentreet svarer til gitte sekvenser, og enhver sekvens klassifisert som pseudogen må ha en stamfar I G som tilhører Ψ. Når den nåværende tilstand er (G, l, θ, Ψ), aksept sannsynligheten for en foreslått state ( G ‘, l ‘, θ ‘, ψ ‘) , er bestemt av forholdet mellom p(G, l, θ, Ψ| D, S) og s ( G , l ‘, θ ‘, ψ ‘ | D , E ) , der D er gitt data og S er arter-tre med tiden. Siden hver av disse tettheter kan uttrykkes ved hjelp av Bayes likestilling, f.eks.,
p ( G , l , θ , ψ | D , S ) = P ( D | G , l , ψ ) s ( G , l , ψ | θ , S ) p ( θ ) P ( D | S ) ,
de to denominators P(D|S) i aksept sannsynlighet avbryte hverandre og vi får
– >
p ( G , l , θ , ψ | D , S ) p ( G ‘, l ‘, θ ‘, ψ ‘| D , S ) = P ( D | G , l , ψ ) s ( G , l , ψ | θ , S ) p ( θ ) P ( D | G ‘, l ‘, ψ ‘) p ( G ‘, l ‘ , ψ ‘| θ ‘, S ) p ( θ ‘ ) .
her har telleren og nevnen samme struktur, så det er tilstrekkelig å beskrive hvordan man beregner den tidligere. For det første kan faktoren P(D|G, l, Ψ) beregnes ved hjelp av dynamic programming (dp) algoritmen foreslått Av Felsenstein . Kantene og delene av kantene som genet eller pseudogen-modusen for sekvensutvikling skal brukes til, er spesifisert av Ψ. Likevektsfrekvensene er estimert fra genet og pseudogen-sekvensene, og deles av begge modellene av sekvensutvikling. For det andre er den tidligere p(θ) valgt slik at den lett kan beregnes. Endelig er det viktigste tekniske bidraget til EN dp-algoritme for å beregne sannsynligheten for et gen-tre og dets kantlengder gitt parametere og artetreet under DL-modellen. For å beregne p(G, l, θ, Ψ|D, S) foreslår vi en ny dp-algoritme som integrerer prosessen med pseudogenisering og DL-prosessen.
I ble EN dp-algoritme for beregning av faktoren p(G, l|θ, S) beskrevet. La oss først definere noen viktige begreper. La S ‘ være en diskretisert art-treet der kantene av arter-treet S har blitt utvidet med ekstra diskretisering toppunkter slik at alle de utvidede toppunktene er like langt innenfor en kant, se figur S1 i tilleggsfil 1. DP bruker en tabell, s (x, y, u), definert som sannsynligheten for at når en enkelt genlinje begynner å utvikle seg ved toppunktet x∈V ( S ‘) , genereres treet g u (gent-treet som er rotfestet ved u sammen med foreldrekanten til u) sammen med kantlengdene spesifisert av l, og i tillegg oppstår hendelsen tilsvarende u ved y∈V (S ‘ ) . La v og w være barn av deg i G, og la x, y og z være hjørner Av V(S’).
La ρ (r) være sannsynligheten for at en kant Av G har sats r. La også t(x, y) være tiden mellom punktene x, y∈V ( S’) . La σ (u) være funksjonen definert som følger (i) for et blad u∈L (G), σ (u) er artstrærbladet der genet som u representerer kan bli funnet og (ii) for ethvert internt toppunkt u Av G, er σ (u ) den siste felles stamfaren Til L(gu) I S. Vi bruker p11(x, y) for å betegne sannsynligheten for at en genlinje utvikler seg «1-til-1» mellom to punkter i artstreet, dvs., et enkelt gen som starter ved x, for noen k gir opphav til k-linjer ved y, hvorav k – 1 vil utdøde og en genlinje kan eller ikke kan utdøde. Vi bruker p 11 ψ (x, y ) for å betegne sannsynligheten for at et pseudogen utvikler seg «1-til-1″ mellom to punkter x og y i artetreet, dvs. at et enkelt pseudogen starter ved x, for noen k gir opphav til k pseudogen-linjer ved y, hvorav k – 1 vil utdøde og en avstamning som kanskje eller ikke kan utdøde. Et toppunkt u∈V (T ) kalles et pseudogen hvis det har en stamfar som tilhører Alle toppunktene som representerer pseudogeniseringshendelser Som Har Grad to. Hvordan beregne begge disse» 1-til-1 » sannsynlighetene er beskrevet i tilleggsfil 1. Følgende rekursjoner beskriver hvordan tabellen s kan beregnes Ved Hjelp Av Dynamisk Programmering:
1 Hvis u∈L (G) og x = σ(u), s (x, x, u) = 1.
2 Hvis x∈V (Er ) og x ≠ σ(u), s(x, x, u) = 0.
3 Hvis x∈V ( S ) \L ( S ) ,u∉ψ, og x = σ(u),
s ( x , x , u ) = ∑ y ∈ L ( x ) s ( x , y , v ) ∑ y ∈ D R ( x ) s ( x , y , w ) ,
hvor D L (x) og D R (x) er etterkommere av den venstre og høyre barn av x i S’, henholdsvis.
4 Hvis x∈V ( S ‘ ) \V ( S ) og u∉ψ,
s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } s ( x , y , w ) ,
der D(x) er et sett av etterkommere av x.
5 Hvis x∈V ( S ) , foreldre til u (dvs. p(u)) er ikke en pseudogene, og z er et barn av x slik at σ ( L ( G (u ) ) ⊆K ( S z ‘ ) og z er en stamfar av y, og deretter
s ( x , y , u ) = p 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , (u ) / t ( x , y ) ) ρ ( l ( p ( u ) , (u ) / t ( z , y ) ) s ( z , y , u ) ,
hvor ε ( x , z ) er sannsynligheten for at et gen linjen starter ved x ikke nå noen blad l∈L ( S x ‘) \L ( S z ‘ ) . Men hvis y er et barn av x, reduseres de ovennevnte uttrykkene til,
s ( x , y , u ) = p 11 ( x , y ) ε ( x , y ) ρ ( l ( p ( u ) , u) / t ( x , y ) ) s ( y , y , u ) .
6 Hvis x∈V ( S ) , p(u) er en pseudogene, og z er et barn av x slik at σ ( L ( G (u ) ) ⊆L ( S z ‘ ) og z er en stamfar av y, og deretter
s ( x , y , u ) = p 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , (u ) / t ( x , y ) ) ρ ( l ( p ( u ) , (u ) / t ( z , y ) ) .
men hvis y er et barn av x, reduseres uttrykkene ovenfor til,
s ( x , y , u ) = p 11 ψ ( x , y ) ε ( x , y ) ρ ( l ( p ( u ) , u) / t ( x , y ) ) s ( y , y , u ) .
sannsynligheten For at gentreet G genereres er sannsynligheten for at når en enkelt avstamning starter ved roten Av S, oppstår det eneste barnet c Av Roten Av G et sted under graden en rot ρ Av S, og deretter fortsetter prosessen Og genererer G. Derfor,
p ( G , l | θ , ψ , S ) = ∑ y ∈ D ( ρ ) s ( ρ , y , c)
hvor D(ρ) er et sett av etterkommere av p.
Prøvetaking d-erkjennelser
for å kartlegge pseudogenization hjørnene til hjørnene av discretized arter-tre S’, vi bruker dynamisk programmering-algoritmen som er foreslått i . Ved å undertrykke pseudogeniseringen Av Et gent-tre G (dvs. fjerne hver grad-to toppunkt og gjøre endepunktene tilstøtende), får vi et gent-tre G*. Prøvetakingsalgoritmen introdusert i brukes til å kartlegge toppunktene til gent-treet V (G*) til toppunktene til den diskretiserte arten-treet V(S’) (se Tilleggsfil 1). Tidspunktene knyttet til toppunktene til det diskretiserte artetreet, induserer en forening av tidspunkter Til toppunktene Til G*. Når tidspunktene har vært assosiert med foreldre vertex og barn vertex av en pseudogenisering vertex u Av G, et tidspunkt kan lett bli assosiert med u, ved hjelp av grenlengder av hendelsen kanter.
Sammenligning av pseudogeniseringskonfigurasjoner
vi er interessert i å kvantifisere forskjellen Mellom to pseudogeniseringskonfigurasjoner G sammen Med ψ Og G’ sammen Med ψ’ av en enkelt genfamilie. Legg merke til at hvis vi undertrykker punktene ψ i G og ψ’ I G’ (dvs. fjerner hver slik grad-to hjørner og gjør at endepunktene blir tilstøtende), blir det samme treet G* oppnådd. La e ψ og e ψ’ være i kanten av G* introdusert ved å undertrykke henholdsvis ψ og ψ. Hvis kanten e ∈ e (G*) ble opprettet ved å undertrykke u, kalles u opprinnelsen til e.
Varsel, for enhver kant f i E ψ eller e@ogenes’, er alle blader under f pseudogener. Så hvis det er en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av en eller flere kanter av En eller flere av dem . I det tidligere tilfellet kaller vi f et tak og kantene På e ψ ‘ sin skygge. I sistnevnte tilfelle kalles kanten Av e ψ ‘ et tak og f tilhører skyggen.
den første avstanden, kantavstanden, ignorerer tid og er i stedet definert basert På avstand I G*. For hvert par kanter Av G* er det en unik korteste bane som inneholder Dem; avstanden mellom to slike kanter er definert til å være antall indre hjørner på den banen.
først definerer vi to topologiske avstander (Figur 2). Kanten avstand mellom to pseudogenization noder en ψ og b ψ», der en ψ , b ψ er opprinnelsen til kantene e a og e b , henholdsvis, slik at e a , e, b ∈ E(G∗), er definert som den minste lengden banen mellom e og e b i G∗. For hver takkant f ∈ E ψ eller f ∈ e ψ la d m (f ) og d a (e) være henholdsvis maksimal kantavstand og gjennomsnittlig kantavstand mellom f og kantene i skyggen. La den maksimale topologiske avstanden D m og gjennomsnittlig topologisk avstand D a mellom G, ψ og G’, ψ’ være henholdsvis maksimalt d m (f ) og gjennomsnittet av d a (f) over alle tak f ∈ e ψ ∪’ . La det sanne gent-treet og dets pseudogeniseringsnøkler være (G, ψ) og q være den bakre sannsynlighetsfordelingen. Til slutt beregner vi forventet gjennomsnittlig e d a og maksimal gjennomsnittlig M d a av de topologiske avstandene som:
Figur 2
Topologiske Avstander mellom to pseudogeniseringskonfigurasjoner, D a = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = maks (maks (1, 1), maks (1 , 2, 2)).
E D a ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D a ( ( G , Ψ ) , q ) = max G ‘ , Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )
Vi også definere forventet maksimal E D m og maksimal maksimal M D m av topologiske avstander:
E D m ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D m ( ( G , Ψ ) , q ) = max G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )
Andre, definerer vi det timelige avstander. Disse er oppnådd analogt med topologisk, men i stedet for å bruke kantene avstander mellom tak og deres nyanser, bruker vi de tidsmessige avstandene mellom tiden som er knyttet til opprinnelsen til et tak og tiden som er knyttet til opprinnelsen til skyggen.
Topologisk avstand måler avstanden til et sant pseudogeniserings-toppunkt fra den utledede langs gent-treetopologien, mens den tidsmessige avstanden måler avstanden mellom tider (langs artetreet) forbundet med det sanne pseudogeniserings-toppunktet og den utledte.
Syntetisk Og Biologisk Analyse
vi testet Vår Metode PrIME-PDLR på syntetiske data og brukte den på biologiske data. Vi beskriver først testene på syntetiske data. Tilfeldige gen-trær med kantlengder og pseudogenisering topp-punkt ble generert ved hjelp av en modifisert versjon Av PrIME-Gene-treet generator med pseudogenisering rate på 0,5, og biologisk realistiske duplisering – tap priser observert ved å analysere gen familier AV OPTISKE datasett . Gensekvenser ble generert i henhold til PDLR-modellen. Gensekvenser ble utviklet ved hjelp av kodonsubstitusjonsmatriser som foreslått Av Bielawski et al. . En nøytral kodonsubstitusjonsmatrise ble brukt til utviklingen av pseudogener hvor hastighetsforholdet mellom ikke-synonymt med synonyme substitusjoner (dN / dS) ble satt til 1,0. I den nøytrale kodonsubstitusjonsmodellen kunne ethvert kodon erstattes med et stoppkodon, mens dette ikke var mulig under substitusjonsmodellen som ble brukt i tilfelle av genutvikling. Tjuefem forskjellige kombinasjoner av dn / dS rate ratio og overgang / transversion rate ratio ble brukt til å generere gensekvenser over tjuefem genfamilier, ved hjelp av ensartede kodon likevektsfrekvenser. For å simulere et biologisk realistisk scenario brukte vi artetreet (oppnådd som i ) for de ni vertebrate-artene AV OPTISK datasett, som ble lastet ned fra http://genserv.anat.ox.ac.uk/downloads/clades/ de utledede pseudogeniseringshodene ble deretter sammenlignet med de sanne pseudogeniseringshodene ved hjelp av to typer avstandsmålinger, dvs. topologisk avstand (gen-tre) og tidsmessig avstand (art-tre).
de biologiske datasettene besto av underfamilier fra de to største genfamiliene til vertebrater, dvs. olfaktoriske reseptorer og sinkfinger. Olfaktoriske reseptorer har blitt rapportert å være den største genfamilien i vertebrater . I arter som ku, platypus og primater har en høy grad av pseudogenisering blitt observert, mens opossum, hunder, mus og rotter har relativt lav grad av pseudogenisering . Syv sub-genfamilier som fortrinnsvis hadde minst ett pseudogen per art ble lastet ned fra http://bioportal.weizmann.ac.il/HORDE/ for arten av menneske (Homo sapiens), hund (Canis lupus familiaris), opossum (Didelphis virginiana) og platypus (Ornithorhynchus anatinus). To sinkfinger-subgenfamilier ble også studert på tvers av arter av menneske (Homo sapiens), sjimpanse (Pan troglodytes), orangutang (Pongo abelii) og rhesus macaque (Macaca mulatta). Til dette formål valgte vi to underfamilier fra de høye konfidensorthologe genene (som støttes Av OrthoMCL , gjensidige BEST BLAST hits og synteny). De tilsvarende foreldre / paralogøse gener ble søkt ved HJELP AV PSI-BLAST og ekstrahert fra http://ensembl.org. De ortologe genene med høy konfidens ble lastet ned fra ‘ kznf-katalogen ‘(http://znf.igb.illinois.edu). Da pseudogenene i sinkfingergenfamilien for det meste har utviklet seg som følge av fragmenterte duplikasjoner , er det utfordrende å justere pseudogenene og tilsvarende gener riktig, klart en nødvendig betingelse for å rekonstruere gent-treet. Justeringer av de ni subgenfamiliene ble manuelt kurert etter å ha justert DEM MED MACSE , slik at stoppkodoner og innført straffer for å skape et gap (-7), utvide et gap (-1) og innføre frameshift (-14). De daterte artertrærne for begge de biologiske datasettene ble lastet ned fra http://timetree.org. Sub-genfamiliene ble deretter analysert ved hjelp av samme rørledning som brukes til syntetisk analyse. Potensielle gentrær ble rekonstruert ved Hjelp Av PrIME-DLRS, som deretter ble analysert Ved PrIME-PDLR ved hjelp av fast gentrealternativ. PrIME-DLRS-gentreet med best PrIME-PDLR-tilstand med høyest bakre sannsynlighet ble valgt som det mest sannsynlige gent-treet. Den bakre løpet pseudogenisering hendelser av de mest sannsynlige gen-trær ble deretter analysert ved hjelp av detaljerte-realisasjoner generert Under Markov kjeden traversering.
MCMC Analyse
Bayesiansk analyse ble utført for genfamiliene ved HJELP AV MCMC basert analyseverktøy, PrIME-PDLR. MCMC-kjeden ble satt opp for å integrere over alle parametrene, dvs. gent-tre, kantlengder, pseudogeniseringshoder på gent-tre, fødseldød og pseudogeniseringshastigheter, og gjennomsnitt og varians av kantsubstitusjonsrater. VI samplet forskjellige parametere gjennom HELE MCMC-prosessen, inkludert fødselsdødsrater, pseudogeniseringsrate, gent-tre, pseudogeniseringsgrader, dN/dS-hastighetsforhold og overgang/transversjonsgradsforhold. En eller flere parametere ble forstyrret ved hver iterasjon. Forstyrrelsen av gent-treet ble gjort ved hjelp av standard gent – tre perturbasjonsmetoder som subtre beskjæring og regrafting, nærmeste nabo utveksling og re-rooting. Etter en forstyrrelse ble gyldigheten av det resulterende gent-treet sertifisert, dvs. ingen pseudogen-avstamning fører til en genlinje. Et gyldig forstyrret gent-tre er foreslått, hver gang et gent-tre er foreslått. Nabo Bli metoden brukes til å konstruere det første treet ved starten AV MCMC kjeden. Forslagsfordelingen foreslår trekk av pseudogeniserings-toppunkter, over linjene til et gent-tre, på en slik måte at sannsynligheten for å foreslå en oppadgående bevegelse av et pseudogeniserings-toppunkt er lik sannsynligheten for å foreslå en nedadgående bevegelse. DN / dS-ratene er samplet fra en avkortet normalfordeling i, mens transversjonsrateforholdene er samplet fra en avkortet normalfordeling i . Fødselsdød og pseudogeniseringsrater er samplet fra en avkortet normalfordeling i . Avkortede normale forslag ble brukt til forstyrrelsen av parametrene til hastighetsmodellen og kantlengder rundt dagens verdi, med tuningsparametere håndlaget med hensyn til akseptforhold. Substitusjonsrateparametere ble forstyrret ved enten å forstyrre distribusjonsgjennomsnittet eller variasjonskoeffisienten. For å finne UT om MCMC-kjedene har konvergert, brukte VI VMCMC som et diagnostisk verktøy. Fra de første løpene ble det observert at det var trygt å bruke en innbrenningsperiode på 2.500.000. For resten av løpene brukte vi 5.000.000 iterasjoner, innbrenningsperiode på 2.500.000 og tynning av 500. Vi brukte PrIME-DLRS som et første skritt for å rekonstruere potensielle gentrær. Hvert potensielt gen-tre ble analysert ved Hjelp Av PrIME-PDLR med et fast gen-tre-alternativ.