tässä osiossa esitellään ensin Pseudogenisointi, kahdentaminen, häviäminen, nopeus ja Sekvenssievolution model, PDLRS. Aloitamme määrittelemällä ensin joitakin perustermejä. Lajipuu on juurtunut binääripuu, joka edustaa lajien evoluutiohistoriaa, jossa lehdet edustavat säilyneitä lajeja ja sisäiset verholehdet lajiutumistapahtumia. Geenipuu on myös juurtunut binääripuu, joka edustaa geenijoukon evoluutiohistoriaa. Geenipuulla voi olla lehdissään geenejä tai pseudogeenejä.
PDLRS-malli
PDLRS-malli on dlrs-mallin laajennus, joka on saatu sisällyttämällä siihen myös pseudogenisaatiotapahtumia. Malli kuvaa, miten geenilinja kehittyy lajipuun sisällä, jossa on asteinen yksi juuri, aloittamalla juuresta ja kehittymällä myöhemmin lehtiä kohti samalla, kun se altistuu geenien monistumiselle, geenien menetykselle ja pseudogenisaatiotapahtumille nopeuksilla δ, μ ja ψ. Myös, kun geenilinjan saavuttaa laji-puu vertex, se aina (ts., deterministisesti) bifurkaatit ja kaksi näin sisältyvää geenilinjaa kehittyvät edelleen lajipuun kärkipisteen alapuolella, yksi kummassakin sen kahdesta lähtevästä lajipuun reunasta.
vaikka tämän prosessin aikana jokin geenilinja voi siirtyä pseudogeenilinjalinjalinjalinjalinjalinjalle, pseudogeenilinjalinja ei saa siirtyä takaisin geenilinjalinjalle. Pseudogenisaatiotapahtumat esittelevät asteen kaksi vertices in geeni-puu. Pseudogeenilinja käyttäytyy muuten geenilinjana, se voi monistua tai kadota evoluution aikana, ja se deterministisesti bifurkoituu saavuttaessaan lajipuun kärkipisteen. Lajipuun lehtiin yltävä sukuhaara synnyttää geenipuussa lehden, joka edustaa olemassa olevaa geeniä tai pseudogeeniä. Geenipuusta kuitenkin karsitaan verholehdet ja reunukset, jotka eivät johda mihinkään näin säilyviin lehtiin (Kuva 1). Koska tämä prosessi tapahtuu lajipuussa, jonka kärjessä ja reunoilla on aikaa, jokainen tapahtuma tapahtuu tiettyyn aikaan. Aina kun tapahtuma luo uuden geenipuun verteksin, tapahtuma-aika liittyy uuteen vertexiin.
rentoutuneen molekyylikellon aikaansaamiseksi nopeuksista otetaan näytteet riippumatta Γ-jakaumasta (parametrisoitu keskiarvolla ja varianssilla) kullekin reunalle, ja reunalle, jolla on aika t ja nopeus r, annetaan pituus l. lopuksi sekvenssit kehittyvät tämän geenipuun pituuksineen. Muista, että pseudogenization tapahtumat käyttöön asteen kaksi vertices, geeni-puu. Reunan yli, jossa vanhempainverteksi on geeni, käytetään geeneille sopivaa sekvenssievoluution mallia, kun taas kun vanhempainverteksi edustaa pseudogeeniä (ja näin ollen myös lapsi edustaa pseudogeeniä) käytetään pseudogeeneille sopivaa sekvenssievoluution mallia. Näitä malleja voidaan vaihdella, mutta tässä käytämme kahta alla kuvattua kodonimallia.
sekvenssievoluution kahden moodin mallintamiseksi käytetään kahta ehdottamaa kodonisubstituutiomatriisia, joista toinen on pseudogeenien evoluutiolle ja toinen geenien evoluutiolle. Hetkellinen substituutionopeusmatriisi kodonista i kodoniin j, q ij on molemmissa tapauksissa määritelty seuraavasti:
missä π j on tasapainotila kodonin J taajuus μ on normalisointikerroin, κ on transversion/transversion suhde ja ω on ei-synonyymi synonyymille (DN/DS) suhde. Ω: ta lukuun ottamatta nämä parametrit jaetaan sekvenssievoluution kahden moodin kesken. Pseudogeneille ω on yhtä suuri kuin 1 ja siirtyminen pysäyttämään kodoneja on sallittua, kun taas geeneille siirtyminen pysäyttämään kodonia ei ole sallittua.
PrIME-PDLRS MCMC-viitekehys
PrIME-PDLRS on MCMC-pohjainen analyysityökalu edellä mainitulle mallille. Se vaatii syötteenä geeni-ja pseudogeenisekvenssien monisekvenssisen linjauksen sekä näiden sekvenssien luokittelun geeneiksi tai pseudogeneiksi. Siihen tarvitaan myös päivätty laji-puu S. Merkitkäämme geenipuuta G: llä, sen reunapituuksia l: llä ja muita mallin parametreja θ: llä. Parametri θ on yhdiste, joka sisältää: kahdentumisnopeuden; häviönopeuden; pseudogenisaationopeuden; reunanopeuden keskiarvon ja variaatiokertoimen; ja ei-synonyymit (DN/dS) ja transversio – /transversionopeudet kodonin substituutiomallille sekvenssievoluution mallille.
käytämme Ψ merkitsemään pseudogenisaatioverteksien joukkoa (aste kaksi) geenipuussa (yksikään näistä vertices ei voi sijaita samalla juuresta lehteen kulkevalla polulla). Käytämme P (·) kuvaamaan todennäköisyyttä ja p (·) kuvaamaan todennäköisyystiheyttä.
Markovin ketjussa oleva tila on nelinkertainen (G, l, θ, Ψ). Geenipuun lehdet vastaavat annettuja sekvenssejä ja kaikilla pseudogeeniksi luokitelluilla sekvensseillä tulee olla G: hen kuuluva esi-isä Ψ. Kun nykytila on (G, l, θ, Ψ), ehdotetun tilan ( G’, l’, θ’, ψ’) hyväksymistodennäköisyys määräytyy p(G, L, θ, Ψ| D, S) ja p ( G ’, l ’, θ ’, ψ ’ | d , s) välisen suhteen mukaan , missä D on annettu tieto ja S on lajipuu ajan kanssa. Koska jokainen näistä tiheyksistä voidaan ilmaista Bayesin tasa-arvolla, esim.
hyväksymistodennäköisyyden kaksi nimittäjää P ( D/s) kumoavat toisensa ja saadaan
tässä osoittajalla ja nimittäjällä on sama rakenne, joten riittää, että kuvataan, miten ensin mainittu lasketaan. Ensinnäkin tekijä P (D|G, L, Ψ) voidaan laskea felsensteinin ehdottaman dynaamisen ohjelmoinnin (DP) algoritmin avulla . Reunojen reunat ja reunojen osat, joille sekvenssievoluution geeni-tai pseudogeenimoodia tulisi käyttää, määritellään Ψ-merkillä. Tasapainotaajuudet arvioidaan geeni-ja pseudogeenisekvensseistä, ja ne ovat yhteisiä sekvenssievoluution molemmille malleille. Toiseksi valitaan edeltävä p (θ), jotta se voidaan helposti laskea. Lopuksi tärkein tekninen panos on DP-algoritmi laskemiseksi todennäköisyys geeni-puu ja sen reunojen pituudet annetaan parametrit ja laji-puu alla DL-malli. Jotta voidaan laskea p (G, l, θ, Ψ|D, S), ehdotamme uutta DP-algoritmia, joka yhdistää pseudogenisointiprosessin ja DL-prosessin.
in , kuvattiin DP-algoritmi tekijän P(G, l / θ, s) laskemiseksi. Määrittelkäämme ensin joitakin keskeisiä käsitteitä. Let S ’ be a discretized species-tree where edges of the species-tree S have been augmented with additional discretization vertices such that all the augmented vertices are equidistant within an edge, see figure S1 in additional file 1. DP käyttää taulukkoa s (x, y, u ) , joka määritellään todennäköisyydeksi, että kun yksittäinen geenilinja alkaa kehittyä huippupisteessä x∈V ( S’), puu G u (geeni-puu, jonka juuret ovat u: ssa yhdessä U: n vanhemman reunan kanssa) syntyy yhdessä L: n määrittämien reunapituuksien kanssa ja lisäksi u: ta vastaava tapahtuma tapahtuu y∈v ( s’). Let v ja w olla lapsia u G, ja let x, y, ja z olla vertices, V(S’).
olkoon ρ(r) todennäköisyys sille, että G: n reunalla on nopeus r. olkoon myös t(x, y) kärkipisteiden x,y∈v ( s’) välinen aika . Olkoon σ (u) seuraavasti määritelty funktio (i) lehdelle u∈L ( G), σ (u) on lajipuun lehti, jossa u: n edustama geeni löytyy ja (ii) mille tahansa g: n sisäiselle kärkipisteelle U, σ (u ) on L: N(G u) viimeisin yhteinen esi-isä S: ssä. käytämme p11(x, y) ilmaisemaan todennäköisyyttä sille, että geenilinja kehittyy ”1-to-1” kahden lajipuun pisteen välillä, ts., yksi geeni alkaa X, joidenkin k aiheuttaa k lineages y, joista k – 1 kuolee sukupuuttoon ja yksi geeni lineage voi tai ei kuolla sukupuuttoon. Käytämme p 11 ψ (x, y) osoittamaan todennäköisyys sille, että pseudogeeni kehittyy ”1-to-1″ kahden pisteen x ja y välillä lajipuussa, eli että yksi pseudogeeni alkaa X: stä, joillekin k synnyttää k pseudogeeni-sukulinjan Y: ssä, josta k – 1 kuolee sukupuuttoon ja yhden sukulinjan, joka voi tai ei voi kuolla sukupuuttoon. Huippupistettä u∈V (T)sanotaan pseudogeeniksi, jos sillä on esi-isä, joka kuuluu kaikkiin pseudogenisaatiotapahtumia Ψ edustaviin kärkipisteisiin, joilla on aste kaksi. Kuinka laskea molemmat” 1-to-1 ” todennäköisyydet on kuvattu lisätiedostossa 1. Seuraavat rekursiot kuvaavat, miten taulukko s voidaan laskea dynaamisella ohjelmoinnilla:
1, Jos u∈l ( G ) ja x = σ(u), S(x, x, u) = 1.
2, Jos x∈V ( S ) ja x ≠ σ(u), s(x, x, u) = 0.
3, Jos x∈V ( T ) \L ( S ) ,u∉ψ ja x = σ(u),
missä D L (x) ja D R (x) ovat jälkeläisiä vasen ja oikea lapsi x S’, vastaavasti.
4, Jos x∈V ( S ’ ) \V ( T ) ja u∉ψ,
missä D(x) on joukko jälkeläisiä x.
5 Jos x∈V ( T ) , vanhempi u (ts. p(u)) ei ole pseudogeeni, ja z on X: n lapsi siten, että σ ( L ( G u ) ) ⊆k ( s z ’) ja z on Y: n esi-isä , sitten
missä ε ( X, Z ) on todennäköisyys sille, että X: stä alkava geenilinja ei saavuta mitään lehteä L∈L ( S x ’) \L ( S Z ’ ) . Jos kuitenkin Lisäksi y on X: n lapsi, edellä olevat lausekkeet pienenevät muotoon
6 Jos x∈V ( S ) , p(u) on pseudogeeni ja z on X: n lapsi siten, että σ ( L ( G u ) ) ⊆L ( S z ’ ) ja z on Y: n esi-isä, niin
kuitenkin, jos Lisäksi y on X: n lapsi, edellä olevat lausekkeet pienenevät muotoon
g: n syntymisen todennäköisyys on se todennäköisyys, että kun yksittäinen suku alkaa S: N juuresta, g: n juuren yksittäinen lapsi c esiintyy jossain S: N ykkösjuuren ρ asteen alapuolella, minkä jälkeen prosessi jatkuu ja tuottaa G: n. Näin ollen
missä D(ρ) on P: n jälkeläisten joukko.
näytteenotto d-realisoinnit
kartoittaaksemme pseudogenisaatioverteet diskretoidun lajityypin s verticeseille”, käytämme dynaamista ohjelmointialgoritmia, joka on ehdotettu . Tukahduttamalla geenipuun g pseudogenisointiverteet Ψ (eli poistamalla jokainen aste-kaksi huippupistettä ja tekemällä sen päätepisteet vierekkäin)saadaan geenipuu G*. Näytteenottoalgoritmi käyttöön käytetään kartoittaa vertices, geeni-puu V(G*) ja vertices, diskretized laji-puu V (S’) (Katso ylimääräinen tiedosto 1). The time points associated with the vertices of the discretized species-tree, INDU an association of time points to the vertices of G*. Kun aikapisteet on liitetty vanhempien huippupiste ja lapsi huippupiste pseudogenization huippupiste u G, aikapiste voidaan helposti liittää u, käyttäen haara pituudet tapahtuman reunat.
verrattaessa pseudogenisaatiokokoonpanoja
meitä kiinnostaa kvantifioida kahden pseudogenisaatiokokoonpanon g yhdessä ψ: n kanssa ja G: n ”yhdessä ψ: n kanssa” yhden geeniperheen ero. Huomaa, että jos me tukahduttaa vertices ψ in G ja ψ ”In G” (eli, poista jokainen tällainen aste-kaksi vertices ja tehdä sen päätepisteet tullut vieressä), vastaavasti, niin sama puu G* on saatu. Olkoon E ψ ja E ψ’ g*: n reunojen joukko, joka on otettu käyttöön tukahduttamalla ψ Ja ψ’. Jos särmä E ∈ E (G*) luotiin tukahduttamalla u, niin u: ta kutsutaan E: n origoksi.
ilmoitus , minkä tahansa särmän f kohdalla e ψ tai E ψ’, kaikki f: n alapuolella olevat lehdet ovat pseudogeneettisiä. Jos siis f ∈ E ψ, On olemassa joko särmät e ψ’ F: n alapuolella millä tahansa polulla f: stä sen alapuolella oleviin lehtiin tai F: n yläpuolella on särmä, joka kuuluu e ψ’ . Edellisessä tapauksessa kutsumme kattoa ja sen reunoja sen varjoksi. Jälkimmäisessä tapauksessa E ψ’: n reunaa kutsutaan katoksi ja f kuuluu sen varjoon.
ensimmäinen etäisyys, reunaetäisyys, ei huomioi aikaa, vaan se määritellään etäisyyden perusteella G*: ssä. Jokaista g*: n särmäparia varten on olemassa ainutlaatuinen lyhin polku, joka sisältää ne; kahden tällaisen särmän välinen etäisyys on määritelty siten, että sillä polulla on useita sisäisiä kärkipisteitä.
ensin määritellään kaksi topologista etäisyyttä (kuva 2). Kahden pseudogenisointiverteen välinen reunaetäisyys ψ ja b ψ’, jossa ψ, b ψ ovat särmien E a ja e b alkulähteet siten , että e a, e B ∈ E(G∗), määritellään G∗: ssa E a: n ja e b: n väliseksi vähimmäispituuspoluksi. Kullekin katon reunalle f ∈ E ψ tai f ∈ e ψ ’ olkoon d m (f) ja D a (e) suurin reunaetäisyys ja keskimääräinen reunaetäisyys vastaavasti f: n ja sen varjon reunojen välillä. Olkoon suurin topologinen etäisyys D m ja keskimääräinen topologinen etäisyys D a G: n, ψ: n ja G’: n, ψ’: n välillä D m (f): n maksimi ja D A (f): n keskiarvo vastaavasti kaikilla katoilla f ∈ E ψ E E ψ’ . Olkoon todellinen geenipuu ja sen pseudogenisaatioverteet (G, ψ) ja q posteriorinen todennäköisyysjakauma. Lopuksi lasketaan topologisten etäisyyksien odotettu keskiarvo E D a ja maksimikeskiarvo M D a seuraavasti:
määrittelemme myös topologisten etäisyyksien odotetun maksimin e d m ja suurimman maksimin m d m: n seuraavasti:
toiseksi määritellään ajalliset etäisyydet. Nämä saadaan analogisesti topologisen, mutta sen sijaan, että käytetään reunojen etäisyydet välillä katot ja niiden sävyt, käytämme ajallisia etäisyyksiä välillä aika liittyy alkuperän katon ja aika liittyy alkuperän sen sävy.
topologinen etäisyys mittaa todellisen pseudogenisaatioverteksin etäisyyttä pääteltyyn geenipuun topologiaan, kun taas ajallinen etäisyys mittaa aitoon pseudogenisaatioverteksiin ja pääteltyyn liittyvien aikojen (lajipuun) välistä etäisyyttä.
synteettinen ja biologinen analyysi
testasimme menetelmäämme PrIME-PDLRS synteettisillä tiedoilla ja sovellimme sitä biologisiin tietoihin. Ensin kuvataan synteettisen datan testit. Satunnaiset geenipuut, joilla on reunapituudet ja pseudogenisaatioverteet, luotiin käyttäen muunneltua versiota PrIME-geeni-Tree-generaattorista, jonka pseudogenisaationopeus on 0,5, ja biologisesti realistiset päällekkäisyyshäviöt, jotka on havaittu analysoimalla optisen aineiston geeniperheitä . Geenisekvenssit syntyivät pdlrs-mallin mukaisesti. Geenisekvenssejä kehitettiin käyttäen kodonin substituutiomatriiseja, kuten Bielawski et al. . Pseudogeenien kehityksessä käytettiin neutraalia kodonisubstituutiomatriisia, jossa ei-synonyymien ja synonyymien substituutioiden (dN/dS) nopeussuhteeksi asetettiin 1,0. Neutraalissa kodonisubstituutiomallissa mikä tahansa kodoni voitiin korvata stop-kodonilla, kun tämä ei ollut mahdollista geenien evoluution yhteydessä käytettävässä substituutiomallissa. DN/dS-suhdelukujen ja transversion/transversion suhdelukujen 25 erilaista yhdistelmää käytettiin tuottamaan geenisekvenssejä kahdenkymmenenviiden geeniperheiden välillä käyttäen yhtenäisiä kodonitasapainotaajuuksia. Jotta voitaisiin simuloida biologisesti realistinen skenaario, käytimme laji-puu (saatu kuten) yhdeksän selkärankaisten lajien optisen aineiston, joka ladattiin http://genserv.anat.ox.ac.uk/downloads/clades/ päätelty pseudogenization vertices verrattiin sitten todellinen pseudogenization vertices käyttäen kahdenlaisia etäisyyden mittareita, eli topologinen etäisyys (geeni-puu), ja ajallinen etäisyys (laji-puu).
biologiset aineistot koostuivat selkärankaisten kahden suurimman geeniperheen alaperheistä eli hajureseptoreista ja sinkkisormista. Hajureseptorien on raportoitu olevan selkärankaisten suurin geeniperhe . Esimerkiksi lehmillä, vesinokkaeläimillä ja kädellisillä on havaittu suuri pseudogenisaatiovauhti, kun taas opossumeilla, koirilla, hiirillä ja rotilla pseudogenisaatiovauhti on suhteellisen alhainen . http://bioportal.weizmann.ac.il/HORDE/ ihmislajeille (Homo sapiens), koiralle (Canis lupus familiaris), opossumille (Didelphis virginiana) ja vesinokkaeläimelle (Ornithorhynchus anatinus) ladattiin seitsemän alageenisukua, joissa mieluiten oli vähintään yksi pseudogeeni per laji. Kahta sinkkisormen aligeenisukua tutkittiin myös ihmislajeista (Homo sapiens), simpansseista (Pan troglodytes), orangeista (Pongo abelii) ja reesusmakakeista (Macaca mulatta). Tätä tarkoitusta varten valitsimme kaksi aliperhettä korkean luottamuksen ortologisista geeneistä (joita tukevat OrthoMCL , reciptional best BLAST hits ja synteny). Vastaavat vanhemmat / halvaantuneet geenit tutkittiin PSI-Blastilla ja erotettiin http://ensembl.org. Korkean luottamuksen ortologiset geenit ladattiin ”KZNF: n luettelosta”(http://znf.igb.illinois.edu) . Koska sinkkisormen geeniperheen pseudogeenit ovat kehittyneet enimmäkseen pirstoutuneiden kahdentumien seurauksena, on pseudogeenien ja niitä vastaavien geenien oikeaoppinen linjaaminen haastavaa, mikä on selvästi välttämätön edellytys geenipuun rekonstruoinnille. Yhdeksän aligeeniperheen linjaukset kuratoitiin manuaalisesti sen jälkeen , kun ne oli yhdenmukaistettu MACSE: n kanssa, sallittiin pysäyttävät kodonit ja otettiin käyttöön rangaistukset aukon luomisesta (-7), aukon laajentamisesta (-1) ja kehyksensiirron käyttöönotosta (-14). Molempien biologisten aineistojen päivitetyt lajipuut ladattiin osoitteesta http://timetree.org. Tämän jälkeen aligeeniperheet analysoitiin käyttäen samaa putkea kuin synteettisessä analyysissä. Potentiaaliset geenipuut rekonstruoitiin PrIME-DLRS: ien avulla, jotka sitten analysoitiin PrIME-PDLRS: llä käyttäen kiinteää geenipuuvaihtoehtoa. Todennäköisimmäksi geenipuuksi valittiin se PrIME-DLRS-geenipuu, jolla on paras PrIME-PDLRS-tila, jolla on suurin posteriorinen todennäköisyys. Posterior yli pseudogenization tapahtumia todennäköisin geeni-puut analysoitiin käyttäen yksityiskohtaisia-oivalluksia syntyy aikana Markovin ketjun traversal.
MCMC-analyysi
Bayesilainen analyysi tehtiin geeniperheille käyttäen MCMC-pohjaista analyysityökalua, PrIME-PDLRS: ää. MCMC-ketju suunniteltiin integroimaan kaikki parametrit, eli geenipuun, reunojen pituudet, geenipuun pseudogenisointiverteet, syntymä-kuolema-ja pseudogenisaationopeudet sekä reunojen substituutionopeuksien keskiarvo ja varianssi. Otimme näytteitä eri parametreista koko MCMC-prosessin ajan, mukaan lukien syntymä-ja kuolleisuusluvut, pseudogenisaationopeus, geenipuu, pseudogenisointiverteet, dN/dS rate-suhde ja transversion rate-suhde. Yksi tai useampi parametri oli häiriintynyt jokaisessa iteraatiossa. Geenipuun häirintä tehtiin tavallisilla geenipuun häirintämenetelmillä, kuten subtree-karsinnalla ja reformoinnilla, lähimmällä naapurivaihdolla ja uudelleen juurtumisella. Häiriön jälkeen tuloksena olevan geenipuun pätevyys varmennettiin eli mikään pseudogeenilinja ei johda geenilinjastoon. Geenipuuta ehdotetaan joka kerta, kun geenipuuta ehdotetaan. Naapuri liittymistä menetelmää käytetään rakentaa alkuperäisen puun alussa MCMC ketjun. The proposal distribution proposes moves of pseudogenization vertices, across the lineages of a geeni-tree, siten, että todennäköisyys ehdottaa ylöspäin liikkua, pseudogenization huippupiste on yhtä suuri kuin todennäköisyys ehdottaa alaspäin liikkua. DN/dS rate ratio is sample from a tyncated normal distribution in, while the transition/transversion rate ratio is sample from a tyncated normal distribution in . Syntymä-kuolema ja pseudogenisaatio hinnat otetaan näytteitä katkaistu normaalijakauma. Typistettyjä normaaliehdotuksia käytettiin nopeusmallin parametrien ja särmien pituuksien sekoittamiseen nykyisen arvon ympärille, viritysparametrien ollessa käsityönä hyväksymissuhteiden suhteen. Korvausasteparametreja häirittiin joko häiritsemällä jakauman keskiarvoa tai variaatiokerrointa. Selvittääksemme, ovatko MCMC-ketjut lähentyneet, käytimme vmcmc: tä diagnostiikkatyökaluna. Alkuajoista huomattiin, että 2 500 000 palaneen käryä oli turvallista käyttää. Loput ajot käytimme 5 000 000 iterointia, polttojakso 2 500 000 ja harvennus 500. Käytimme PrIME-DLRS: ää ensimmäisenä askeleena mahdollisten geenipuiden rekonstruoimiseksi. Jokainen potentiaalinen geenipuu analysoitiin PrIME-PDLR-menetelmällä, jossa oli kiinteä geenipuu-vaihtoehto.