Evoluția genei-pseudogene | o abordare probabilistică / BMC Genomics

în această secțiune introducem mai întâi modelul de evoluție a Pseudogenizării, duplicării, pierderii, ratei și secvenței, PDLRS. Începem prin a defini mai întâi câțiva termeni de bază. Un arbore-specie este un arbore binar înrădăcinat care reprezintă istoria evolutivă a speciilor în care frunzele reprezintă specii existente, iar vârfurile interne reprezintă evenimente de speciație. Un arbore genic este, de asemenea, un arbore binar înrădăcinat care reprezintă istoria evolutivă a unui set de gene. Un arbore genic poate avea gene sau pseudogene ca frunze.

modelul PDLRS
cadrul prime-PDLRS MCMC
Eșantionare d-realizări
comparând configurațiile de pseudogenizare
analiza sintetică și biologică
analiza MCMC

modelul PDLRS

modelul PDLRS este o extensie a modelului DLRS obținut prin includerea evenimentelor de pseudogenizare. Modelul descrie modul în care o genă evoluează în interiorul unui arbore de specie cu o rădăcină de gradul unu, începând de la rădăcină și evoluând ulterior spre frunze, fiind expus la duplicarea genelor, pierderea genelor și evenimente de pseudogenizare la rate de la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută la sută. De asemenea, atunci când o genă ajunge la un vârf de specie-copac, întotdeauna (adică., deterministic) bifurcații și cele două linii genice astfel conținute continuă să evolueze sub vârful specie-copac, câte unul în fiecare dintre cele două margini de specii-copac ieșite.

deși în timpul acestui proces, o descendență genică poate trece într-o descendență pseudogenă, o descendență pseudogenă nu are voie să revină la o descendență genică. Evenimentele de pseudogenizare introduc vârfuri de gradul doi în arborele genei. O descendență pseudogenă se comportă altfel ca o descendență genică, se poate duplica sau se poate pierde în timpul evoluției și se bifurcă determinist atunci când ajunge la un vârf de specie-copac. O linie care ajunge la frunzele speciei-copac dă naștere unei frunze în arborele genei, reprezentând o genă existentă sau pseudogenă. Vârfurile și marginile arborelui genic care nu duc la astfel de frunze existente sunt, totuși, tăiate din arborele genic (Figura 1). Deoarece acest proces are loc într-o specie-copac cu timpul pe vârfurile și marginile sale, fiecare eveniment are loc la un moment dat. Ori de câte ori un eveniment creează un nou nod genă-arbore, timpul evenimentului este asociat cu noul nod.

pentru a obține un ceas molecular relaxat, ratele sunt prelevate independent de la o distribuție-Inqq (parametrizată printr-o medie și o varianță) pentru fiecare margine, iar unei muchii cu timpul t și rata r i se atribuie o lungime l. în cele din urmă, secvențele sunt evoluate peste acest arbore genic cu lungimile sale. Reamintim că evenimentele de pseudogenizare introduc vârfuri de gradul doi în arborele genei. Peste o margine în care vertexul parental este o genă se folosește un model de evoluție a secvenței adecvat genelor, în timp ce atunci când vertexul parental reprezintă un pseudogen (și, în consecință, și copilul reprezintă un pseudogen) se folosește un model de evoluție a secvenței adecvat pentru pseudogene. Aceste modele pot fi variate, dar aici folosim două modele de codon descrise mai jos.

pentru a modela cele două moduri de evoluție a secvenței, folosim două matrice de substituție a codonilor propuse de , una pentru evoluția pseudogenelor și alta pentru cea a genelor. Instantanee de substituție rata matricea din codonul i la codonul j, q ij este, în ambele cazuri determinate de:

q i j = 0 , dacă i și j diferă de la mai mult de o poziție într-un codonul triplet μ π j , diferă printr-un sinonim transversion μ κ π j , diferă printr-un sinonim tranziție μ ω π j , diferă printr-un nonsynonymous transversion μ κ ω π j , diferă printr-un nonsynonymous de tranziție

în cazul în care π j este echilibrul frecvența de codonul j, μ este un factor de normalizare, κ este trecerea/transversion raport, iar ω este non-sinonim cu sinonime (dN/dS) raport. Cu excepția celor de la XV, acești parametri sunt împărțiți între cele două moduri de evoluție a secvenței. Pentru pseudogenes, XV este egal cu 1 și trecerea la codonii de oprire este permisă, în timp ce pentru gene tranziția la codonul de oprire nu este permisă.

cadrul prime-PDLRS MCMC

PrIME-PDLRS este un instrument de analiză bazat pe MCMC pentru modelul menționat mai sus. Este nevoie ca intrare o aliniere multiplă a secvențelor genice și pseudogene împreună cu o clasificare a acestor secvențe ca gene sau pseudogene. De asemenea, necesită o specie datată-arborele S. Să denotăm un arbore genic cu G, lungimile sale de margine cu l și alți parametri ai modelului cu hectolitri. Parametrul XV este compus, conținând: rata de duplicare; rata de pierdere; rata de pseudogenizare; media ratei de margine și coeficientul de variație; și non-sinonim cu ratele sinonime (dN/dS) și ratele de tranziție/transversiune pentru modelul de substituție a codonilor de evoluție a secvenței.

vom folosi pentru a indica setul de vârfuri de pseudogenizare (gradul doi) din arborele genei (nici două dintre aceste vârfuri nu pot sta pe aceeași cale rădăcină-frunză). Folosim P(·) pentru a desemna o probabilitate și p ( * ) pentru a desemna o densitate de probabilitate.

o stare în lanțul nostru Markov este un cvadruplu (g, l, circulat, circulat). Frunzele din arborele genealogic corespund secvențelor date și orice secvență clasificată ca pseudogenă trebuie să aibă un strămoș în G care aparține lui XV. Când starea actuală este (G, l, θ, Ψ), probabilitatea de acceptare a unui stat propus ( G ‘, l ‘, θ ‘, ψ ‘) , este determinat de raportul între p(G, l, θ, Ψ| D, S) și p ( G ‘, l ‘, θ ‘, ψ ‘ | D , S ) , unde D este dat de date și S este o specie de copac cu timpul. Din moment ce fiecare dintre aceste densități poate fi exprimată folosind Bayes egalitate, de exemplu,

p ( G , l , θ , ψ | D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P ( D | S ) ,

cei doi numitori P(D|E) în probabilitatea de acceptare a anula reciproc și vom obține

aici numărătorul și numitorul au aceeași structură, deci este suficient să descriem modul de calcul al primului. În primul rând, factorul P(D|G, L, XV) poate fi calculat folosind algoritmul de programare dinamică (DP) propus de Felsenstein . Marginile și părțile de margini pentru care trebuie utilizat modul de evoluție a secvenței genei sau pseudogene sunt specificate la punctul de la nr. Frecvențele de echilibru sunt estimate din secvențele genei și pseudogene și sunt împărtășite de ambele modele de evoluție a secvenței. În al doilea rând, priorul p(XV) este ales astfel încât să poată fi calculat cu ușurință. În cele din urmă, principala contribuție tehnică a este un algoritm DP pentru calcularea probabilității unui arbore genic și a lungimilor sale de margine date parametrii și arborele de specii sub modelul dl. În vederea calculării p(G, L, Int, Int|D, S), propunem un nou algoritm DP care integrează procesul de pseudogenizare și procesul dl.

în , a fost descris un algoritm DP pentru calculul factorului p(G, L / inkt, s). Să definim mai întâi câteva concepte cheie. Fie S ‘ o specie discretizată-arbore unde marginile speciilor-arbore S au fost mărite cu vârfuri de discretizare suplimentare, astfel încât toate vârfurile augmentate să fie echidistante într-o margine, a se vedea figura S1 în fișierul suplimentar 1. DP folosește un tabel, s ( x, y, u), definit ca probabilitatea ca atunci când o singură genă genealogică începe să evolueze la vertexul x-v (s ‘) , arborele G u ( arborele genei înrădăcinat la u împreună cu marginea parentală a lui u) să fie generat împreună cu lungimile muchiei specificate de l și, în plus, evenimentul corespunzător lui u are loc la y-v (s ‘ ) . Fie v și w să fie copii ai lui u în G și fie X, y și z să fie vârfuri ale lui V(S’).

fie ca X(R) să fie probabilitatea ca o margine a lui G să aibă rata r. De asemenea, fie t(x, y) să fie timpul dintre vârfurile X,Y X ( s ‘ ) . Fie ca funcția să fie definită după cum urmează: (i) pentru o frunză u, (g), (u) este frunza specie-arbore în care poate fi găsită gena pe care o reprezintă u și (ii) pentru orice vârf intern u al lui G, (U ) este cel mai recent strămoș comun al lui L(G u) în S. folosim p11(x, y) pentru a indica probabilitatea ca o genă genică să evolueze „1-la-1” între două puncte din arborele speciei, adică., o singură genă începând de la x, pentru unii k dă naștere la K descendențe la y din care k – 1 va dispărea și o genă genă poate sau nu să dispară. Folosim P 11 (X, Y) pentru a indica probabilitatea ca un pseudogen să evolueze „1-la-1” între două puncte x și y în arborele de specii, adică o singură pseudogenă începând de la x, pentru unii k dă naștere la K pseudogene descendențe la y din care k-1 va dispărea și o descendență care poate sau nu să dispară. Un vertex u v ( t ) se numește pseudogen dacă are un strămoș care aparține tuturor vârfurilor reprezentând evenimente de pseudogenizare. Cum se calculează ambele probabilități „1-la-1” este descris în fișierul suplimentar 1. Următoarele recursiuni descriu modul în care tabelul s poate fi calculat folosind programarea dinamică:

1 Dacă u l ( g ) și X = X(u), s(x, x, u) = 1.

2 În cazul în care X ( e ) v(e) și x(u), s (x, x, u) = 0.

3, Dacă x∈V ( S ) \L ( S ) ,u∉ψ, și x = σ(u),

s ( x , x , u ) = ∑ y ∈ D L ( x ) s ( x , y , v ) ∑ y ∈ D R ( x ) s ( x , y , w ) ,

în cazul în care D L (x) și D R (x) sunt descendenții stânga și dreptul de copil al lui x în S’, respectiv.

4 Dacă x∈V ( S ‘ ) \V ( S ) și u∉ψ,

s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } s ( x , y , w ) ,

în cazul în care D(x) este un set de urmașii lui x.

5 Dacă x∈V ( S ) , părinte al u (adică p(u)) nu este un pseudogene, și z este un copil al x astfel încât σ ( L ( G, u ) ) ⊆K ( S z ) și z este un strămoș de y, atunci

s ( x , y , u ) = p 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) s ( z , y , u ) ,

în cazul în care ε ( x , z ) este probabilitatea ca o gena descendenta incepand de la x nu ajunge la orice frunză l∈l ( S, x ‘) \L ( S, z ‘ ) . Cu toate acestea, dacă mai mult y este un copil al lui x , expresiile de mai sus se reduc la,

s ( X , y , u ) = p 11 ( x , y ) inkt ( x , y ) inkt ( l ( p ( u), u ) / t ( X , y ) ) s ( y, y, u ) .

6 Dacă x∈V ( S ) , p(u) este o pseudogene, și z este un copil al x astfel încât σ ( L ( G, u ) ) ⊆L ( S z ) și z este un strămoș de y, atunci

s ( x , y , u ) = p 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) .

cu toate acestea, dacă în plus y este un copil al lui x expresiile de mai sus se reduc la,

s ( x , y , u ) = P 11 ( X , y) (X , Y) (X , Y) (L ( p ( u), u) / t ( X , y)) S (y, y, u).

probabilitatea ca arborele genei G să fie generat este probabilitatea ca atunci când o singură linie începe de la rădăcina lui S, copilul unic c al rădăcinii lui G să apară undeva sub gradul unu rădăcina lui s, iar apoi procesul continuă și generează G. Prin urmare,

p ( G , l | θ , ψ , S ) = ∑ y ∈ D ( ρ ) s ( ρ , y , c ) ,

în cazul în care D(ρ) este un set de urmașii p.

Eșantionare d-realizări

În scopul de a harta pseudogenization noduri cu nodurile de discretizate specii-copac S’, vom folosi algoritm de programare dinamică propus . Prin suprimarea vârfurilor de pseudogenizare a unui arbore genic g (adică îndepărtarea fiecărui vârf de gradul doi și apropierea punctelor sale finale), obținem un arbore genic G*. Algoritmul de eșantionare introdus în este utilizat pentru a mapa vârfurile arborelui genic V(G*) la vârfurile arborelui discretizat V (S’) (Vezi fișierul suplimentar 1). Punctele de timp asociate cu vârfurile speciilor discretizate-arbore, induc o asociere de puncte de timp la vârfurile lui G*. Odată ce punctele de timp au fost asociate cu vertexul parental și vertexul copil al unui vertex de pseudogenizare u de G, un punct de timp poate fi ușor asociat cu u, folosind lungimile ramurilor marginilor incidente.

comparând configurațiile de pseudogenizare

suntem interesați să cuantificăm diferența dintre două configurații de pseudogenizare G împreună cu ecuația și G’ împreună cu ecuația’ dintr-o singură familie genică. Observați că, dacă suprimăm vârfurile de la X și X X (adică eliminăm fiecare astfel de grad-două vârfuri și facem ca punctele sale finale să devină adiacente), atunci se obține același arbore G*. Să E ψ și E ψ’ fie setul de muchii din G* introdus prin suprimarea ψ și ψ’, respectiv. Dacă marginea e e(g*) a fost creată prin suprimarea u, atunci u se numește originea lui E.

observație, pentru orice margine f în e si e si e , toate frunzele de sub f sunt pseudogene. Deci, în cazul în care f XCT E XCT, atunci există fie muchii e XCT sub f pe orice cale de la f la frunzele de sub el, fie există o muchie deasupra f care aparține e XCT . În primul caz, noi numim F un acoperiș și marginile de e XT’ umbra lui. În acest din urmă caz, marginea E-X-X’ se numește acoperiș, iar f aparține umbrei sale.

prima distanță, distanța de margine, nu ia în considerare timpul și este definită în schimb pe baza distanței în G*. Pentru fiecare pereche de muchii ale lui G*, există o cale unică cea mai scurtă care le conține; distanța dintre două astfel de muchii este definită ca fiind numărul de vârfuri interne de pe acea cale.

în primul rând, definim două distanțe topologice (Figura 2). La margine distanța între două pseudogenization nodurile unei ψ și b ψ’ unde ψ , b ψ sunt originile margini e a și e b , respectiv, astfel că e a , e b ∈ E(G∗), este definit ca fiind calea de lungime minimă între e a și e b în G∗. Pentru fiecare muchie a acoperișului f XCT E XCT , fie D m (f) și d a (e) distanța maximă a muchiei și, respectiv, distanța medie a muchiei dintre f și marginile umbrei sale. Să fie distanța topologică maximă D m și distanța topologică medie D A între G, XV și G’, XV’ maximă de d M (F ) și, respectiv, medie de d A (F), pe toate acoperișurile f . Fie ca arborele genei adevărate și vârfurile sale de pseudogenizare să fie (G, XV) și q să fie distribuția probabilității posterioare. În cele din urmă, calculăm media așteptată E D a și media maximă M D A A distanțelor topologice ca:

E D o ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D o ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D o ( ( G , Ψ ) , q ) = max G ‘ , Ψ ‘D o ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )

Ne defini, de asemenea, temperatura maximă a E D m și maxim maxim M D m a topologice distanțe ca:

E D m ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D m ( ( G , Ψ ) , q ) = max G ‘, Ψ ‘D m ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )

în al Doilea rând, vom defini distanțe temporale. Acestea sunt obținute în mod analog topologic, dar în loc să folosim marginile distanțele dintre acoperișuri și nuanțele lor, folosim distanțele temporale dintre timpul asociat cu originea unui acoperiș și timpul asociat cu originile umbrei sale.

distanța topologică măsoară distanța unui veritabil vârf de pseudogenizare față de cel dedus de-a lungul topologiei arborelui genei, în timp ce distanța temporală măsoară distanța dintre timpii (de-a lungul arborelui speciei) asociați cu adevăratul vârf de pseudogenizare și cel dedus.

analiza sintetică și biologică

am testat metoda noastră PrIME-PDLRS pe date sintetice și am aplicat-o datelor biologice. Mai întâi descriem testele pe date sintetice. Arbori genici aleatori cu lungimi de margine și vârfuri de pseudogenizare au fost generate folosind o versiune modificată a generatorului PrIME-Gene-Tree cu o rată de pseudogenizare de 0,5 și rate biologic realiste de duplicare-pierdere observate prin analizarea familiilor de gene ale setului de date optice . Secvențele genetice au fost generate conform modelului PDLRS. Secvențele genetice au fost evoluate folosind matrici de substituție a codonilor, așa cum a propus Bielawski și colab. . O matrice neutră de substituție a codonilor a fost utilizată pentru evoluția pseudogenelor unde raportul ratei substituțiilor non-sinonime cu sinonime (dN/dS) a fost setat la 1,0. În modelul de substituție a codonului neutru, orice codon ar putea fi înlocuit cu un codon stop, în timp ce acest lucru nu a fost posibil în cadrul modelului de substituție utilizat în cazul evoluției genei. Douăzeci și cinci de combinații diferite de rapoarte de rată dN/dS și rapoarte de rată de tranziție/transversiune au fost utilizate pentru a genera secvențe de gene în douăzeci și cinci de familii de gene, folosind frecvențe uniforme de echilibru codon. Pentru a simula un scenariu biologic realist, am folosit arborele-specie (obținut ca în ) pentru cele nouă specii vertebrate din setul de date optice, care a fost descărcat de la http://genserv.anat.ox.ac.uk/downloads/clades/ vârfurile de pseudogenizare deduse au fost apoi comparate cu vârfurile de pseudogenizare adevărate folosind două tipuri de valori ale distanței, adică distanța topologică (arbore-genă) și distanța temporală (specie-arbore).

seturile de date biologice au constat din sub-familii din cele mai mari două familii genetice de vertebrate, adică receptori olfactivi și degete de zinc. S-a raportat că receptorii olfactivi sunt cea mai mare familie de gene la vertebrate . La specii precum vaca, ornitorincul și primatele, s-a observat o rată ridicată de pseudogenizare, în timp ce oposumul, câinii, șoarecii și șobolanii au o rată relativ scăzută de pseudogenizare . Șapte familii de sub-gene, de preferință având cel puțin un pseudogen per specie, au fost descărcate de la http://bioportal.weizmann.ac.il/HORDE/ pentru speciile de om (Homo sapiens), câine (Canis lupus familiaris), opossum (Didelphis virginiana) și ornithorhynchus anatinus). Două familii de sub-gene deget de zinc au fost, de asemenea, studiate la speciile umane (Homo sapiens), cimpanzeu (Pan troglodytes), orangutan (Pongo abelii) și macac rhesus (Macaca mulatta). În acest scop, am ales două sub-familii din genele orthologous de înaltă încredere (care sunt susținute de OrthoMCL , reciproc best blast hits și synteny). Genele parentale/paralogice corespunzătoare au fost căutate folosind PSI-BLAST și extrase din http://ensembl.org. Genele ortologice de înaltă încredere au fost descărcate din”catalogul KZNF”(http://znf.igb.illinois.edu) . Deoarece pseudogenele din familia genei degetului de zinc au evoluat în cea mai mare parte ca urmare a duplicărilor fragmentate , este dificil să se alinieze corect pseudogenele și genele corespunzătoare, în mod clar o condiție necesară pentru reconstrucția arborelui genic. Alinierile celor nouă familii de sub-gene au fost organizate manual după alinierea lor cu MACSE , permițând codonii stop și introducând sancțiuni pentru crearea unui decalaj (-7), extinderea unui decalaj (-1) și introducerea frameshift (-14). Speciile-arbori datate pentru ambele seturi de date biologice au fost descărcate de la http://timetree.org. Familiile sub-genice au fost apoi analizate folosind aceeași conductă ca cea utilizată pentru analiza sintetică. Potențialii arbori genici au fost reconstruiți folosind PrIME-DLR-uri, care au fost apoi analizate de PrIME-PDLR-uri folosind opțiunea fixă a arborelui genic. Arborele genei PrIME-DLRS având cea mai bună stare PrIME-PDLRS cu cea mai mare probabilitate posterioară a fost selectat ca cel mai probabil arbore genic. Evenimentele posterioare peste pseudogenizare ale celor mai probabili arbori genici au fost apoi analizate folosind realizările detaliate generate în timpul traversării lanțului Markov.

analiza MCMC

analiza Bayesiană a fost efectuată pentru familiile de gene folosind instrumentul de analiză bazat pe MCMC, PrIME-PDLRS. Lanțul MCMC a fost configurat pentru a se integra peste toți parametrii, adică arborele genei, lungimile marginilor, vârfurile de pseudogenizare pe arborele genei, ratele de naștere-moarte și pseudogenizare și media și varianța ratelor de substituție a marginilor. Am eșantionat diferiți parametri de-a lungul procesului MCMC, inclusiv ratele de naștere-deces, rata de pseudogenizare, arborele genei, vârfurile de pseudogenizare, raportul ratei dN/dS și raportul ratei de tranziție/transversiune. Unul sau mai mulți parametri au fost perturbați la fiecare iterație. Perturbarea arborelui genic a fost făcută folosind metode standard de perturbare a arborelui genic, cum ar fi tăierea și regraftarea subarborilor, schimbul cel mai apropiat vecin și re-înrădăcinarea. După o perturbare, validitatea arborelui genic rezultat a fost certificată, adică nicio descendență pseudogenă nu duce la o descendență genică. Se propune un arbore genic perturbat valid, de fiecare dată când se propune un arbore genic. Metoda de îmbinare a vecinului este utilizată pentru a construi arborele inițial la începutul lanțului MCMC. Distribuția propunerii propune mișcări ale vârfurilor de pseudogenizare, pe liniile unui arbore genic, într-o manieră astfel încât probabilitatea de a propune o mișcare în sus a unui vârf de pseudogenizare este egală cu probabilitatea de a propune o mișcare în jos. Rapoartele ratei DN/dS sunt eșantionate dintr-o distribuție normală trunchiată în , în timp ce rapoartele ratei de tranziție / transversiune sunt eșantionate dintr-o distribuție normală trunchiată în . Ratele de naștere-deces și pseudogenizare sunt eșantionate dintr-o distribuție normală trunchiată în . Propunerile normale trunchiate au fost utilizate pentru perturbarea parametrilor modelului de rată și a lungimilor marginilor în jurul valorii curente, cu parametrii de reglare realizați manual în ceea ce privește raporturile de acceptare. Parametrii ratei de substituție au fost perturbați fie prin perturbarea mediei de distribuție, fie a coeficientului de variație. Pentru a afla dacă lanțurile MCMC au convergent, am folosit VMCMC ca instrument de diagnosticare. Din alergările inițiale, s-a observat că este sigur să se utilizeze o perioadă de ardere de 2.500.000. Pentru restul rulărilor, am folosit 5.000.000 de iterații, perioadă de ardere de 2.500.000 și subțiere de 500. Am folosit PrIME-DLR-uri ca un prim pas pentru a reconstrui potențialii arbori genici. Fiecare arbore genic potențial a fost analizat folosind PrIME-PDLR-uri cu o opțiune fixă de arbore genic.

evoluția genei-pseudogene: o abordare probabilistică