Gene-pseudogene evolution: a probabilistic approach

w tej sekcji najpierw Wprowadzamy Pseudogenizację, duplikację, utratę, szybkość i sekwencję modelu ewolucji, PDLRS. Zaczynamy od zdefiniowania podstawowych pojęć. Drzewo gatunkowe to ukorzenione drzewo binarne, które reprezentuje ewolucyjną historię gatunków, gdzie liście reprezentują istniejące gatunki, a wewnętrzne wierzchołki reprezentują wydarzenia specjacji. Drzewo genowe jest również zakorzenionym drzewem binarnym, które reprezentuje ewolucyjną historię zbioru genów. Drzewo genowe może mieć geny lub pseudogeny jako liście.

model PDLRS

model PDLRS jest rozszerzeniem modelu DLRS uzyskanego przez uwzględnienie również zdarzeń pseudogenizacji. Model opisuje, w jaki sposób linia genowa ewoluuje wewnątrz drzewa gatunkowego o korzeniu jednego stopnia, zaczynając od korzenia, a następnie ewoluując w kierunku liści, będąc narażonym na duplikację genów, utratę genów i zdarzenia pseudogenizacji z szybkością odpowiednio δ, μ i ψ. Ponadto, gdy linia genowa osiągnie wierzchołek drzewa gatunkowego, zawsze (tj., deterministycznie) bifurkaty i dwie tak zawarte linie genowe nadal ewoluują poniżej wierzchołka drzewa gatunkowego, po jednym w każdym z jego dwóch wychodzących gatunków-krawędzi drzewa.

chociaż podczas tego procesu, linia genowa może przełączyć się w linię pseudogenową, linia pseudogenowa nie może przełączyć się z powrotem do linii genowej. Zdarzenia pseudogenizacji wprowadzają dwa wierzchołki stopnia w drzewie genowym. W przeciwnym razie linia pseudogenu zachowuje się jak linia genowa, może duplikować lub gubić się podczas ewolucji, a deterministycznie rozwidla się, gdy osiągnie wierzchołek drzewa gatunkowego. Linia, która dociera do liści drzewa gatunkowego, daje początek liściu w drzewie genowym, reprezentującemu istniejący gen lub pseudogen. Wierzchołki i krawędzie drzewa genowego, które nie prowadzą do takich zachowanych liści, są jednak przycinane z drzewa genowego (ryc. 1). Ponieważ proces ten odbywa się w drzewie gatunkowym z czasem na jego wierzchołkach i krawędziach, każde zdarzenie występuje w określonym czasie. Za każdym razem, gdy zdarzenie tworzy nowy wierzchołek drzewa genowego, czas zdarzenia jest związany z nowym wierzchołkiem.

Rysunek 1
figure1

Pseudogenizacja, duplikacja, utrata, ewolucja sekwencji& stawki (pdlrs). Ewolucja genu i linii pseudogen wewnątrz krawędzi drzewa gatunku jest modelowana przez proces urodzenia-śmierci. Linia genu / pseudogenu może natknąć się na zdarzenie duplikacji lub specjacji. Linia genowa (reprezentowana przez linie Czarne) może przekształcić się w linię pseudogenową (reprezentowaną przez linie brązowe). Za każdym razem, gdy linia genu/pseudogenu przechodzi przez zdarzenie specjacji, dzieli się na dwie niezależne linie genowe. Linia genowa może również zostać utracona. Po przycięciu wszystkich utraconych linii uzyskuje się ostateczne drzewo genowe. W celu uzyskania długości rozgałęzień stosuje się rozluźniony zegar molekularny. Wreszcie, standardowy model ewolucji sekwencji generuje sekwencje nad drzewem genów o długości gałęzi. Zielone i brązowe kolory reprezentują odpowiednio ewolucję sekwencji genów i pseudogenów.

w celu uzyskania zrelaksowanego zegara molekularnego, szybkości są próbkowane niezależnie od rozkładu Γ (parametryzowanego przez średnią i wariancję) dla każdej krawędzi, a krawędź z czasem t i szybkością r jest przypisana długości l. W końcu sekwencje są ewoluowane nad tym drzewem genów z jego długościami. Przypomnijmy, że zdarzenia pseudogenizacji wprowadzają dwa wierzchołki stopnia w drzewie genowym. Ponad krawędzią, w której wierzchołek rodzicielski jest genem, stosuje się model ewolucji sekwencji odpowiedni dla genów, podczas gdy gdy wierzchołek rodzicielski reprezentuje pseudogen (a w konsekwencji także dziecko reprezentuje pseudogen), stosuje się model ewolucji sekwencji odpowiedni dla pseudogenów. Modele te mogą być zróżnicowane, ale tutaj używamy dwóch modeli kodonów opisanych poniżej.

aby modelować dwa tryby ewolucji sekwencji, używamy dwóch macierzy podstawienia kodonów zaproponowanych przez, jedną dla ewolucji pseudogenów, a drugą dla genów. Chwilowa macierz szybkości substytucji od kodonu i do kodonu j, q ij jest w obu przypadkach określona przez:

q I j = 0 , jeśli i I j różnią się w więcej niż jednej pozycji w trójplecie kodonu μ π j , różnią się synonimicznym przejściem μ κ π j , różnią się synonimicznym przejściem μ κ ω π j , różnią się niesynonimicznym przejściem μ κ ω π j , różnią się niesynonimicznym przejściem

gdzie π j jest częstotliwością równowagową kodonu j, μ jest czynnikiem normalizującym, κ jest stosunkiem przejścia/transwersji, a ω jest stosunkiem niezwiązanym z synonimem (DN/DS). Z wyjątkiem ω, parametry te są dzielone pomiędzy dwa tryby ewolucji sekwencji. Dla pseudogenów ω jest równe 1 i przejście do kodonów stop jest dozwolone, natomiast dla genów przejście do kodonów stop jest niedozwolone.

Prime-PDLRS MCMC framework

PrIME-PDLRS jest narzędziem analizy opartym na MCMC dla wyżej wymienionego modelu. Bierze jako wejście wielu sekwencji wyrównanie sekwencji genu i pseudogenu wraz z klasyfikacją tych sekwencji jako genów lub pseudogenów. Wymaga też datowanego gatunku-drzewa S. Oznaczmy drzewo genowe przez G, jego długość krawędzi przez l, a inne parametry modelu przez θ. Parametr θ jest złożony, zawierający: szybkość powielania; szybkość strat; szybkość pseudogenizacji; średnią szybkość krawędzi i współczynnik zmienności; i nie synonimiczne do synonimicznych szybkości (dN/dS) i szybkości przejścia/transwersji dla modelu substytucji kodonu ewolucji sekwencji.

użyjemy Ψ do oznaczenia zbioru wierzchołków pseudogenizacji (stopnia drugiego) w drzewie genowym (żadne dwa z tych wierzchołków nie mogą leżeć na tej samej ścieżce korzenia do liści). Używamy P (·) do określenia prawdopodobieństwa i p (·) do określenia gęstości prawdopodobieństwa.

stan w naszym łańcuchu Markowa jest czworokątem (G, l, θ, Ψ). Liście w drzewie genowym odpowiadają danym sekwencjom i każda sekwencja zaklasyfikowana jako pseudogen musi mieć przodka w G, który należy do Ψ. Gdy obecny stan jest (G, l, θ, Ψ), prawdopodobieństwo akceptacji proponowanego stanu ( g ’, l ’, θ ’, ψ ’) , jest określone przez stosunek p(G, l, θ, Ψ| D, S) I p ( G ’, l ’, θ ’ , ψ | D , S ) , gdzie D jest danymi, A S jest gatunkiem-drzewem z czasem. Ponieważ każda z tych gęstości może być wyrażona za pomocą równości Bayesa, np.

p ( g, l , θ , ψ | D , S ) = P ( D | G , L , ψ ) p ( g , l , ψ | θ , S ) P ( θ ) P ( d | S),

dwa mianowniki P(D|S) w prawdopodobieństwie akceptacji anulują się i otrzymujemy

p ( d | s ) g, l , θ , ψ | D , S) P ( G’, L’, θ’, ψ '| D , S) = P ( D | G , L , ψ ) p ( g , l , ψ | θ , s ) p ( θ ) p ( d | g’, l’, ψ’) P ( G’, L’, ψ '/ θ’, s) p ( θ’).

tutaj licznik i mianownik mają tę samą strukturę, więc wystarczy opisać, jak obliczyć to pierwsze. Po pierwsze, współczynnik P(D|G, L, Ψ) można obliczyć za pomocą algorytmu programowania dynamicznego (DP) zaproponowanego przez Felsensteina . Krawędzie i części krawędzi, dla których należy stosować genowy lub pseudogenowy tryb ewolucji sekwencji, są określone przez Ψ. Częstotliwości równowagi są szacowane na podstawie sekwencji genu i pseudogenu i są wspólne dla obu modeli ewolucji sekwencji. Po drugie, wcześniejsze p (θ) jest wybierane tak, aby można je było łatwo obliczyć. Wreszcie, głównym wkładem technicznym jest algorytm DP do obliczania prawdopodobieństwa drzewa genowego i jego długości krawędzi danych parametrów i Drzewa gatunkowego w modelu DL. Aby obliczyć p (G, l, θ, Ψ|D, S), proponujemy nowy algorytm DP integrujący proces pseudogenizacji i proces DL.

w , algorytm DP do obliczania współczynnika P(G, L|θ, S) został opisany. Najpierw zdefiniujmy kilka kluczowych pojęć. Niech S ” będzie dyskretnym drzewem gatunkowym, w którym krawędzie drzewa gatunkowego s zostały powiększone o dodatkowe wierzchołki dyskretyzacji, tak aby wszystkie rozszerzone wierzchołki były w równej odległości w obrębie krawędzi, patrz rysunek S1 w dodatkowym pliku 1. DP wykorzystuje tabelę, S ( x, y, u), zdefiniowaną jako prawdopodobieństwo , że gdy pojedyncza linia genowa zaczyna ewoluować na wierzchołku x∈V (S’), drzewo G U ( drzewo genowe zakorzenione w u wraz z rodzicielską krawędzią u) jest generowane razem z długościami krawędzi określonymi przez l, a ponadto Zdarzenie odpowiadające u występuje w Y∈V (S ’ ) . Niech v i w będą dziećmi u w G, A x, y i z będą wierzchołkami V (S’).

niech ρ (r) będzie prawdopodobieństwem, że krawędź G ma współczynnik r. również niech t(x, y) będzie czasem między wierzchołkami x,y∈V ( S’). Niech σ (u) będzie funkcją zdefiniowaną w następujący sposób ( i) dla liścia u∈L (G ) , σ (u) jest liściem drzewa gatunkowego, w którym można znaleźć gen, który reprezentuje u, oraz (ii) dla dowolnego wewnętrznego wierzchołka u g, σ(u) jest najnowszym wspólnym przodkiem L(G u ) W S. używamy p11 (x, y), aby określić prawdopodobieństwo rozwoju linii genowej „1 do 1” między dwoma punktami w drzewie gatunkowym, tj., pojedynczy gen zaczynający się od x, dla niektórych k daje początek linii K W y, z których K-1 wyginie, a jedna linia genowa może lub nie może wyginąć. Używamy P 11 ψ (x, y), aby określić prawdopodobieństwo rozwoju pseudogenu „1-to-1” pomiędzy dwoma punktami x i y w drzewie gatunkowym, tzn., że pojedynczy pseudogen zaczynający się od x, dla niektórych k daje początek linii K pseudogenu W y, z których K-1 wyginie i jedna linia, która może lub nie może wyginąć. Wierzchołek U∈V (T) nazywany jest pseudogenem, jeśli ma przodka, który należy do wszystkich wierzchołków reprezentujących zdarzenia pseudogenizacyjne Ψ mają stopień drugi. Jak obliczyć oba te prawdopodobieństwa „1 do 1” opisano w dodatkowym pliku 1. Poniższe rekurencje opisują sposób obliczania tabeli s przy użyciu programowania dynamicznego:

1 Jeśli u∈L(G ) i x = σ(U), s (x, x, u) = 1.

2 Jeśli x∈V ( S ) I x ≠ σ(u), s(x, x, u) = 0.

3, Jeżeli X∈W ( Z ) \L ( X ) ,U∉ψ, X = σ(u),

z ( X , X , U ) = ∑ m ∈ D i L ( x ) z ( x , g , w ) ∑ m ∈ D i P ( x ) z ( x , g , w ) ,

gdzie D l (X) i e p (x) są potomkami, z lewej i z prawej dzieckiem X w S’ odpowiednio.

4, Jeśli X∈W ( Z ’ ) \V ( Z ) i U∉ψ,

z ( X , X , U ) =2δ ∑ m ∈ E ( x ) \ { x } z ( x , g , w ) ∑ M ∈ E ( x ) \ { x } z ( x , g , w ) ,

gdzie D(x) nazywa się zbiór potomków tych.

5, Jeśli x∈W ( Z ) , rodzic u (tj. p (u)) nie jest pseudogenem, A z jest potomkiem x takim, że σ(L ( G u ) ) ⊆K ( S z ’) i z jest przodkiem y , wtedy

s ( x , y , u ) = p 11 ( x , z ) ε ( x , z ) ρ ( l ( p ( u), u ) / t ( x , y ) ) ρ ( l ( p ( u), u ) / t ( Z , y ) ) s ( Z , y, u),

gdzie ε ( x, Z ) jest prawdopodobieństwem, że linia genów zaczynająca się od X nie osiągnie żadnego liścia L∈L ( S x ’) \L ( S z ’ ) . Jeśli jednak y jest potomkiem x powyższe wyrażenia zmniejszają się do

s ( x, y , u ) = P 11 ( x , y ) ε ( x , y ) ρ ( l ( p ( u), u ) / t ( X , y ) ) S ( y , y , u ) .

6 Jeśli x∈V ( S ) , p(u) jest pseudogenem, A z jest dzieckiem x takim, że σ ( l ( G u ) ) ⊆L ( S z ’ ) i z jest przodkiem y , to

s ( x , y , u ) = P 11 ψ ( x , z ) ε ( x , z ) ρ ( l ( p ( u), u ) / t ( x , y ) ) ρ ( l ( p ( u), u ) / t ( z, y ) ) .

Jeśli jednak y jest potomkiem x powyższe wyrażenia zmniejszają się do,

s ( x, y , u ) = P 11 ψ ( x , y ) ε ( x , y ) ρ ( l ( p ( u), u) / t ( x , y ) ) s ( y , y , u ) .

prawdopodobieństwo, że drzewo genowe G jest generowane jest prawdopodobieństwem, że gdy pojedyncza linia zaczyna się od korzenia s, pojedyncze potomne C korzenia g występuje gdzieś poniżej stopnia pierwszego korzenia ρ S, a następnie proces kontynuuje się i generuje G. Stąd

p ( g , l / θ, ψ, S) = ∑ y ∈ D ( ρ) s(ρ , y , c),

gdzie D (ρ) jest zbiorem Potomków p.

próbkowanie d-realizacji

aby odwzorować wierzchołki pseudogenizacji na wierzchołki dyskretnych gatunków-drzewa S’, używamy algorytmu programowania dynamicznego zaproponowanego w . Poprzez tłumienie wierzchołków pseudogenizacji drzewa genowego G (tj. usunięcie każdego wierzchołka stopnia-drugiego i sąsiadowanie jego punktów końcowych) otrzymujemy drzewo genowe g*. Wprowadzony algorytm próbkowania służy do mapowania wierzchołków drzewa genowego V (g*) do wierzchołków drzewa gatunkowego V(S’) (zob. dodatkowy plik 1). Punkty czasowe związane z wierzchołkami drzewa gatunkowego wywołują skojarzenie punktów czasowych z wierzchołkami G*. Gdy punkty czasowe zostały powiązane z wierzchołkiem rodzicielskim i wierzchołkiem potomnym wierzchołka pseudogenizacji u (G), punkt czasowy można łatwo powiązać z u, używając długości gałęzi krawędzi incydentu.

porównując konfiguracje pseudogenizacji

jesteśmy zainteresowani kwantyfikacją różnicy między dwiema konfiguracjami pseudogenizacji g razem z ψ i G’ razem z ψ’ pojedynczej rodziny genów. Zauważ, że jeśli pominiemy wierzchołki ψ w G i ψ’ w G’ (tzn. usuniemy każdy taki stopień-dwa wierzchołki i sprawimy, że jego punkty końcowe staną się sąsiednie), to otrzymamy to samo drzewo g*. Niech e ψ i e ψ 'będą zbiorem krawędzi g * wprowadzanych przez tłumienie ψ i ψ’, odpowiednio. Jeśli krawędź E ∈ E(G*) powstała przez stłumienie u, to u nazywa się początkiem e.

zauważ, że dla dowolnej krawędzi F w e ψ lub e ψ’ , wszystkie liście poniżej F są pseudogenami. Tak więc, jeśli F ∈ E ψ, to istnieją albo krawędzie e ψ 'poniżej f na dowolnej ścieżce od F do liści pod nią, albo istnieje krawędź powyżej F, która należy do e ψ’. W pierwszym przypadku nazywamy f dachem, a krawędzie e ψ jego cieniem. W tym drugim przypadku krawędź e ψ ’ nazywa się dachem, a f należy do jego cienia.

pierwsza odległość, odległość krawędzi, pomija czas i jest definiowana na podstawie odległości w G*. Dla każdej pary krawędzi G* istnieje unikalna najkrótsza ścieżka zawierająca je; odległość między dwoma takimi krawędziami jest określona jako liczba wewnętrznych wierzchołków na tej ścieżce.

najpierw definiujemy dwie odległości topologiczne (Rys. 2). Odległość krawędzi między dwoma wierzchołkami pseudogenizacji a ψ i B ψ’, gdzie a ψ , b ψ są początkami krawędzi e a i e b, tak że e A , E b ∈ E(G∗) jest zdefiniowana jako minimalna długość ścieżki między E A i e b W G∗. Dla każdej krawędzi dachu F ∈ E ψ lub F ∈ E ψ’ , niech d M (f ) I d a (e) będą maksymalną odległością krawędzi i średnią odległością krawędzi, odpowiednio, między F A krawędziami jej cienia. Niech maksymalna odległość topologiczna D m i średnia odległość topologiczna D A między g, ψ i G’, ψ 'będą odpowiednio maksimum d M (f) i średnią d a (f) na wszystkich dachach F ∈ E ψ ∪ e ψ’ . Niech prawdziwe drzewo genowe i jego wierzchołki pseudogenizacyjne będą (g, ψ), a q będzie tylnym rozkładem prawdopodobieństwa. Na koniec obliczamy oczekiwaną średnią E D A i maksymalną średnią M D A Z odległości topologicznych jako:

Rysunek 2
figure2

odległości topologiczne między dwiema konfiguracjami pseudogenizacji, D A = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D M = max ( max (1 , 1) , max (1, 2, 2)).

E D A ( ( G , Ψ ) , q ) = ∑ g ’, Ψ 'D A ( ( G , Ψ ) , ( G ’, Ψ ’) ) q ( G ’, Ψ ) M D A ( ( G , Ψ ) , q ) = max g ’, Ψ 'D A ( ( G , Ψ ) , ( G ’, Ψ ’) ) Q ( g ’ , ψ)

definiujemy również oczekiwane maksimum e d m i maksimum m d M odległości topologicznych jako:

E D M ( ( G , Ψ ) , q ) = ∑ g ’, Ψ 'D M ( ( G , Ψ ) , ( G ’, Ψ ’) ) q ( G ’, Ψ ) M D M ( ( G , Ψ ) , q ) = max g ’, Ψ 'D M ( ( G , Ψ ) , ( G ’, Ψ ’) ) q ( G ’ , Ψ)

Po Drugie, definiujemy odległości czasowe. Uzyskuje się je analogicznie do topologicznych, ale zamiast korzystać z odległości krawędzi między dachami i ich odcieniami, stosujemy odległości czasowe między czasem związanym z powstaniem dachu a czasem związanym z powstaniem jego odcienia.

odległość topologiczna mierzy odległość prawdziwego wierzchołka pseudogenizacji od wnioskowanego wzdłuż topologii drzewa genowego, podczas gdy odległość czasowa mierzy odległość między czasami (wzdłuż drzewa gatunków) powiązanymi z prawdziwym wierzchołkiem pseudogenizacji i wnioskowanym.

Analiza syntetyczna i biologiczna

przetestowaliśmy naszą metodę PrIME-PDLRS na danych syntetycznych i zastosowaliśmy ją do danych biologicznych. Najpierw opisujemy testy na danych syntetycznych. Losowe drzewa genowe o długości krawędzi i wierzchołkach pseudogenizacji zostały wygenerowane przy użyciu zmodyfikowanej wersji generatora drzewa genowego PrIME z szybkością pseudogenizacji 0,5 i biologicznie realistycznymi szybkościami duplikacji i utraty obserwowanymi przez Analizę rodzin genów zestawu danych optycznych . Sekwencje genów zostały wygenerowane zgodnie z modelem PDLRS. Sekwencje genów wyewoluowano przy użyciu matryc substytucyjnych kodonów, zaproponowanych przez Bielawskiego i in. . Do ewolucji pseudogenów wykorzystano neutralną macierz podstawienia kodonów, w której stosunek częstości podstawień niezwiązanych z synonimami (DN / dS) ustalono na 1,0. W neutralnym modelu substytucji kodonu, każdy kodon mógł być podstawiony kodonem stop, podczas gdy nie było to możliwe w modelu substytucji używanym w przypadku ewolucji genów. Dwadzieścia pięć różnych kombinacji współczynników szybkości DN/dS i współczynników szybkości przejścia/transwersji użyto do wytworzenia sekwencji genów w dwudziestu pięciu rodzinach genów, przy użyciu jednolitych częstotliwości równowagi kodonowej. Aby zasymulować biologicznie realistyczny scenariusz, użyliśmy drzewa gatunków (uzyskanego jak w) dla dziewięciu gatunków kręgowców z zestawu danych optycznych, który został pobrany z http://genserv.anat.ox.ac.uk/downloads/clades/ wnioskowane wierzchołki pseudogenizacji zostały następnie porównane z prawdziwymi wierzchołkami pseudogenizacji za pomocą dwóch rodzajów mierników odległości, tj. odległości topologicznej (drzewo genowe) i odległości czasowej (drzewo gatunków).

biologiczne zbiory danych składały się z podrodzin z dwóch największych rodzin genowych kręgowców, tj. receptorów węchowych i palców cynkowych. Receptory węchowe zostały zgłoszone jako największa rodzina genów u kręgowców . U gatunków takich jak krowa, dziobak i naczelne zaobserwowano wysoki wskaźnik pseudogenizacji, podczas gdy OPOS, psy, myszy i szczury mają stosunkowo niski wskaźnik pseudogenizacji . Z http://bioportal.weizmann.ac.il/HORDE/ pobrano siedem rodzin subgenów korzystnie posiadających co najmniej jeden pseudogen na gatunek dla gatunków człowieka (Homo sapiens), psa (Canis lupus familiaris), oposa (Didelphis virginiana) i dziobaka (ornithorhynchus anatinus). Zbadano również dwie rodziny podgenów palców cynkowych w obrębie gatunków człowieka (Homo sapiens), szympansa (Pan troglodytes), orangutana (Pongo abelii) i makaka rezusa (Macaca mulatta). W tym celu wybrano dwie podrodziny z genów ortologicznych o wysokim zaufaniu (które są wspierane przez OrthoMCL, reciprocal best BLAST hits i synteny). Odpowiednie geny rodzicielskie / paralogiczne przeszukiwano za pomocą PSI-BLAST i ekstrahowano z http://ensembl.org. Geny ortologiczne o wysokiej pewności zostały pobrane z „katalogu KZNF”(http://znf.igb.illinois.edu) . Ponieważ pseudogeny w rodzinie genów palca cynkowego w większości ewoluowały w wyniku fragmentacji duplikacji, trudno jest prawidłowo dopasować pseudogeny i odpowiadające im geny, co jest oczywiście warunkiem koniecznym do rekonstrukcji drzewa genowego. Dopasowania dziewięciu rodzin subgenów zostały ręcznie dobrane po dopasowaniu ich do MACSE ’ a, umożliwiając kodony stop i wprowadzając kary za tworzenie luki (-7), Rozszerzanie luki (-1) i wprowadzanie frameshift (-14). Datowane gatunki-drzewa dla obu zestawów danych biologicznych zostały pobrane z http://timetree.org. Sub rodziny genów były następnie analizowane przy użyciu tego samego rurociągu, co w analizie syntetycznej. Potencjalne drzewa genowe zrekonstruowano przy użyciu PrIME-DLRS, które następnie analizowano przez PrIME-PDLRS przy użyciu opcji stałego drzewa genowego. Jako najbardziej prawdopodobne drzewo genowe wybrano drzewo genowe PrIME-DLRS o najlepszym stanie PrIME-PDLRS z najwyższym prawdopodobieństwem tylnym. Następnie analizowano tylne zdarzenia pseudogenizacji najbardziej prawdopodobnych drzew genowych, wykorzystując szczegółowe realizacje wygenerowane podczas trawersu łańcucha Markowa.

Analiza MCMC

Analiza bayesowska została przeprowadzona dla rodzin genów przy użyciu narzędzia do analizy opartego na MCMC, PrIME-PDLRS. Łańcuch MCMC został skonfigurowany w celu zintegrowania wszystkich parametrów, tj. drzewa genów, długości krawędzi, wierzchołków pseudogenizacji na drzewie genów, szybkości narodzin i śmierci i pseudogenizacji oraz średniej i wariancji szybkości substytucji krawędzi. Próbkowaliśmy różne parametry w całym procesie MCMC, w tym wskaźniki urodzeń i zgonów, szybkość pseudogenizacji, drzewo genowe, wierzchołki pseudogenizacji, stosunek szybkości DN/dS i stosunek szybkości przejścia/transwersji. Jeden lub więcej parametrów były zakłócane w każdej iteracji. Perturbacja drzewa genowego została wykonana przy użyciu standardowych metod perturbacji drzewa genowego, takich jak przycinanie i regrafting subtree, wymiana najbliższego sąsiada i ponowne zakorzenienie. Po perturbacji potwierdzono Ważność powstałego drzewa genowego, tzn. brak linii pseudogenowej prowadzącej do linii genowej. Za każdym razem, gdy proponowane jest drzewo genowe, proponuje się prawidłowe zaburzone drzewo genowe. Metoda łączenia sąsiada jest używana do konstruowania początkowego drzewa na początku łańcucha MCMC. Rozkład propozycji proponuje przesunięcia wierzchołków pseudogenizacji, w poprzek linii drzewa genowego, w taki sposób, że prawdopodobieństwo zaproponowania ruchu w górę wierzchołka pseudogenizacji jest równe prawdopodobieństwu zaproponowania ruchu w dół. Wskaźniki szybkości dN/DS pobiera się z obciętego rozkładu normalnego in , natomiast wskaźniki szybkości przejścia/transwersji pobiera się z obciętego rozkładu normalnego in . Wskaźniki urodzeń i śmierci oraz pseudogenizacji są pobierane z obciętego rozkładu normalnego w . Do perturbacji parametrów modelu szybkości i długości krawędzi wokół aktualnej wartości wykorzystano skrócone propozycje normalne, z parametrami strojenia w odniesieniu do współczynników akceptacji. Parametry stopy substytucyjnej zostały zaburzone przez zaburzenie średniej dystrybucji lub współczynnika zmienności. Aby sprawdzić, czy łańcuchy MCMC zbiegły się, użyliśmy VMCMC jako narzędzia diagnostycznego. Od pierwszych uruchomień zaobserwowano, że można bezpiecznie używać okresu wypalenia wynoszącego 2 500 000. Przez resztę serii wykorzystaliśmy 5 000 000 iteracji, okres wypalenia 2 500 000 i przerzedzenie 500. Użyliśmy PrIME-DLRS jako pierwszego kroku do rekonstrukcji potencjalnych drzew genowych. Każde potencjalne drzewo genów analizowano przy użyciu PrIME-PDLR z opcją stałego drzewa genowego.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.