Gen-Pseudogen-Evolution: ein probabilistischer Ansatz

In diesem Abschnitt stellen wir zunächst das Pseudogenisierungs-, Duplikations-, Verlust-, Raten- und Sequenzentwicklungsmodell PDLRS vor. Wir beginnen damit, zunächst einige grundlegende Begriffe zu definieren. Ein Artenbaum ist ein verwurzelter binärer Baum, der die Evolutionsgeschichte von Arten darstellt, wobei Blätter vorhandene Arten darstellen und innere Scheitelpunkte Speziationsereignisse darstellen. Ein Genbaum ist auch ein verwurzelter binärer Baum, der die Evolutionsgeschichte einer Reihe von Genen darstellt. Ein Genbaum kann Gene oder Pseudogene als Blätter haben.

Das PDLRS-Modell

Das PDLRS-Modell ist eine Erweiterung des DLRS-Modells, das durch die Einbeziehung von Pseudogenisierungsereignissen erhalten wird. Das Modell beschreibt, wie sich eine Genlinie innerhalb eines Artenbaums mit einer Wurzel des Grades eins entwickelt, indem sie an der Wurzel beginnt und sich anschließend zu den Blättern hin entwickelt, während sie Genduplikation ausgesetzt ist, Genverlust, und Pseudogenisierungsereignisse mit Raten δ, μ, und ψ, beziehungsweise. Auch wenn eine Genlinie einen Artbaumscheitelpunkt erreicht, wird sie immer (d.h. deterministisch) verzweigt und die beiden so enthaltenen Genlinien entwickeln sich unterhalb des Artenbaumscheitelpunkts weiter, einer in jeder seiner beiden ausgehenden Artenbaumkanten.

Obwohl während dieses Prozesses eine Genlinie in eine Pseudogenlinie wechseln kann, darf eine Pseudogenlinie nicht zurück zu einer Genlinie wechseln. Pseudogenisierungsereignisse führen Grad zwei Eckpunkte in den Genbaum ein. Eine Pseudogen-Linie verhält sich ansonsten wie eine Gen-Linie, sie kann sich duplizieren oder während der Evolution verloren gehen, und sie verzweigt sich deterministisch, wenn sie einen Arten-Baum-Scheitelpunkt erreicht. Eine Linie, die die Blätter des Artenbaums erreicht, führt zu einem Blatt im Genbaum, das ein vorhandenes Gen oder Pseudogen darstellt. Ecken und Kanten des Genbaums, die nicht zu solchen vorhandenen Blättern führen, werden jedoch aus dem Genbaum herausgeschnitten (Abbildung 1). Da dieser Prozess in einem Artenbaum mit der Zeit an seinen Eckpunkten und Kanten stattfindet, tritt jedes Ereignis zu einem bestimmten Zeitpunkt auf. Wenn ein Ereignis einen neuen Genbaum-Scheitelpunkt erstellt, wird der Zeitpunkt des Ereignisses mit dem neuen Scheitelpunkt verknüpft.

Abbildung 1
figure1

Pseudogenisierung, Duplikation, Verlust, Sequenzentwicklung & Raten (PDLRS). Die Evolution eines Gens und pseudogener Abstammungslinien innerhalb einer Artbaumkante wird durch einen Geburts-Todes-Prozess modelliert. Eine Gen- / Pseudogenlinie kann auf ein Duplikationsereignis oder ein Speziationsereignis stoßen. Eine Genlinie (dargestellt durch schwarze Linien) kann sich in eine Pseudogenlinie (dargestellt durch braune Linien) umwandeln. Jedes Mal, wenn eine Gen- / Pseudogenlinie ein Speziationsereignis durchläuft, teilt sie sich in zwei unabhängige Genlinien. Eine Genlinie kann auch verloren gehen. Nach dem Beschneiden aller verlorenen Linien wird der endgültige Genbaum erhalten. Eine entspannte molekulare Uhr wird verwendet, um Verzweigungslängen zu erhalten. Schließlich erzeugt ein Standardsequenzentwicklungsmodell Sequenzen über den Genbaum mit Verzweigungslängen. Grüne und braune Farben stehen für die Evolution der Gen- bzw. Pseudogensequenz.

Um eine entspannte molekulare Uhr zu erhalten, werden unabhängig von einer Γ-Verteilung (parametrisiert durch einen Mittelwert und eine Varianz) für jede Flanke Raten abgetastet und einer Flanke mit der Zeit t und der Rate r eine Länge l zugewiesen. Denken Sie daran, dass Pseudogenisierungsereignisse Grad zwei Eckpunkte im Genbaum einführen. Über einer Kante, an der der elterliche Scheitelpunkt ein Gen ist, wird ein für Gene geeignetes Modell der Sequenzentwicklung verwendet, während, wenn der elterliche Scheitelpunkt ein Pseudogen darstellt (und folglich auch das Kind ein Pseudogen darstellt), ein für Pseudogene geeignetes Modell der Sequenzentwicklung verwendet wird. Diese Modelle können variiert werden, aber hier verwenden wir zwei unten beschriebene Codonmodelle.

Um die beiden Modi der Sequenzevolution zu modellieren, verwenden wir zwei von vorgeschlagene Codonsubstitutionsmatrizen , eine für die Evolution von Pseudogenen und eine für die von Genen. Die momentane Substitutionsratenmatrix von Codon i zu Codon j, q ij wird in beiden Fällen bestimmt durch:

q i j = 0, wenn sich i und j an mehr als einer Position in einem Codon-Triplett unterscheiden μ π j, unterscheiden sich durch eine synonyme Transversion μ κ π j, unterscheiden sich durch einen synonymen Übergang μ ω π j, unterscheiden sich durch eine nichtsynonyme Transversion μ κ ω π j, unterscheiden sich durch einen nichtsynonymen Übergang

wobei π j die Gleichgewichtsfrequenz von , μ ist ein Normalisierungsfaktor, κ ist das Übergangs- / Transversionsverhältnis und ω ist das Nicht-synonym zu synonym (dN / dS) Verhältnis. Mit Ausnahme von ω werden diese Parameter zwischen den beiden Modi der Sequenzentwicklung geteilt. Für Pseudogene ist ω gleich 1 und der Übergang zu Stop-Codons ist zulässig, während für Gene der Übergang zu Stop-Codons nicht zulässig ist.

Das PrIME-PDLRS MCMC Framework

PrIME-PDLRS ist ein MCMC basiertes Analysetool für das oben genannte Modell. Als Eingabe dient eine mehrfache Sequenzausrichtung von Gen- und Pseudogensequenzen zusammen mit einer Klassifizierung dieser Sequenzen als Gene oder Pseudogene. Es erfordert auch eine datierte Art-Baum S. Bezeichnen wir einen Genbaum mit G, seine Kantenlängen mit l und andere Parameter des Modells mit θ. Der Parameter θ ist eine Verbindung, die Folgendes enthält: die Duplikationsrate; Verlustrate; Pseudogenisierungsrate; Kantenratenmittelwert und Variationskoeffizient; und nicht synonym zu synonym Raten (dN / dS) und Übergangs- / Transversionsraten für das Codonsubstitutionsmodell der Sequenzentwicklung.

Wir werden Ψ verwenden, um die Menge der Pseudogenisierungsscheitelpunkte (Grad zwei) im Genbaum zu bezeichnen (keine zwei dieser Scheitelpunkte dürfen auf demselben Wurzel-Blatt-Pfad liegen). Wir verwenden P (·), um eine Wahrscheinlichkeit zu bezeichnen, und p (·), um eine Wahrscheinlichkeitsdichte zu bezeichnen.

Ein Zustand in unserer Markov-Kette ist ein Vierfach (G, l, θ, Ψ). Die Blätter im Genbaum entsprechen den gegebenen Sequenzen und jede Sequenz, die als Pseudogen klassifiziert ist, muss einen Vorfahren in G haben, der zu Ψ gehört. Wenn der aktuelle Zustand (G, l, θ, Ψ) ist, wird die Akzeptanzwahrscheinlichkeit eines vorgeschlagenen Zustands (G‘, l‘, θ ‚, ψ ‚) durch das Verhältnis zwischen p(G, l, θ, Ψ | D, S) und p (G‘, l ‚, θ ‚, ψ ‚ | D, S) bestimmt, wobei D die gegebenen Daten und S der Artbaum mit der Zeit ist. Da jede dieser Dichten mit Bayes-Gleichheit ausgedrückt werden kann, z. B.

p ( G, l , θ , ψ | D , S) = P ( D | G , l, ψ ) p ( G , l , ψ | θ , S ) p ( θ ) P (D | S) ,

heben sich die beiden Nenner P(D|S) in der Akzeptanzwahrscheinlichkeit auf und wir erhalten

p(G, l , θ, ψ | D , S ) p (G ‚ , l ‚ , θ ‚ , ψ ‚ | D , S ) = P ( D | G , l, ψ ) p ( G, l, ψ | θ , S) p (θ) P ( D | G ‚ , l ‚, ψ ‚ ) p ( G ‚ , l ‚, ψ ‚ | θ ‚ , S) p (θ ‚ ) .

Hier haben Zähler und Nenner die gleiche Struktur, daher reicht es aus, zu beschreiben, wie der erstere berechnet wird. Zunächst kann der Faktor P (D | G, l, Ψ) mit dem von Felsenstein vorgeschlagenen Algorithmus der dynamischen Programmierung (DP) berechnet werden. Die Kanten und Teile von Kanten, für die der Gen- oder Pseudogenmodus der Sequenzevolution verwendet werden soll, sind durch Ψ angegeben. Die Gleichgewichtshäufigkeiten werden aus den Gen- und Pseudogensequenzen geschätzt und von beiden Modellen der Sequenzevolution gemeinsam genutzt. Zweitens wird der Prior p (θ) so gewählt, dass er leicht berechnet werden kann. Schließlich ist der wichtigste technische Beitrag von ein DP-Algorithmus zur Berechnung der Wahrscheinlichkeit eines Genbaums und seiner Kantenlängen bei gegebenen Parametern und des Artenbaums unter dem DL-Modell. Um p (G, l, θ, Ψ | D, S) zu berechnen, schlagen wir einen neuen DP-Algorithmus vor, der den Prozess der Pseudogenisierung und den DL-Prozess integriert.

In wurde ein DP-Algorithmus zur Berechnung des Faktors p(G, l|θ, S) beschrieben. Lassen Sie uns zunächst einige Schlüsselkonzepte definieren. Sei S‘ ein diskretisierter Artenbaum, bei dem Kanten des Artenbaums S um zusätzliche Diskretisierungsscheitelpunkte erweitert wurden, so dass alle erweiterten Scheitelpunkte innerhalb einer Kante äquidistant sind, siehe Abbildung S1 in zusätzlicher Datei 1. Der DP verwendet eine Tabelle, s(x, y, u), definiert als die Wahrscheinlichkeit, dass, wenn eine einzelne Genlinie beginnt, sich am Scheitelpunkt x∈V (S ‚) zu entwickeln, der Baum G u (der Genbaum, der bei u zusammen mit der elterlichen Kante von u verwurzelt ist) zusammen mit den durch l angegebenen Kantenlängen erzeugt wird und darüber hinaus das Ereignis, das u entspricht, bei y∈V (S ‚) auftritt. Seien v und w Kinder von u in G und seien x, y und z Eckpunkte von V (S ‚).

ρ(r) sei die Wahrscheinlichkeit, dass eine Kante von G die Rate r hat. Außerdem sei t(x, y) die Zeit zwischen den Eckpunkten x,y∈V ( S ‚) . Sei σ (u) die Funktion, die wie folgt definiert ist (i) für ein Blatt u∈L (G) , σ (u) ist das Artbaumblatt, in dem das Gen, das u darstellt, gefunden werden kann, und (ii) für jeden internen Scheitelpunkt u von G, σ (u) ist der jüngste gemeinsame Vorfahr von L (G u) in S. Wir verwenden p11 (x, y), um die Wahrscheinlichkeit zu bezeichnen, dass sich eine Genlinie „1 zu 1“ zwischen zwei Punkten im Artbaum entwickelt, d. h., ein einzelnes Gen, das an x für einige k anfängt, gibt Anlass zu k Linien an y, von denen k – 1 aussterben wird und eine Genlinie aussterben kann oder nicht. Wir verwenden p 11 ψ ( x, y) , um die Wahrscheinlichkeit zu bezeichnen, dass sich ein Pseudogen zwischen zwei Punkten x und y im Artenbaum „1 zu 1“ entwickelt, dh dass ein einzelnes Pseudogen, das bei x beginnt, für einige k zu k Pseudogen führt Linien an y, von denen k – 1 aussterben wird und eine Linie, die aussterben kann oder nicht. Ein Scheitelpunkt u∈V ( T) wird als Pseudogen bezeichnet, wenn er einen Vorfahren hat, der zu allen Scheitelpunkten gehört, die Pseudogenisierungsereignisse darstellen, die den zweiten Grad haben. Wie diese beiden „1-zu-1“ -Wahrscheinlichkeiten berechnet werden, ist in der zusätzlichen Datei 1 beschrieben. Die folgenden Rekursionen beschreiben, wie die Tabelle s mit dynamischer Programmierung berechnet werden kann:

1 Wenn u∈L (G) und x = σ(u), s(x, x, u) = 1.

2 Wenn x∈V ( S ) und x ≠ σ(u), s(x, x, u) = 0.

3, Wenn x∈V ( S ) \L ( S ) ,u∉ψ) und x = σ(u)

s ( x , x , u ) = ∑ y ∈ D L ( x ) s ( x , y , v ) ∑ y ∈ D R ( x ) s ( x , y , w ) ,

ein, wobei D L (x) und D R (x) sind die Nachkommen der linken und das Rechte Kind von x in S‘, respectively.

4, Wenn x∈V ( S ‚ ) \V ( S ) und u∉ψ,

s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } s ( x , y , w ) ,

ein, wobei D(x) ist die Menge der Nachkommen von x.

5, Wenn x∈V ( S ) , übergeordnete Element von u (d.h. p(u)) kein Pseudogen ist und z ein Kind von x ist, so dass σ ( L ( G u) ) ⊆K ( S z ‚ ) und z ein Vorfahr von y ist, dann

s ( x , y, u ) = p 11 ( x, z) ε (x, z ) ρ ( l ( p (u) , u ) /t (x, y) ) ρ ( l ( p (u), u ) / t (z, y) ) s( z , y, u) ,

wobei ε ( x , z ) die Wahrscheinlichkeit ist, dass eine bei x beginnende Genlinie kein Blatt l∈L ( S x ‚ ) \L ( S z ‚ ) erreicht. Wenn jedoch außerdem y ein Kind von x ist, reduzieren sich die obigen Ausdrücke auf,

s ( x , y, u ) = p 11 ( x , y) ε ( x , y) ρ ( l ( p (u), u ) /t ( x, y) ) s ( y , y, u) .

6 Wenn x∈V ( S ) , p(u) ein Pseudogen ist und z ein Kind von x ist, so dass σ ( L ( G u ) ) ⊆L ( S z ‚ ) und z ein Vorfahr von y ist, dann

s ( x , y , u ) = p 11 ψ ( x , z) ε (x, z ) ρ (l (p (u) , u ) / t( x, y) ) ρ ) / t ( z, y ) ) .

Wenn jedoch außerdem y ein Kind von x ist, reduzieren sich die obigen Ausdrücke auf,

s ( x , y, u ) = p 11 ψ ( x , y) ε ( x , y ) ρ ( l ( p (u), u )/t ( x, y ) ) s ( y , y, u ) .

Die Wahrscheinlichkeit, dass der Genbaum G erzeugt wird, ist die Wahrscheinlichkeit, dass, wenn eine einzelne Linie an der Wurzel von S beginnt, das einzelne Kind c der Wurzel von G irgendwo unterhalb des Grades eins auftritt Wurzel ρ von S, und dann wird der Prozess fortgesetzt und erzeugt G. Daher

p ( G , l / θ , ψ , S ) = ∑ y ∈ D ( ρ ) s ( ρ , y , c ) ,

wobei D(ρ) die Menge der Nachkommen von p .

Sampling d-Realisationen

Um die Pseudogenisierungsscheitelpunkte den Scheitelpunkten diskretisierter Artenbäume S’zuzuordnen, verwenden wir den in . Indem wir die Pseudogenisierungsscheitelpunkte Ψ eines Genbaums G unterdrücken (d. H. Jeden Zwei-Grad-Scheitelpunkt entfernen und seine Endpunkte benachbart machen), erhalten wir einen Genbaum G *. Der in eingeführte Stichprobenalgorithmus wird verwendet, um die Eckpunkte des Genbaums V (G *) auf die Eckpunkte des diskretisierten Artenbaums V (S ‚) abzubilden (siehe zusätzliche Datei 1). Die Zeitpunkte, die den Eckpunkten des diskretisierten Artenbaums zugeordnet sind, induzieren eine Zuordnung von Zeitpunkten zu den Eckpunkten von G *. Sobald die Zeitpunkte dem Elternscheitelpunkt und dem untergeordneten Scheitelpunkt eines Pseudogenisierungsscheitelpunkts u von G zugeordnet wurden, kann ein Zeitpunkt leicht mit u verknüpft werden, wobei die Verzweigungslängen der einfallenden Kanten verwendet werden.

Vergleich von Pseudogenisierungskonfigurationen

Wir sind daran interessiert, den Unterschied zwischen zwei Pseudogenisierungskonfigurationen G zusammen mit ψ und G‘ zusammen mit ψ‘ einer einzelnen Genfamilie zu quantifizieren. Beachten Sie, dass, wenn wir die Eckpunkte ψ in G und ψ ‚in G‘ unterdrücken (dh jeden solchen Grad entfernen – zwei Eckpunkte und seine Endpunkte benachbart machen), der gleiche Baum G * erhalten wird. Sei E ψ und E ψ‘ die Menge der Kanten von G*, die durch Unterdrückung von ψ bzw. ψ‘ eingeführt werden. Wenn die Kante e ∈ E(G*) durch Unterdrückung von u erzeugt wurde, wird u als Ursprung von e .

Beachten Sie, dass für jede Kante f in E ψ oder E ψ‘ alle Blätter unter f Pseudogene sind. Wenn also f ∈ E ψ , dann gibt es entweder Kanten von E ψ‘ unterhalb von f auf einem beliebigen Pfad von f zu den Blättern darunter oder es gibt eine Kante oberhalb von f, die zu E ψ‘ gehört . Im ersteren Fall nennen wir f ein Dach und die Ränder von E ‚ seinen Schatten. Im letzteren Fall wird die Kante von E ψ‘ als Dach bezeichnet und f gehört zu seinem Schatten.

Der erste Abstand, edge distance , ignoriert die Zeit und wird stattdessen basierend auf der Entfernung in G* definiert. Für jedes Kantenpaar von G * gibt es einen eindeutigen kürzesten Pfad, der sie enthält; Der Abstand zwischen zwei solchen Kanten ist definiert als die Anzahl der internen Scheitelpunkte auf diesem Pfad.

Zunächst definieren wir zwei topologische Abstände (Abbildung 2). Der Kantenabstand zwischen zwei Pseudogenisierungsscheitelpunkten a ψ und b ψ‘, wobei a ψ, b ψ Ursprünge von Kanten e a bzw. e b sind, so dass e a, e b ∈ E(G∗) als minimaler Längenweg zwischen e a und e b in G∗ definiert ist. Für jede Dachkante f ∈ E ψ bzw. f ∈ E ψ‘ sei d m(f) bzw. d a(e) der maximale Kantenabstand bzw. mittlere Kantenabstand zwischen f und den Kanten ihrer Beschattung. Der maximale topologische Abstand D m und der mittlere topologische Abstand D a zwischen G, ψ und G‘, ψ‘ seien das Maximum von d m(f) bzw. der Durchschnitt von d a(f) über alle Dächer f ∈ E ψ ∪ E ψ‘. Der wahre Genbaum und seine Pseudogenisierungsscheitelpunkte seien (G, ψ) und q sei die posteriore Wahrscheinlichkeitsverteilung. Schließlich berechnen wir den erwarteten Durchschnitt E D a und den maximalen Durchschnitt M D a der topologischen Abstände als:

Abbildung 2
figure2

Topologische Abstände zwischen zwei Pseudogenisierungskonfigurationen, D a = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = max ( max (1, 1) , max (1, 2, 2)).

E D a ( ( G, Ψ ) , q ) = ∑ G ‚, Ψ ‚ D a ( ( G, Ψ ) , ( G ‚, Ψ ‚ ) ) q ( G ‚, Ψ ) M D a ( ( G, Ψ ) , q ) = max G ‚ , Ψ ‚ D a ( ( G, Ψ ) , ( G ‚, Ψ ‚ ) ) q ( G ‚ , Ψ )

Wir definieren auch das erwartete Maximum E D m und das maximale Maximum M D m der topologischen Abstände als:

E D m ( ( G, Ψ ) , q ) = ∑ G ‚ , Ψ ‚ D m ( ( G, Ψ ) , ( G ‚ , Ψ ‚ ) ) q ( G ‚, Ψ ) M D m ( ( G , Ψ ) , q ) = max G ‚ , Ψ ‚ D m ( ( G, Ψ ) , ( G ‚ , Ψ ‚ ) ) q ( G ‚ , Ψ )

Zweitens definieren wir die zeitlichen Abstände. Diese werden analog zur Topologie erhalten, aber anstatt die zeitlichen Abstände zwischen Dächern und ihren Schattierungen zu verwenden, verwenden wir die zeitlichen Abstände zwischen der Zeit, die mit dem Ursprung eines Daches verbunden ist, und der Zeit, die mit den Ursprüngen seines Farbtons verbunden ist.Der topologische Abstand misst den Abstand eines echten Pseudogenisierungsscheitelpunkts von dem abgeleiteten entlang der Genbaumtopologie, während der zeitliche Abstand den Abstand zwischen den Zeiten (entlang des Artenbaums) misst, die mit dem wahren Pseudogenisierungsscheitelpunkt und dem abgeleiteten verbunden sind.

Synthetische und biologische Analyse

Wir haben unsere Methode PrIME-PDLRS an synthetischen Daten getestet und auf biologische Daten angewendet. Wir beschreiben zunächst die Tests mit synthetischen Daten. Zufällige Genbäume mit Kantenlängen und Pseudogenisierungsscheitelpunkten wurden unter Verwendung einer modifizierten Version des PrIME-Genbaumgenerators mit einer Pseudogenisierungsrate von 0,5 und biologisch realistischen Duplikationsverlustraten erzeugt, die durch Analyse von Genfamilien des Datensatzes beobachtet wurden . Gensequenzen wurden nach dem PDLRS-Modell erzeugt. Gensequenzen wurden unter Verwendung von Codonsubstitutionsmatrizen entwickelt, wie von Bielawski et al. . Für die Evolution von Pseudogenen wurde eine neutrale Codonsubstitutionsmatrix verwendet, bei der das Ratenverhältnis von nicht-synonymen zu synonymen Substitutionen (dN / dS) auf 1,0 eingestellt wurde. Im neutralen Codon-Substitutionsmodell konnte jedes Codon durch ein Stop-Codon ersetzt werden, während dies unter dem im Fall der Genevolution verwendeten Substitutionsmodell nicht möglich war. Fünfundzwanzig verschiedene Kombinationen von dN / dS-Ratenverhältnissen und Übergangs- / Transversionsratenverhältnissen wurden verwendet, um Gensequenzen über fünfundzwanzig Genfamilien unter Verwendung einheitlicher Codongleichgewichtsfrequenzen zu erzeugen. Um ein biologisch realistisches Szenario zu simulieren, verwendeten wir den Artenbaum (erhalten wie in ) für die neun Wirbeltierarten des Datensatzes, der heruntergeladen wurde von http://genserv.anat.ox.ac.uk/downloads/clades/ Die abgeleiteten Pseudogenisierungsscheitelpunkte wurden dann mit den echten Pseudogenisierungsscheitelpunkten unter Verwendung von zwei Arten von Entfernungsmetriken verglichen, d. H. Der topologischen Entfernung (Genbaum) und der zeitlichen Entfernung (Artenbaum).

Die biologischen Datensätze bestanden aus Unterfamilien aus den beiden größten Genfamilien von Wirbeltieren, d.h. Geruchsrezeptoren und Zinkfingern. Es wurde berichtet, dass Geruchsrezeptoren die größte Genfamilie in den Wirbeltieren sind . Bei Arten wie Kuh, Schnabeltier und Primaten wurde eine hohe Pseudogenisierungsrate beobachtet, während Opossum, Hunde, Maus und Ratten eine relativ geringe Pseudogenisierungsrate aufweisen . Sieben Subgenfamilien, die vorzugsweise mindestens ein Pseudogen pro Spezies aufweisen, wurden von http://bioportal.weizmann.ac.il/HORDE/ für die Spezies Mensch (Homo sapiens), Hund (Canis lupus familiaris), Opossum (Didelphis virginiana) und Schnabeltier (Ornithorhynchus anatinus) heruntergeladen. Zwei Zinkfinger-Subgenfamilien wurden auch bei Menschen (Homo sapiens), Schimpansen (Pan troglodytes), Orang-Utans (Pongo abelii) und Rhesusaffen (Macaca mulatta) untersucht. Zu diesem Zweck wählten wir zwei Unterfamilien aus den orthologen Genen mit hoher Konfidenz (die von OrthoMCL , reziproken Best-BLAST-Treffern und Synteny unterstützt werden). Die entsprechenden Eltern-/Paralog-Gene wurden mit PSI-BLAST gesucht und aus http://ensembl.org extrahiert. Die orthologen Gene mit hoher Konfidenz wurden aus dem „KZNF-Katalog“ heruntergeladen (http://znf.igb.illinois.edu) . Da sich die Pseudogene in der Zinkfinger-Genfamilie größtenteils durch fragmentierte Duplikationen entwickelt haben , ist es schwierig, die Pseudogene und die entsprechenden Gene korrekt auszurichten, was eindeutig eine notwendige Voraussetzung für die Rekonstruktion des Genbaums ist. Alignments der neun Subgenfamilien wurden manuell kuratiert, nachdem sie mit MACSE ausgerichtet wurden , so dass Stop-Codons und die Einführung von Strafen für die Schaffung einer Lücke (-7), die Erweiterung einer Lücke (-1) und die Einführung von Frameshift (-14). Die datierten Artenbäume für beide biologischen Datensätze wurden von http://timetree.org heruntergeladen. Die Subgenfamilien wurden dann unter Verwendung derselben Pipeline analysiert, die für die synthetische Analyse verwendet wurde. Potenzielle Genbäume wurden mit PrIME-DLRS rekonstruiert, die dann mit PrIME-PDLRS unter Verwendung der Option Fixed gene-tree analysiert wurden. Der PrIME-DLRS-Genbaum mit dem besten PrIME-PDLRS-Zustand mit der höchsten posterioren Wahrscheinlichkeit wurde als wahrscheinlichster Genbaum ausgewählt. Die posterioren über Pseudogenisierungsereignisse der wahrscheinlichsten Genbäume wurden dann unter Verwendung der während des Markov-Kettendurchlaufs erzeugten Detailrealisierungen analysiert.

MCMC-Analyse

Die Bayes-Analyse wurde für die Genfamilien mit dem MCMC-basierten Analysetool PrIME-PDLRS durchgeführt. Die MCMC-Kette wurde so eingerichtet, dass sie über alle Parameter hinweg integriert wurde, d. H. Genbaum, Kantenlängen, Pseudogenisierungsscheitelpunkte auf dem Genbaum, Geburts-Todes- und Pseudogenisierungsraten sowie Mittelwert und Varianz der Kantensubstitutions-Raten. Wir haben während des gesamten MCMC-Prozesses verschiedene Parameter abgetastet, darunter Geburten-Sterberaten, Pseudogenisierungsrate, Genbaum, Pseudogenisierungsscheitelpunkte, dN / dS-Ratenverhältnis und Übergang / Transversionsratenverhältnis. Ein oder mehrere Parameter wurden bei jeder Iteration gestört. Die Störung des Genbaums erfolgte unter Verwendung von Standardmethoden zur Störung des Genbaums, wie z. B. Beschneiden und Umformen von Teilbäumen, Austausch des nächsten Nachbarn und erneutes Wurzeln. Nach einer Störung wurde die Validität des resultierenden Genbaums bescheinigt, d.h. keine Pseudogen-Abstammung führte zu einer Gen-Abstammung. Jedes Mal, wenn ein Genbaum vorgeschlagen wird, wird ein gültiger gestörter Genbaum vorgeschlagen. Die Nachbarverbindungsmethode wird verwendet, um den anfänglichen Baum zu Beginn der MCMC-Kette zu konstruieren. Die Vorschlagsverteilung schlägt Bewegungen von Pseudogenisierungsscheitelpunkten über die Linien eines Genbaums in einer Weise vor, dass die Wahrscheinlichkeit, eine Aufwärtsbewegung eines Pseudogenisierungsscheitelpunkts vorzuschlagen, gleich der Wahrscheinlichkeit ist, eine Abwärtsbewegung vorzuschlagen. Die dN/dS-Ratenverhältnisse werden aus einer abgeschnittenen Normalverteilung in abgetastet, während die Übergangs- /Transversionsratenverhältnisse aus einer abgeschnittenen Normalverteilung in abgetastet werden . Die Geburten-Todes- und Pseudogenisierungsraten werden aus einer abgeschnittenen Normalverteilung in entnommen . Für die Störung der Parameter des Ratenmodells und der Kantenlängen um den aktuellen Wert wurden abgeschnittene normale Vorschläge verwendet, wobei Abstimmparameter in Bezug auf Akzeptanzverhältnisse verwendet wurden. Substitutionsparameter wurden entweder durch Störung des Verteilungsmittelwerts oder des Variationskoeffizienten gestört. Um festzustellen, ob die MCMC-Ketten konvergiert sind, haben wir VMCMC als Diagnosetool verwendet. Aus den ersten Läufen wurde beobachtet, dass es sicher war, eine Einbrennperiode von 2.500.000 zu verwenden. Für den Rest der Läufe verwendeten wir 5.000.000 Iterationen, eine Einbrennperiode von 2.500.000 und eine Ausdünnung von 500. Wir verwendeten PrIME-DLRS als ersten Schritt, um die potenziellen Genbäume zu rekonstruieren. Jeder potenzielle Genbaum wurde mit PrIME-PDLRS mit einer festen Genbaumoption analysiert.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.