i dette afsnit introducerer vi først Pseudogenisering, duplikering, tab, hastighed og Sekvensudviklingsmodel, PDLRS. Vi starter med først at definere nogle grundlæggende udtryk. Et art-træ er et rodfæstet binært træ, der repræsenterer evolutionær historie af arter, hvor blade repræsenterer eksisterende arter, og interne hjørner repræsenterer specieringshændelser. Et gen-træ er også et rodfæstet binært træ, der repræsenterer evolutionær historie af et sæt gener. Et gen-træ kan have gener eller pseudogener som sine blade.
PDLRS-modellen
PDLRS-modellen er en udvidelse af DLRS-modellen opnået ved også at inkludere pseudogeniseringshændelser. Modellen beskriver, hvordan en genlinje udvikler sig inde i et artstræ med en grad en rod, ved at starte ved roden og efterfølgende udvikle sig mod bladene, mens de udsættes for genduplikation, gentab, og pseudogeniseringshændelser ved hastigheder henholdsvis Også, når et gen afstamning når en art-træ toppunkt, det altid (dvs., deterministisk) bifurcates og de to så indeholdte genlinjer fortsætter med at udvikle sig under artstræets toppunkt, en i hver af dens to udgående arter-trækanter.
selvom en genlinje under denne proces kan skifte til en pseudogen afstamning, er en pseudogen afstamning ikke tilladt at skifte tilbage til en genlinje. Pseudogeniseringshændelser introducerer grad to hjørner i gentræet. En pseudogen-Slægt opfører sig ellers som en gen-Slægt, den kan duplikere eller gå tabt under udviklingen, og den deterministisk bifurcates, når den når et art-træ-toppunkt. En slægt, der når bladene på artstræet, giver anledning til et blad i gentræet, der repræsenterer et eksisterende gen eller pseudogen. Hjørner og kanter af gentræet, der ikke fører til sådanne eksisterende blade, beskæres imidlertid fra gentræet (Figur 1). Da denne proces finder sted i et artstræ med tiden på dets hjørner og kanter, forekommer hver begivenhed på et bestemt tidspunkt. Hver gang en begivenhed opretter et nyt gen – træ-toppunkt, er tidspunktet for begivenheden forbundet med det nye toppunkt.
for at opnå et afslappet molekylært ur, samples satser uafhængigt af en Kursfordeling (parametreret med et gennemsnit og en varians) for hver kant, og en kant med tiden t og hastighed r tildeles en længde l. endelig udvikles sekvenser over dette gentræ med dets længder. Husk, at pseudogeniseringshændelser introducerer grad to hjørner i gentræet. Over en kant, hvor forældrenes toppunkt er et gen, anvendes en model for sekvensudvikling, der er egnet til gener, mens når forældrenes toppunkt repræsenterer et pseudogen (og følgelig også barnet repræsenterer et pseudogen), anvendes en model for sekvensudvikling, der er egnet til pseudogener. Disse modeller kan varieres, men her bruger vi to kodonmodeller beskrevet nedenfor.
for at modellere de to tilstande af sekvensudvikling bruger vi to kodonsubstitutionsmatricer foreslået af, en til udvikling af pseudogener og andre for gener. Den øjeblikkelige substitution sats matrix fra codon jeg at codon j, q ij er i begge tilfælde bestemt af:
hvor π j er den balance, hyppigheden af codon j, μ er en normalisering faktor, κ er overgangen/transversion forhold, og ω er det ikke ensbetydende med at synonymt (dN/dS) – forholdet. Bortset fra Kurt deles disse parametre mellem de to tilstande af sekvensudvikling. For pseudogener er Kross lig med 1, og overgang til stopkodoner er tilladt, mens for gener overgang til stopkodon ikke er tilladt.
PrIME-PDLRS MCMC-rammen
PrIME-PDLRS er et MCMC-baseret analyseværktøj til ovennævnte model. Det tager som input en multiple sekvensjustering af gen-og pseudogensekvenser sammen med en klassificering af disse sekvenser som gener eller pseudogener. Det kræver også en dateret Art-træ S. Lad os betegne et gen-træ ved G, dets kantlængder ved l og andre parametre af modellen ved kr. Parameteren Kris er sammensat, der indeholder: duplikeringshastigheden; tabshastighed; pseudogeniseringshastighed; kanthastighed gennemsnit og variationskoefficient; og ikke-synonymt med synonyme satser (dN/dS) og overgangs – /transversionshastigheder for kodonsubstitutionsmodel for sekvensudvikling.
Vi vil bruge Krust til at betegne sættet af pseudogeniseringshjørner (grad to) i gentræet (ingen af disse hjørner kan ligge på den samme rod til bladsti). Vi bruger P (·) til at betegne en sandsynlighed og p (·) til at betegne en sandsynlighedstæthed.
en tilstand i Vores Markov-kæde er en firdobling (G, l, LR, Lr). Bladene i gentræet svarer til de givne sekvenser, og enhver sekvens klassificeret som et pseudogen skal have en forfader i G, der hører til kur. Når den nuværende tilstand er (G, l, θ, Ψ), accept sandsynligheden for, at en foreslået staten ( G ‘, l ‘, θ ‘, ψ ‘) , er bestemt af forholdet mellem p(G, l, θ, Ψ| D, S) og p ( G ‘, l ‘, θ ‘, ψ ‘ | D , S ) , hvor D er givet data og S er de arter-træet med tiden. Da hver af disse tætheder kan udtrykkes ved hjælp af Bayes ligestilling, for eksempel,
de to nævnere P(D|S) i accept sandsynlighed annullerer hinanden, og vi modtager
Her har tælleren og nævneren den samme struktur, så det er tilstrækkeligt at beskrive, hvordan man beregner førstnævnte. For det første kan faktoren P(D|G, L, Kurt) beregnes ved hjælp af dynamisk programmering (DP) algoritme foreslået af Felsenstein . De kanter og dele af kanter, for hvilke gen-eller pseudogen-tilstanden for sekvensudvikling skal anvendes, er specificeret af Larsen. Ligevægtsfrekvenserne estimeres ud fra gen-og pseudogensekvenserne og deles af begge modeller for sekvensudvikling. For det andet vælges den tidligere p(LARP), så den let kan beregnes. Endelig er det vigtigste tekniske bidrag fra en DP-algoritme til beregning af sandsynligheden for et gen-træ og dets kantlængder givet parametre og artstræet under DL-modellen. For at beregne p(G, l, Kurt, Kurt|D, S) foreslår vi en ny DP-algoritme, der integrerer processen med pseudogenisering og DL-processen.
i, en DP-algoritme til beregning af faktoren p(G, l|LR, S) blev beskrevet. Lad os først definere nogle nøglebegreber. Lad S ‘ være et diskretiseret artstræ, hvor kanter af artstræet er blevet forstærket med yderligere diskretiseringshjørner, således at alle de forstørrede hjørner er lige langt inden for en kant, se figur S1 i yderligere fil 1. DP gør brug af en tabel, S(H, y, u), defineret som sandsynligheden for , at når et enkelt gen afstamning begynder at udvikle sig ved toppunktet hs ( s’), træet G u (gen-træet rodfæstet ved u sammen med forældrekanten af u) genereres sammen med de kantlængder, der er specificeret af l, og desuden forekommer begivenheden svarende til u ved y-kurvv ( S ‘ ) . Lad v og v være børn af u I G, og lad V, y og å være hjørner af V(S’).
lad det være sandsynligheden for, at en kant af G har Sats r. lad også t(H, y) være tiden mellem hjørner h,y-v(S’). Lad karrus (u) være den funktion , der er defineret som følger ( i) for et blad u karrus L (G), karrus (u) er det artstræblad, hvor genet, som u repræsenterer, kan findes, og (ii) for ethvert internt toppunkt u af G, karrus(u) er den seneste fælles forfader til L(G U ) I S. Vi bruger p11 (H, y) til at betegne sandsynligheden for, at en genlinje udvikler sig “1-til-1” mellem to punkter i artstræet, dvs. K giver anledning til k – Slægter ved y, hvoraf k-1 vil uddø, og en genlinje kan eller måske ikke uddø. Vi bruger p 11 til at betegne sandsynligheden for, at et pseudogen udvikler sig “1-til-1″ mellem to punkter h og y i artstræet, dvs.at et enkelt pseudogen starter ved H, for nogle K giver anledning til K pseudogene Slægter ved y, hvoraf k-1 vil uddø og en slægt, som måske eller måske ikke uddør. Et toppunkt u-Kurt V (T ) kaldes en pseudogen, hvis den har en forfader, der hører til alle de hjørner, der repræsenterer pseudogeniseringshændelser. Hvordan man beregner begge disse” 1-til-1 ” sandsynligheder er beskrevet i yderligere fil 1. Følgende rekursioner beskriver, hvordan tabellen s kan beregnes ved hjælp af dynamisk programmering:
1 Hvis u-l ( G ) og H = – L(u), s(H, H, u) = 1.
2 Hvis v ( s ) og v(u), s(h, h, u) = 0.
3 Hvis x∈V ( S ) \L ( S ) ,u∉ψ, og x = σ(u),
hvor D er L (x) og D R (x) er efterkommere af den venstre og den højre barn af x i S’, hhv.
4 Hvis x∈V ( S ‘ ) \V ( S ) og u∉ψ,
hvor D(x) er mængden af efterkommere af x.
5 Hvis x∈V ( S ) , parent af u (dvs p(u)) er ikke en pseudogene, og z er et barn af x, således at σ ( L ( G (u ) ) ⊆K ( S, z’), og z er en forfader til y, derefter
hvor ε ( x , z ) er sandsynligheden for, at et gen slægt, der starter ved x ikke nå et blad, l∈L ( S, x ‘) \L ( S, z ‘ ) . Men hvis I øvrigt y er et barn af de ovennævnte udtryk reducere til,
6 Hvis x∈V ( S ) , s(u) er en pseudogene, og z er et barn af x, således at σ ( L ( G (u ) ) ⊆L ( S, z’), og z er en forfader til y, derefter
men hvis y er et barn af de ovennævnte udtryk reducere til,
sandsynligheden for, at gentræet G genereres, er sandsynligheden for, at når en enkelt afstamning starter ved roden af S, forekommer det enkelte barn c i roden af G et sted under graden en rodrær af S, og derefter fortsætter processen og genererer G. Derfor,
hvor D(ρ) er det sæt af efterkommere af p.
Prøvetagning d-erkendelser
for at kortlægge pseudogenization vertices til vertices af discretized arter-træet, S’, vi bruger dynamisk programmering algoritme, der er foreslået i . Ved at undertrykke pseudogeniseringshjørnerne for et gen-træ G (dvs.fjerne hver grad-to toppunkt og gøre dets endepunkter tilstødende) opnår vi et gen-træ G*. Prøveudtagningsalgoritmen introduceret i bruges til at kortlægge hjørnerne af gentræet V(G*) til hjørnerne af det diskretiserede artstræ V(S’) (se yderligere fil 1). De tidspunkter, der er forbundet med hjørnerne af det diskretiserede artstræ, inducerer en sammenslutning af tidspunkter til hjørnerne af G*. Når tidspunkterne er blevet forbundet med forældrenes toppunkt og barnepunktpunkt i et pseudogeniseringspunkt u af G, et tidspunkt kan let forbindes med u, ved hjælp af grenlængderne på hændelseskanterne.
sammenligning af pseudogeniseringskonfigurationer
Vi er interesserede i at kvantificere forskellen mellem to pseudogeniseringskonfigurationer G sammen med LR og G’ sammen med LRR’ af en enkelt genfamilie. Bemærk, at hvis vi undertrykker knudepunkterne i henholdsvis g og g (dvs. fjerner hver sådan grad-to hjørner og får dens slutpunkter til at blive tilstødende), opnås det samme træ g*. Lad E og e være det sæt af kanter af G*, der indføres ved at undertrykke hhv. Hvis kanten e-Kran E (G*) blev oprettet ved at undertrykke u, kaldes u oprindelsen af e.
Bemærk, For enhver kant f i e-kran eller e-kran’ , alle blade under f er pseudogener. Så hvis f-Kran E – kran, så er der enten kanter af e-kran’ under f på en hvilken som helst sti fra f til bladene under den, eller der er en kant over f, der hører til e-kran’ . I det tidligere tilfælde, kalder vi f et tag og kanterne af e Krar’ sin skygge. I sidstnævnte tilfælde kaldes kanten af E-K’ et tag, og f hører til dens skygge.
den første afstand, kantafstand, ignorerer tid og defineres i stedet baseret på Afstand i G*. For hvert par kanter af G* er der en unik korteste sti, der indeholder dem; afstanden mellem to sådanne kanter er defineret til at være antallet af interne hjørner på den sti.
først definerer vi to topologiske afstande (figur 2). Kanten er afstanden mellem de to pseudogenization vertices en ψ-og b-ψ’, hvor en ψ , b ψ er oprindelsen af kanter e og e b , henholdsvis, sådan at e a , e, b ∈ E(G∗), er defineret som den mindste længde sti mellem e og e b i G∗. Lad d M (f ) og d A (e) være henholdsvis den maksimale kantafstand og den gennemsnitlige kantafstand mellem f og kanterne på dens skygge. Lad den maksimale topologiske afstand D m og den gennemsnitlige topologiske afstand D A mellem G, kr .og G’, kr. være den maksimale d m (F ) og gennemsnittet af kr. A (f) over alle tagene f kr. E kr. E kr. Lad det sande gentræ og dets pseudogeniseringshjørner være (G, kr) og K være den bageste sandsynlighedsfordeling. Endelig beregner vi det forventede gennemsnit E D A og det maksimale gennemsnit M D A af de topologiske afstande som:
topologiske afstande mellem to pseudogeniseringskonfigurationer, D A = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = Maks (maks (1, 1), maks (1 , 2, 2)).
Vi også angive den forventede maksimale E D m og maksimal maksimal M D m af topologiske afstande som:
for det Andet, kan vi definere den tidsmæssige afstande. Disse opnås analogt med det topologiske, men i stedet for at bruge kanterne afstande mellem tag og deres nuancer, bruger vi de tidsmæssige afstande mellem den tid, der er forbundet med oprindelsen af et tag og den tid, der er forbundet med oprindelsen af dets skygge.
topologisk afstand måler afstanden til et ægte pseudogeniseringspunkt fra det udledte langs gentræetopologien, mens den tidsmæssige afstand måler afstanden mellem tiderne (langs artstræet) forbundet med det sande pseudogeniseringspunkt og det udledte.
syntetisk og biologisk analyse
Vi testede vores metode PrIME-PDLRS på syntetiske data og anvendte den på biologiske data. Vi beskriver først testene på syntetiske data. Tilfældige gentræer med kantlængder og pseudogeniseringshjørner blev genereret ved hjælp af en modificeret version af PrIME-Gen-Trægenerator med pseudogeniseringshastighed på 0,5 og biologisk realistiske duplikationstabshastigheder observeret ved at analysere genfamilier af optisk datasæt . Gensekvenser blev genereret i henhold til PDLRS-modellen. Gensekvenser blev udviklet ved hjælp af kodonsubstitutionsmatricer som foreslået af Bielavski et al. . En neutral kodonsubstitutionsmatrice blev anvendt til udviklingen af pseudogener, hvor hastighedsforholdet mellem ikke-synonymt med synonyme substitutioner (dN/dS) blev sat til 1,0. I den neutrale codonsubstitutionsmodel kunne ethvert codon erstattes med et stopkodon, mens dette ikke var muligt under den substitutionsmodel, der blev anvendt i tilfælde af genudvikling. Femogtyve forskellige kombinationer af DN/dS-hastighedsforhold og overgangs – / transversionshastighedsforhold blev brugt til at generere gensekvenser på tværs af femogtyve genfamilier ved anvendelse af ensartede codon-ligevægtsfrekvenser. For at simulere et biologisk realistisk scenario brugte vi artstræet (opnået som i ) for de ni hvirveldyr arter af optisk datasæt, som blev hentet fra http://genserv.anat.ox.ac.uk/downloads/clades/ de udledte pseudogeniseringshjørner blev derefter sammenlignet med de sande pseudogeniseringshjørner ved hjælp af to slags afstandsmålinger, dvs.topologisk afstand (gen-træ) og tidsmæssig afstand (Art-træ).
de biologiske datasæt bestod af underfamilier fra de to største genfamilier af hvirveldyr, dvs.olfaktoriske receptorer og fingre. Olfaktoriske receptorer er rapporteret at være den største genfamilie i hvirveldyr . Hos arter som ko, platypus og primater er der observeret en høj pseudogeniseringshastighed, mens opossum, Hunde, Mus og rotter har relativt lav pseudogeniseringshastighed . Syv sub-genfamilier fortrinsvis med mindst en pseudogen per art blev hentet fra http://bioportal.weizmann.ac.il/HORDE/ for arten af mennesker (Homo sapiens), hund (Canis lupus familiaris), opossum (didelphis virginiana) og platypus (Ornithorhynchus anatinus). To sub – genfamilier blev også undersøgt på tværs af arten af mennesker (Homo sapiens), chimpanse (Pan troglodytes), orangutang (Pongo abelii) og rhesus makak (Macaca mulatta). Til dette formål valgte vi to underfamilier fra de ortologe gener med høj tillid (som understøttes af OrthoMCL , gensidige bedste BLAST hits og synteny). De tilsvarende forældre / paralogøse gener blev søgt ved hjælp af PSI-BLAST og ekstraheret fra http://ensembl.org. De ortologe gener med høj tillid blev hentet fra’ ksnf-kataloget ‘ (http://znf.igb.illinois.edu) . Som følge af fragmenterede duplikationer er det udfordrende at justere pseudogener og tilsvarende gener korrekt , klart en nødvendig betingelse for rekonstruktion af gentræet. Justeringer af de ni sub-genfamilier blev manuelt kurateret efter at have tilpasset dem med MACSE , hvilket tillod stopkodoner og indførte sanktioner for oprettelse af et hul (-7), udvidelse af et hul (-1) og introduktion af frameshift (-14). De daterede arter-træer for begge de biologiske datasæt blev hentet fra http://timetree.org. Subgenfamilierne blev derefter analyseret ved hjælp af den samme rørledning som anvendt til syntetisk analyse. Potentielle gen-træer blev rekonstrueret ved hjælp af PrIME-DLR ‘er, som derefter blev analyseret af PrIME-PDLR’ er ved hjælp af fast gen-træ mulighed. PrIME – DLRs gen-træet med den bedste PrIME-PDLRS-tilstand med den højeste posterior sandsynlighed blev valgt som det mest sandsynlige gen-træ. De bageste over pseudogeniseringshændelser af de mest sandsynlige gentræer blev derefter analyseret ved hjælp af de detaljerede erkendelser, der blev genereret under Markov-kæden.
MCMC-analyse
Bayesian-analyse blev udført for genfamilierne ved hjælp af MCMC-baseret analyseværktøj, PrIME-PDLRS. MCMC-kæden blev konfigureret til at integrere over alle parametre, dvs.gen-træ, kantlængder, pseudogeniseringshjørner på gen-træ, fødselsdød og pseudogeniseringshastigheder og middelværdi og varians af kantsubstitutionshastigheder. Vi samplede forskellige parametre i hele MCMC-processen, herunder fødselsdødsfrekvenser, pseudogeniseringshastighed, gentræ, pseudogeniseringshjørner, DN/dS-hastighedsforhold og overgangs – /transversionshastighedsforhold. En eller flere parametre blev forstyrret ved hver iteration. Forstyrrelsen af gentræet blev udført ved hjælp af standard gen-træ-forstyrrelsesmetoder såsom beskæring af undertræ og regrafting, nærmeste naboudveksling og rodfæstelse. Efter en forstyrrelse blev gyldigheden af det resulterende gentræ certificeret, dvs.ingen pseudogen afstamning fører til en genlinje. Et gyldigt forstyrret gen-træ foreslås, hver gang et gen-træ foreslås. Nabo Sammenføjningsmetode bruges til at konstruere det oprindelige træ i starten af MCMC-kæden. Forslagsfordelingen foreslår bevægelser af pseudogeniseringshjørner på tværs af et gentræs slægter på en sådan måde, at sandsynligheden for at foreslå en opadgående bevægelse af et pseudogeniseringshjørne er lig med sandsynligheden for at foreslå en nedadgående bevægelse. DN / dS-satsforholdene samples fra en afkortet normalfordeling i , mens forholdet mellem overgang/transversion samples fra en afkortet normalfordeling i . Fødselsdød og pseudogeniseringshastigheder udtages fra en afkortet normalfordeling i . Trunkerede normale forslag blev brugt til forstyrrelse af parametrene for hastighedsmodellen og kantlængder omkring den aktuelle værdi med indstillingsparametre håndlavet med hensyn til acceptforhold. Substitutionshastighedsparametre blev forstyrret ved enten at forstyrre fordelingsgennemsnittet eller variationskoefficienten. For at finde ud af, om MCMC-kæderne er konvergeret, brugte vi vmcmc som et diagnostisk værktøj. Fra de indledende kørsler blev det observeret, at det var sikkert at bruge en indbrændingsperiode på 2.500.000. I resten af løbene brugte vi 5.000.000 iterationer, indbrændingsperiode på 2.500.000 og udtynding af 500. Vi brugte PrIME-DLR ‘ er som et første skridt til at rekonstruere de potentielle gentræer. Hvert potentielt gen-træ blev analyseret ved hjælp af PrIME-PDLR ‘ er med en fast gen-træ-mulighed.