Figura 1
Pseudogenizzazione, Duplicazione, Perdita, Evoluzione della sequenza & Tariffe (PDLRS). L “evoluzione di un gene e pseudogene lignaggi all” interno di un bordo dell ” albero specie è modellato da un processo di nascita-morte. Un lignaggio gene / pseudogene può incontrare un evento di duplicazione o un evento di speciazione. Un lignaggio genico (rappresentato da lignaggi neri) può convertirsi in un lignaggio pseudogene (rappresentato da lignaggi marroni). Ogni volta che un lignaggio gene/pseudogene passa attraverso un evento di speciazione, si divide in due lignaggi genici indipendenti. Un lignaggio genetico può anche essere perso. Dopo aver potato tutti i lignaggi persi, si ottiene l’albero genetico finale. Un orologio molecolare rilassato è impiegato per ottenere le lunghezze del ramo. Infine, un modello standard di evoluzione della sequenza genera sequenze sull’albero genetico con lunghezze di ramo. I colori verde e marrone rappresentano rispettivamente l’evoluzione della sequenza genica e pseudogena.
Al fine di ottenere un orologio molecolare rilassato, i tassi sono campionati indipendentemente da una distribuzione Γ (parametrizzata da una media e una varianza) per ogni bordo, e un bordo con tempo t e tasso r è assegnato una lunghezza l. Infine, sequenze sono evoluti su questo gene-albero con le sue lunghezze. Ricordiamo che gli eventi di pseudogenizzazione introducono gradi due vertici nel gene-albero. Sopra un bordo in cui il vertice parentale è un gene viene utilizzato un modello di evoluzione della sequenza adatto ai geni, mentre quando il vertice parentale rappresenta uno pseudogene (e, di conseguenza, anche il bambino rappresenta uno pseudogene) viene utilizzato un modello di evoluzione della sequenza adatto agli pseudogeni. Questi modelli possono essere variati, ma qui usiamo due modelli di codone descritti di seguito.
Al fine di modellare le due modalità di evoluzione della sequenza, utilizziamo due matrici di sostituzione dei codoni proposte da , una per l’evoluzione degli pseudogeni e l’altra per quella dei geni. L’attuale tasso di sostituzione matrice codone io per codone j, q ij è in entrambi i casi determinati da:
q i j = 0 , se i e j differiscono per più di una posizione in un codone tripletta μ π j , differiscono da un sinonimo transversion μ κ π j , differiscono da un sinonimo di transizione μ ω π j , differiscono da un nonsynonymous transversion μ κ ω π j , differiscono per una nonsynonymous transizione
dove π j è l’equilibrio frequenza di codone j, μ è un fattore di normalizzazione, κ è la transizione/transversion rapporto, e ω è il non-sinonimo di sinonimo (dN/dS) rapporto. Tranne da ω, questi parametri sono condivisi tra le due modalità di evoluzione della sequenza. Per gli pseudogeni, ω è uguale a 1 e la transizione per fermare i codoni è consentita, mentre per i geni la transizione per fermare il codone non è consentita.
Il framework MCMC PrIME-PDLRS
PrIME-PDLRS è uno strumento di analisi basato su MCMC per il modello sopra menzionato. Prende come input un allineamento di sequenze multiple di sequenze geniche e pseudogene insieme a una classificazione di queste sequenze come geni o pseudogeni. Si richiede anche una specie datata-albero S. Indichiamo un albero genetico per G, le sue lunghezze di bordo per l e altri parametri del modello per θ. Il parametro θ è composto, contenente: il tasso di duplicazione; tasso di perdita; tasso di pseudogenizzazione; tasso di bordo medio e coefficiente di variazione; e tassi non sinonimi a sinonimi (dN/dS) e tassi di transizione/transversion per il modello di sostituzione del codone di evoluzione della sequenza.
Useremo Ψ per indicare l’insieme dei vertici di pseudogenizzazione (grado due) nell’albero dei geni (non ci sono due di questi vertici che possono trovarsi sullo stesso percorso da radice a foglia). Usiamo P(·) per indicare una probabilità e p(·) per indicare una densità di probabilità.
Uno stato nella nostra catena di Markov è una quadrupla (G, l, θ, Ψ). Le foglie nel gene-albero corrispondono alle sequenze date e qualsiasi sequenza classificata come pseudogene deve avere un antenato in G che appartiene a Ψ. Quando lo stato attuale è (G, l, θ, Ψ), la probabilità di accettazione di uno stato proposto ( G’, l’, θ’, ψ’), è determinata dal rapporto tra p(G, l, θ, Ψ| D , S) e p ( G’, l’, θ’, ψ ‘ | D , S), dove D è il dato dato e S è la specie-albero con il tempo. Poiché ognuna di queste densità può essere espressa utilizzando Bayes uguaglianza, ad esempio,
p ( G , l , q , ψ | D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | q , S ) p ( θ ) P ( D | S ) ,
i due denominatori P(D|S) la probabilità di accettazione si annullano a vicenda e si ottiene
p ( G , l , q , ψ | D , S ) p ( G ‘, l ‘, q ‘, ψ ‘| D , S ) = P ( D | G , l , ψ ) p ( G , l , ψ | q , S ) p ( θ ) P ( D | G ‘, l ‘, ψ ‘) p ( G ‘, l ‘ , ψ ‘| q ‘, S ) p ( θ ‘ ) .
Qui il numeratore e il denominatore hanno la stessa struttura, quindi è sufficiente descrivere come calcolare il primo. In primo luogo, il fattore P(D|G, l, Ψ) può essere calcolato utilizzando l’algoritmo di programmazione dinamica (DP) proposto da Felsenstein . I bordi e le parti dei bordi per i quali deve essere utilizzato il gene o la modalità pseudogene di evoluzione della sequenza sono specificati da Ψ. Le frequenze di equilibrio sono stimate dalle sequenze geniche e pseudogene e sono condivise da entrambi i modelli di evoluzione della sequenza. In secondo luogo, il precedente p(θ) viene scelto in modo che possa essere facilmente calcolato. Infine, il principale contributo tecnico di è un algoritmo DP per calcolare la probabilità di un gene-albero e le sue lunghezze di bordo dati parametri e la specie-albero sotto il modello DL. Per calcolare p(G, l, θ, Ψ|D, S), proponiamo un nuovo algoritmo DP che integra il processo di pseudogenizzazione e il processo DL.
In, è stato descritto un algoritmo DP per calcolare il fattore p(G, l|θ, S). Cerchiamo prima di definire alcuni concetti chiave. Sia un albero di specie discretizzato in cui i bordi dell’albero di specie S sono stati aumentati con ulteriori vertici di discretizzazione in modo tale che tutti i vertici aumentati siano equidistanti all’interno di un bordo, vedere figura S1 nel file aggiuntivo 1. Il DP fa uso di una tabella, s(x, y, u), definito come la probabilità che quando un singolo gene lignaggio comincia ad evolversi al vertice x∈V ( S ‘) , l’albero G u (gene-albero radicato in u insieme con i genitori bordo di u) viene generato con l’lunghezze specificate dal l e, inoltre, l’evento corrispondente a u si verifica a y∈V ( S ‘ ) . Siano v e w figli di u in G, e siano x, y e z vertici di V (S’).
Sia ρ(r) la probabilità che un bordo di G abbia tasso r. Inoltre, sia t(x, y) il tempo tra i vertici x,y V V ( S ‘ ) . Lasciate che σ(u) la funzione definita come segue: (i) per una foglia u∈L ( G ) , σ (u) è la specie-foglia di albero in cui il gene che u rappresenta può essere trovato e (ii) per ogni vertice interno u di G, s (u) è il più recente antenato comune di L(G ) in S. usiamo p11(x, y) per indicare la probabilità di un gene lignaggio evoluzione “1 a 1” tra due punti della specie di albero, cioè, un singolo gene a partire da x, per alcuni k dà origine a lignaggi k a y di cui k-1 andrà estinto e un lignaggio gene può o non può estinguersi. Usiamo p 11 ψ (x , y ) per indicare la probabilità che uno pseudogene evolva “1-a-1″ tra due punti x e y nell’albero delle specie, cioè che un singolo pseudogene a partire da x, per alcuni k dia origine a k lignaggi pseudogeni a y di cui k-1 si estinguerà e un lignaggio che può o non può estinguersi. Un vertice u V V (T ) è chiamato pseudogene se ha un antenato che appartiene a tutti i vertici che rappresentano eventi di pseudogenizzazione have hanno grado due. Come calcolare entrambe queste probabilità” 1 a 1 ” è descritto nel file aggiuntivo 1. Le seguenti ricorsioni descrivono come la tabella s può essere calcolata utilizzando la programmazione dinamica:
1 Se u L L ( G ) e x = σ(u), s(x, x, u) = 1.
2 Se x V V (S ) e x σ σ( u), s(x, x, u) = 0.
3 Se x∈V ( S ) \L ( S ) ,u∉ψ, e x = s(u),
s ( x , x , u ) = ∑ y ∈ D L ( x ) s ( x , y , v ) ∑ y ∈ R ( x ) s ( x , y , w ) ,
dove D L (x) e R (x) sono i discendenti di sinistra e il diritto del bambino di x in S’, rispettivamente.
4 Se x∈V ( S ‘ ) \V ( S ) e u∉ψ,
s ( x , x , u ) =2δ ∑ y ∈ D ( x ) \ { x } s ( x , y , v ) ∑ y ∈ D ( x ) \ { x } s ( x , y , w ) ,
dove D(x) è l’insieme dei discendenti di x.
5 Se x∈V ( S ) , padre di u (cioè p(u)) non è un pseudogene, e z è un bambino di x tale che σ ( L ( G, u ) ) ⊆K ( S, z ) e z è un antenato di y, quindi
s ( x , y , u ) = p 11 ( x , z ) e ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) s ( z , y , u ) ,
dove ε ( x , z ) è la probabilità che un gene lignaggio a partire da x non raggiungere qualsiasi foglia l∈L ( S x ‘) \L ( S, z ‘ ) . Tuttavia, se inoltre y è figlio di x le espressioni precedenti si riducono a,
s ( x , y , u ) = p 11 ( x , y ) ε ( x , y ) ρ ( l ( p ( u), u) / t ( x , y ) ) s ( y , y, u ) .
6 Se x∈V ( S ) , p(u) è un pseudogene, e z è un bambino di x tale che σ ( L ( G, u ) ) ⊆L ( S, z ) e z è un antenato di y, quindi
s ( x , y , u ) = p 11 ψ ( x , z ) e ( x , z ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) ρ ( l ( p ( u ) , u ) / t ( z , y ) ) .
Tuttavia, se inoltre y è figlio di x le espressioni precedenti si riducono a,
s ( x , y , u ) = p 11 ψ ( x , y ) ε ( x , y ) ρ ( l ( p ( u ) , u ) / t ( x , y ) ) s ( y , y , u ) .
La probabilità che l’albero genetico G sia generato è la probabilità che quando un singolo lignaggio inizia alla radice di S, il singolo figlio c della radice di G si verifica da qualche parte al di sotto del grado una radice ρ di S, e quindi il processo continua e genera G. Quindi,
p (G , l/θ , ψ , S) = y y D D ( ρ ) s ( ρ , y, c),
dove D(ρ) è l’insieme dei discendenti di p.
Campionamento d-realizzazioni
Per mappare i vertici di pseudogenizzazione ai vertici di specie-albero discretizzato S’, usiamo l’algoritmo di programmazione dinamica proposto in . Sopprimendo i vertici di pseudogenizzazione of di un gene-albero G (cioè, rimuovendo ogni grado-due vertici e rendendo adiacenti i suoi endpoint), otteniamo un gene-albero G*. L’algoritmo di campionamento introdotto in viene utilizzato per mappare i vertici del gene-albero V (G*) ai vertici della specie discretizzata-albero V (S’) (vedi File aggiuntivo 1). I punti temporali associati ai vertici dell’albero di specie discretizzato, inducono un’associazione di punti temporali ai vertici di G*. Una volta che i punti temporali sono stati associati al vertice parentale e al vertice figlio di un vertice di pseudogenizzazione u di G, un punto temporale può essere facilmente associato a u, utilizzando le lunghezze dei rami dei bordi incidenti.
Confrontando le configurazioni di pseudogenizzazione
Siamo interessati a quantificare la differenza tra due configurazioni di pseudogenizzazione G insieme a ψ e G’ insieme a ψ’ di una singola famiglia genica. Si noti che se sopprimiamo i vertici in in G e respectively’ in G’ (cioè, rimuoviamo ciascuno di questi gradi-due vertici e facciamo in modo che i suoi endpoint diventino adiacenti), rispettivamente, si ottiene lo stesso albero G*. Sia E E ed E E ‘l’insieme dei bordi di G * introdotto sopprimendo respectively e respectively’, rispettivamente. Se il bordo e* E(G*) è stato creato sopprimendo u, allora u è chiamato l’origine di e.
Nota, per qualsiasi bordo f in E or o E E’ , tutte le foglie sotto f sono pseudogeni. Quindi, se f E E ψ, allora ci sono bordi di E below’ sotto f su qualsiasi percorso da f alle foglie sotto di esso o c’è un bordo sopra f che appartiene a E ψ’ . Nel primo caso, chiamiamo f un tetto e i bordi di E ψ ‘ la sua ombra. In quest’ultimo caso il bordo di E ψ’ è chiamato tetto e f appartiene alla sua ombra.
La prima distanza, la distanza del bordo, ignora il tempo ed è invece definita in base alla distanza in G*. Per ogni coppia di bordi di G*, esiste un percorso più breve univoco che li contiene; la distanza tra due di questi bordi è definita come il numero di vertici interni su quel percorso.
In primo luogo, definiamo due distanze topologiche (Figura 2). La distanza tra due pseudogenization vertici di un ψ e b ψ’ dove ψ , b ψ sono le origini di bordi e e e a e e b , rispettivamente, in modo tale che il e a , e b ∈ E(G,∗), è definita come la minima lunghezza del percorso tra e e e a b a G∗. Per ogni bordo del tetto f E E or o f f E”, sia d m (f) e d a (e) la distanza massima del bordo e la distanza media del bordo, rispettivamente, tra f e i bordi della sua ombra. Sia la distanza topologica massima D m e la distanza topologica media D a tra G, ψ e G’, ψ’ il massimo di d m (f) e la media di d a (f), rispettivamente, su tutti i tetti f E E E E ψ’ . Lascia che il vero albero genetico e i suoi vertici di pseudogenizzazione siano (G, ψ) e q siano la distribuzione di probabilità posteriore. Infine, calcoliamo la media prevista E D a e la media massima di M D a di topologico, distanze, come:
Figura 2
Topologica Distanze tra due pseudogenization configurazioni, D a = ((1 + 1) / 2 + (1 + 2 + 2) / 3) / 2, D m = max ( max (1 , 1) , max (1 , 2 , 2)).
E D a ( ( G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D (G , Ψ ) , q ) = max G ‘ , Ψ ‘D a ( ( G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )
Possiamo anche definire il valore massimo previsto D i m e massima di M D m di topologica distanze:
E D m (G , Ψ ) , q ) = ∑ G ‘, Ψ ‘D m (G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘, Ψ ) M D m (G , Ψ ) , q ) = max G ‘, Ψ ‘D m (G , Ψ ) , ( G ‘, Ψ ‘) ) q ( G ‘ , Ψ )
in Secondo luogo, abbiamo definire le distanze temporali. Questi sono ottenuti in modo analogo a quello topologico, ma invece di utilizzare le distanze dei bordi tra i tetti e le loro sfumature, usiamo le distanze temporali tra il tempo associato all’origine di un tetto e il tempo associato alle origini della sua ombra.
La distanza topologica misura la distanza di un vero vertice di pseudogenizzazione da quello dedotto lungo la topologia dell’albero genetico, mentre la distanza temporale misura la distanza tra i tempi (lungo l’albero di specie) associati al vero vertice di pseudogenizzazione e a quello dedotto.
Analisi sintetica e Biologica
Abbiamo testato il nostro metodo PrIME-PDLRS su dati sintetici e lo abbiamo applicato a dati biologici. Per prima cosa descriviamo i test sui dati sintetici. Gene-alberi casuali con lunghezze di bordo e vertici pseudogenizzazione sono stati generati utilizzando una versione modificata del generatore PrIME-Gene-albero con tasso di pseudogenizzazione di 0,5, e tassi di duplicazione-perdita biologicamente realistici osservati analizzando le famiglie di geni di set di dati ottici . Le sequenze geniche sono state generate secondo il modello PDLRS. Le sequenze geniche sono state evolute utilizzando matrici di sostituzione del codone come proposto da Bielawski et al. . Una matrice di sostituzione del codone neutro è stata utilizzata per l’evoluzione di pseudogeni in cui il rapporto tra sostituzioni non sinonimi e sinonimi (dN/dS) è stato impostato su 1.0. Nel modello di sostituzione del codone neutro, qualsiasi codone poteva essere sostituito con un codone di stop, mentre questo non era possibile con il modello di sostituzione utilizzato nel caso dell’evoluzione genica. Venticinque diverse combinazioni di rapporti di velocità dN/dS e rapporti di velocità di transizione / transversion sono stati utilizzati per generare sequenze geniche attraverso venticinque famiglie di geni, utilizzando frequenze di equilibrio codone uniforme. Al fine di simulare uno scenario biologicamente realistico, abbiamo usato l’albero di specie (ottenuto come in ) per le nove specie di vertebrati del set di dati OTTICI, che è stato scaricato da http://genserv.anat.ox.ac.uk/downloads/clades/ I vertici di pseudogenizzazione inferiti sono stati poi confrontati con i veri vertici di pseudogenizzazione usando due tipi di metriche di distanza, cioè distanza topologica (gene-tree) e
I set di dati biologici consistevano in sottofamiglie delle due più grandi famiglie geniche di vertebrati, cioè recettori olfattivi e dita di zinco. I recettori olfattivi sono stati segnalati come la più grande famiglia genica nei vertebrati . In specie come mucca, ornitorinco e primati, è stato osservato un alto tasso di pseudogenizzazione, mentre opossum, cani, topi e ratti hanno un tasso relativamente basso di pseudogenizzazione . Sette famiglie di sottogeneri preferibilmente con almeno uno pseudogene per specie sono state scaricate da http://bioportal.weizmann.ac.il/HORDE/ per le specie di umano (Homo sapiens), cane (Canis lupus familiaris), opossum (Didelphis virginiana) e ornitorinco (Ornithorhynchus anatinus). Due famiglie di sottogeneri a dito di zinco sono state studiate anche tra le specie umane (Homo sapiens), scimpanzé (Pan troglodytes), orangutan (Pongo abelii) e macaco rhesus (Macaca mulatta). A questo scopo, abbiamo scelto due sottofamiglie tra i geni ortologhi ad alta confidenza (che sono supportati da OrthoMCL, reciprocal best BLAST hits e synteny). I corrispondenti geni parentali / paralogici sono stati cercati usando PSI-BLAST ed estratti da http://ensembl.org. I geni ortologhi ad alta confidenza sono stati scaricati dal ‘catalogo KZNF’ (http://znf.igb.illinois.edu) . Poiché gli pseudogeni nella famiglia dei geni delle dita di zinco si sono evoluti principalmente a seguito di duplicazioni frammentate , è difficile allineare correttamente gli pseudogeni e i geni corrispondenti, chiaramente una condizione necessaria per ricostruire l’albero genico. Gli allineamenti delle nove famiglie di sottogeneri sono stati curati manualmente dopo averli allineati con MACSE, consentendo codoni di stop e introducendo sanzioni per la creazione di un gap (-7), estendendo un gap (-1) e introducendo frameshift (-14). Le specie-alberi datate per entrambi i set di dati biologici sono state scaricate da http://timetree.org. Le famiglie di geni secondari sono state quindi analizzate utilizzando la stessa pipeline utilizzata per l’analisi sintetica. Potenziali alberi genici sono stati ricostruiti utilizzando PrIME-DLR, che sono stati poi analizzati da Prime-PDLR utilizzando l’opzione gene-albero fisso. L’albero-gene PrIMO-DLRS con il miglior stato PRIMO-PDLRS con la più alta probabilità posteriore è stato selezionato come l’albero-gene più probabile. Gli eventi di pseudogenizzazione posteriori degli alberi genici più probabili sono stati quindi analizzati utilizzando le realizzazioni dettagliate generate durante l’attraversamento della catena di Markov.
Analisi MCMC
L’analisi bayesiana è stata eseguita per le famiglie di geni utilizzando lo strumento di analisi basato su MCMC, PrIME-PDLRS. La catena MCMC è stata impostata per integrare tutti i parametri, cioè gene-tree, edge lengths, pseudogenization vertices on gene-tree, birth-death and pseudogenization rates, e media e varianza dei tassi di sostituzione dei bordi. Abbiamo campionato diversi parametri in tutto il processo MCMC tra cui i tassi di nascita-morte, tasso di pseudogenizzazione, gene-albero, vertici pseudogenizzazione, rapporto dN/dS tasso, e rapporto di transizione/transversion tasso. Uno o più parametri sono stati perturbati ad ogni iterazione. La perturbazione del gene-albero è stato fatto utilizzando metodi di perturbazione gene-albero standard come la potatura sottoalbero e regrafting, interscambio vicino più vicino e ri-radicamento. Dopo una perturbazione, la validità del gene-albero risultante è stata certificata, cioè, nessun lignaggio pseudogene portare ad un lignaggio gene. Viene proposto un gene-albero perturbato valido, ogni volta che viene proposto un gene-albero. Il metodo di giunzione vicino viene utilizzato per costruire l’albero iniziale all’inizio della catena MCMC. La distribuzione proposta propone mosse di vertici pseudogenizzazione, attraverso le linee di un gene-albero, in modo tale che la probabilità di proporre una mossa verso l’alto di un vertice pseudogenizzazione è uguale alla probabilità di proporre una mossa verso il basso. I rapporti di velocità dN / dS sono campionati da una distribuzione normale troncata in, mentre i rapporti di velocità di transizione / transversion sono campionati da una distribuzione normale troncata in . I tassi di nascita-morte e pseudogenizzazione sono campionati da una distribuzione normale troncata in . Le proposte normali troncate sono state utilizzate per la perturbazione dei parametri del modello di velocità e delle lunghezze dei bordi attorno al valore corrente, con parametri di sintonizzazione realizzati artigianalmente rispetto ai rapporti di accettazione. I parametri del tasso di sostituzione sono stati perturbati alterando la media di distribuzione o il coefficiente di variazione. Per scoprire se le catene MCMC sono convergenti, abbiamo usato VMCMC come strumento diagnostico. Dalle esecuzioni iniziali, è stato osservato che era sicuro utilizzare un periodo di burn-in di 2.500.000. Per il resto delle esecuzioni, abbiamo utilizzato 5.000.000 di iterazioni, un periodo di burn-in di 2.500.000 e un assottigliamento di 500. Abbiamo usato PrIME-DLRS come primo passo per ricostruire i potenziali alberi genetici. Ogni potenziale gene-albero è stato analizzato utilizzando Prime-PDLRS con un’opzione gene-albero fisso.