En esta sección presentamos primero el modelo de evolución de Pseudogenización, Duplicación, Pérdida, Velocidad y Secuencia, PDLRS. Comenzamos definiendo primero algunos términos básicos. Un árbol de especies es un árbol binario enraizado que representa la historia evolutiva de las especies, donde las hojas representan especies existentes y los vértices internos representan eventos de especiación. Un árbol genético es también un árbol binario enraizado que representa la historia evolutiva de un conjunto de genes. Un árbol genético puede tener genes o pseudogenes como hojas.
El modelo PDLRS
El modelo PDLRS es una extensión del modelo DLRS obtenido al incluir también eventos de pseudogenización. El modelo describe cómo un linaje genético evoluciona dentro de un árbol de especie con una raíz de grado uno, comenzando en la raíz y posteriormente evolucionando hacia las hojas mientras está expuesto a duplicación de genes, pérdida de genes y eventos de pseudogenización a tasas δ, μ y ψ, respectivamente. También, cuando un gen linaje llega a una especie de árbol de vértice, siempre (es decir, Los bifurcados y los dos linajes de genes así contenidos continúan evolucionando por debajo del vértice de árbol de especie, uno en cada uno de sus dos bordes de árbol de especie salientes.
a Pesar de que durante este proceso, un gen linaje puede pasar a un pseudogen linaje, un pseudogen linaje no está autorizado a cambiar de nuevo a un gen linaje. Los eventos de pseudogenización introducen vértices de grado dos en el árbol genético. Un linaje pseudogénico se comporta de otra manera como un linaje genético, puede duplicarse o perderse durante la evolución, y se bifurca determinísticamente cuando alcanza un vértice de árbol de especie. Un linaje que alcanza las hojas del árbol de la especie da lugar a una hoja en el árbol genético, que representa un gen o pseudógeno existente. Sin embargo, los vértices y bordes del árbol genético que no conducen a tales hojas existentes se podan del árbol genético (Figura 1). Dado que este proceso tiene lugar en un árbol de especies con tiempo en sus vértices y bordes, cada evento ocurre en un momento específico. Cada vez que un evento crea un nuevo vértice del árbol genético, el momento del evento se asocia con el nuevo vértice.
Para obtener un reloj molecular relajado, las velocidades se muestrean independientemente de una distribución Γ (parametrizada por una media y una varianza) para cada borde, y a un borde con tiempo t y velocidad r se le asigna una longitud l. Finalmente, las secuencias se desarrollan sobre este árbol genético con sus longitudes. Recordemos que los eventos de pseudogenización introducen vértices de grado dos en el árbol genético. Sobre un borde donde el vértice parental es un gen se utiliza un modelo de evolución de secuencia adecuado para genes, mientras que cuando el vértice parental representa un pseudógeno (y, en consecuencia, también el niño representa un pseudógeno) se utiliza un modelo de evolución de secuencia adecuado para pseudógenos. Estos modelos pueden ser variados, pero aquí utilizamos dos modelos de codones que se describen a continuación.
Para modelar los dos modos de evolución de secuencias, utilizamos dos matrices de sustitución de codones propuestas por, una para la evolución de pseudogenes y otra para la de genes. La matriz de tasa de sustitución instantánea del codón i al codón j, q ij está en ambos casos determinada por:
donde π j es la frecuencia de equilibrio del codón j, μ es un factor de normalización, κ es la relación transición/transversión, y ω es la relación no sinónimo a sinónimo (dN/dS). Excepto en ω, estos parámetros se comparten entre los dos modos de evolución de la secuencia. Para los pseudogenes, ω es igual a 1 y se permite la transición a los codones de parada, mientras que para los genes no se permite la transición a los codones de parada.
El framework PrIME-PDLRS MCMC
PrIME-PDLRS es una herramienta de análisis basada en MCMC para el modelo mencionado anteriormente. Toma como entrada una alineación de secuencias múltiples de secuencias de genes y pseudogenos junto con una clasificación de estas secuencias como genes o pseudogenes. También requiere un árbol de especies fechado S. Denotemos un árbol genético por G, sus longitudes de borde por l, y otros parámetros del modelo por θ. El parámetro θ es compuesto, que contiene: la tasa de duplicación, la tasa de pérdida, la tasa de pseudogenización, la media de la tasa de bordes y el coeficiente de variación, y las tasas de no sinónimos a sinónimos (dN/dS) y las tasas de transición/transversalidad para el modelo de sustitución de codones de evolución de secuencia.
Usaremos Ψ para denotar el conjunto de vértices de pseudogenización (grado dos) en el árbol genético (no dos de estos vértices pueden estar en la misma ruta de raíz a hoja). Usamos P (·) para denotar una probabilidad y p (·) para denotar una densidad de probabilidad.
Un estado en nuestra cadena de Markov es cuádruple (G, l, θ, Ψ). Las hojas del árbol genético corresponden a las secuencias dadas y cualquier secuencia clasificada como pseudógeno debe tener un ancestro en G que pertenece a Ψ. Cuando el estado actual es (G, l, θ, Ψ), la probabilidad de aceptación de un estado propuesto ( G’, l’, θ’, ψ’), está determinada por la relación entre p(G, l, θ, Ψ| D , S) y p ( G’, l’, θ’, ψ ‘ | D , S), donde D es el dato dado y S es el árbol de especies con el tiempo. Desde cada una de estas densidades puede ser expresado mediante Bayes igualdad, por ejemplo,
los dos denominadores P(D|S) en la probabilidad de aceptación se cancelan uno al otro y obtenemos
Aquí el numerador y el denominador tienen la misma estructura, por lo que es suficiente describir cómo calcular el primero. En primer lugar, el factor P(D|G, l, Ψ) se puede calcular utilizando el algoritmo de programación dinámica (DP) propuesto por Felsenstein . Las aristas y partes de aristas para las que se debe utilizar el modo de evolución de secuencia de genes o pseudogenos se especifican por Ψ. Las frecuencias de equilibrio se estiman a partir de secuencias de genes y pseudogenos, y son compartidas por ambos modelos de evolución de secuencias. En segundo lugar, se elige la p(θ) anterior para que pueda calcularse fácilmente. Finalmente, la principal contribución técnica de un algoritmo DP para calcular la probabilidad de un árbol genético y sus longitudes de borde dados los parámetros y el árbol de especies bajo el modelo DL. Para calcular p(G, l, θ, Ψ|D, S), proponemos un nuevo algoritmo DP que integra el proceso de pseudogenización y el proceso DL.
En, se describió un algoritmo DP para calcular el factor p(G, l|θ, S). Primero definamos algunos conceptos clave. Sea S ‘ un árbol de especies discretizado donde los bordes del árbol de especies S se han aumentado con vértices de discretización adicionales, de modo que todos los vértices aumentados son equidistantes dentro de un borde, vea la figura S1 en el archivo adicional 1. El DP hace uso de una tabla, s(x, y, u), definida como la probabilidad de que cuando un solo linaje génico comienza a evolucionar en el vértice x∈V ( S ‘) , el árbol G u (el árbol génico enraizado en u junto con el borde parental de u) se genera junto con las longitudes de borde especificadas por l y, además, el evento correspondiente a u ocurre en y∈V ( S ‘ ) . Sean v y w hijos de u en G, y sean x, y y z vértices de V (S’).
Sea ρ(r) la probabilidad de que una arista de G tenga velocidad r. También, sea t(x, y) el tiempo entre vértices x,y∈V ( S ‘ ) . Sea σ (u) la función definida de la siguiente manera (i) para una hoja u∈L ( G), σ (u) es la hoja de árbol de especie en la que se puede encontrar el gen que representa u y (ii) para cualquier vértice interno u de G, σ (u ) es el ancestro común más reciente de L(G u) en S. Usamos p11(x, y) para denotar la probabilidad de que un linaje de genes evolucione «1 a 1» entre dos puntos en el árbol de especie, es decir., un solo gen que comienza en x, para algunos k da lugar a linajes k en y de los cuales k – 1 se extinguirá y un linaje de genes puede o no extinguirse. Utilizamos p 11 ψ ( x , y ) para denotar la probabilidad de un pseudogen la evolución de «1 a 1» entre dos puntos x y y en la especie de árbol, es decir, que un solo pseudogen partir de x, para algunos k da lugar a k pseudogen de los linajes y de los cuales k – 1 se extinguirán y de un linaje que puede o no puede extinguirse. Un vértice u∈V ( T ) se denomina pseudogeno si tiene un antepasado que pertenece a Todos los vértices que representan eventos de pseudogenización Ψ tienen grado dos. Cómo calcular estas dos probabilidades «1 a 1» se describe en el archivo adicional 1. Las siguientes recursiones describen cómo se puede calcular la tabla s usando Programación Dinámica:
1 Si u∈L ( G ) y x = σ(u), s(x, x, u) = 1.
2 Si x∈V(S ) y x ≠ σ(u), s (x, x, u) = 0.
3 Si x∈V ( S ) \L ( S ) ,u∉ψ, y x = σ(u),
donde D L (x) y D R (x) son los descendientes de la izquierda y la derecha, hijo de x en S’, respectivamente.
4 Si x∈V ( S ‘ ) \V ( S ) y u∉ψ,
donde D(x) es el conjunto de descendientes de x.
5 Si x∈V ( S ) , padre de u (es decir, p(u)) no es un pseudogen, y z es un hijo de x tal que σ ( L ( G u ) ) ⊆K ( S, z ‘ ) y z es un antepasado de y, a continuación,
donde ε ( x , z ) es la probabilidad de que un gen linaje partir de x no llegar a cualquier hoja l∈L ( x ‘) \L ( S, z ‘ ) . Sin embargo, si por otra parte y es un hijo de x las expresiones anteriores se reducen a,
6 Si x∈V ( S ) , p(u) es un pseudogen, y z es un hijo de x tal que σ ( L ( G u ) ) ⊆L ( S, z ‘ ) y z es un antepasado de y, a continuación,
sin Embargo, si por otra parte y es un hijo de x las expresiones anteriores se reducen a,
La probabilidad de que se genere el árbol genético G es la probabilidad de que cuando un solo linaje comienza en la raíz de S, el único hijo c de la raíz de G ocurre en algún lugar por debajo del grado de una raíz ρ de S, y luego el proceso continúa y genera G. Por lo tanto,
donde D(ρ) es el conjunto de descendientes de P.
Toma de muestras de realizaciones d
Para mapear los vértices de pseudogenización a los vértices del árbol de especies discretizado S’, utilizamos el algoritmo de programación dinámica propuesto en. Suprimiendo los vértices de pseudogenización Ψ de un árbol genético G (es decir, eliminando cada vértice de grado dos y haciendo sus extremos adyacentes), obtenemos un árbol genético G*. El algoritmo de muestreo introducido se utiliza para mapear los vértices del árbol genético V (G*) a los vértices del árbol de especies discretizado V (S’) (ver Archivo Adicional 1). Los puntos de tiempo asociados con los vértices del árbol de especies discretizado, inducen una asociación de puntos de tiempo con los vértices de G*. Una vez que los puntos de tiempo se han asociado con el vértice parental y el vértice secundario de un vértice de pseudogenización u de G, un punto de tiempo se puede asociar fácilmente con u, utilizando las longitudes de rama de los bordes incidentes.
Comparando configuraciones de pseudogenización
Nos interesa cuantificar la diferencia entre dos configuraciones de pseudogenización G junto con ψ y G’ junto con ψ’ de una sola familia de genes. Observe que si suprimimos los vértices ψ en G y ψ ‘ en G ‘(es decir, eliminamos cada uno de esos grados-dos vértices y hacemos que sus extremos se vuelvan adyacentes), respectivamente, entonces se obtiene el mismo árbol G*. Sea E ψ y E ψ’ el conjunto de aristas de G* introducidas suprimiendo ψ y ψ’, respectivamente. Si el borde e ∈ E(G*) fue creado suprimiendo u, entonces u se llama el origen de e.
Aviso, para cualquier borde f en E ψ o E ψ’ , todas las hojas por debajo de f son pseudogenes. Por lo tanto , si f ∈ E ψ, entonces hay bordes de E ψ’ por debajo de f en cualquier camino desde f a las hojas por debajo de él o hay un borde por encima de f que pertenece a E ψ’ . En el primer caso, llamamos a f un techo y a los bordes de E ψ’ su sombra. En este último caso, el borde de E ψ ‘ se llama techo y f pertenece a su sombra.
La primera distancia, distancia de borde, no tiene en cuenta el tiempo y se define en función de la distancia en G*. Para cada par de aristas de G*, hay un único camino más corto que las contiene; la distancia entre dos de estas aristas se define como el número de vértices internos en ese camino.
En primer lugar, definimos dos distancias topológicas (Figura 2). La distancia de aristas entre dos vértices de pseudogenización a ψ y b ψ’ donde a ψ, b ψ son orígenes de aristas e a y e b , respectivamente, de tal manera que e a , e b ∈ E(G∗), se define como la trayectoria de longitud mínima entre e a y e b en G∗. Para cada borde del techo f ∈ E ψ o f ∈ E ψ’ , sea d m (f ) y d a (e) la distancia máxima del borde y la distancia media del borde, respectivamente, entre f y los bordes de su sombra. Que la distancia topológica máxima D m y la distancia topológica media D a entre G, ψ y G’, ψ’ sean el máximo de d m (f ) y el promedio de d a (f ), respectivamente, sobre todos los techos f ∈ E ψ ψ E ψ’ . Sea el árbol genético verdadero y sus vértices de pseudogenización (G, ψ) y q la distribución de probabilidad posterior. Finalmente, se calcula la media esperada E D a y el promedio máximo de M D a de la topológico distancias como:
también definimos el máximo esperado E D m y máximo máximo M D m de la topológico distancias:
en Segundo lugar, definimos el temporal distancias. Estos se obtienen de forma análoga a los topológicos, pero en lugar de utilizar las distancias de bordes entre los techos y sus sombras, utilizamos las distancias temporales entre el tiempo asociado con el origen de un techo y el tiempo asociado con los orígenes de su sombra.
La distancia topológica mide la distancia de un vértice de pseudogenización verdadero del vértice inferido a lo largo de la topología del árbol genético, mientras que la distancia temporal mide la distancia entre los tiempos (a lo largo del árbol de especies) asociados con el vértice de pseudogenización verdadero y el vértice inferido.
Análisis sintético y biológico
Probamos nuestro método PrIME-PDLRS en datos sintéticos y lo aplicamos a datos biológicos. Primero describimos las pruebas con datos sintéticos. Se generaron árboles de genes aleatorios con longitudes de borde y vértices de pseudogenización utilizando una versión modificada del generador de Árboles de Genes primarios con una tasa de pseudogenización de 0,5, y tasas de pérdida de duplicación biológicamente realistas observadas mediante el análisis de familias de genes del conjunto de datos ópticos . Se generaron secuencias de genes según el modelo PDLRS. Las secuencias de genes se desarrollaron utilizando matrices de sustitución de codones, como propusieron Bielawski et al. . Se utilizó una matriz de sustitución de codones neutrales para la evolución de pseudogenes, en la que la relación de tasa de sustituciones sinónimas a sinónimas (dN/dS) se estableció en 1,0. En el modelo de sustitución de codones neutros, cualquier codón podría sustituirse por un codón de parada, mientras que esto no era posible bajo el modelo de sustitución utilizado en el caso de la evolución génica. Se utilizaron veinticinco combinaciones diferentes de relaciones de velocidad dN/dS y relaciones de velocidad de transición/transversal para generar secuencias de genes en veinticinco familias de genes, utilizando frecuencias uniformes de equilibrio de codones. Para simular un escenario biológicamente realista, utilizamos el árbol de especies (obtenido como en) para las nueve especies de vertebrados del conjunto de datos ópticos, que se descargó de http://genserv.anat.ox.ac.uk/downloads/clades/ Los vértices de pseudogenización inferidos se compararon con los vértices de pseudogenización verdaderos utilizando dos tipos de métricas de distancia, es decir, distancia topológica (árbol genético) y distancia temporal (árbol de especies).
Los conjuntos de datos biológicos consistieron en subfamilias de las dos familias génicas más grandes de vertebrados, es decir, receptores olfativos y dedos de zinc. Se ha informado que los receptores olfativos son la familia de genes más grande en los vertebrados . En especies como la vaca, el ornitorrinco y los primates, se ha observado una alta tasa de seudogenización, mientras que la zarigüeya, los perros, el ratón y las ratas tienen una tasa relativamente baja de seudogenización . De http://bioportal.weizmann.ac.il/HORDE/ se descargaron siete familias de subgéneros, preferiblemente con al menos un pseudógeno por especie, para las especies de humanos (Homo sapiens), perros (Canis lupus familiaris), zarigüeyas (Didelphis virginiana) y ornitorrincos (Ornithorhynchus anatinus). También se estudiaron dos familias de subgénicos de dedos de zinc en las especies de humanos (Homo sapiens), chimpancés (Pan troglodytes), orangután (Pongo abelii) y macaco rhesus (Macaca mulatta). Para este propósito, elegimos dos subfamilias de genes ortólogos de alta confianza (que son soportados por ORTOMCL , best BLAST hits recíprocos y synteny). Los genes parentales/paralógicos correspondientes se buscaron utilizando PSI-BLAST y se extrajeron de http://ensembl.org. Los genes ortólogos de alta confianza se descargaron del catálogo KZNF (http://znf.igb.illinois.edu). Como los pseudogenes de la familia de genes del dedo de zinc han evolucionado principalmente como resultado de duplicaciones fragmentadas , es difícil alinear correctamente los pseudogenes y los genes correspondientes, claramente una condición necesaria para reconstruir el árbol genético. Las alineaciones de las nueve familias de subgéneros se curaron manualmente después de alinearlas con MACSE , permitiendo codones de parada e introduciendo penalizaciones por la creación de una brecha (-7), extendiendo una brecha (-1) e introduciendo el cambio de marco (-14). Los árboles de especies fechados para ambos conjuntos de datos biológicos se descargaron de http://timetree.org. A continuación, se analizaron las familias de subgéneros utilizando la misma tubería utilizada para el análisis sintético. Los árboles genéticos potenciales se reconstruyeron utilizando DLR PrIME, que luego se analizaron con PDLR PrIME utilizando la opción de árbol genético fijo. El árbol genético PrIMO-DLRS que tenía el mejor estado primo-PDLRS con la probabilidad posterior más alta se seleccionó como el árbol genético más probable. Los eventos posteriores de sobre pseudogenización de los árboles genéticos más probables se analizaron utilizando las realizaciones detalladas generadas durante el recorrido de la cadena de Markov.
Análisis MCMC
El análisis bayesiano se realizó para las familias de genes utilizando la herramienta de análisis basada en MCMC, PrIME-PDLRS. La cadena MCMC se configuró para integrar todos los parámetros, es decir, árbol genético, longitudes de bordes, vértices de pseudogenización en el árbol genético, tasas de nacimiento-muerte y pseudogenización, y tasas medias y varianza de sustitución de bordes. Muestreamos diferentes parámetros a lo largo del proceso MCMC, incluidas las tasas de nacimiento y muerte, la tasa de seudogenización, el árbol genético, los vértices de seudogenización, la relación de tasa dN/dS y la relación de tasa de transición/transversal. Uno o más parámetros se perturbaron en cada iteración. La perturbación del árbol genético se realizó utilizando métodos estándar de perturbación del árbol genético, como la poda de subárbol y el re-modelado, el intercambio de vecinos más cercanos y el re-enraizamiento. Después de una perturbación, se certificó la validez del árbol genético resultante, es decir, ningún linaje de pseudogén condujo a un linaje genético. Se propone un árbol genético perturbado válido, cada vez que se propone un árbol genético. El método de unión de vecinos se utiliza para construir el árbol inicial al inicio de la cadena MCMC. La distribución de propuestas propone movimientos de vértices de pseudogenización, a través de los linajes de un árbol genético, de tal manera que la probabilidad de proponer un movimiento ascendente de un vértice de pseudogenización es igual a la probabilidad de proponer un movimiento hacia abajo. Las relaciones de velocidad dN / dS se muestrean a partir de una distribución normal truncada en , mientras que las relaciones de velocidad de transición/transversal se muestrean a partir de una distribución normal truncada en . Las tasas de nacimiento-muerte y seudogenización se muestrean a partir de una distribución normal truncada . Se utilizaron propuestas normales truncadas para la perturbación de los parámetros del modelo de velocidad y las longitudes de borde alrededor del valor de corriente, con parámetros de afinación hechos a mano con respecto a las relaciones de aceptación. Los parámetros de la tasa de sustitución se perturbaron alterando la media de distribución o el coeficiente de variación. Para encontrar si las cadenas MCMC han convergido, utilizamos VMCMC como herramienta de diagnóstico. Desde las carreras iniciales, se observó que era seguro usar un período de quemado de 2,500,000. Para el resto de las carreras, usamos 5,000,000 iteraciones, un período de quemado de 2,500,000 y un adelgazamiento de 500. Usamos PRIME-DLR como primer paso para reconstruir los árboles genéticos potenciales. Cada árbol genético potencial se analizó utilizando PDLR primos con una opción de árbol genético fijo.