Dans cette section, nous introduisons d’abord le modèle d’évolution de la pseudogénisation, de la duplication, de la Perte, du Taux et de la Séquence, PDLRS. Nous commençons par définir d’abord quelques termes de base. Un arbre-espèce est un arbre binaire enraciné qui représente l’histoire évolutive des espèces où les feuilles représentent les espèces existantes et les sommets internes représentent les événements de spéciation. Un arbre génétique est également un arbre binaire enraciné qui représente l’histoire évolutive d’un ensemble de gènes. Un arbre génétique peut avoir des gènes ou des pseudogènes comme feuilles.
Le modèle PDLRS
Le modèle PDLRS est une extension du modèle DLRS obtenu en incluant également les événements de pseudogénisation. Le modèle décrit comment une lignée de gènes évolue à l’intérieur d’une espèce-arbre avec une racine de degré un, en commençant par la racine et en évoluant ensuite vers les feuilles tout en étant exposée à des événements de duplication de gènes, de perte de gènes et de pseudogénisation à des taux δ, μ et ψ, respectivement. De plus, lorsqu’une lignée de gènes atteint un sommet d’arbre d’espèce, elle est toujours (i.e., déterministe) bifurquent et les deux lignées de gènes ainsi contenues continuent d’évoluer sous le sommet de l’arbre-espèce, une dans chacune de ses deux arêtes d’arbre-espèce sortantes.
Bien qu’au cours de ce processus, une lignée de gènes puisse passer à une lignée de pseudogènes, une lignée de pseudogènes n’est pas autorisée à revenir à une lignée de gènes. Les événements de pseudogénisation introduisent des sommets de degré deux dans l’arbre génique. Une lignée pseudogène se comporte autrement comme une lignée de gènes, elle peut se dupliquer ou se perdre au cours de l’évolution, et elle bifurque de manière déterministe lorsqu’elle atteint un sommet d’arbre d’espèce. Une lignée qui atteint les feuilles de l’arbre-espèce donne naissance à une feuille dans l’arbre-gène, représentant un gène existant ou un pseudogène. Les sommets et les arêtes de l’arbre génique qui ne conduisent pas à de telles feuilles existantes sont cependant taillés à partir de l’arbre génique (figure 1). Puisque ce processus se déroule dans un arbre d’espèces avec du temps sur ses sommets et ses arêtes, chaque événement se produit à un moment précis. Chaque fois qu’un événement crée un nouveau sommet d’arbre génétique, l’heure de l’événement est associée au nouveau sommet.
Afin d’obtenir une horloge moléculaire détendue, les vitesses sont échantillonnées indépendamment d’une distribution Γ (paramétrée par une moyenne et une variance) pour chaque arête, et une arête avec le temps t et la vitesse r se voit attribuer une longueur l. Enfin, des séquences sont développées sur cet arbre génique avec ses longueurs. Rappelons que les événements de pseudogénisation introduisent des sommets de degré deux dans l’arbre génique. Sur une arête où le sommet parental est un gène, un modèle d’évolution de séquence adapté aux gènes est utilisé, tandis que lorsque le sommet parental représente un pseudogène (et, par conséquent, l’enfant représente également un pseudogène), un modèle d’évolution de séquence adapté aux pseudogènes est utilisé. Ces modèles peuvent être variés, mais nous utilisons ici deux modèles de codon décrits ci-dessous.
Afin de modéliser les deux modes d’évolution des séquences, nous utilisons deux matrices de substitution de codon proposées par, l’une pour l’évolution des pseudogènes et l’autre pour celle des gènes. La matrice de taux de substitution instantanée du codon i au codon j, q ij est dans les deux cas déterminée par :
où π j est la fréquence d’équilibre de codon j, μ est un facteur de normalisation, κ est le rapport transition / transversion et ω est le rapport non synonyme à synonyme (dN / dS). Sauf à partir de ω, ces paramètres sont partagés entre les deux modes d’évolution de séquence. Pour les pseudogènes, ω est égal à 1 et la transition vers les codons d’arrêt est autorisée, alors que pour les gènes, la transition vers le codon d’arrêt n’est pas autorisée.
Le framework MCMC PrIME-PDLRS
PrIME-PDLRS est un outil d’analyse basé sur MCMC pour le modèle mentionné ci-dessus. Il prend comme entrée un alignement de séquences multiples de séquences de gènes et de pseudogènes ainsi qu’une classification de ces séquences en tant que gènes ou pseudogènes. Il nécessite également une espèce datée – arbre S. Désignons un arbre génique par G, ses longueurs d’arêtes par l, et d’autres paramètres du modèle par θ. Le paramètre θ est composé, contenant : le taux de duplication; le taux de perte; le taux de pseudogénisation; la moyenne et le coefficient de variation du taux de bord; et les taux non synonymes à synonymes (dN/dS) et les taux de transition/transversion pour le modèle de substitution de codon de l’évolution de séquence.
Nous utiliserons Ψ pour désigner l’ensemble des sommets de pseudogénisation (degré deux) dans l’arbre génique (aucun de ces sommets ne peut se trouver sur le même chemin racine-feuille). Nous utilisons P(·) pour désigner une probabilité et p(·) pour désigner une densité de probabilité.
Un état dans notre chaîne de Markov est un quadruple (G, l, θ, Ψ). Les feuilles de l’arbre-gène correspondent aux séquences données et toute séquence classée comme pseudogène doit avoir un ancêtre en G qui appartient à Ψ. Lorsque l’état courant est (G, l, θ, Ψ), la probabilité d’acceptation d’un état proposé (G’, l’, θ’, ψ’), est déterminée par le rapport entre p (G, l, θ, Ψ|D, S) et p (G’, l’, θ’, ψ’|D, S), où D est la donnée donnée et S est l’arbre-espèce avec le temps. Puisque chacune de ces densités peut être exprimée en utilisant l’égalité de Bayes, par exemple,
les deux dénominateurs P(D|S) dans la probabilité d’acceptation s’annulent et nous obtenons
Ici, le numérateur et le dénominateur ont la même structure, il suffit donc de décrire comment calculer le premier. Tout d’abord, le facteur P (D|G, l, Ψ) peut être calculé à l’aide de l’algorithme de programmation dynamique (DP) proposé par Felsenstein. Les arêtes et parties d’arêtes pour lesquelles le mode d’évolution de séquence du gène ou du pseudogène doit être utilisé sont spécifiées par Ψ. Les fréquences d’équilibre sont estimées à partir des séquences de gènes et de pseudogènes, et sont partagées par les deux modèles d’évolution de séquences. Deuxièmement, le p(θ) antérieur est choisi de sorte qu’il puisse être facilement calculé. Enfin, la principale contribution technique de est un algorithme DP pour calculer la probabilité d’un arbre génique et de ses longueurs de bord en fonction des paramètres et de l’arbre des espèces sous le modèle DL. Afin de calculer p(G, l, θ, Ψ|D, S), nous proposons un nouvel algorithme DP qui intègre le processus de pseudogénisation et le processus DL.
Dans, un algorithme DP pour calculer le facteur p(G, l|θ, S) a été décrit. Définissons d’abord quelques concepts clés. Soit un arbre-espèces discrétisé où les arêtes de l’arbre-espèces S ont été augmentées de sommets de discrétisation supplémentaires tels que tous les sommets augmentés soient équidistants au sein d’une arête, voir figure S1 dans le fichier supplémentaire 1. Le DP utilise une table, s(x, y, u), définie comme la probabilité que lorsqu’une seule lignée génique commence à évoluer au sommet x∈V(S’), l’arbre G u (l’arbre génique enraciné en u avec l’arête parentale de u) soit généré avec les longueurs d’arêtes spécifiées par l et, de plus, l’événement correspondent à u se produit à y∈V(S’). Soit v et w enfants de u dans G, et soient x, y et z sommets de V(S’).
Soit ρ(r) la probabilité qu’une arête de G ait un taux r. Soit également t(x, y) le temps entre les sommets x, y∈V(S’). Soit σ(u) la fonction définie comme suit (i) pour une feuille u∈ L(G), σ(u) est la feuille d’arbre-espèce dans laquelle se trouve le gène que représente u et (ii) pour tout sommet interne u de G, σ(u) est l’ancêtre commun le plus récent de L(G u) dans S. On utilise p11(x, y) pour désigner la probabilité qu’une lignée de gènes évolue « 1 à 1 » entre deux points de l’arbre-espèce, i.e., un seul gène commençant à x, pour certains k donne naissance à k lignées à y dont k-1 s’éteindra et une lignée de gènes peut ou non s’éteindre. On utilise p 11 ψ(x, y) pour désigner la probabilité qu’un pseudogène évolue « de 1 à 1 » entre deux points x et y de l’arbre des espèces, c’est-à-dire qu’un seul pseudogène commençant en x, pour certains k donne naissance à k lignées pseudogènes en y dont k-1 s’éteindra et une lignée qui peut s’éteindre ou non. Un sommet u∈V(T) est appelé pseudogène s’il a un ancêtre qui appartient à Tous les sommets représentant les événements de pseudogénisation Ψ de degré deux. La façon de calculer ces deux probabilités « 1 à 1 » est décrite dans le fichier supplémentaire 1. Les récursions suivantes décrivent comment la table s peut être calculée en utilisant la programmation dynamique :
1 Si u∈ L(G) et x = σ(u), s(x, x, u) = 1.
2 Si x∈ V(S) et x σ σ(u), s(x, x, u) = 0.
3 Si x∈ V(S) \L(S), uψψ, et x = σ(u),
où D L(x) et D R(x) sont les descendants de l’enfant gauche et de l’enfant droit de x dans S « , respectivement.
4 Si x∈V(S’) \V(S) et uψψ,
où D(x) est l’ensemble des descendants de x.
5 Si x∈ V (S), parent de u (c.-à-d. p(u)) n’est pas un pseudogène, et z est un enfant de x tel que σ(L(G u)) ⊆K(S z’) et z est un ancêtre de y, alors
où ε(x, z) est la probabilité qu’une lignée de gènes commençant à x n’atteigne aucune feuille l∈ L(S x’)\L(S z’). Cependant, si de plus y est un enfant de x, les expressions ci-dessus se réduisent à,
6 Si x∈V(S), p(u) est un pseudogène, et z est un enfant de x tel que σ(L(G u)) ⊆L(S z’) et z est un ancêtre de y, alors
Cependant, si de plus y est un enfant de x, les expressions ci-dessus se réduisent à,
La probabilité que l’arbre génique G soit généré est la probabilité que lorsqu’une seule lignée commence à la racine de S, le seul enfant c de la racine de G se produise quelque part en dessous du degré une racine ρ de S, puis le processus se poursuit et génère G. Par conséquent,
où D(ρ) est l’ensemble des descendants de p.
Échantillonnage des d-réalisations
Afin de mapper les sommets de pseudogénisation aux sommets de l’arbre-espèce discrétisé S’, nous utilisons l’algorithme de programmation dynamique proposé dans. En supprimant les sommets de pseudogénisation Ψ d’un arbre génique G (c’est-à-dire en supprimant chaque sommet de degré deux et en rendant ses extrémités adjacentes), on obtient un arbre génique G*. L’algorithme d’échantillonnage introduit dans est utilisé pour mapper les sommets de l’arbre-gène V(G*) aux sommets de l’arbre-espèce discrétisé V(S’) (voir Fichier supplémentaire 1). Les points temporels associés aux sommets de l’arbre-espèce discrétisé induisent une association de points temporels aux sommets de G*. Une fois que les points temporels ont été associés au sommet parent et au sommet enfant d’un sommet de pseudogénisation u de G, un point temporel peut facilement être associé à u, en utilisant les longueurs de branches des arêtes incidentes.
Comparaison des configurations de pseudogénisation
Nous nous intéressons à quantifier la différence entre deux configurations de pseudogénisation G avec ψ et G’ avec ψ’ d’une même famille de gènes. Notez que si nous supprimons les sommets ψ en G et ψ ‘en G’ (c’est-à-dire que nous supprimons chacun de ces sommets de degré – deux sommets et que ses extrémités deviennent adjacentes), respectivement, le même arbre G * est obtenu. Soit E ψ et E ψ’ l’ensemble des arêtes de G* introduites en supprimant respectivement ψ et ψ’. Si le bord e ∈ E(G *) a été créé en supprimant u, alors u est appelé l’origine de e.
Remarque, pour tout bord f dans E ψ ou E ψ’, toutes les feuilles en dessous de f sont des pseudogènes. Donc, si f ∈ E ψ, alors il y a soit des bords de E ψ’ en dessous de f sur n’importe quel chemin de f aux feuilles en dessous, soit il y a un bord au-dessus de f qui appartient à E ψ’. Dans le premier cas, on appelle f un toit et les bords de E ψ ‘ son ombre. Dans ce dernier cas, le bord de E ψ’ est appelé toit et f appartient à son ombre.
La première distance, la distance de bord, ne tient pas compte du temps et est définie à la place en fonction de la distance en G*. Pour chaque paire d’arêtes de G*, il existe un chemin le plus court unique les contenant ; la distance entre deux de ces arêtes est définie comme étant le nombre de sommets internes sur ce chemin.
Tout d’abord, nous définissons deux distances topologiques (Figure 2). La distance d’arête entre deux sommets de pseudogénisation a ψ et b ψ’ où a ψ, b ψ sont des origines d’arêtes e a et e b, respectivement, telles que e a, e b ∈ E(G ∗), est définie comme le chemin de longueur minimale entre e a et e b dans G ∗. Pour chaque bord de toit f ∈ E ψ ou f ∈ E ψ’, soit d m(f) et d a(e) la distance maximale de bord et la distance moyenne de bord, respectivement, entre f et les bords de son abat-jour. Soit la distance topologique maximale D m et la distance topologique moyenne D a entre G, ψ et G’, ψ’ le maximum de d m(f) et la moyenne de d a(f), respectivement, sur tous les toits F ∈ E ψ ψ E ψ’. Soit l’arbre génique véritable et ses sommets de pseudogénisation (G, ψ) et q la distribution de probabilité postérieure. Enfin, nous calculons la moyenne attendue E D a et la moyenne maximale M D a des distances topologiques comme suit :
On définit également le maximum attendu E D m et le maximum maximal M D m des distances topologiques comme:
Deuxièmement, nous définissons les distances temporelles. Ceux-ci sont obtenus de manière analogue à la topologique, mais au lieu d’utiliser les distances de bords entre les toits et leurs nuances, nous utilisons les distances temporelles entre le temps associé à l’origine d’un toit et le temps associé aux origines de son ombre.
La distance topologique mesure la distance d’un sommet de pseudogénisation véritable par rapport à celui déduit le long de la topologie de l’arbre génique, tandis que la distance temporelle mesure la distance entre les temps (le long de l’arbre d’espèces) associés au sommet de pseudogénisation véritable et au sommet déduit.
Analyse synthétique et biologique
Nous avons testé notre méthode PrIME-PDLRS sur des données synthétiques et l’avons appliquée à des données biologiques. Nous décrivons d’abord les tests sur des données synthétiques. Des arbres de gènes aléatoires avec des longueurs de bords et des sommets de pseudogénisation ont été générés à l’aide d’une version modifiée du générateur d’arbres de gènes premiers avec un taux de pseudogénisation de 0,5 et des taux de perte de duplication biologiquement réalistes observés en analysant des familles de gènes de l’ensemble de données OPTIQUES. Des séquences de gènes ont été générées selon le modèle PDLRS. Les séquences de gènes ont été développées à l’aide de matrices de substitution de codon comme proposé par Bielawski et al. . Une matrice de substitution de codon neutre a été utilisée pour l’évolution des pseudogènes où le rapport de vitesse des substitutions non synonymes sur synonymes (dN/dS) a été fixé à 1,0. Dans le modèle de substitution de codon neutre, tout codon pouvait être substitué par un codon stop, alors que cela n’était pas possible dans le modèle de substitution utilisé dans le cas de l’évolution des gènes. Vingt-cinq combinaisons différentes de rapports de taux dN / dS et de rapports de taux de transition / transversion ont été utilisées pour générer des séquences de gènes à travers vingt-cinq familles de gènes, en utilisant des fréquences d’équilibre de codon uniformes. Afin de simuler un scénario biologiquement réaliste, nous avons utilisé l’arbre des espèces (obtenu comme dans) pour les neuf espèces de vertébrés de l’ensemble de données OPTIQUES, qui a été téléchargé à partir de http://genserv.anat.ox.ac.uk/downloads/clades/ Les sommets de pseudogénisation inférés ont ensuite été comparés avec les vrais sommets de pseudogénisation en utilisant deux types de métriques de distance, à savoir la distance topologique (arbre génique) et la distance temporelle (arbre des espèces).
Les ensembles de données biologiques comprenaient des sous-familles des deux plus grandes familles de gènes des vertébrés, à savoir les récepteurs olfactifs et les doigts de zinc. Il a été rapporté que les récepteurs olfactifs constituent la plus grande famille de gènes chez les vertébrés. Chez des espèces telles que la vache, l’ornithorynque et les primates, un taux élevé de pseudogénisation a été observé, tandis que les opossums, les chiens, les souris et les rats ont un taux de pseudogénisation relativement faible. Sept familles de sous-gènes ayant de préférence au moins un pseudogène par espèce ont été téléchargées à partir de http://bioportal.weizmann.ac.il/HORDE/ pour les espèces d’humains (Homo sapiens), de chiens (Canis lupus familiaris), d’opossum (Didelphis virginiana) et d’ornithorynques (Ornithorhynchus anatinus). Deux familles de sous-gènes à doigts de zinc ont également été étudiées chez les espèces d’humains (Homo sapiens), de chimpanzés (Pan troglodytes), d’orangs-outans (Pongo abelii) et de macaques rhésus (Macaca mulatta). Pour cela, nous avons choisi deux sous-familles parmi les gènes orthologues à haute confiance (qui sont supportés par OrthoMCL, reciprocal best BLAST hits et synténie). Les gènes parents/paralogues correspondants ont été recherchés à l’aide de PSI-BLAST et extraits de http://ensembl.org. Les gènes orthologues à haute confiance ont été téléchargés à partir du catalogue KZNF (http://znf.igb.illinois.edu). Comme les pseudogènes de la famille des gènes du doigt de zinc ont principalement évolué à la suite de duplications fragmentées, il est difficile d’aligner correctement les pseudogènes et les gènes correspondants, une condition nécessaire à la reconstruction de l’arbre génique. Les alignements des neuf familles de sous-gènes ont été organisés manuellement après les avoir alignés avec MACSE, permettant des codons d’arrêt et introduisant des pénalités pour la création d’un écart (-7), l’extension d’un écart (-1) et l’introduction de frameshift (-14). Les arbres-espèces datés pour les deux ensembles de données biologiques ont été téléchargés à partir de http://timetree.org. Les sous-familles de gènes ont ensuite été analysées en utilisant le même pipeline que celui utilisé pour l’analyse synthétique. Les arbres géniques potentiels ont été reconstruits à l’aide de DLR premiers, qui ont ensuite été analysés par PDR premiers en utilisant l’option d’arbre génique fixe. L’arbre génique Premier-DLRS ayant le meilleur état premier-PDLRS avec la probabilité postérieure la plus élevée a été sélectionné comme arbre génique le plus probable. Les événements postérieurs de pseudogénisation des arbres génétiques les plus probables ont ensuite été analysés à l’aide des réalisations détaillées générées lors de la traversée de la chaîne de Markov.
Analyse MCMC
Une analyse bayésienne a été réalisée pour les familles de gènes à l’aide de l’outil d’analyse basé sur MCMC, PrIME-PDLRS. La chaîne MCMC a été configurée pour intégrer tous les paramètres, c’est-à-dire l’arbre génique, la longueur des arêtes, les sommets de pseudogénisation sur l’arbre génique, les taux de naissance-mort et de pseudogénisation, ainsi que la moyenne et la variance des taux de substitution des arêtes. Nous avons échantillonné différents paramètres tout au long du processus MCMC, notamment les taux de natalité-mortalité, le taux de pseudogénisation, l’arbre génétique, les sommets de pseudogénisation, le rapport de taux dN / dS et le rapport de taux de transition / transversion. Un ou plusieurs paramètres ont été perturbés à chaque itération. La perturbation de l’arbre génique a été effectuée à l’aide de méthodes standard de perturbation de l’arbre génique telles que l’élagage et le regrafting des sous-arbres, l’échange du voisin le plus proche et le ré-enracinement. Après une perturbation, la validité de l’arbre génique résultant a été certifiée, c’est-à-dire qu’aucune lignée pseudogène ne conduit à une lignée génique. Un arbre génétique perturbé valide est proposé, chaque fois qu’un arbre génétique est proposé. La méthode de jointure voisine est utilisée pour construire l’arbre initial au début de la chaîne MCMC. La distribution de proposition propose des déplacements de sommets de pseudogénisation, à travers les lignées d’un arbre génique, de telle sorte que la probabilité de proposer un déplacement vers le haut d’un sommet de pseudogénisation soit égale à la probabilité de proposer un déplacement vers le bas. Les rapports de taux dN / dS sont échantillonnés à partir d’une distribution normale tronquée en, tandis que les rapports de taux de transition / transversion sont échantillonnés à partir d’une distribution normale tronquée en. Les taux de naissance-mort et de pseudogénisation sont échantillonnés à partir d »une distribution normale tronquée dans. Des propositions normales tronquées ont été utilisées pour la perturbation des paramètres du modèle de débit et des longueurs de bord autour de la valeur actuelle, avec des paramètres de réglage fabriqués à la main par rapport aux ratios d’acceptation. Les paramètres du taux de substitution ont été perturbés soit par la perturbation de la moyenne de distribution, soit par le coefficient de variation. Afin de déterminer si les chaînes MCMC ont convergé, nous avons utilisé VMCMC comme outil de diagnostic. Dès les premiers essais, il a été observé qu’il était sûr d’utiliser une période de rodage de 2 500 000. Pour le reste des séries, nous avons utilisé 5 000 000 itérations, une période de rodage de 2 500 000 et un éclaircissement de 500. Nous avons utilisé PrIME-DLR comme première étape pour reconstruire les arbres génétiques potentiels. Chaque arbre génique potentiel a été analysé à l’aide de PDLRS principaux avec une option d’arbre génique fixe.