Origines multiples des virus à ADN monocaténaire procaryotes et eucaryotes à partir de plasmides bactériens et archéens

Réseau mondial des réplicons HUH

Pour explorer l’histoire évolutive des réplicons HUH, nous avons collecté un ensemble de données d’endonucléases HUH – la seule protéine codée par tous ces réplicons – représentant chaque famille de virus, plasmides et transposons associés à des hôtes dans les trois domaines cellulaires 16, 27, 28, 29, 30. Dans cette analyse, nous n’avons pas pris en compte les relaxases Mob impliquées dans la conjugaison plasmidique. Les enzymes de cette famille englobent des motifs conservés permutés circulairement qui compliquent leur comparaison basée sur la séquence avec les endonucléases HUH impliquées dans la réplication ou la transposition de l’ADN 16,19. L’ensemble de données résultant comprenait 8764 séquences. Ceux-ci ont été regroupés en fonction de la similitude par paires, et les clusters ont été identifiés à l’aide d’un algorithme de clustering convexe (seuil de valeur p de 1e−08) avec CLANS35. Cette analyse a révélé 33 grappes dont la taille variait de 7 à 2711 séquences (données supplémentaires 1). Suite à une inspection de la connectivité entre les clusters (Fig. 1), nous avons défini 2 clusters orphelins et 2 super-clusters, qui affichaient pas ou très peu de connexions entre eux (données supplémentaires 1). Néanmoins, la comparaison des structures à haute résolution disponibles pour les représentants des grappes orphelines et des 2 supergrappes 16,36 confirme sans équivoque leur origine commune.

Fig. 1
figure1

Représentants de la superfamille HUH regroupés par leur similitude de séquence par paire. Les lignes relient des séquences avec une valeur P ≤ 1e-08. Les groupes ont été nommés d’après des plasmides bien caractérisés, des virus ou le taxon le plus fréquent

Le groupe orphelin 1 comprend une seule famille de transposons IS200/IS605 qui sont répandus chez les bactéries et archaea37. Les endonucléases HUH des séquences d’insertion IS200/IS605 ont été largement étudiées structurellement et biochimiquement, ce qui a permis une compréhension complète de leurs fonctionnements16,38. Bien que les transposases IS200/IS605 aient un pli structurel commun à celui des autres endonucléases de HUH et contiennent les 3 motifs de signature, elles n’ont pas montré de similitude de séquence appréciable avec aucun autre amas d’endonucléases de HUH et sont donc restées déconnectées des séquences d’autres amas. Néanmoins, la diversité des séquences au sein du cluster IS200/IS605 est comparable à celle des autres clusters.

Le groupe orphelin 2 comprend des protéines Rep qui sont conservées dans des virus hyperthermophiles archaïques de la famille des Rudiviridae39. Des études structurales de la protéine Rep du rudivirus SIRV1 ont révélé le pli canonique de l’endonucléase HUH et la caractérisation biochimique de la protéine a confirmé les activités d’entaillage et d’assemblage attendues dans vitro36. Comme les transposases IS200/IS605, le cluster Rep rudiviral ne se connecte pas à d’autres endonucléases HUH, y compris les homologues d’autres familles de virus archaïques et de plasmides.

De manière concevable, l’unicité des 2 grappes orphelines est liée aux mécanismes inhabituels de transposition et de réplication utilisés par les éléments respectifs. En effet, les séquences d’insertion IS200/IS605 se transposent par un mécanisme unique de pelage et de pâte38, alors que les rudivirus, contrairement à la plupart des autres virus et plasmides se répliquant par le mécanisme du cercle roulant, contiennent des génomes d’adNDD linéaires relativement volumineux (~35 kb) avec des terminaisons fermées de manière covalente40.

La supergrappe 1 est de loin l’assemblage HUH le plus grand et le plus diversifié qui comprend 24 grappes (données supplémentaires 1). Parmi ces 24 groupes, 15 contiennent des représentants de plasmides extrachromosomiques de bonne foi, dont 7 groupes comprennent également des représentants de divers virus d’adNSS (Microviridae, Inoviridae et Pleolipoviridae) et /ou d’adNSS (Myoviridae et Corticoviridae) de bactéries et d’archées. Trois groupes sont constitués de Rep codés par des microvirus des sous-familles Gokushovirinae et Bullavirinae, et de Xanthomonas inovirus Cf1 (famille des Inoviridae), respectivement. Notamment, les microvirus de type phiX174 (Bullavirinae) présentent une similitude exclusive avec les microvirus de la sous-famille des Gokushovirinae, ce qui indique la monophylie du Rep dans les deux sous-familles des Microviridae, malgré une forte divergence de séquence. Les transposons bactériens IS91 (y compris la sous-famille ISCR) et eucaryotes de la famille des hélitrons, respectivement, forment deux amas distincts. Les deux groupes de transposons ne sont pas directement reliés l’un à l’autre, mais sont liés à des groupes distincts de plasmides bactériens et, dans le cas d’IS91, de plasmides archéens, suggérant des origines indépendantes des réplicons extrachromosomiques bactériens. Il a été suggéré précédemment que les hélitrons pourraient représenter un chaînon manquant entre les virus eucaryotes à ADN de CRESSON, à savoir les géminivirus et les réplicons bactériens de HUH41 ou que les hélitrons ont évolué à partir de géminivirus 42. Cependant, dans notre analyse, les hélitrons ne se connectent à aucun des groupes de virus à ADN de CRESSON, suggérant des trajectoires évolutives indépendantes, conformes aux découvertes récentes43.

Les 5 amas restants ne comportent pas de séquences plasmidiques, virales ou transposon reconnaissables et sont donc susceptibles de représenter de nouvelles familles de MGE intégrées. Quatre de ces groupes se trouvent principalement dans les bactéries des taxons Clostridiales, Actinobactéries, Neisseriales et Bacteroidetes, respectivement (étiquetés en conséquence sur la Fig. 1), tandis que le cinquième groupe est spécifique à la division candidate MSBL1 (Lacs de saumure de la mer Méditerranée 1) 44, un groupe d’archées non cultivées présentes dans différents environnements hypersalins. La plupart des grappes présentent une uniformité taxonomique au niveau du domaine, c’est-à-dire que les grappes comprennent des séquences bactériennes, archéennes ou eucaryotes (y compris les virus et les plasmides correspondants), ce qui suggère que les transferts horizontaux de virus ou de plasmides entre les domaines hôtes sont peu fréquents. Les deux exceptions incluent les amas dominés par les bactéries de type pUB110 et IS91, qui comprennent une poignée de séquences archéennes. Dans le cas des transposons IS91, le transfert horizontal des bactéries a été constaté par des analyses phylogénétiques45. De plus, certains des amas comprennent des séquences sporadiques annotées comme eucaryotes; cependant, l’analyse des contigs correspondants suggère qu’il s’agit probablement de contaminants bactériens.

Les 7 clusters qui comprennent à la fois des virus et des plasmides présentent un intérêt particulier. Par exemple, le cluster de type pEC316_KPC, outre les plasmides, contient des virus non liés à l’évolution de 3 familles, les Myoviridae, les Corticoviridae et les Inoviridae, suggérant une propagation horizontale étendue des gènes rep. Notamment, les représentants des inovirus sont répartis entre 5 grappes. Compte tenu de la rareté des séquences inovirales dans les amas de type pVT736-1 et de type pUB110, qui ne comprennent que le phage Pf3 de Pseudomonas et le phage B5 de Propionibacterium, respectivement, la directionnalité du transfert de gènes, des plasmides aux virus correspondants, semble évidente. De plus, de nombreux inovirus ne codent pas les endonucléases HUH, mais codent plutôt les initiateurs de réplication d’une superfamille non liée à l’évolution, Rep_trans (Pfam id: PF02486)15, qui regorge également de plasmides bactériens30, alors que les inovirus du genre Vespertiliovirus ne possèdent pas de Rep et se répliquent plutôt par transposition en utilisant des transposases des familles IS3 et IS30 dérivées des séquences d’insertion correspondantes46. Collectivement, ces observations indiquent que les modules de réplication des inovirus ont été échangés avec des modules de réplication distants, voire non homologues, de diverses familles de plasmides et de transposons. De même, les pléolipovirus archéens sont divisés en deux groupes correspondant à différentes familles de plasmides archéens, respectivement de type pGRB1 et de type pTP2, ce qui suggère que l’échange de gènes associés à la réplication est courant chez les virus bactériens et archéens avec de petits génomes de la taille d’un plasmide. ¶Dans certains cas, il est difficile de déterminer l’appartenance virale ou plasmidique des Représentants codés dans les chromosomes cellulaires, car les deux types d’EGM peuvent s’intégrer dans les génomes de l’hôte. Par example, l’amas de type XacF1 comprend 62 séquences Rep, dont 2 sont codées par des phages filamenteux, tandis que le reste provient de génomes bactériens. L’analyse des quartiers génomiques suggère que seulement 6 des 60 représentants restants représentent des prophages. De plus, le cluster de type pAS28 comprend un plasmide, pAS28 (réf. 47); cependant, des représentants apparentés ont déjà été identifiés dans des prophages48, mais pas dans des virus caractérisés, ce qui donne l’impression erronée que le représentant de type pAS28 est exclusif aux plasmides. ¶Pour caractériser davantage les relations évolutives entre les représentants codés par différents types de MGE, nous avons construit des arbres phylogénétiques à maximum de vraisemblance pour les 7 grappes qui comprenaient des représentants de virus et de plasmides (Fig. supplémentaire. 2a-g). Les résultats des analyses phylogénétiques suggèrent un transfert horizontal des gènes rep entre plasmides et virus, les séquences virales étant généralement imbriquées parmi des homologues codés par des plasmides.

Le supergrappe 2 (SC2) est constitué de 7 clusters (données supplémentaires 1) qui comprennent tous les virus à ADN de CRESSON eucaryote connus, classifiés et non classifiés, les parvovirus, un cluster de plasmides de l’algue rouge Pyropia pulchra49 et 4 clusters contenant des séquences Rep bactériennes. La grande majorité des représentants bactériens des amas de type pCPa et de type p4M sont codés dans des génomes bactériens plutôt que dans des plasmides et n’ont pas été caractérisés auparavant. Dans notre réseau, les virus à ADN de CRESSON sont connectés à des clusters de type pCPa, p4M, pPAPh2 et P. pulchra, tandis que le cluster de type pE194 / pMV158 ne forme pas de connexions directes aux virus à ADN de CRESSON, mais rejoint SC2 via le cluster de type pCPa (Fig. 1). Notamment, les géminivirus et les génomovirus forment un sous-groupe avec des plasmides de phytoplasmes (cluster de type pPAPh2) et de P. pulchra, qui est séparé des autres virus à ADN de CRESSON. L’amas de Parvoviridae, comprenant des parvovirus et des virus endogènes dérivés intégrés dans divers génomes eucaryotes, est vaguement connecté directement aux virus à ADN-CRESSON, ce qui suggère que les parvovirus avec des génomes linéaires d’adNSS partagent une ascendance commune avec les virus à ADN-CRESSON qui, par définition, ont des génomes circulaires. Intrigués par le lien évolutif apparemment étroit entre les virus eucaryotes à ADN de cresson et les représentants bactériens et algaux, nous avons étudié ces relations plus en détail, comme indiqué dans les sections suivantes.

La diversité des représentants de type viral dans les génomes bactériens

Pour étudier l’étendue de la similitude entre les représentants de virus à ADN de CRESSON eucaryote et les réplicons non viraux de SC2, nous avons comparé leurs organisations de domaine. À l’exception des plasmides de la famille pE194/pMV158, qui ne contiennent que le domaine nucléase, les représentants SC2 bactériens et algaux avaient la même organisation du domaine nucléase-hélicase que les virus à ADN CRESSON. La même organisation à deux domaines est également caractéristique du parvovirus Reps2. Ainsi, l’analyse de l’organisation du domaine corrobore les résultats du regroupement de séquences et indique en outre que les représentants SC2 bactériens sont plus étroitement liés aux représentants de virus eucaryotes qu’à ceux d’autres plasmides et virus procaryotes.

Nous avons ensuite cherché à obtenir des informations supplémentaires sur la diversité et la distribution taxonomique des représentants SC2 de type viral codés dans les génomes bactériens. L’analyse phylogénétique du maximum de vraisemblance a révélé 9 clades bien étayés (Fig. 2 bis). Le regroupement et l’analyse de détection de communauté subséquente ont validé les 9 groupes de représentants bactériens (Fig. 2b), où les groupes 1 à 3 correspondent à la grappe de type p4M représentée à la Fig. 1, groupes 4-8 au cluster de type pCPa et groupe 9 au cluster de type pPAPh2. Pour souligner leur similitude avec les représentants des virus à ADN CRESSON, nous appelons les 9 groupes pCRESS1 à pCRESS9. Ces groupes présentaient des distributions taxonomiques partiellement chevauchantes mais distinctes, couvrant plusieurs classes au sein de 4 phyla bactériens (Fig. 1 et Tableau supplémentaire 1).

Fig. 2
figure2

Diversité des protéines Rep de type viral chez les bactéries. un arbre phylogénétique des protéines Rep bactériennes et leurs homologues chez P. pulchra. Les séquences étroitement liées sont réduites en triangles, dont les longueurs latérales sont proportionnelles aux distances entre les nœuds foliaires les plus proches et les plus éloignés. groupes de CLANS de protéines Rep bactériennes et leurs homologues. Les nœuds indiquent des séquences protéiques. Les lignes représentent les relations de séquence (valeur P des CLANS ≤ 1e-05). Les nœuds appartenant à un même groupe sont colorés avec les mêmes couleurs, correspondant aux clades représentés dans les cartes génomiques du panneau A. c de plasmides intégrés et extrachromosomiques représentant les groupes 1 à 9. Les gènes homologues sont représentés en utilisant la même couleur et leurs fonctions sont listées sur le côté droit de la figure

La majorité des représentants de pCRESS7 et pCRESS9 sont codés par des plasmides extrachromosomiques (Tableau supplémentaire 1). En revanche, la grande majorité (97.5%) des Rep trouvés dans d’autres groupes sont codés au sein du site des éléments génétiques mobiles – spécifiquement intégrés dans les chromosomes bactériens (Tableau supplémentaire 1; Fig. 2c; Fig. supplémentaire. 3; Note supplémentaire 1). Notamment, aucun des éléments n’a codé d’homologues de protéines structurales virales actuellement connues (Note supplémentaire 1). Collectivement, ces observations indiquent que les représentants de type viral chez les bactéries sont codés par divers plasmides extrachromosomiques et intégrés.

Caractéristiques conservées des représentants de virus bactériens et à ADN CRESSON

L’analyse des séquences a montré que, malgré une divergence globale considérable des séquences, les représentants de pCRESS4 à 8 contiennent des motifs de séquence étroitement similaires dans les domaines de la nucléase et de l’hélicase (Fig. 3), en accord avec les résultats des analyses de regroupement et phylogénétiques (Fig. 2). En particulier, ces 5 groupes pCRESS partagent une signature spécifique, YLxH (x, n’importe quel acide aminé) au sein du motif III du domaine nucléase, qui n’a pas été observée chez les représentants des pCRESS1-3 et 9 (Fig. 3). Ainsi, nous appelons collectivement pCRESS4-8 le supergroupe YLxH (plutôt que le cluster de type pCPa), pour souligner cette fonctionnalité partagée. La signature YLxH a également été conservée chez les représentants du groupe de type pE194/pMV158, suggérant une relation évolutive plus étroite entre les deux groupes, malgré le fait que les représentants de type pE194/pMV158 ne possèdent pas le domaine hélicase. De plus, pCRESS9 présente des motifs similaires à ceux des plasmides de P. pulchra et pourrait ainsi être unifié avec ces plasmides en un assemblage commun. En revanche, pCRESS1, -2 et -3 (cluster de type p4M) affichent des ensembles de motifs distinctifs (Fig. 3; Note supplémentaire 1).

Fig. 3
figure3

Motifs séquentiels conservés des protéines Rep. Les groupes de Rep bactériens sont représentés sur fond gris. Les résidus sont colorés par leurs propriétés chimiques (polaire, vert; basique, bleu; acide, rouge; hydrophobe, noir; neutre, violet). Les groupes de Rep ont été ordonnés manuellement en fonction de la similitude par paires des motifs alignés. Les domaines de l’endonucléase HUH et de l’hélicase SF3 sont délimités en haut de la figure

Origine du domaine de l’hélicase SF3

Les analyses de séquences suggèrent que les représentants du plasmide contenant le domaine de l’hélicase SF3, en particulier ceux de pCRESS2, pCRESS3 et pCRESS9, et P. pulchra, sont étroitement liés lié aux représentants des virus à ADN de CRESSON. Cependant, la directionnalité de l’évolution, c’est-à-dire si les représentants plasmidiques ont évolué à partir de ceux de virus à ADN CRESSON ou vice versa, n’est pas évidente. Bien qu’il soit tentant de considérer l’absence du domaine hélicase dans le cluster de type pE194/pMV158 comme une indication que ce groupe est ancestral des représentants contenant de l’hélicase, il ne peut être exclu que le domaine hélicase ait été perdu par ces plasmides. Ainsi, nous avons entrepris d’étudier la provenance du domaine de l’hélicase SF3 dans le plasmide et les représentants viraux. Des recherches de séquences sensibles avec HMMER sur la base de données nr30 ont montré que les domaines hélicases des représentants viraux plasmidiques et à ADN CRESSON sont les plus étroitement liés à ceux des virus à ARN eucaryotes à sens positif (ordre des Picornavirales et famille des Caliciviridae) ainsi qu’à la superfamille AAA + ATPase 50,51. Dans cette analyse, nous avons également inclus les séquences SF3 de parvovirus, de polyomavirus et de papillomavirus qui seraient liées évolutivement aux virus de l’ADN-CRESS2,25. On n’a pas tenu compte de plusieurs groupes d’hélicases SF3 plus éloignées provenant de virus à gros génomes d’ADNDSD52. En raison de la forte divergence de séquence et de la longueur relativement courte, les analyses phylogénétiques des domaines de l’hélicase SF3 n’étaient pas informatives, ce qui a abouti à des topologies d’arbres en forme d’étoile, quels que soient les modèles évolutifs ou l’échantillonnage taxonomique utilisé. Cependant, l’analyse de clustering basée sur des similitudes par paires a fourni des informations sur les relations entre les différentes familles d’ATPASES (Fig. 4 bis). En particulier, la relation étroite entre les domaines de l’hélicase SF3 des Rep bactériens et les virus à ADN CRESSON a été clairement étayée. Les deux groupes se connectent aux virus à ARN, mais seuls les représentants bactériens, en particulier ceux du supergroupe YLxH, montrent des connexions aux ATPases de la superfamille AAA +, à savoir les DnaC de chargeur d’hélicase bactérienne et, dans une moindre mesure, les ATPases de type DnaA et Cdc48 (Fig. 4 bis). La similitude plus étroite entre le supergroupe YLxH et les ATPases bactériennes AAA+ est étayée par la comparaison des motifs catalytiques qui ont révélé plusieurs caractères dérivés partagés, à l’exclusion d’autres groupes (Fig. supplémentaire. 4). Au même seuil de regroupement, ni l’ADN eucaryote ni les virus à ARN ne sont liés à aucun groupe d’ATPases autres que celles des plasmides bactériens. Les hélicases SF3 des parvovirus liées à celles des virus à ADN CRESSON, compatibles avec l’analyse de séquences Rep complètes (Fig. 1). Les papillomavirus et les polyomavirus formaient 2 grappes qui se connectaient les unes aux autres et aux parvovirus.

Fig. 4
figure4

Relations entre les hélicases de la superfamille 3 et les ATPases AAA+. une Superfamille 3 domaines helicase et AAA + ATPase regroupés par leur similitude par paires à l’aide de CLANS. Au total, 3854 séquences ont été regroupées avec des CLANS (valeur P des CLANS ≤ 5e-09). Les groupes de virus à ADN CRESS non classifiés sont appelés CRESSV1 à CRESSV6 (réf. 53). b Un scénario évolutif proposé pour l’origine et l’évolution des hélicases virales de la superfamille 3. Abréviations: SF3, domaine de l’hélicase de la superfamille 3; HUH, domaine de la nucléase de la superfamille HUH; OBD, domaine de liaison à l’origine; HGT, transfert horizontal de gènes;

Ce modèle de connectivité suggère un vecteur d’évolution spécifique et semble être le mieux compatible avec le scénario suivant. Le domaine hélicase SF3 des plasmides bactériens a évolué à partir d’une ATPase bactérienne de type DnaC ; ce domaine hélicase a été ajouté au domaine nucléase des Représentants des plasmides de type pE194 / pMV158 donnant l’ancêtre du supergroupe YLxH ; les représentants des plasmides bactériens ont été transmis aux virus à ADN CRESSON; l’hélicase SF3 des virus à ARN a été acquise horizontalement soit à partir de plasmides bactériens, soit plus probablement à partir de virus eucaryotes à ADN-CRESSON; les virus à ADN-CRESSON ont engendré des parvovirus qui à leur tour ont donné naissance à des polyomavirus et des papillomavirus (Fig. 4b). Le scénario alternatif, selon lequel les hélicases SF3 de virus à ARN eucaryotes ont donné naissance aux protéines bactériennes universelles DnaC et DnaA, par l’intermédiaire de plasmides bactériens, semble non parcimonieux et extrêmement improbable. En effet, le DnaA est omniprésent et essentiel dans les bactéries50,51, de sorte que la capture de l’hélicase d’un plasmide devrait se produire à l’origine même du domaine bactérien de la vie. Notamment, les plasmides pCRESS9 et P. pulchra ne sont pas liés à d’autres plasmides mais sont plutôt connectés au reste des séquences par le biais des virus à ADN CRESSON. Ce dernier modèle a également été observé dans l’analyse de regroupement global des représentants HUH (Fig. 1) ainsi que dans le seul regroupement des domaines nucléasiques.

Origines des virus à ADN-CRESSON à partir de plasmides bactériens

L’analyse des domaines de l’hélicase SF3 suggère que les représentants des plasmides de type pE194/pMV158 sont des formes ancestrales plutôt que dérivées. La possibilité alternative, à savoir que les représentants de plasmides de type pE194 / pMV158 aient perdu le domaine hélicase, ne peut pas être exclue à l’heure actuelle. Cependant, le fait que le domaine hélicase n’ait été perdu dans aucun des nombreux groupes connus de virus à ADN CRESS ou dans les plasmides pCRESS1 à pCRESS9, suggère qu’une fois acquis, le domaine hélicase devient important pour une réplication efficace du génome plasmidique/viral. Ainsi, la similitude étroite entre les représentants de type pE194/ pMV158 et ceux du supergroupe YLxH, résultant en une connectivité directe des deux groupes dans le réseau global (Fig. 1), implique que le premier groupe est un groupe externe adéquat pour la phylogénie des représentants des plasmides bactériens et des virus à ADN de CRESSON. Pour les analyses phylogénétiques, nous avons utilisé un ensemble de données de représentants SC2, à l’exclusion des représentants de Parvoviridae et de virus à ADN de CRESSON qui étaient auparavant jugés chimériques en ce qui concerne leurs domaines de nucléase et d’hélicase 53, afin d’éviter des artefacts potentiels résultant de signaux phylogénétiques contradictoires. L’ensemble de données comprenait des représentants de toutes les familles classifiées de virus à ADN du CRESSON ainsi que 6 groupes de virus à ADN du CRESSON non classifiés provisoirement étiquetés CRESSV1–6 (réf. 53) ainsi qu’un petit groupe de virus de type GasCSV, qui ont déjà été remarqués pour coder les Rep avec une similitude significative avec les Rep Bactériens54. Dans l’arbre phylogénétique du maximum de vraisemblance bien supporté construit avec PhyML et enraciné avec des représentants de type pE194/pMV158, le supergroupe YLxH (pCRESS4-8) est à la base d’un assemblage qui comprend tous les virus à ADN de CRESSON, pCRESS1-3 et pCRESS9 ainsi que les plasmides de P. pulchra. Cet assemblage se divise en deux clades (Fig. 5). Le clade 1 comprend deux sous-clades, dont l’un est constitué de géminivirus et de génomovirus joignant les plasmides pCRESS9 de phytoplasmes, et l’autre comprend les plasmides CRESSV6 et P. pulchra. Notamment, les plasmides de P. pulchra semblent émerger directement de la diversité de CRESSV6, avec la relation la plus étroite avec le sous-clade de virus CRESSV6 séquencé à partir d’échantillons d’eaux usées. La relation entre les géminivirus/génomovirus et les plasmides pCRESS9 n’est pas résolue dans la phylogénie. Cependant, les analyses de regroupement suggèrent fortement que les représentants des plasmides pCRESS9 ont évolué à partir de géminivirus-génomovirus (Fig. 1 et 4). Conformément à ce scénario, les plasmides phytoplasmaux pCRESS7 et pCRESS9, malgré le codage de représentants phylogénétiquement distincts, partagent le contenu génétique, à savoir la protéine de contrôle du nombre de copies, la protéine SSB de type PRK06752 et la protéine hypothétique conservée (Fig. supplémentaire. 3g, i). De plus, les géminivirus et le CRESSV6 codent des protéines homologues de la capside, ce qui suggère qu’ils ont évolué à partir d’un ancêtre viral commun plutôt que de converger à partir de deux groupes de plasmides en capturant des gènes homologues de la protéine de la capside. Le clade 2 comprend des représentants bactériens de pCRESS1–3 et, en tant que groupe frère, des virus à ADN de CRESSON des familles Nanoviridae/Alphasatellitidae, Smacoviridae et Circoviridae ainsi que des CRESSV1 à CRESSV5 non classifiés, tandis que les virus de type GasCSV sont imbriqués dans le pCRESS2 bactérien.

Fig. 5
figure5

Arbre phylogénétique de probabilité maximale des protéines Rep. GasCSV – Virus de l’adNSS circulaire associé aux gastéropodes. L’arbre a été construit avec PhyML78. Les branches dont les valeurs de support sont inférieures à 70 sont contractées

La robustesse de l’arbre PhyML a été validée par des analyses supplémentaires (Note supplémentaire 1), y compris (i) des analyses phylogénétiques à maximum de vraisemblance utilisant RAxML et IQ-Tree, avec d’autres méthodes de support des branches (Figure S5).; (ii) reconstruction phylogénétique à l’aide du modèle de mélange à 20 profils (Figure S5) ; (iii) analyse statistique des topologies arborescentes non contraintes et 3 contraintes (Tableau supplémentaire 2). Collectivement, ces résultats indiquent que la topologie arborescente obtenue est très robuste et est susceptible de refléter avec précision l’histoire évolutive des REP codés par des virus à ADN CRESSON et des plasmides.

Notamment, analyse des motifs conservés (fig. 3) suggère une association spécifique entre les représentants viraux du clade 1 et la bactérie pCRESS3 (plutôt que pCRESS1–3 collectivement), ce qui implique que le placement phylogénétique pourrait être affecté par d’anciens événements de recombinaison. De plus, les bacilladnavirus ont été omis de l’arbre phylogénétique global parce que leurs représentants affichaient une position instable dans la phylogénie en fonction de l’échantillonnage du taxon (Fig. supplémentaire. 6), éventuellement, en raison du petit nombre de séquences disponibles, de leur forte divergence et de leur chimérisme potentiel. Quoi qu’il en soit, l’analyse phylogénétique suggère fortement que la majorité des virus à ADN de CRESSON, y compris les circovirus, les smacovirus, les nanovirus et le CRESSV1-5, ont évolué à partir d’un ancêtre commun avec les représentants bactériens de pCRESS1–3, tandis que les virus de type GasCSV non cultivés émergent directement des représentants bactériens de pCRESS2 (Fig. 5). La provenance de l’assemblage comprenant les géminivirus, les génomovirus et le CRESSV6 est moins claire, mais pourrait être antérieure à l’émergence des autres groupes de virus à ADN CRESS et peut-être impliquer un ancêtre commun avec le supergroupe YLxH. Les représentants des bactéries pCRESS9 et P. les plasmides de pulchra ont probablement été acquis horizontalement plus récemment à partir des virus à ADN de CRESSON correspondants.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.