Multiple origins of prokaryotic and eukaryotic single-stranded DNA viruses from bacterial and archaeal plasmids

Globales Netzwerk der HUH—Replikone

Um die Evolutionsgeschichte der HUH—Replikone zu erforschen, sammelten wir einen Datensatz von HUH-Endonukleasen – dem einzigen Protein, das von all diesen Replikonen codiert wird -, der jede Virusfamilie repräsentiert, Plasmide und Transposons, die mit Wirten in allen drei Zelldomänen16,27,28,29,30 assoziiert sind. In dieser Analyse haben wir keine an der Plasmidkonjugation beteiligten Mobidasen berücksichtigt. Enzyme in dieser Familie umfassen zirkular permutierte konservierte Motive, die ihren sequenzbasierten Vergleich mit den ANDEREN an der DNA-Replikation oder -Transposition beteiligten Endonukleasen komplizieren16,19. Der resultierende Datensatz enthielt 8764 Sequenzen. Diese wurden basierend auf paarweiser Ähnlichkeit gruppiert, und Cluster wurden unter Verwendung eines konvexen Clustering-Algorithmus (p−Wertschwelle von 1e-08) mit CLANS IDENTIFIZIERT35. Diese Analyse ergab 33 Cluster, deren Größe von 7 bis 2711 Sequenzen variierte (Ergänzende Daten 1). Nach einer Überprüfung der Konnektivität zwischen Clustern (Abb. 1) definierten wir 2 Orphancluster und 2 Supercluster, die entweder keine oder nur sehr wenige Verbindungen zueinander aufwiesen (ergänzende Daten 1). Dennoch bestätigt der Vergleich der verfügbaren hochauflösenden Strukturen für Vertreter beider Orphan-Cluster und der 2 Supercluster16,36 eindeutig ihren gemeinsamen Ursprung.

Abb. 1
figure1

Repräsentativ FÜR Superfamilien-Wiederholungen, die durch ihre paarweise Sequenzähnlichkeit gruppiert sind. Zeilen verbinden Sequenzen mit P-Wert ≤ 1e−08. Die Gruppen wurden nach gut charakterisierten Plasmiden, Viren oder dem häufigsten Taxon benannt

Orphan Cluster 1 umfasst eine einzelne Familie von IS200/IS605-Transposons, die in Bakterien und archaea37 weit verbreitet sind. Die MOLEKULAREN Endonukleasen der IS200 / IS605-Insertionssequenzen wurden strukturell und biochemisch umfassend untersucht, was zu einem umfassenden Verständnis ihrer Funktionen führt16,38. Obwohl IS200 / IS605-Transposasen eine Strukturfalte aufweisen, die der anderer HUH-Endonukleasen gemeinsam ist, und alle 3 Signaturmotive enthalten, zeigten sie keine nennenswerte Sequenzähnlichkeit mit einem anderen Cluster von HUH-Endonukleasen und blieben daher von Sequenzen in anderen Clustern getrennt. Dennoch ist die Sequenzvielfalt innerhalb des IS200 / IS605-Clusters mit der in anderen Clustern vergleichbar.

Orphan Cluster 2 enthält Rep-Proteine, die in hyperthermophilen archaealen Viren der Familie Rudiviridae39 konserviert sind. Strukturstudien des Rep-Proteins aus dem Rudivirus SIRV1 ergaben die kanonische HUH-Endonuklease-Faltung und die biochemische Charakterisierung des Proteins bestätigte die erwarteten Nicking- und Joining-Aktivitäten in vitro36. Wie die IS200 / IS605-Transposasen verbindet sich der rudivirale Rep-Cluster nicht mit anderen HUMANEN Endonukleasen, einschließlich Homologen aus anderen Familien archaealer Viren und Plasmide.

Denkbar ist, dass die Einzigartigkeit der 2 Orphan-Cluster mit den ungewöhnlichen Transpositions- und Replikationsmechanismen der jeweiligen Elemente zusammenhängt. Tatsächlich transponieren IS200 / IS605-Insertionssequenzen durch einen einzigartigen Peel-and-Paste-Mechanismus38, während Rudiviren im Gegensatz zu den meisten anderen Viren und Plasmiden, die sich durch den Rolling-Circle-Mechanismus replizieren, relativ große (~ 35 kb) lineare dsDNA-Genome mit kovalent geschlossenen Termini enthalten40.

Supercluster 1 ist der mit Abstand größte und vielfältigste Sternhaufen, der 24 Cluster umfasst (Ergänzende Daten 1). Von diesen 24 Clustern enthalten 15 Reps aus echten extrachromosomalen Plasmiden, von denen 7 Cluster auch Reps aus verschiedenen ssDNA- (Microviridae, Inoviridae und Pleolipoviridae) und / oder dsDNA- (Myoviridae und Corticoviridae) Viren von Bakterien und Archaeen enthalten. Drei Cluster bestehen aus Reps, die von Mikroviren der Unterfamilien Gokushovirinae und Bullavirinae bzw. Xanthomonas inovirus Cf1 (Familie Inoviridae) kodiert werden. Bemerkenswert ist, dass phiX174-ähnliche Mikroviren (Bullavirinae) Ähnlichkeit ausschließlich mit Mikroviren der Unterfamilie Gokushovirinae aufweisen, was auf die Rep-Monophilie in den beiden Unterfamilien der Microviridae hinweist, trotz hoher Sequenzdivergenz. Die Transposons der bakteriellen IS91 (einschließlich der ISCR-Unterfamilie) bzw. der eukaryotischen Helitronenfamilie bilden zwei unterschiedliche Cluster. Die beiden Gruppen von Transposons sind nicht direkt miteinander verbunden, sondern mit verschiedenen Gruppen bakterieller und im Fall von IS91 archaealer Plasmide verbunden, was auf unabhängige Ursprünge von bakteriellen extrachromosomalen Replikonen hindeutet. Es wurde bereits vermutet, dass Helitrons ein fehlendes Glied zwischen eukaryotischen KRESSE-DNA-Viren, nämlich Geminiviren, und bakteriellen DNA-Replikaten darstellen41 oder dass Helitrons aus Geminiviren entstanden sind42. In unserer Analyse verbinden sich Helitronen jedoch nicht mit einer der Gruppen von KRESSE-DNA-Viren, was auf unabhängige evolutionäre Trajektorien hindeutet, die mit den jüngsten Befunden übereinstimmen43.

Die verbleibenden 5 Cluster enthalten keine erkennbaren Plasmid-, Virus- oder Transposon-Sequenzen und stellen daher wahrscheinlich neue Familien von integriertem MGE dar. Vier dieser Gruppen kommen vorwiegend in Bakterien der Taxa Clostridiales, Actinobacteria, Neisseriales bzw. Bacteroidetes vor (entsprechend gekennzeichnet in Fig. 1), während die fünfte Gruppe spezifisch für die Kandidatendivision MSBL1 (Mittelmeersoleseen 1) 44 ist, eine Gruppe von unkultivierten Archaeen, die in verschiedenen Hypersalinumgebungen vorkommen. Die meisten Cluster weisen auf Domänenebene eine taxonomische Einheitlichkeit auf, d. H. Cluster enthielten entweder bakterielle oder archaeale oder eukaryotische Sequenzen (einschließlich der entsprechenden Viren und Plasmide), was darauf hindeutet, dass horizontale Transfers von Viren oder Plasmiden zwischen Wirtsdomänen selten sind. Zu den beiden Ausnahmen gehören die pUB110-ähnlichen und IS91-ähnlichen bakteriendominierten Cluster, die eine Handvoll archaealer Sequenzen enthalten. Bei IS91-Transposons wurde der horizontale Transfer von Bakterien durch phylogenetische Analysen festgestellt45. Darüber hinaus enthalten einige der Cluster sporadische Sequenzen, die als eukaryotisch bezeichnet werden; Die Analyse der entsprechenden Contigs legt jedoch nahe, dass es sich wahrscheinlich um bakterielle Kontaminanten handelt.

Von besonderem Interesse sind die 7 Cluster, die sowohl Viren als auch Plasmide enthalten. Zum Beispiel enthält der pEC316_KPC-ähnliche Cluster neben Plasmiden evolutionär nicht verwandte Viren aus 3 Familien, Myoviridae, Corticoviridae und Inoviridae, was auf eine ausgedehnte horizontale Ausbreitung der rep-Gene hindeutet. Bemerkenswerterweise sind Wiederholungen von Inoviren auf 5 Cluster verteilt. Angesichts der Knappheit an inoviralen Sequenzen in den pVT736-1-ähnlichen und pUB110-ähnlichen Clustern, die nur Pseudomonas Phage Pf3 bzw. Propionibacterium Phage B5 umfassen, erscheint die Direktionalität des Gentransfers von Plasmiden zu den entsprechenden Viren offensichtlich. Darüber hinaus kodieren viele Inoviren nicht für DNA-Endonukleasen, sondern für Replikationsinitiatoren einer evolutionär nicht verwandten Superfamilie, Rep_trans (Pfam id: PF02486)15, die auch reich an bakteriellen Plasmiden ist30, während Inoviren der Gattung Vespertiliovirus keine Reps haben und stattdessen durch Transposition mit Transposasen der IS3- und IS30-Familie replizieren, die von den entsprechenden Insertionssequenzen abgeleitet sind46. Zusammenfassend deuten diese Beobachtungen darauf hin, dass die Replikationsmodule von Inoviren mit entfernt verwandten und sogar nicht homologen Replikationsmodulen aus verschiedenen Plasmid- und Transposon-Familien ausgetauscht wurden. In ähnlicher Weise werden archaeale Pleolipoviren zwischen zwei Clustern aufgeteilt, die verschiedenen Familien von archaealen Plasmiden entsprechen, pGRB1-like und pTP2-like, was darauf hindeutet, dass der Austausch von replikationsassoziierten Genen bei bakteriellen und archaealen Viren mit kleinen, plasmidgroßen Genomen üblich ist. ¶In einigen Fällen ist es schwierig, die virale gegen Plasmidzugehörigkeit von Wiederholungen festzustellen, die in den zellulären Chromosomen kodiert werden, weil beide Arten von MGE in die Wirtsgenome integrieren können. Zum Beispiel enthält der XacF1-ähnliche Cluster 62 Rep-Sequenzen, von denen 2 von filamentösen Phagen codiert werden, während der Rest aus bakteriellen Genomen stammt. Die Analyse der genomischen Nachbarschaften legt nahe, dass nur 6 der verbleibenden 60 Wiederholungen Prophagen darstellen. Darüber hinaus enthält der pAS28-ähnliche Cluster ein Plasmid, pAS28 (Ref. 47); verwandte Wiederholungen wurden jedoch zuvor in prophages48 identifiziert, jedoch nicht in charakterisierten Viren, was den falschen Eindruck erweckt, dass das pAS28-ähnliche Rep plasmid-exklusiv ist. ¶Um die evolutionären Beziehungen zwischen Reps, die von verschiedenen MGE-Typen kodiert werden, weiter zu charakterisieren, konstruierten wir phylogenetische Bäume mit maximaler Wahrscheinlichkeit für die 7 Cluster, die Reps sowohl von Viren als auch von Plasmiden enthielten (Ergänzende Abb. 2a-g). Die Ergebnisse der phylogenetischen Analysen deuten auf einen horizontalen Transfer der rep-Gene zwischen Plasmiden und Viren hin, wobei virale Sequenzen typischerweise zwischen Plasmid-codierten Homologen verschachtelt sind.Supercluster 2 (SC2) besteht aus 7 Clustern (Ergänzende Daten 1), die alle bekannten klassifizierten und nicht klassifizierten eukaryotischen KRESSE-DNA-Viren, Parvoviren, einen Plasmidcluster aus der Rotalge Pyropia pulchra49 und 4 Cluster mit bakteriellen Rep-Sequenzen enthalten. Die überwiegende Mehrheit der bakteriellen Wiederholungen in den pCPa-ähnlichen und p4M-ähnlichen Clustern wird eher in bakteriellen Genomen als in Plasmiden kodiert und wurde bisher nicht charakterisiert. In unserem Netzwerk sind die CRESS-DNA-Viren mit pCPa-ähnlichen, p4M-ähnlichen, pPAPh2-ähnlichen und P. pulchra-ähnlichen Clustern verbunden, während der pE194 / pMV158-ähnliche Cluster keine direkten Verbindungen zu den CRESS-DNA-Viren bildet, sondern SC2 durch den pCPa-ähnlichen Cluster verbindet (Abb. 1). Insbesondere Geminiviren und Genomoviren bilden einen Subcluster mit Plasmiden von Phytoplasma (pPAPh2-ähnlicher Cluster) und P. pulchra, die von anderen KRESSE-DNA-Viren getrennt ist. Der Parvoviridae-Cluster, einschließlich Parvoviren und abgeleiteten endogenen Viren, die in verschiedene eukaryotische Genome integriert sind, ist lose direkt mit den KRESSE-DNA-Viren verbunden, was darauf hindeutet, dass Parvoviren mit linearen ssDNA-Genomen eine gemeinsame Abstammung mit KRESSE-DNA-Viren haben, die per Definition zirkuläre Genome haben. Fasziniert von der scheinbar engen evolutionären Verbindung zwischen eukaryotischen KRESSE-DNA-Viren und Bakterien- und Algenreps, Wir untersuchten diese Beziehungen genauer, wie in den folgenden Abschnitten berichtet.

Die Vielfalt viral-ähnlicher Wiederholungen in bakteriellen Genomen

Um das Ausmaß der Ähnlichkeit zwischen den Wiederholungen eukaryotischer KRESSE-DNA-Viren und nicht-viraler Replikone aus SC2 zu untersuchen, verglichen wir ihre Domänenorganisationen. Mit Ausnahme von Plasmiden der pE194 / pMV158-Familie, die nur die Nukleasedomäne enthalten, hatten bakterielle und Algen-SC2-Wiederholungen die gleiche Nuklease-Helikase-Domänenorganisation wie CRESS-DNA-Viren. Die gleiche Zwei-Domänen-Organisation ist auch für das Parvovirus Reps2 charakteristisch. Somit bestätigt die Domänenorganisationsanalyse die Ergebnisse des Sequenzclusters und zeigt weiter an, dass die bakteriellen SC2-Wiederholungen enger mit den Wiederholungen eukaryotischer Viren verwandt sind als mit denen anderer prokaryotischer Plasmide und Viren.

Wir haben dann versucht, zusätzliche Informationen über die Vielfalt und taxonomische Verteilung der viralen SC2-Wiederholungen zu erhalten, die in bakteriellen Genomen kodiert sind. Die phylogenetische Analyse mit maximaler Wahrscheinlichkeit ergab 9 gut unterstützte Kladen (Abb. 2a). Clustering und anschließende Community-Detection-Analyse validierten die 9 Gruppen von bakteriellen Wiederholungen (Abb. 2b), wobei die Gruppen 1-3 dem in Fig. 1, Gruppen 4-8 zum pCPa-ähnlichen Cluster und Gruppe 9 zum pPAPh2-ähnlichen Cluster. Um ihre Ähnlichkeit mit Wiederholungen von CRESS-DNA-Viren hervorzuheben, bezeichnen wir die 9 Gruppen als pCRESS1 bis pCRESS9. Diese Gruppen zeigten teilweise überlappende, aber unterschiedliche taxonomische Verteilungen, die mehrere Klassen innerhalb von 4 Bakterienphyla abdeckten (Ergänzende Abb. 1 und ergänzende Tabelle 1).

Abb. 2
figure2

Vielfalt viraler Rep-Proteine in Bakterien. ein phylogenetischer Baum bakterieller Rep-Proteine und ihrer Homologen in P. pulchra. Eng verwandte Sequenzen werden zu Dreiecken reduziert, deren Seitenlängen proportional zu den Abständen zwischen den nächsten und den entferntesten Blattknoten sind. b) Gruppen von bakteriellen Rep-Proteinen und deren Homologen. Knoten zeigen Proteinsequenzen an. Linien stellen Sequenzbeziehungen dar (MIT P-Wert ≤ 1e−05). Die Knoten, die zu demselben Cluster gehören, sind mit den gleichen Farben gefärbt, entsprechend den Kladen, die in Panel A. c Genomkarten von integrierten und extrachromosomalen Plasmiden, die die Gruppen 1-9 darstellen, gezeigt sind. Homologe Gene sind in der gleichen Farbe dargestellt und ihre Funktionen sind auf der rechten Seite der Abbildung aufgeführt

Der Großteil der Wiederholungen aus pCRESS7 und pCRESS9 wird von extrachromosomalen Plasmiden kodiert (Ergänzende Tabelle 1). Die überwiegende Mehrheit (97.5%) der in anderen Gruppen gefundenen Wiederholungen sind in mobilen genetischen Elementen kodiert, die ortsspezifisch in bakterielle Chromosomen integriert sind (Ergänzende Tabelle 1; Abb. 2c; Ergänzend Fig. 3; Ergänzende Anmerkung 1). Bemerkenswerterweise kodierte keines der Elemente für Homologe von derzeit bekannten viralen Strukturproteinen (Ergänzende Anmerkung 1). Zusammenfassend weisen diese Beobachtungen darauf hin, dass virusähnliche Wiederholungen in Bakterien von verschiedenen extrachromosomalen und integrierten Plasmiden kodiert werden.

Konservierte Merkmale von Bakterien- und CRESS-DNA-Virus-Wiederholungen

Die Sequenzanalyse zeigte, dass Wiederholungen von pCRESS4 bis 8 trotz erheblicher Gesamtsequenzdivergenz eng ähnliche Sequenzmotive innerhalb der Nuklease- und Helicase-Domänen enthalten (Abb. 3), in Übereinstimmung mit den Ergebnissen der Clustering- und phylogenetischen Analysen (Abb. 2). Insbesondere teilen diese 5 pCRESS–Gruppen eine spezifische Signatur, YLxH (x, any amino acid) innerhalb des Motivs III der Nukleasedomäne, die in Wiederholungen von pCRESS1-3 und 9 nicht beobachtet wurde (Abb. 3). Daher bezeichnen wir PCPA4-8 kollektiv als YLxH-Supergruppe (und nicht als pCPa-ähnlichen Cluster), um dieses gemeinsame Merkmal hervorzuheben. Die YLxH-Signatur wurde auch in Reps aus dem pE194 / pMV158-ähnlichen Cluster konserviert, was auf eine engere evolutionäre Beziehung zwischen den beiden Clustern hindeutet, obwohl pE194 / pmv158-ähnlichen Reps die Helikasedomäne fehlt. Auch pCRESS9 zeigt Motive ähnlich denen der P. pulchra Plasmide und konnte somit mit diesen Plasmiden zu einer gemeinsamen Assemblage vereinigt werden. Im Gegensatz dazu zeigen pCRESS1, -2 und -3 (p4M-ähnlicher Cluster) unterschiedliche Motivsätze (Abb. 3; Ergänzende Anmerkung 1).

Abb. 3
figure3

Konservierte Sequenzmotive von Rep-Proteinen. Bakterielle Rep-Gruppen sind in grauem Hintergrund dargestellt. Rückstände werden durch ihre chemischen Eigenschaften gefärbt (polar, grün; basisch, blau; sauer, rot; hydrophob, schwarz; neutral, lila). Die Wiederholungsgruppen wurden manuell nach der paarweisen Ähnlichkeit der ausgerichteten Motive geordnet. Die Endonuklease- und SF3-Helikase-Domänen der DNA sind oben in der Abbildung abgegrenzt

Ursprung der SF3-Helikase-Domäne

Sequenzanalysen legen nahe, dass die SF3-Helikase-Domänen enthaltenden Plasmid-Reps, insbesondere solche aus pCRESS2, pCRESS3 und pCRESS9 sowie P. pulchra, eng mit den Reps verwandt sind von KRESSE-DNA-Viren. Die Richtung der Evolution, d. H. Ob sich Plasmid-Wiederholungen aus denen von CRESS-DNA-Viren entwickelt haben oder umgekehrt, ist jedoch nicht offensichtlich. Obwohl es verlockend ist, das Fehlen der Helikasedomäne im pE194 / pMV158-ähnlichen Cluster als Hinweis darauf zu nehmen, dass diese Gruppe von den helikasehaltigen Reps abstammt, kann nicht ausgeschlossen werden, dass die Helikasedomäne durch diese Plasmide verloren gegangen ist. Daher haben wir uns vorgenommen, die Provenienz der SF3-Helicase-Domäne in den Plasmid- und viralen Reps zu untersuchen. Sensitive Sequenzrecherchen mit HMMER gegen die nr30-Datenbank zeigten, dass die Helikasedomänen von Plasmid- und CRESS-DNA-Virusreps am engsten mit denen von eukaryotischen Positiv-Sense-RNA-Viren (Ordnung Picornavirales und Familie Caliciviridae) sowie der AAA + ATPase-Superfamilie verwandt sind50,51. In diese Analyse haben wir auch die SF3-Sequenzen von Parvoviren, Polyomaviren und Papillomviren einbezogen, von denen angenommen wird, dass sie evolutionär mit KRESSE-DNA-Viren verwandt sind2,25. Mehrere Gruppen weiter entfernter SF3-Helicasen von Viren mit großen dsDNA-Genomen52 wurden außer Acht gelassen. Aufgrund der hohen Sequenzdivergenz und der relativ kurzen Länge, Phylogenetische Analysen der SF3-Helikasedomänen waren nicht aussagekräftig, was zu sternförmigen Baumtopologien führte, unabhängig von den verwendeten Evolutionsmodellen oder taxonomischen Probenahmen. Die Clusteranalyse auf Basis von paarweisen Ähnlichkeiten lieferte jedoch Einblicke in die Beziehungen zwischen den verschiedenen ATPase-Familien (Abb. 4a). Insbesondere die enge Beziehung zwischen den SF3-Helicase-Domänen von bakteriellen Reps und CRESS-DNA-Viren wurde eindeutig unterstützt. Beide Gruppen verbinden sich mit den RNA-Viren, aber nur bakterielle Wiederholungen, insbesondere die der YLXH-Supergruppe, zeigen Verbindungen zu AAA + -Superfamilie-ATPasen, nämlich bakterielle Helicase-Loader-DnaC und in geringerem Maße dnaA- und Cdc48-ähnliche ATPasen (Abb. 4a). Die engere Ähnlichkeit zwischen der YLXH-Supergruppe und bakteriellen AAA+-ATPasen wird durch einen Vergleich der katalytischen Motive unter Ausschluss anderer Gruppen unterstützt (Ergänzende Abb. 4). Bei derselben Clusterschwelle sind weder eukaryotische DNA noch RNA mit einer anderen Gruppe von ATPasen als denen aus bakteriellen Plasmiden verknüpft. Die SF3-Helicasen von Parvoviren, die mit denen von CRESS-DNA-Viren verknüpft sind, stimmen mit der Analyse von Rep-Sequenzen voller Länge überein (Abb. 1). Papillomaviren und Polyomaviren bildeten 2 Cluster, die miteinander und mit Parvoviren verbunden waren.

Abb. 4
figure4

Beziehungen zwischen Superfamilie 3 Helikasen und AAA+ ATPasen. eine Superfamilie 3 Helikase- und AAA + ATPase-Domänen, die durch ihre paarweise Ähnlichkeit unter Verwendung von CLANS gruppiert sind. Insgesamt wurden 3854 Sequenzen mit CLANS gruppiert (CLANS P-Wert ≤ 5e−09). Gruppen von nicht klassifizierten CRESS-DNA-Viren werden als CRESSV1 bis CRESSV6 bezeichnet (Ref. 53). b Ein vorgeschlagenes Evolutionsszenario für die Entstehung und Entwicklung viraler Superfamilie 3 Helikasen. Abkürzungen: SF3, superfamily 3 helicase domain; HUH, HUH superfamily nuclease domain; OBD, origin-binding domain; HGT, horizontaler Gentransfer; RHR, Rolling-Hairpin-Replikation

Dieses Konnektivitätsmuster deutet auf einen bestimmten Evolutionsvektor hin und scheint mit dem folgenden Szenario am besten kompatibel zu sein. Die SF3-Helikasedomäne bakterieller Plasmide entwickelte sich aus einer bakteriellen DnaC-ähnlichen ATPase; Diese Helikasedomäne wurde an die Nukleasedomäne von Reps von pE194 / pMV158-ähnlichen Plasmiden angehängt, die den Vorfahren der YLxH-Supergruppe lieferten; bakterielle Plasmid-Reps wurden an die CRESS-DNA-Viren weitergegeben; die SF3-Helikase von RNA-Viren wurde horizontal entweder aus bakteriellen Plasmiden oder wahrscheinlicher aus eukaryotischen KRESSE-DNA-Viren gewonnen; KRESSE-DNA-Viren haben Parvoviren hervorgebracht, aus denen wiederum Polyomaviren und Papillomaviren hervorgingen (Abb. 4b). Das alternative Szenario, unter dem SF3-Helicasen von eukaryotischen RNA-Viren durch bakterielle Plasmide zu den universellen bakteriellen DnaC- und dnaA-Proteinen führten, erscheint nicht sparsam und äußerst unwahrscheinlich. In der Tat ist dnaA in Bakterien allgegenwärtig und essentiell50,51, so dass der Einfang der Helikase aus einem Plasmid am Ursprung der bakteriellen Domäne des Lebens erfolgen müsste. Bemerkenswerterweise sind pCRESS9- und P. pulchra-Plasmide nicht mit anderen Plasmiden verknüpft, sondern über die CRESS-DNA-Viren mit den übrigen Sequenzen verbunden. Das letztere Muster wurde auch in der globalen Clustering-Analyse der HUH-Wiederholungen beobachtet (Abb. 1) sowie beim Clustering der Nukleasedomänen allein.

Ursprünge von KRESSE-DNA-Viren aus bakteriellen Plasmiden

Die Analyse der SF3-Helikase-Domänen legt nahe, dass Wiederholungen von pE194 / pMV158-ähnlichen Plasmiden eher Vorfahren als abgeleitete Formen sind. Die alternative Möglichkeit, dass Reps von pE194/pMV158-ähnlichen Plasmiden die Helikasedomäne verloren haben, kann derzeit nicht ausgeschlossen werden. Die Tatsache, dass die Helikasedomäne in keiner der zahlreichen bekannten Gruppen von CRESS-DNA-Viren oder in pCRESS1- bis pCRESS9-Plasmiden verloren gegangen ist, legt jedoch nahe, dass die Helikasedomäne nach dem Erwerb für eine effiziente Plasmid / Virus-Genomreplikation wichtig wird. Die große Ähnlichkeit zwischen den pE194 / pMV158-ähnlichen Wiederholungen und denen der YLxH-Supergruppe, die zu einer direkten Konnektivität der beiden Gruppen im globalen Netzwerk führt (Abb. 1), impliziert, dass die erstere Gruppe eine adäquate Außengruppe für die Phylogenie von Wiederholungen aus bakteriellen Plasmiden und KRESSE-DNA-Viren ist. Für phylogenetische Analysen, Wir haben einen Datensatz von SC2-Wiederholungen verwendet, ausgenommen Wiederholungen von Parvoviridae- und CRESS-DNA-Viren, die zuvor in Bezug auf ihre Nuklease- und Helikasedomänen als chimär eingestuft wurden53, um mögliche Artefakte zu vermeiden, die sich aus widersprüchlichen phylogenetischen Signalen ergeben. Der Datensatz umfasste Vertreter aller klassifizierten Familien von KRESSE-DNA-Viren sowie 6 Gruppen von nicht klassifizierten KRESSE-DNA-Viren, die vorläufig mit CRESSV1–6 markiert waren (Ref. 53) sowie eine kleine Gruppe von GasCSV-ähnlichen Viren, von denen zuvor festgestellt wurde, dass sie Reps mit signifikanter Ähnlichkeit mit bakteriellen Reps kodieren54. In dem gut unterstützten Maximum-Likelihood-phylogenetischen Baum, der mit PhyML konstruiert und mit pE194 / pMV158-ähnlichen Wiederholungen verwurzelt ist, befindet sich die YLxH–Supergruppe (pCRESS4-8) an der Basis einer Assemblage, die alle CRESS–DNA-Viren, pCRESS1-3 und pCRESS9 sowie P. pulchra-Plasmide. Diese Assemblage teilt sich in zwei Clades (Abb. 5). Clade 1 umfasst zwei Unterklassen, von denen eine aus Geminiviren und Genomoviren besteht, die pCRESS9-Plasmide von Phytoplasma verbinden, und die andere umfasst CRESSV6- und P. pulchra-Plasmide. Bemerkenswerterweise scheinen P. pulchra-Plasmide direkt aus der CRESSV6-Diversität zu stammen, mit der engsten Beziehung zur CRESSV6-Unterklasse von Viren, die aus Abwasserproben sequenziert wurden. Die Beziehung zwischen Geminiviren / Genomoviren und PCR9-Plasmiden ist in der Phylogenie nicht geklärt. Clustering-Analysen deuten jedoch stark darauf hin, dass sich Reps von PCR9-Plasmiden aus Geminiviren-Genomoviren entwickelt haben (Abb. 1 und 4). In Übereinstimmung mit diesem Szenario teilen sich phytoplasmatische pCRESS7- und pCRESS9-Plasmide, obwohl sie phylogenetisch unterschiedliche Reps kodieren, den Gengehalt, nämlich das Kopienzahlkontrollprotein, das PRK06752-ähnliche SSB-Protein und das konservierte hypothetische Protein (Ergänzende Abb. 3g, ich). Darüber hinaus kodieren Geminiviren und CRESSV6 homologe Kapsidproteine, was darauf hindeutet, dass sie sich aus einem gemeinsamen viralen Vorfahren entwickelt haben, anstatt aus zwei Gruppen von Plasmiden zu konvergieren, indem sie homologe Kapsidproteingene einfangen. Clade 2 umfasst bakterielle Wiederholungen von pCRESS1-3 und als Schwestergruppe CRESS-DNA-Viren der Familien Nanoviridae / Alphasatellitidae, Smacoviridae und Circoviridae sowie nicht klassifizierte CRESSV1 bis CRESSV5, während GasCSV-ähnliche Viren innerhalb von bakteriellem pCRESS2 verschachtelt sind.

Abb. 5
figure5

Phylogenetischer Baum der maximalen Wahrscheinlichkeit von Rep-Proteinen. GasCSV—Gastropoden-assoziiertes zirkuläres ssDNA-Virus. Der Baum wurde mit PhyML78 konstruiert. Zweige mit Unterstützungswerten unter 70 werden kontrahiert

Die Robustheit des PhyML-Baums wurde durch zusätzliche Analysen (Ergänzende Anmerkung 1) validiert, einschließlich (i) phylogenetischer Analysen mit maximaler Wahrscheinlichkeit unter Verwendung von RAxML und IQ-Tree mit alternativen Verzweigungsunterstützungsmethoden (Abbildung S5); (ii) phylogenetische Rekonstruktion unter Verwendung des 20-Profil-Mischungsmodells (Abbildung S5); (iii) statistische Analyse der uneingeschränkten und 3 eingeschränkten Baumtopologien (ergänzende Tabelle 2). Zusammenfassend zeigen diese Ergebnisse, dass die erhaltene Baumtopologie sehr robust ist und wahrscheinlich die Evolutionsgeschichte von Wiederholungen, die von CRESS-DNA-Viren und Plasmiden kodiert werden, genau widerspiegelt.

Insbesondere die Analyse der konservierten Motive (Abb. 3) deutet auf eine spezifische Assoziation zwischen den Viruswiederholungen in Clade 1 und bakteriellem pCRESS3 (und nicht pCRESS1–3 zusammen) hin, was impliziert, dass die phylogenetische Platzierung durch alte Rekombinationsereignisse beeinflusst werden könnte. Darüber hinaus wurden Bacilladnaviren aus dem globalen phylogenetischen Baum weggelassen, da ihre Wiederholungen in Abhängigkeit von der Taxonprobenahme eine instabile Position in der Phylogenie aufwiesen (Ergänzende Abb. 6), möglicherweise aufgrund der geringen Anzahl verfügbarer Sequenzen, ihrer hohen Divergenz und ihres potenziellen Chimärismus. Unabhängig davon deutet die phylogenetische Analyse stark darauf hin, dass sich die Mehrheit der CRESS-DNA–Viren, einschließlich Circoviren, Smacoviren, Nanoviren und CRESSV1–5, aus einem gemeinsamen Vorfahren mit bakteriellen Wiederholungen von pCRESS1-3 entwickelt hat, während die unkultivierten GasCSV-ähnlichen Viren direkt aus den bakteriellen pCRESS2-Wiederholungen hervorgehen (Abb. 5). Die Herkunft der Assemblage einschließlich Geminiviren, Genomoviren und CRESSV6 ist weniger klar, könnte aber vor der Entstehung der anderen CRESS-DNA-Virusgruppen liegen und möglicherweise einen gemeinsamen Vorfahren mit der YLxH-Supergruppe beinhalten. Die Wiederholungen von bakteriellen pCRESS9 und P. Pulchra-Plasmide wurden wahrscheinlich in jüngerer Zeit horizontal von den entsprechenden CRESS-DNA-Viren erworben.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.