globalna sieć REPLIKONÓW HUH
aby zbadać ewolucyjną historię REPLIKONÓW HUH, zebraliśmy zbiór danych o endonukleazach HUH—jedynym białku kodowanym przez wszystkie te replikony—reprezentujących każdą rodzinę wirusów, plazmidów i transpozony związane z nosicielami we wszystkich trzech domenach komórkowych16, 27,28,29,30. W tej analizie nie wzięliśmy pod uwagę relaksaz Mob biorących udział w sprzężeniu plazmidowym. Enzymy z tej rodziny obejmują permutowane cyklicznie motywy konserwowane, które komplikują ich porównanie oparte na sekwencjach z endonukleazami HUH biorącymi udział w replikacji lub transpozycji16,19. Powstały zbiór danych zawierał 8764 sekwencje. Grupowano je na podstawie podobieństwa par, a klastry identyfikowano za pomocą wypukłego algorytmu klastrowania (próg wartości p 1E-08) z klanami 35. Analiza ta wykazała 33 klastry, które różniły się wielkością od 7 do 2711 sekwencji (dane uzupełniające 1). Po kontroli połączeń między klastrami (rys. 1), zdefiniowaliśmy 2 orphan clusters i 2 superclusters, które wyświetlały brak lub bardzo niewiele połączeń ze sobą (dane uzupełniające 1). Niemniej jednak porównanie dostępnych struktur wysokiej rozdzielczości dla przedstawicieli obu klastrów osieroconych i dwóch nadklastrów jednoznacznie potwierdza ich wspólne pochodzenie.
Orphan cluster 1 obejmuje jedną rodzinę transpozonów IS200/IS605, które są szeroko rozpowszechnione u bakterii i archaea37. Endonukleazy HUH sekwencji insercyjnych IS200/IS605 zostały szczegółowo zbadane pod względem strukturalnym i biochemicznym, co zaowocowało kompleksowym zrozumieniem ich funkcji16, 38. Chociaż transpozyazy IS200/IS605 mają strukturalny fałd wspólny z innymi endonukleazami HUH i zawierają wszystkie 3 motywy sygnaturowe, nie wykazywały znaczącego podobieństwa sekwencji do żadnego innego klastra ENDONUKLEAZ HUH i dlatego pozostawały odłączone od sekwencji w innych klastrach. Niemniej jednak różnorodność sekwencji w obrębie klastra IS200/IS605 jest porównywalna z tą w obrębie innych klastrów.
Orphan cluster 2 zawiera białka Rep, które są konserwowane w hipertermofilnych wirusach archaealnych z rodziny Rudiviridae39. Badania strukturalne białka Rep z rudirusa SIRV1 ujawniły kanoniczny fałd endonukleazy HUH, a biochemiczna charakterystyka białka potwierdziła oczekiwaną aktywność nacinania i łączenia w witro36. Podobnie jak transpozycje IS200/IS605, klaster rudiwirusowy nie łączy się z innymi endonukleazami, w tym homologami z innych rodzin wirusów i plazmidów.
wyjątkowość 2 klastrów osieroconych jest związana z nietypowymi mechanizmami transpozycji i replikacji stosowanymi przez poszczególne elementy. W rzeczywistości sekwencje wstawiania IS200/IS605 transponowane są za pomocą unikalnego mechanizmu obierania i wklejania 38, podczas gdy rudirusy, w przeciwieństwie do większości innych wirusów i plazmidów replikujących za pomocą mechanizmu toczenia koła, zawierają stosunkowo duże (~35 kb) liniowe genomy dsDNA z kowalencyjnie zamkniętymi terminami40.
Supercluster 1 jest zdecydowanie największym i najbardziej zróżnicowanym zbiorem, który obejmuje 24 klastry (dane uzupełniające 1). Spośród tych 24 klastrów, 15 zawiera Reps z wiarygodnych pozachromosomalnych plazmidów, z których 7 obejmuje również Reps z różnych wirusów ssDNA (Microviridae, Inoviridae i Pleolipoviridae) i/lub dsDNA (Myoviridae i Corticoviridae) bakterii i archeonów. W skład trzech klastrów wchodzą, odpowiednio, Microvirusy z podrodziny Gokushovirinae i Bullavirinae oraz Xanthomonas inovirus Cf1 (rodzina Inoviridae). Należy zauważyć, że mikrowirusy podobne do fix174 (Bullavirinae) wykazują podobieństwo wyłącznie do mikrowirusów z podrodziny Gokushovirinae, co wskazuje na Monofilię w dwóch podrodzinach Microviridae, pomimo dużej rozbieżności sekwencji. Bakteryjne transpozony IS91 (w tym Podrodzina ISCR) i eukariotyczne transpozony z rodziny Helitronów tworzą dwie odrębne gromady. Dwie grupy transpozonów nie są bezpośrednio ze sobą połączone, ale są połączone z odrębnymi grupami bakteryjnych i, w przypadku IS91, archaealnych plazmidów, co sugeruje niezależne pochodzenie od bakteryjnych pozachromosomalnych replikonów. Wcześniej sugerowano, że helitrony mogą stanowić brakujące ogniwo pomiędzy eukariotycznymi wirusami rzeżuchy-DNA, a mianowicie geminiwirusami i bakteryjnymi REPLIKONAMI41 lub że helitrony wyewoluowały z geminiwirusów42. Jednak w naszej analizie helitrony nie łączą się z żadną z grup wirusów rzeżucha-DNA, co sugeruje niezależne trajektorie ewolucyjne, zgodne z najnowszymi odkryciami43.
pozostałe 5 klastrów nie zawiera żadnych rozpoznawalnych sekwencji plazmidowych, wirusowych lub transpozonowych, a zatem prawdopodobnie reprezentują nowe rodziny zintegrowanych MGE. Cztery z tych grup znajdują się głównie w bakteriach taksonów Clostridiales, Actinobacteria, Neisseriales i Bacteroidetes, odpowiednio (oznaczone odpowiednio na Fig. 1), podczas gdy piąta grupa jest specyficzna dla kandydującego oddziału MSBL1 (śródziemnomorskie Jeziora solankowe 1) 44, grupy niekulturalnych archaea występujących w różnych środowiskach hipersalinowych. Większość klastrów wykazuje jednolitość taksonomiczną na poziomie domeny, tzn. klastry obejmowały zarówno sekwencje bakteryjne, archaealne, jak i eukariotyczne (w tym odpowiadające im wirusy i plazmidy), co sugeruje, że poziome transfery wirusów lub plazmidów między domenami gospodarza są rzadkie. Dwa wyjątki obejmują skupiska zdominowane przez bakterie podobne do pUB110 i IS91, które zawierają kilka sekwencji archaealnych. W przypadku transpozonów IS91 poziome przenoszenie bakterii zostało ustalone na podstawie analiz filogenetycznych45. Ponadto, niektóre z klastrów zawierają sporadyczne sekwencje przypisywane jako eukariotyczne; jednak analiza odpowiednich stygów sugeruje, że są to prawdopodobnie zanieczyszczenia bakteryjne.
szczególnie interesujące są 7 klastrów, które zawierają zarówno wirusy, jak i plazmidy. Na przykład klaster podobny do pec316_kpc, oprócz plazmidów, zawiera ewolucyjnie niezwiązane wirusy z 3 rodzin, Myoviridae, Corticoviridae i Inoviridae, co sugeruje rozległe poziome rozprzestrzenianie się genów rep. Należy zauważyć, że przedstawiciele inowirusów są rozdzielone między 5 klastrów. Biorąc pod uwagę niedobór sekwencji inowirusowych w klastrach podobnych do pVT736-1 i podobnych do pub110, które obejmują odpowiednio tylko Pseudomonas FAG Pf3 i Propionibacterium FAG B5, kierunek transferu genu z plazmidów do odpowiednich wirusów wydaje się oczywisty. Ponadto wiele inowirusów nie koduje endonukleaz HUH, ale raczej koduje inicjatory replikacji ewolucyjnie niepowiązanej nadrodziny Rep_trans (Pfam id: PF02486)15, która również obfituje w plazmidy bakteryjne30, podczas gdy inowirusy z rodzaju Vespertiliovirus nie mają Reps i replikują się przez transpozycję przy użyciu transpozaz z rodziny IS3 i IS30 pochodzących z odpowiednich sekwencji insercji46. Łącznie obserwacje te wskazują, że moduły replikacyjne inowirusów zostały wymienione z odległymi, a nawet niehomologicznymi modułami replikacyjnymi z różnych rodzin plazmidów i transpozonów. Podobnie, pleolipowirusy archaealne dzielą się na dwa klastry odpowiadające różnym rodzinom plazmidów archaealnych, odpowiednio podobnym do pGRB1 i ptp2, co sugeruje, że wymiana genów związanych z replikacją jest powszechna w wirusach bakteryjnych i archaealnych z małymi genomami o rozmiarze plazmidu. ¶W niektórych przypadkach trudno jest ustalić przynależność wirusa do plazmidu Reps zakodowanych w chromosomach komórkowych, ponieważ oba typy MGE mogą integrować się z genomami gospodarza. Na przykład klaster podobny do xacf1 zawiera 62 sekwencje Rep, z których 2 są kodowane przez fagi nitkowate, podczas gdy reszta pochodzi z genomów bakteryjnych. Analiza dzielnic genomowych sugeruje, że tylko 6 z pozostałych 60 powtórzeń reprezentuje proroctwa. Ponadto klaster podobny do pAS28 zawiera jeden plazmid, pAS28 (ref. 47); jednakże, powiązane Rep zostały wcześniej zidentyfikowane w profagach48, ale nie w scharakteryzowanych wirusach, co daje błędne wrażenie, że REP podobny do pAS28 jest wyłączny z plazmidów. ¶Aby dalej scharakteryzować ewolucyjne relacje między powtórzeniami kodowanymi przez różne typy MGE, skonstruowaliśmy drzewa filogenetyczne o maksymalnym prawdopodobieństwie dla 7 klastrów, które obejmowały powtórzenia zarówno wirusów, jak i plazmidów (dodatkowa Fig. 2a-g). Wyniki filogenetycznych analiz sugerują poziome przeniesienie genów rep między plazmidami i wirusami, z wirusowymi sekwencjami typowo zagnieżdżonymi wśród plazmidowych kodowanych homologów.
Supercluster 2 (SC2) składa się z 7 klastrów (dane uzupełniające 1), które obejmują wszystkie znane sklasyfikowane i niesklasyfikowane eukariotyczne wirusy rzeżuchy-DNA, parwowirusy, klaster plazmidów z czerwonej algi Pyropia pulchra49 i 4 klastry zawierające sekwencje replik bakterii. Zdecydowana większość Repów bakteryjnych w klastrach podobnych do pCPa i P4M jest kodowana w genomach bakterii, a nie w plazmidach i nie została wcześniej scharakteryzowana. W naszej sieci wirusy CRESS-DNA są połączone z klastrami podobnymi do pCPa, P4M, pPAPh2 i P. pulchra, podczas gdy klaster podobny do pE194/pMV158 nie tworzy bezpośrednich połączeń z wirusami CRESS-DNA, ale łączy się z SC2 przez klaster podobny do pCPa (rys. 1). Należy zauważyć, że geminiwirusy i genomowirusy tworzą podklasę z plazmidami fitoplazmy (klaster podobny do pPAPh2) i P. pulchra, który jest oddzielony od innych wirusów CRESS-DNA. Klaster Parvoviridae, w tym parwowirusy i pochodne wirusy endogenne zintegrowane w różnych genomach eukariotycznych, jest luźno połączony bezpośrednio z wirusami rzeżuchy-DNA, co sugeruje, że parwowirusy z liniowymi genomami ssDNA mają wspólne pochodzenie z wirusami rzeżuchy-DNA, które z definicji mają okrągłe genomy. Zaintrygowani pozornie bliskim ewolucyjnym powiązaniem pomiędzy eukariotycznymi wirusami rzeżuchy i DNA a przedstawicielami bakterii i glonów, zbadaliśmy te relacje bardziej szczegółowo, jak opisano w poniższych sekcjach.
różnorodność wirusowych powtórzeń w genomach bakterii
aby zbadać stopień podobieństwa między powtórzeniami eukariotycznych wirusów rzeżuchy i dna i nie-wirusowych replikonów z SC2, porównaliśmy ich organizacje domenowe. Z wyjątkiem plazmidów z rodziny pE194/pMV158, które zawierają tylko domenę nukleazową, bakteryjne i glonowe Repy SC2 miały taką samą organizację domeny nukleazowo-helikazowej jak wirusy CRESS-DNA. Ta sama dwu domenowa organizacja jest również charakterystyczna dla Parwowirusów Reps2. Tak więc, analiza organizacji domeny potwierdza wyniki klastrowania sekwencji i dalej wskazuje, że bakteryjne Repy SC2 są bliżej spokrewnione z Repami wirusów eukariotycznych niż z innymi prokariotycznymi plazmidami i wirusami.
następnie staraliśmy się uzyskać dodatkowe informacje na temat różnorodności i dystrybucji taksonomicznej wirusowych powtórzeń SC2, które są kodowane w genomach bakteryjnych. Maksymalne prawdopodobieństwo analiza filogenetyczna ujawniła 9 dobrze wspieranych kladów (rys. 2A). Grupowanie i późniejsza analiza detekcji wspólnoty potwierdziły 9 grup powtórzeń bakteryjnych (Fig. 2b), gdzie grupy 1-3 odpowiadają klastrowi podobnemu do P4M pokazanemu na Fig. 1, grupy 4-8 do klastra podobnego do pCPa, a grupa 9 do klastra podobnego do pPAPh2. Aby podkreślić ich podobieństwo do powtórzeń wirusów rzeżuchy-DNA, określamy 9 grup jako pCRESS1 do pCRESS9. Grupy te wykazywały częściowo pokrywające się, ale odrębne rozkłady taksonomiczne, obejmujące kilka klas w obrębie 4 bakterii (Fig. 1 I Tabela uzupełniająca 1).
różnorodność białek wirusowych w bakteriach. a Phylogenetic tree of bacterial REP proteins and their homologs in p. pulchra. Ściśle powiązane sekwencje są zwinięte w trójkąty, których długości Boczne są proporcjonalne do odległości między najbliższymi i najdalszymi węzłami liści. b Klany grup bakterii Rep białek i ich homologów. Węzły wskazują sekwencje białek. Linie reprezentują zależności sekwencyjne (wartość P klanów ≤ 1e-05). Węzły należące do tego samego klastra są zabarwione tymi samymi kolorami, odpowiadającymi kladom pokazanym na mapach genomu A. C zintegrowanych i pozachromosomalnych plazmidów reprezentujących grupy 1-9. Geny homologiczne są przedstawione w tym samym kolorze, a ich funkcje są wymienione po prawej stronie rysunku
większość powtórzeń z pCRESS7 i pCRESS9 jest kodowana przez plazmidy pozachromosomalne (dodatkowa Tabela 1). Natomiast zdecydowana większość (97.5%) powtórzeń występujących w innych grupach są kodowane w obrębie ruchomych elementów genetycznych-specjalnie zintegrowanych z chromosomami bakteryjnymi (dodatkowa Tabela 1; Fig. 2C; dodatkowe rys. 3; Uwaga Uzupełniająca 1). W szczególności, żaden z elementów nie kodował żadnych homologów znanych obecnie wirusowych białek strukturalnych (Uwaga uzupełniająca 1). Łącznie obserwacje te wskazują, że wirusowe powtórzenia u bakterii są kodowane przez różne pozachromosomalne i zintegrowane plazmidy.
zachowane cechy Reps wirusa bakteryjnego i rzeżuchy DNA
analiza sekwencji wykazała, że pomimo znacznej ogólnej dywergencji sekwencji, Reps od pCRESS4 do 8 zawierają blisko podobne motywy sekwencji w domenach nukleazy i helikazy (Fig. 3), zgodne z wynikami analiz klastrowych i filogenetycznych (rys. 2). W szczególności, te 5 grup pCRESS posiada specyficzną sygnaturę, YLxH (x, dowolny aminokwas)w obrębie motywu III domeny nukleazy, czego nie obserwowano w powtórzeniach z pCRESS1–3 i 9 (Fig . 3). W związku z tym określamy pCRESS4–8 zbiorczo jako supergrupę YLxH (zamiast klastra podobnego do pCPa), aby podkreślić tę wspólną cechę. Sygnatura YLxH została również zachowana w Repach z klastra podobnego do pE194 / pMV158, co sugeruje bliższą ewolucyjną zależność między tymi dwoma klastrami, pomimo faktu, że Repy podobne do pE194/pMV158 nie mają domeny helikazy. Ponadto pCRESS9 wyświetla motywy podobne do tych z plazmidów P. pulchra i dlatego może być zunifikowany z tymi plazmidami w wspólny asamblaż. Natomiast pCRESS1, -2 i -3 (klaster podobny do P4M) wyświetlają charakterystyczne zestawy motywów (rys. 3; Uwaga Uzupełniająca 1).
zachowane motywy sekwencji białek Rep. Grupy bakterii Rep są przedstawione na szarym tle. Pozostałości są zabarwione przez swoje właściwości chemiczne (polarne, zielone; podstawowe, niebieskie; kwaśne, czerwone; hydrofobowe, Czarne; neutralne, fioletowe). Grupy powtórzeń zostały ręcznie uporządkowane według podobieństwa par w wyrównanych motywach.
pochodzenie domeny helikazy SF3
analizy sekwencji sugerują, że Repy plazmidowe zawierające domenę helikazy SF3, zwłaszcza te z pCRESS2, pCRESS3 i pCRESS9 oraz P. pulchra, są ściśle powiązane z domeną helikazy SF3.spokrewniony z wirusami rzeżucha-DNA. Jednak kierunek ewolucji, tj. czy Plazmidowe Repy wyewoluowały z wirusów rzeżuchy-DNA czy odwrotnie, nie jest oczywisty. Chociaż kuszące jest przyjęcie braku domeny helikazy w klastrze podobnym do pe194/pMV158 jako wskazania, że ta grupa jest przodkiem Reps zawierających helikazę, nie można wykluczyć, że domena helikazy została utracona przez te plazmidy. W ten sposób postanowiliśmy zbadać pochodzenie domeny helikazy SF3 w plazmidach i Repach wirusowych. Sensitive sequence search with HMMER against the NR30 database shows that helicase domains of plasmid and CRESS-DNA viral Reps are most closely related to those of eukariotic positive-sense viruses RNA (order Picornavirales and family Caliciviridae) as well as the AAA + ATPase superfamily50, 51. W tej analizie uwzględniliśmy również sekwencje SF3 parwowirusów, poliomawirusów i papillomawirusów, które są uważane za ewolucyjnie związane z wirusami rzeżuchy-DNA 2,25. Pominięto kilka grup bardziej odległych helikaz SF3 od wirusów o dużych genomach dsdna52. Ze względu na dużą rozbieżność sekwencji i stosunkowo krótką długość, analizy filogenetyczne domen helikazy SF3 nie miały charakteru informacyjnego, co skutkowało powstaniem topologii drzewa w kształcie gwiazdy, niezależnie od stosowanych modeli ewolucyjnych lub próbek taksonomicznych. Jednak analiza klastrów oparta na parach podobieństw dostarczyła wglądu w relacje między różnymi rodzinami ATPase (Fig. 4a). W szczególności wyraźnie potwierdzono ścisły związek między domenami helikazy SF3 Repów bakteryjnych a wirusami rzeżuchy-DNA. Obie grupy łączą się z wirusami RNA, ale tylko Repy bakteryjne, szczególnie te z supergrupy YLxH, wykazują połączenia z Atpazami nadrodziny AAA+, a mianowicie bakteryjnym nośnikiem helikazy DnaC i, w mniejszym stopniu, Atpazami podobnymi do DnaA i Cdc48 (Fig. 4a). Bliższe podobieństwo między supergrupą YLxH i bakteryjnymi Atpazami AAA+ jest poparte porównaniem motywów katalitycznych, które ujawniły kilka wspólnych znaków pochodnych, z wyłączeniem innych grup(dodatkowe rys. 4). W tym samym progu klastrowania ani eukariotyczne wirusy DNA ani RNA nie łączą się z żadną grupą Atpaz innych niż te z plazmidów bakteryjnych. Helikazy SF3 parwowirusów związane z wirusami rzeżuchy-DNA, zgodne z analizą sekwencji Rep o Pełnej długości (Fig. 1). Papillomawirusy i poliomawirusy tworzyły 2 skupiska, które połączyły się ze sobą i z parwowirusami.
Ten wzór łączności sugeruje określony wektor ewolucji i wydaje się być najlepiej zgodny z poniższym scenariuszem. Domena helikazy SF3 plazmidów bakteryjnych wyewoluowała z bakteryjnej ATPazy podobnej do DnaC; ta domena helikazy została dołączona do domeny nukleaz Reps plazmidów podobnych do pE194 / pMV158, dając przodka supergrupy YLxH; bakteryjne Reps plazmidów zostały przekazane wirusom CRESS-DNA; helikaza SF3 wirusów RNA została pozyskana poziomo albo z plazmidów bakteryjnych, albo, bardziej prawdopodobne, z eukariotycznych wirusów rzeżuchy-DNA; wirusy rzeżuchy-DNA zrodziły parwowirusy, które z kolei dały początek poliomawirusom i papillomawirusom (Fig. 4B). Alternatywny scenariusz, w którym helikazy SF3 eukariotycznych wirusów RNA dały początek uniwersalnym bakteryjnym białkom DnaC i DnaA, poprzez plazmidy bakteryjne, wydaje się nieparzysty i niezwykle nieprawdopodobny. Rzeczywiście, DnaA jest wszechobecna i niezbędna w bakterii50, 51, więc wychwycenie helikazy z plazmidu musiałoby nastąpić u samego początku bakteryjnej domeny życia. Należy zauważyć, że plazmidy pCRESS9 i P. pulchra nie są połączone z innymi plazmidami, ale są raczej połączone z resztą sekwencji poprzez wirusy CRESS-DNA. Ten ostatni wzór zaobserwowano również w globalnej analizie grupowania powtórzeń HUH(rys. 1), jak również w grupowaniu samych domen nukleazowych.
pochodzenie wirusów rzeżuchy DNA z plazmidów bakteryjnych
Analiza domen helikazy SF3 sugeruje, że Reps plazmidów podobnych do pE194 / pMV158 są raczej formami przodkowymi niż pochodnymi. Obecnie nie można wykluczyć alternatywnej możliwości, a mianowicie, że plazmidy podobne do pe194/pMV158 utraciły domenę helikazy. Jednakże fakt, że domena helikazy nie została utracona w żadnej z licznych znanych grup wirusów rzeżuchy i DNA lub w plazmidach pCRESS1 do pCRESS9, sugeruje, że po nabyciu domena helikazy staje się ważna dla skutecznej replikacji genomu plazmidu/wirusa. W związku z tym, bliskie podobieństwo między Pe194/pMV158-podobnych Reps i tych z supergrupy YLxH, co skutkuje bezpośrednim połączeniem obu grup w globalnej sieci (rys. 1), implikuje że The poprzedni Grupa być odpowiedni outgroup dla filogeneza Reps od bakteryjny plasmids i CRESS-DNA wirusy. Do analiz filogenetycznych wykorzystaliśmy zbiór danych powtórzeń SC2, z wyłączeniem powtórzeń wirusów Parvoviridae i CRESS-DNA, które wcześniej uznano za chimeryczne w odniesieniu do ich domen nukleazowych i helikazy53, aby uniknąć potencjalnych artefaktów wynikających ze sprzecznych sygnałów filogenetycznych. Zbiór danych obejmował przedstawicieli wszystkich sklasyfikowanych rodzin wirusów rzeżuchy i DNA oraz 6 grup niesklasyfikowanych wirusów rzeżuchy i dna tymczasowo oznaczonych CRESSV1 – 6 (ref. 53), a także niewielką grupę wirusów podobnych do gazów, które wcześniej zauważono, że kodują Reps ze znacznym podobieństwem do reps bakteryjnych54. W dobrze wspieranym drzewie filogenetycznym o maksymalnym prawdopodobieństwie zbudowanym z Phymla i zakorzenionym z Repami podobnymi do Pe194/pMV158 supergrupa YLxH (pCRESS4–8) znajduje się u podstawy asamblażu obejmującego wszystkie wirusy CRESS-DNA, pCRESS1–3 i pCRESS9, jak również plazmidy P. pulchra. Ten zespół dzieli się na dwa klady (rys. 5). Klad 1 obejmuje dwie podklady, z których jedna składa się z geminiwirusów i genomowirusów łączących plazmidy pCRESS9 fitoplazmy, a druga obejmuje plazmidy CRESSV6 i P. pulchra. W szczególności plazmidy P. pulchra wydają się wyłaniać bezpośrednio z różnorodności CRESSV6, przy czym są one najbliżej spokrewnione z podkladą CRESSV6 wirusów zsekwencjonowanych z próbek ścieków. Związek między geminiwirusami / genomowirusami a plazmidami pCRESS9 nie został rozwiązany w filogenezie. Jednak analizy grupowania silnie sugerują, że powtórzenia plazmidów pCRESS9 wyewoluowały z geminiwirusów-genomowirusów (Fig. 1 i 4). Zgodnie z tym scenariuszem, fitoplazmatyczne plazmidy pCRESS7 i pCRESS9, pomimo kodowania filogenetycznie odrębnych powtórzeń, dzielą zawartość genu, a mianowicie białko kontrolujące liczbę kopii, białko SSB podobne do prk06752 i zachowane hipotetyczne białko (Fig. 3g, i). Ponadto, geminiwirusy i CRESSV6 kodują homologiczne białka kapsydu, co sugeruje, że wyewoluowały ze wspólnego przodka wirusa, a nie zbiegały się z dwóch grup plazmidów poprzez wychwytywanie homologicznych genów białka kapsydu. Klad 2 obejmuje Repy bakteryjne pCRESS1 – 3 oraz, jako grupę siostrzaną, wirusy rzeżuchy DNA z rodzin Nanoviridae/Alphasatellitidae, Smacoviridae i Circoviridae, jak również niesklasyfikowane CRESSV1 do CRESSV5, podczas gdy wirusy podobne do GasCSV są zagnieżdżone w bakteryjnym pCRESS2.
maksymalne prawdopodobieństwo drzewo filogenetyczne białek Rep. GasCSV-związany z Gastropodem okrągły wirus ssdna. Drzewo zostało zbudowane z PhyML78. Gałęzie o wartościach wsparcia poniżej 70 są zakontraktowane
wytrzymałość drzewa PhyML została potwierdzona dodatkowymi analizami (Uwaga uzupełniająca 1), w tym (i) analizami filogenetycznymi o maksymalnym prawdopodobieństwie przy użyciu Raxml i IQ-Tree, z alternatywnymi metodami wsparcia gałęzi (rysunek S5); (ii) rekonstrukcja filogenetyczna z wykorzystaniem 20-profilowego modelu mieszania (rysunek S5); (iii) analiza statystyczna nieograniczonych i 3 ograniczonych topologii drzew (dodatkowa Tabela 2). Łącznie wyniki te wskazują, że uzyskana topologia drzewa jest bardzo solidna i prawdopodobnie dokładnie odzwierciedla ewolucyjną historię powtórzeń kodowanych przez wirusy CRESS-DNA i plazmidy.
warto zwrócić uwagę na analizę zachowanych motywów (rys. 3) sugeruje specyficzny związek pomiędzy Repami wirusa w kladzie 1 i bakteryjnym pCRESS3 (zamiast pcress1–3 zbiorczo), sugerując, że filogenetyczne rozmieszczenie może mieć wpływ na starożytne wydarzenia rekombinacji. Ponadto bacilladnawirusy zostały pominięte w globalnym drzewie filogenetycznym, ponieważ ich przedstawiciele wykazywali niestabilną pozycję w filogenezie w zależności od pobierania próbek taksonów (Fig. 6), prawdopodobnie ze względu na małą liczbę dostępnych sekwencji, ich dużą rozbieżność i potencjalny chimeryzm. Niezależnie od tego, analiza filogenetyczna silnie sugeruje, że większość wirusów rzeżucha-DNA, w tym cirkowirusy, smakowirusy, nanowirusy i rzeżucha v1–5, wyewoluowała ze wspólnego przodka z Repami bakteryjnymi pCRESS1–3, podczas gdy niekultywowane wirusy podobne do gazów wyłaniają się bezpośrednio z repów bakteryjnych pCRESS2 (Fig. 5). Pochodzenie zespołu obejmującego geminiwirusy, genomowirusy i RZEŻUCHW6 jest mniej jasne, ale może poprzedzać pojawienie się innych grup wirusów rzeżuchy i dna i być może obejmowało wspólnego przodka z supergrupą YLxH. Reps bakteryjnych pCRESS9 i P. plazmidy pulchry zostały prawdopodobnie nabyte poziomo niedawno od odpowiednich wirusów CRESS-DNA.