Rappresentante HUH Ripetizioni superfamiglia raggruppati dalla loro somiglianza sequenza a coppie. Le linee collegano sequenze con valore P ≤ 1e-08. I gruppi prendono il nome da plasmidi ben caratterizzati, virus o taxon più frequenti
Il cluster orfano 1 include una singola famiglia di trasposoni IS200 / IS605 che sono diffusi nei batteri e nell’archea37. Le endonucleasi HUH delle sequenze di inserimento IS200/IS605 sono state ampiamente studiate strutturalmente e biochimicamente, risultando in una comprensione completa delle loro funzioni16,38. Sebbene le trasposizioni IS200/IS605 abbiano una piega strutturale comune a quella di altre endonucleasi HUH e contengano tutti e 3 i motivi di firma, non hanno mostrato una somiglianza di sequenza apprezzabile con nessun altro cluster di endonucleasi HUH e quindi sono rimaste disconnesse dalle sequenze in altri cluster. Tuttavia, la diversità di sequenza all’interno del cluster IS200/IS605 è paragonabile a quella all’interno di altri cluster.
Il cluster orfano 2 include proteine Rep conservate nei virus archaeali ipertermofili della famiglia Rudiviridae39. Studi strutturali della proteina Rep dal rudivirus SIRV1 hanno rivelato la piega canonica dell’endonucleasi HUH e la caratterizzazione biochimica della proteina ha confermato le attività di nicking e joining previste in vitro36. Come le trasposasi IS200 / IS605, il cluster rudiviral Rep non si connette ad altre endonucleasi HUH, inclusi gli omologhi di altre famiglie di virus e plasmidi archaeal.
In teoria, l’unicità dei 2 cluster orfani è legata agli insoliti meccanismi di trasposizione e replicazione impiegati dai rispettivi elementi. In effetti, le sequenze di inserimento IS200 / IS605 traspongono con un meccanismo unico di peel-and-paste 38, mentre i rudivirus, a differenza della maggior parte degli altri virus e plasmidi replicati dal meccanismo a cerchio rotante, contengono genomi dsDNA lineari relativamente grandi (~35 kb) con termini covalentemente chiusi40.
Supercluster 1 è di gran lunga l’assemblaggio HUH più grande e diversificato che include 24 cluster (dati supplementari 1). Di questi 24 cluster, 15 contengono ripetizioni da plasmidi extracromosomiali in buona fede di cui 7 cluster includono anche ripetizioni da diversi ssDNA (Microviridae, Inoviridae e Pleolipoviridae) e/o dsDNA (Myoviridae e Corticoviridae) virus di batteri e archaea. Tre gruppi sono costituiti da ripetizioni codificate da microvirus delle sottofamiglie Gokushovirinae e Bullavirinae, e Xanthomonas inovirus Cf1 (famiglia Inoviridae), rispettivamente. In particolare, i microvirus simili a phiX174 (Bullavirinae) mostrano somiglianze esclusivamente con i microvirus della sottofamiglia Gokushovirinae, indicativi della monofilia Rep nelle due sottofamiglie dei Microviridae, nonostante l’elevata divergenza di sequenza. I trasposoni batterici IS91 (inclusa la sottofamiglia ISr) e eucarioti della famiglia Helitron, rispettivamente, formano due cluster distinti. I due gruppi di trasposoni non sono direttamente collegati tra loro, ma sono legati a gruppi distinti di plasmidi batterici e, nel caso di IS91, archaeal, suggerendo origini indipendenti da repliconi extracromosomiali batterici. In precedenza è stato suggerito che helitrons potrebbe rappresentare un anello mancante tra i virus eucarioti crescione-DNA, vale a dire, geminivirus, e repliconi batterici HUH41 o che helitrons evoluto da geminiviruses42. Tuttavia, nella nostra analisi, gli helitron non si collegano a nessuno dei gruppi di virus CRESS-DNA, suggerendo traiettorie evolutive indipendenti, coerenti con le recenti rilevazioni43.
I restanti 5 cluster non includono sequenze plasmidiche, virali o trasposoniche riconoscibili e quindi sono suscettibili di rappresentare nuove famiglie di MGE integrati. Quattro di questi gruppi si trovano prevalentemente nei batteri dei taxa Clostridiales, Actinobacteria, Neisseriales e Bacteroidetes, rispettivamente (etichettati di conseguenza in Fig. 1), mentre il quinto gruppo è specifico per la divisione candidata MSBL1 (Mediterranean Sea Brine Lakes 1) 44, un gruppo di archaea incolti trovati in diversi ambienti ipersalini. La maggior parte dei cluster mostra uniformità tassonomica a livello di dominio, cioè i cluster includevano sequenze batteriche o arcaiche o eucariotiche (inclusi i corrispondenti virus e plasmidi), suggerendo che i trasferimenti orizzontali di virus o plasmidi tra i domini ospiti sono rari. Le due eccezioni includono i cluster dominati da batteri simili a pUB110 e IS91, che includono una manciata di sequenze archaeal. Nel caso dei trasposoni IS91, il trasferimento orizzontale da batteri è stato accertato mediante analisi filogenetiche45. Inoltre, alcuni dei cluster includono sequenze sporadiche annotate come eucariotiche; tuttavia, l’analisi dei contig corrispondenti suggerisce che questi sono probabilmente contaminanti batterici.
Di particolare interesse sono i 7 cluster che includono sia virus che plasmidi. Ad esempio, il cluster simile a pEC316_KPC, oltre ai plasmidi, contiene virus evolutivamente non correlati da 3 famiglie, Myoviridae, Corticoviridae e Inoviridae, suggerendo un’ampia diffusione orizzontale dei geni rep. In particolare, le ripetizioni di inovirus sono distribuite tra 5 cluster. Data la scarsità di sequenze inovirali nei cluster pVT736-1-like e pUB110-like, che includono solo Pseudomonas phage Pf3 e Propionibacterium fage B5, rispettivamente, la direzionalità del trasferimento genico, dai plasmidi ai virus corrispondenti, appare ovvia. Inoltre, molti inoviruses non codificare EH endonucleasi, ma piuttosto codificare replica iniziatori di un evolutivamente estranei superfamiglia, Rep_trans (Pfam id: PF02486)15, che abbonda anche batterica plasmids30, mentre inoviruses del genere Vespertiliovirus mancanza Ripetizioni e invece replicare recepimento utilizzando IS3 e IS30 famiglia transposases derivato dal corrispondente di inserimento sequences46. Collettivamente, queste osservazioni indicano che i moduli di replicazione degli inovirus sono stati scambiati con moduli di replicazione lontanamente correlati e persino non omologhi di varie famiglie di plasmidi e trasposoni. Allo stesso modo, i pleolipovirus archaeal sono divisi tra due gruppi corrispondenti a diverse famiglie di plasmidi archaeal, pGRB1-like e pTP2-like, rispettivamente, suggerendo che lo scambio di geni associati alla replicazione è comune nei virus batterici e archaeal con genomi di piccole dimensioni plasmidiche. ¶In alcuni casi, è difficile accertare l’appartenenza virale rispetto al plasmide di ripetizioni codificate nei cromosomi cellulari perché entrambi i tipi di MGE possono integrarsi nei genomi ospiti. Ad esempio, il cluster simile a XacF1 include 62 sequenze Rep, 2 delle quali sono codificate da fagi filamentosi, mentre il resto proviene da genomi batterici. L’analisi dei quartieri genomici suggerisce che solo 6 dei restanti 60 Ripetizioni rappresentano profagi. Inoltre, il cluster simile a pAS28 include un plasmide, pAS28 (ref. 47); tuttavia, i rappresentanti correlati sono stati precedentemente identificati nelle profage48, ma non nei virus caratterizzati, dando l’impressione errata che il rappresentante simile a pAS28 sia esclusivo del plasmide. ¶Per caratterizzare ulteriormente le relazioni evolutive tra ripetizioni codificate da diversi tipi di MGE, abbiamo costruito alberi filogenetici di massima verosimiglianza per i 7 cluster che includevano ripetizioni di virus e plasmidi (Fig. 2a-g). I risultati delle analisi filogenetiche suggeriscono il trasferimento orizzontale dei geni rep tra plasmidi e virus, con sequenze virali tipicamente nidificate tra omologhi codificati con plasmidi.
Supercluster 2 (SC2) è costituito da 7 cluster (dati supplementari 1) che includono tutti i virus eucarioti del CRESCIONE-DNA classificati e non classificati, parvovirus, un cluster di plasmidi dell’alga rossa Pyropia pulchra49 e 4 cluster contenenti sequenze di Rep batterici. La stragrande maggioranza dei rappresentanti batterici nei cluster pCPa-like e p4M-like sono codificati nei genomi batterici piuttosto che nei plasmidi e non sono stati precedentemente caratterizzati. Nella nostra rete, i virus CRESS-DNA sono collegati ai cluster pCPa-like, p4M-like, pPAPh2-like e P. pulchra-like, mentre il cluster pE194/pMV158-like non forma connessioni dirette ai virus CRESS-DNA, ma unisce SC2 attraverso il cluster pCPa-like (Fig. 1). In particolare, geminivirus e genomovirus formano un subluster con plasmidi di fitoplasma (cluster pPAPh2-like) e P. pulchra, che è separato da altri virus CRESS-DNA. Il cluster Parvoviridae, compresi i parvovirus e i virus endogeni derivati integrati in vari genomi eucariotici, è vagamente collegato direttamente ai virus CRESS-DNA, suggerendo che i parvovirus con genomi lineari ssDNA condividono un’ascendenza comune con i virus CRESS-DNA che, per definizione, hanno genomi circolari. Incuriosito dalla connessione evolutiva apparentemente stretta tra virus eucarioti crescione-DNA e ripetizioni batteriche e algali, abbiamo studiato queste relazioni in modo più dettagliato, come riportato nelle sezioni seguenti.
La diversità delle ripetizioni virali nei genomi batterici
Per indagare l’entità della somiglianza tra le ripetizioni dei virus eucarioti CRESS-DNA e i repliconi non virali di SC2, abbiamo confrontato le loro organizzazioni di dominio. Ad eccezione dei plasmidi della famiglia pE194/pMV158, che contengono solo il dominio nucleasi, i rappresentanti SC2 batterici e algali avevano la stessa organizzazione del dominio nucleasi-elicasi dei virus CRESS-DNA. La stessa organizzazione a due domini è anche caratteristica del parvovirus Reps2. Pertanto, l’analisi dell’organizzazione del dominio corrobora i risultati del clustering delle sequenze e indica inoltre che le ripetizioni SC2 batteriche sono più strettamente correlate alle ripetizioni dei virus eucariotici rispetto a quelle di altri plasmidi e virus procarioti.
Abbiamo quindi cercato di ottenere ulteriori informazioni sulla diversità e la distribuzione tassonomica delle ripetizioni SC2 di tipo virale codificate nei genomi batterici. L’analisi filogenetica della massima verosimiglianza ha rivelato 9 cladi ben supportati (Fig. 2 bis). Il clustering e la successiva analisi di rilevamento della comunità hanno convalidato i 9 gruppi di ripetizioni batteriche (Fig. 2b), dove i gruppi 1-3 corrispondono al cluster simile a p4M mostrato in Fig. 1, gruppi 4-8 al cluster pCPa-like e gruppo 9 al cluster pPAPh2-like. Per sottolineare la loro somiglianza con i rappresentanti dei virus CRESS-DNA, ci riferiamo ai 9 gruppi come pCRESS1 attraverso pCRESS9. Questi gruppi mostravano distribuzioni tassonomiche parzialmente sovrapposte ma distinte, che coprivano diverse classi all’interno di 4 phyla batterici (Fig. 1 e Tabella supplementare 1).
Fig. 2
Diversità di proteine Rep virali nei batteri. un albero filogenetico di proteine Rep batteriche e loro omologhi in P. pulchra. Le sequenze strettamente correlate sono collassate in triangoli, le cui lunghezze laterali sono proporzionali alle distanze tra i nodi fogliari più vicini e più lontani. b CLAN gruppi di proteine batteriche Rep e loro omologhi. I nodi indicano sequenze proteiche. Le linee rappresentano le relazioni di sequenza (CLAN P-value ≤ 1e-05). I nodi appartenenti allo stesso cluster sono colorati con gli stessi colori, corrispondenti ai cladi mostrati nel pannello A. c Genome maps of integrated and extracromosomal plasmids representing groups 1-9. I geni omologhi sono raffigurati usando lo stesso colore e le loro funzioni sono elencate sul lato destro della figura
La maggior parte delle ripetizioni di pCRESS7 e pCRESS9 sono codificate da plasmidi extracromosomiali (Tabella supplementare 1). Al contrario, la stragrande maggioranza (97.5%) delle ripetizioni trovate in altri gruppi sono codificate all’interno di elementi genetici mobili site-specificatamente integrati nei cromosomi batterici (Tabella supplementare 1; Fig. 2c; Fig. supplementare 3; Nota complementare 1). In particolare, nessuno degli elementi ha codificato omologhi di proteine strutturali virali attualmente note (Nota complementare 1). Collettivamente, queste osservazioni indicano che le ripetizioni virali nei batteri sono codificate da diversi plasmidi extracromosomiali e integrati.
Caratteristiche conservate delle ripetizioni batteriche e del virus del CRESS-DNA
L’analisi delle sequenze ha mostrato che, nonostante una notevole divergenza di sequenze complessiva, le ripetizioni di pCRESS4 attraverso 8 contengono motivi di sequenza strettamente simili all’interno dei domini nucleasi ed elicasi (Fig. 3), coerente con i risultati delle analisi di clustering e filogenetica (Fig. 2). In particolare, questi 5 gruppi pCRESS condividono una firma specifica, YLxH (x, qualsiasi amminoacido) all’interno del motivo III del dominio nucleasico, che non è stata osservata nelle ripetizioni di pCRESS1–3 e 9 (Fig. 3). Quindi, ci riferiamo a pCRESS4–8 collettivamente come il supergruppo YLxH (piuttosto che il cluster simile a pCPa), per enfatizzare questa caratteristica condivisa. La firma YLxH è stata conservata anche nelle ripetizioni del cluster simile a pE194 / pMV158, suggerendo una relazione evolutiva più stretta tra i due cluster, nonostante il fatto che le ripetizioni simili a pE194/pMV158 non abbiano il dominio dell’elicasi. Inoltre, pCRESS9 mostra motivi simili a quelli dei plasmidi di P. pulchra e quindi potrebbe essere unificato con questi plasmidi in un assemblaggio comune. Al contrario, pCRESS1, -2 e -3 (cluster simile a p4M) mostrano insiemi distintivi di motivi (Fig. 3; Nota complementare 1).
Fig. 3
Motivi di sequenza conservati di proteine Rep. I gruppi di Rep batterici sono raffigurati su sfondo grigio. I residui sono colorati dalle loro proprietà chimiche (polare, verde; basico, blu; acido, rosso; idrofobo, nero; neutro, viola). I gruppi Rep sono stati ordinati manualmente in base alla somiglianza a coppie nei motivi allineati. I domini HUH endonucleasi e SF3 helicase sono delineati nella parte superiore della figura
Origine del dominio SF3 helicase
Le analisi di sequenza suggeriscono che le ripetizioni plasmidiche contenenti il dominio SF3 helicase, in particolare quelle di pCRESS2, pCRESS3 e pCRESS9 e P. pulchra, correlati ai rappresentanti dei virus CRESS-DNA. Tuttavia, la direzionalità dell’evoluzione, cioè se le ripetizioni plasmidiche si sono evolute da quelle dei virus CRESS-DNA o viceversa, non è ovvia. Sebbene si sia tentati di prendere l’assenza del dominio dell’elicasi nel cluster simile a pE194/pMV158 come indicazione che questo gruppo è ancestrale alle ripetizioni contenenti elicasi, non si può escludere che il dominio dell’elicasi sia stato perso da questi plasmidi. Pertanto, abbiamo deciso di indagare la provenienza del dominio dell’elicasi SF3 nei rappresentanti plasmidici e virali. Ricerche di sequenze sensibili con HMMER contro il database nr30 hanno mostrato che i domini elicasi dei rappresentanti virali plasmid e CRESS-DNA sono più strettamente correlati a quelli dei virus a RNA a senso positivo eucariotico (ordine Picornavirales e famiglia Caliciviridae) così come l’AAA+ ATPASE superfamily50,51. In questa analisi, abbiamo anche incluso le sequenze SF3 di parvovirus, poliomavirus e papillomavirus che si pensa siano evolutivamente correlati ai virus CRESS-DNA 2,25. Diversi gruppi di elicasi SF3 più distanti da virus con grandi geni dsdna52 sono stati ignorati. A causa dell’elevata divergenza di sequenza e della lunghezza relativamente breve, le analisi filogenetiche dei domini elicasi SF3 non erano informative, risultando in topologie ad albero a forma di stella, indipendentemente dai modelli evolutivi o dal campionamento tassonomico utilizzato. Tuttavia, l’analisi di clustering basata su somiglianze a coppie ha fornito informazioni sulle relazioni tra le diverse famiglie di ATPasi (Fig. 4 bis). In particolare, la stretta relazione tra i domini elicasi SF3 dei rappresentanti batterici e i virus CRESS-DNA è stata chiaramente supportata. Entrambi i gruppi si connettono ai virus RNA, ma solo i rappresentanti batterici, in particolare quelli del supergruppo YLxH, mostrano connessioni alle ATPasi della superfamiglia AAA+, vale a dire il caricatore di elicasi batterica DnaC e, in misura minore, DnaA e ATPasi simili a Cdc48 (Fig. 4 bis). La più stretta somiglianza tra il supergruppo YLxH e le ATPasi batteriche AAA + è supportata dal confronto dei motivi catalitici che hanno rivelato diversi caratteri derivati condivisi, ad esclusione di altri gruppi (Fig. 4). Alla stessa soglia di clustering, né il DNA eucariotico né i virus RNA collegati a qualsiasi gruppo di ATPasi diversi da quelli dei plasmidi batterici. Le elicasi SF3 dei parvovirus legate a quelle dei virus CRESS-DNA, coerenti con l’analisi delle sequenze Rep a lunghezza intera (Fig. 1). Papillomavirus e polyomavirus hanno formato 2 ammassi che si sono collegati tra loro e a parvovirus.
Fig. 4
Relazioni tra Superfamiglia 3 elicasi e AAA+ ATPasi. una Superfamiglia 3 helicase e AAA+ ATPASE domini raggruppati dalla loro somiglianza a coppie utilizzando CLAN. In totale, 3854 sequenze sono state raggruppate con CLAN (CLAN P-value ≤ 5e-09). Gruppi di virus CRESS-DNA non classificati sono indicati come CRESSV1 attraverso CRESSV6 (ref. 53). b Uno scenario evolutivo proposto per l’origine e l’evoluzione della Superfamiglia virale 3 elicasi. Abbreviazioni: SF3, superfamiglia 3 helicase domain; HUH, HUH superfamiglia nuclease domain; OBD, origine-binding domain; HGT, trasferimento genico orizzontale; RHR, rolling-hairpin replication
Questo modello di connettività suggerisce uno specifico vettore di evoluzione e sembra essere meglio compatibile con lo scenario seguente. Il dominio dell’elicasi SF3 dei plasmidi batterici si è evoluto da un’ATPasi batterica DnaC-simile; questo dominio dell’elicasi è stato aggiunto al dominio nucleasico delle ripetizioni di plasmidi simili a pE194/pMV158 che producono l’antenato del supergruppo YLxH; le ripetizioni plasmidiche batteriche sono state trasmesse ai virus CRESS-DNA; l’elicasi SF3 dei virus RNA è stata acquisita orizzontalmente da plasmidi batterici o, più probabilmente, da virus eucarioti del CRESS-DNA; i virus CRESS-DNA hanno generato parvovirus che a loro volta hanno dato origine a poliomavirus e papillomavirus (Fig. 4 ter). Lo scenario alternativo, in base al quale le elicasi SF3 dei virus a RNA eucariotici hanno dato origine alle proteine batteriche universali DnaC e DnaA, attraverso plasmidi batterici, appare non parsimonioso ed estremamente improbabile. Infatti, DnaA è onnipresente ed essenziale nei batteri50, 51, quindi la cattura dell’elicasi da un plasmide dovrebbe avvenire all’origine stessa del dominio batterico della vita. In particolare, pCRESS9 e P. pulchra plasmidi non sono collegati con altri plasmidi, ma sono piuttosto collegati al resto delle sequenze attraverso i virus CRESS-DNA. Quest’ultimo modello è stato osservato anche nell’analisi di clustering globale delle ripetizioni HUH (Fig. 1) così come nel clustering dei domini nucleasi da solo.
Origini dei virus CRESS-DNA da plasmidi batterici
L’analisi dei domini elicasi SF3 suggerisce che le ripetizioni di plasmidi simili a pE194 / pMV158 sono forme ancestrali piuttosto che derivate. La possibilità alternativa, vale a dire, che le ripetizioni di plasmidi simili a pE194/pMV158 abbiano perso il dominio dell’elicasi, non può essere attualmente esclusa. Tuttavia, il fatto che il dominio dell’elicasi non sia stato perso in nessuno dei numerosi gruppi noti di virus CRESS-DNA o nei plasmidi pCRESS1 a pCRESS9, suggerisce che, una volta acquisito, il dominio dell’elicasi diventa importante per un’efficiente replicazione del genoma plasmidico/virale. Pertanto, la stretta somiglianza tra le ripetizioni simili a pE194/pMV158 e quelle del supergruppo YLxH, con conseguente connettività diretta dei due gruppi nella rete globale (Fig. 1), implica che il primo gruppo è un outgroup adeguato per la filogenesi delle ripetizioni da plasmidi batterici e virus CRESS-DNA. Per le analisi filogenetiche, abbiamo utilizzato un set di dati di ripetizioni SC2, escludendo Ripetizioni di virus Parvoviridae e CRESS-DNA che sono stati precedentemente giudicati chimerici rispetto ai loro domini nucleasi ed elicasi53, per evitare potenziali artefatti derivanti da segnali filogenetici contrastanti. Il set di dati comprendeva rappresentanti di tutte le famiglie classificate di virus CRESS-DNA, nonché 6 gruppi di virus CRESS-DNA non classificati provvisoriamente etichettati CRESSV1-6 (ref. 53) così come un piccolo gruppo di virus simili a GasCSV, che sono stati precedentemente notati per codificare le ripetizioni con una significativa somiglianza con le ripetizioni Batteriche54. Nell’albero filogenetico di massima verosimiglianza ben supportato costruito con PhyML e radicato con ripetizioni simili a pE194 / pMV158, il supergruppo YLxH (pCRESS4–8) è alla base di un assemblaggio che include tutti i virus CRESS-DNA, pCRESS1–3 e pCRESS9 così come i plasmidi di P. pulchra. Questo assemblaggio si divide in due cladi (Fig. 5). Il Clade 1 comprende due sottocladi, una delle quali è costituita da geminivirus e genomovirus che si uniscono ai plasmidi pCRESS9 del fitoplasma e l’altra include i plasmidi CRESSV6 e P. pulchra. In particolare, i plasmidi di P. pulchra sembrano emergere direttamente dall’interno della diversità CRESSV6, con la più stretta relazione con la sottoclade CRESSV6 di virus sequenziati da campioni di acque reflue. La relazione tra geminivirus / genomovirus e plasmidi pCRESS9 non è risolta nella filogenesi. Tuttavia, le analisi di clustering suggeriscono fortemente che i rappresentanti dei plasmidi pCRESS9 si sono evoluti da geminivirus-genomovirus (Figs. 1 e 4). Coerentemente con questo scenario, i plasmidi fitoplasmatici pCRESS7 e pCRESS9, nonostante codifichino ripetizioni filogeneticamente distinte, condividono il contenuto del gene, vale a dire la proteina di controllo del numero di copie, la proteina SSB simile a PRK06752 e la proteina ipotetica conservata (Fig. 3g, i). Ancora, geminivirus e CRESSV6 codificano le proteine omologhe del capside suggerenti che si sono evoluti da un antenato virale comune piuttosto che convergere da due gruppi di plasmidi catturando i geni omologhi della proteina del capside. Clade 2 comprende rappresentanti batterici di pCRESS1–3 e, come gruppo fratello, virus CRESS-DNA delle famiglie Nanoviridae/Alphasatellitidae, Smacoviridae e Circoviridae, nonché CRESSV1 non classificati attraverso CRESSV5, mentre i virus simili a GasCSV sono nidificati all’interno di PCRESS2 batterico.
Fig. 5
Albero filogenetico di massima verosimiglianza delle proteine Rep. GasCSV-Virus ssDNA circolare associato a gasteropodi. L’albero è stato costruito con PhyML78. I rami con valori di supporto inferiori a 70 sono contratti
La robustezza dell’albero di PhyML è stata convalidata da ulteriori analisi (Nota supplementare 1), incluse (i) analisi filogenetiche di massima verosimiglianza usando RAxML e IQ-Tree, con metodi alternativi di supporto di ramo (Figura S5); (ii) ricostruzione filogenetica utilizzando il modello di miscela a 20 profili (Figura S5); (iii) analisi statistica delle topologie di alberi non vincolate e 3 vincolate (Tabella supplementare 2). Collettivamente, questi risultati indicano che la topologia dell’albero ottenuta è altamente robusta ed è probabile che rifletta con precisione la storia evolutiva delle ripetizioni codificate da virus e plasmidi CRESS-DNA.
In particolare, l’analisi dei motivi conservati (Fig. 3) suggerisce un’associazione specifica tra i rappresentanti del virus nel clade 1 e PCRESS3 batterico (piuttosto che pCRESS1–3 collettivamente), implicando che il posizionamento filogenetico potrebbe essere influenzato da antichi eventi di ricombinazione. Inoltre, i bacilladnavirus sono stati omessi dall’albero filogenetico globale perché i loro rappresentanti mostravano una posizione instabile nella filogenesi a seconda del campionamento del taxon (Fig. 6), forse, a causa del piccolo numero di sequenze disponibili, della loro alta divergenza e del potenziale chimerismo. Indipendentemente da ciò, l’analisi filogenetica suggerisce fortemente che la maggior parte dei virus CRESS-DNA, inclusi circovirus, smacovirus, nanovirus e CRESSV1-5, si è evoluta da un antenato comune con ripetizioni batteriche di pCRESS1–3, mentre i virus incolti simili a GasCSV emergono direttamente dalle ripetizioni batteriche pCRESS2 (Fig. 5). La provenienza dell’assemblaggio tra cui geminivirus, genomovirus e CRESSV6 è meno chiara, ma potrebbe precedere l’emergere degli altri gruppi di virus CRESS-DNA e possibilmente coinvolgere un antenato comune con il supergruppo YLxH. I rappresentanti di PCRESS9 batterico e P. i plasmidi di pulchra sono stati probabilmente acquisiti orizzontalmente più recentemente dai corrispondenti virus CRESS-DNA.