globalt nätverk av HUH—replikonerna
för att utforska den evolutionära historien för HUH—replikonerna samlade vi en dataset av HUH endonukleaser-det enda proteinet som kodas av alla dessa replikoner-som representerar varje familj av virus, plasmider och transposoner associerade med värdar över alla tre cellulära domäner16, 27, 28,29,30. I denna analys ansåg vi inte Mob relaxaser involverade i plasmidkonjugering. Enzymer i denna familj omfattar cirkulärt permuterade konserverade motiv som komplicerar deras sekvensbaserade jämförelse med HUH-endonukleaserna involverade i DNA-replikation eller transposition16,19. Den resulterande datauppsättningen inkluderade 8764 sekvenser. Dessa grupperades baserat på parvis likhet och kluster identifierades med hjälp av en konvex klusteralgoritm (p-värdetröskel på 1e−08) med CLANS35. Denna analys avslöjade 33 kluster som varierade i storlek från 7 till 2711 sekvenser (kompletterande data 1). Efter en inspektion av anslutningen mellan kluster (Fig. 1) definierade vi 2 föräldralösa kluster och 2 superkluster, som visade antingen inga eller väldigt få anslutningar till varandra (kompletterande data 1). Jämförelse av de tillgängliga högupplösta strukturerna för representanter för både föräldralösa kluster och de 2 superklusterna16,36 bekräftar otvetydigt deras gemensamma ursprung.
Orphan cluster 1 innehåller en enda familj av IS200/IS605 transposoner som är utbredda i bakterier och archaea37. HUH-endonukleaserna i IS200 / IS605-införingssekvenserna har studerats omfattande strukturellt och biokemiskt, vilket resulterar i en omfattande förståelse för deras funktioner16,38. Även om IS200 / IS605-transposaser har en strukturell vikning som är gemensam för andra HUH-endonukleaser och innehåller alla 3 signaturmotiv, visade de inte märkbar sekvenslikhet med något annat kluster av HUH-endonukleaser och förblev därmed bortkopplad från sekvenser i andra kluster. Ändå är sekvensdiversitet inom IS200 / IS605-klustret jämförbart med det inom andra kluster.
Orphan cluster 2 innehåller Rep-proteiner som konserveras i hypertermofila archaeala virus i familjen Rudiviridae39. Strukturella studier av Rep-proteinet från rudivirus SIRV1 avslöjade den kanoniska huh-endonukleasvecken och biokemisk karakterisering av proteinet bekräftade de förväntade nicking-och anslutningsaktiviteterna i vitro36. Liksom IS200 / IS605-transposaserna ansluter det rudivirala Rep-klustret inte till andra HUH-endonukleaser, inklusive homologer från andra familjer av arkaeala virus och plasmider.
tänkbart är unikheten hos de 2 föräldralösa klusterna kopplad till de ovanliga införlivnings-och replikationsmekanismerna som används av respektive element. Faktum är att IS200 / IS605 införingssekvenser transponeras av en unik peel-and-paste-mekanism38, medan rudivirus, till skillnad från de flesta andra virus och plasmider som replikeras av rullcirkelmekanismen, innehåller relativt stora (~35 kb) linjära dsDNA-genomer med kovalent stängd termini40.
Supercluster 1 är den överlägset största och mest mångsidiga HUH-samlingen som innehåller 24 kluster (kompletterande data 1). Av dessa 24 kluster innehåller 15 Reps från bona fide extrakromosomala plasmider, varav 7 kluster också inkluderar Reps från olika ssDNA (Microviridae, Inoviridae och Pleolipoviridae) och/eller dsDNA (Myoviridae och Kortikoviridae) virus av bakterier och archaea. Tre kluster består av Reps kodade av mikrovirus av underfamiljerna Gokushovirinae och Bullavirinae, respektive Xanthomonas inovirus Cf1 (familjen Inoviridae). I synnerhet visar phiX174-liknande mikrovirus (Bullavirinae) likhet uteslutande med mikrovirus av underfamiljen Gokushovirinae, vilket indikerar Rep monofyly i de två underfamiljerna i Microviridae, trots hög sekvensdivergens. Bakterien IS91 (inklusive ISCR-underfamiljen) respektive eukaryota Helitronfamiljtransponsoner bildar två distinkta kluster. De två grupperna av transposoner är inte direkt kopplade till varandra, men är kopplade till distinkta grupper av bakterier och, i fallet med IS91, arkaeala plasmider, vilket tyder på oberoende ursprung från bakteriella extrakromosomala replikoner. Det har tidigare föreslagits att helitroner kan representera en saknad länk mellan eukaryota CRESS-DNA-virus, nämligen geminivirus och bakteriella HUH-replikoner41 eller att helitroner utvecklats från geminivirus42. Men i vår analys ansluter helitroner inte till någon av grupperna av CRESS-DNA-virus, vilket tyder på oberoende evolutionära banor, i överensstämmelse med de senaste fynden43.
de återstående 5-klusterna inkluderar INTE några igenkännliga plasmid -, virus-eller transposonsekvenser och kommer därför sannolikt att representera nya familjer av integrerad MGE. Fyra av dessa grupper finns främst i bakterier av taxa Clostridiales, Actinobacteria, Neisseriales respektive Bacteroidetes (märkt i enlighet därmed i Fig. 1), medan den femte gruppen är specifik för kandidatdivisionen MSBL1 (Medelhavet saltlake sjöar 1) 44, en grupp okulturerade archaea som finns i olika hypersalinmiljöer. De flesta av klusterna visar taxonomisk enhetlighet på domännivå, dvs kluster inkluderade antingen bakteriella eller arkaeala eller eukaryota sekvenser (inklusive motsvarande virus och plasmider), vilket tyder på att horisontella överföringar av virus eller plasmider mellan värddomäner är sällsynta. De två undantagen inkluderar pUB110-liknande och IS91-liknande bakteriedominerade kluster, som inkluderar en handfull archaeal sekvenser. När det gäller is91-transposoner har horisontell överföring från bakterier konstaterats genom fylogenetiska analyser45. Dessutom innehåller några av klusterna sporadiska sekvenser som är annoterade som eukaryota; analys av motsvarande contigs tyder dock på att dessa sannolikt är bakteriella föroreningar.
av särskilt intresse är de 7 kluster som inkluderar både virus och plasmider. Till exempel innehåller pEC316_KPC-liknande kluster, förutom plasmider, evolutionärt orelaterade virus från 3-familjer, Myoviridae, Kortikoviridae och Inoviridae, vilket tyder på omfattande horisontell spridning av rep-generna. I synnerhet fördelas reps av inovirus mellan 5 kluster. Med tanke på bristen på inovirala sekvenser i pVT736-1-liknande och pUB110-liknande kluster, som endast inkluderar Pseudomonas FAG Pf3 respektive Propionibacterium FAG B5, verkar riktningen för genöverföring, från plasmider till motsvarande virus, uppenbar. Dessutom kodar många inovirus inte HUH-endonukleaser utan kodar snarare replikationsinitiatorer för en evolutionärt orelaterad superfamilj, Rep_trans (Pfam id: PF02486)15, som också finns i överflöd i bakteriella plasmider30, medan inovirus av släktet Vespertiliovirus saknar Reps och istället replikeras genom transposition med hjälp av IS3-och IS30-familjetransfaser härledda från motsvarande införingssekvenser46. Sammantaget indikerar dessa observationer att replikationsmodulerna av inovirus har utbytts med avlägset besläktade och till och med icke-homologa replikationsmoduler från olika plasmid-och transposonfamiljer. Liknande, archaeal pleolipovirus delas mellan två kluster som motsvarar olika familjer av archaeal plasmider, pGRB1-liknande och pTP2-liknande, respektive, vilket tyder på att utbyte av replikationsassocierade gener är vanligt i bakterie-och archaealvirus med små, plasmidstora genomer. I vissa fall är det svårt att fastställa det virala kontra plasmidmedlemskapet hos Reps kodade i cellulära kromosomer eftersom båda typerna av MGE kan integreras i värdgenomerna. Till exempel innefattar det XacF1-liknande klustret 62 Rep-sekvenser, varav 2 kodas av filamentösa fager, medan resten kommer från bakteriella genom. Analys av de genomiska stadsdelarna antyder att endast 6 av de återstående 60 Reps representerar profager. Vidare innefattar pAS28-liknande kluster en plasmid, pAS28 (ref. 47); relaterade Reps har emellertid tidigare identifierats i profages48, men inte i karakteriserade virus, vilket ger det felaktiga intrycket att pAS28-liknande Rep är plasmid-exklusiv. För att ytterligare karakterisera de evolutionära förhållandena mellan Reps kodade av olika typer av MGE konstruerade vi maximal sannolikhet fylogenetiska träd för 7-kluster som inkluderade Reps från både virus och plasmider (kompletterande Fig. 2a-g). Resultaten av fylogenetiska analyser tyder på horisontell överföring av rep-generna mellan plasmider och virus, med virala sekvenser som vanligtvis kapslas bland plasmidkodade homologer.
Supercluster 2 (SC2) består av 7 kluster (kompletterande data 1) som inkluderar alla kända klassificerade och oklassificerade eukaryota CRESS-DNA-virus, parvovirus, ett kluster av plasmider från den röda algen Pyropia pulchra49 och 4 kluster som innehåller bakteriella Rep-sekvenser. Den stora majoriteten av de bakteriella Reps i pCPa-liknande och p4M-liknande kluster kodas i bakteriella genom snarare än i plasmider och har inte tidigare karakteriserats. I vårt nätverk är CRESS-DNA-virusen anslutna till pCPa-liknande, p4M-liknande, pPAPh2-liknande och P. pulchra-liknande kluster, medan det pE194 / pMV158-liknande klustret inte bildar direkta anslutningar till CRESS-DNA-virusen, men förenar SC2 genom det pCPa-liknande klustret (Fig. 1). I synnerhet bildar geminivirus och genomovirus en subkluster med plasmider av fytoplasma (pPAPh2-liknande kluster) och P. pulchra, som är skild från andra CRESS-DNA-virus. Parvoviridae-klustret, inklusive parvovirus och härledda endogena virus integrerade i olika eukaryota genom, är löst anslutet direkt till CRESS-DNA-virusen, vilket tyder på att parvovirus med linjära ssDNA-genom delar gemensamma anor med CRESS-DNA-virus som, per definition, har cirkulära genom. Fascinerad av den till synes nära evolutionära kopplingen mellan eukaryota CRESS-DNA-virus och bakterie-och algrepresentanter undersökte vi dessa förhållanden mer detaljerat, som rapporterats i följande avsnitt.
mångfalden av virusliknande Reps i bakteriella genomer
för att undersöka omfattningen av likheten mellan Reps av eukaryota CRESS-DNA-virus och icke-virala replikoner från SC2 jämförde vi deras domänorganisationer. Med undantag för pE194 / pMV158-familjen plasmider, som endast innehåller nukleasdomänen, hade bakteriella och Alga SC2-Reps samma nukleashelikasdomänorganisation som CRESS-DNA-virus. Samma tvådomänorganisation är också karakteristisk för parvovirus Reps2. Således bekräftar domänorganisationsanalys resultaten av sekvensklustring och indikerar vidare att bakteriella SC2-Reps är närmare besläktade med Reps av eukaryota virus än till de från andra prokaryota plasmider och virus.
Vi försökte sedan få ytterligare information om mångfalden och taxonomisk fördelning av de virusliknande SC2-Reps som kodas i bakteriegenom. Maximal sannolikhet fylogenetisk analys avslöjade 9 välstödda klader (Fig. 2a). Kluster och efterföljande samhällsdetekteringsanalys validerade de 9 grupperna av bakteriella Reps (Fig. 2B), där grupperna 1-3 motsvarar det P4M-liknande klustret som visas i Fig. 1, grupper 4-8 till pCPa-liknande kluster, och Grupp 9 till pPAPh2-liknande kluster. För att betona deras likhet med Reps av CRESS-DNA-virus hänvisar vi till 9-grupperna som pCRESS1 till pCRESS9. Dessa grupper visade delvis överlappande men distinkta taxonomiska fördelningar och täckte flera klasser inom 4 bakteriell phyla (kompletterande Fig. 1 och kompletterande Tabell 1).
majoriteten av Reps från pCRESS7 och pCRESS9 kodas av extrakromosomala plasmider (kompletterande Tabell 1). Däremot den stora majoriteten (97.5%) av Reps som finns i andra grupper kodas inom mobila genetiska element webbplats-specifikt integrerade i bakteriekromosomer (kompletterande Tabell 1; Fig. 2C; kompletterande Fig. 3; Kompletterande Anmärkning 1). I synnerhet kodade inget av elementen några homologer av för närvarande kända virala strukturella proteiner (kompletterande anmärkning 1). Sammantaget indikerar dessa observationer att virusliknande Reps i bakterier kodas av olika extrakromosomala och integrerade plasmider.
konserverade egenskaper hos bakteriella och CRESS-DNA-virus Reps
sekvensanalys visade att, trots betydande övergripande sekvensdivergens, innehåller Reps av pCRESS4 till 8 nära liknande sekvensmotiv inom nukleas-och helikasdomänerna (Fig. 3), i överensstämmelse med resultaten av klustrings-och fylogenetiska analyser (Fig. 2). I synnerhet delar dessa 5 pCRESS-grupper en specifik signatur, YLxH (x, vilken aminosyra som helst) inom motiv III i nukleasdomänen, vilket inte observerades i Reps från pCRESS1–3 och 9 (Fig. 3). Således hänvisar vi till pCRESS4 – 8 kollektivt som YLxH-supergruppen (snarare än det pCPa-liknande klustret), för att betona denna delade funktion. Ylxh-signaturen bevarades också i Reps från pE194/pMV158-liknande kluster, vilket tyder på ett närmare evolutionärt förhållande mellan de två klustren, trots att pE194 / pMV158-liknande Reps saknar helikasdomänen. PCRESS9 visar också motiv som liknar de hos P. pulchra-plasmider och kan således förenas med dessa plasmider till en gemensam sammansättning. Däremot visar pCRESS1, -2 och -3 (p4M-liknande kluster) distinkta uppsättningar motiv (Fig. 3; Kompletterande Anmärkning 1).
ursprung för SF3-helikasdomänen
sekvensanalyser tyder på att SF3-helikasdomäninnehållande plasmidrepresentanter, särskilt de från pCRESS2, pCRESS3 och pCRESS9 och P. pulchra, är nära besläktade till reps av Cress-DNA-virus. Evolutionens riktning, dvs huruvida plasmidrepresentanter utvecklats från CRESS-DNA-virus eller vice versa, är emellertid inte uppenbart. Även om det är frestande att ta frånvaron av helikasdomänen i det pE194/pMV158-liknande klustret som en indikation på att denna grupp är förfäder till de helikasinnehållande Reps, kan det inte uteslutas att helikasdomänen förlorades av dessa plasmider. Således bestämde vi oss för att undersöka ursprunget för SF3-helikasdomänen i plasmid-och virala reps. Känsliga sekvenssökningar med HMMER mot NR30-databasen visade att helikasdomänerna för plasmid-och CRESS-DNA-virala Reps är närmast relaterade till de av eukaryota RNA-virus med positiv känsla (ordning Picornavirales och familjen Caliciviridae) såväl som AAA+ ATPase superfamily50,51. I denna analys inkluderade vi också SF3-sekvenserna av parvovirus, polyomavirus och papillomavirus som tros vara evolutionärt relaterade till CRESS-DNA-virus2,25. Flera grupper av mer avlägsna SF3-helikaser från virus med stora dsDNA-genomer52 ignorerades. På grund av den höga sekvensdivergensen och relativt korta längden var fylogenetiska analyser av SF3-helikasdomänerna inte informativa, vilket resulterade i stjärnformade trädtopologier, oberoende av de evolutionära modellerna eller taxonomisk provtagning som användes. Klusteranalys baserad på parvisa likheter gav emellertid insikter i relationerna mellan de olika ATPase-familjerna (Fig. 4a). I synnerhet stöddes det nära förhållandet mellan SF3-helikasdomänerna för bakteriella Reps och CRESS-DNA-virus tydligt. Båda grupperna ansluter till RNA-virusen, men endast bakteriella Reps, särskilt de i YLxH-supergruppen, visar anslutningar till AAA + superfamilj Atpaser, nämligen bakteriell helikaslastare DnaC och i mindre utsträckning DnaA och Cdc48-liknande Atpaser (Fig. 4a). Den närmare likheten mellan YLxH-supergruppen och bakteriella AAA+ Atpaser stöds genom jämförelse av de katalytiska motiven som avslöjade flera delade härledda tecken, med undantag för andra grupper (kompletterande Fig. 4). Vid samma klustringströskel, varken eukaryota DNA eller RNA-virus kopplade till någon annan grupp av Atpaser än de från bakteriella plasmider. SF3-helikaserna av parvovirus kopplade till CRESS-DNA-virus, i överensstämmelse med analysen av Rep-sekvenser i full längd (Fig. 1). Papillomavirus och polyomavirus bildade 2 kluster som kopplade till varandra och till parvovirus.
detta anslutningsmönster antyder en specifik utvecklingsvektor och verkar vara bäst kompatibel med följande scenario. SF3-helikasdomänen för bakteriella plasmider utvecklades från en bakteriell DnaC-liknande ATPas; denna helikasdomän bifogades nukleasdomänen för Reps av pE194 / pMV158-liknande plasmider som gav förfader till YLxH-supergruppen; bakteriella plasmidrepresentanter överfördes till CRESS-DNA-virusen; SF3-helikaset av RNA-virus förvärvades horisontellt antingen från bakteriella plasmider eller, mer troligt, från eukaryota CRESS-DNA-virus; CRESS-DNA-virus har skapat parvovirus som i sin tur gav upphov till polyomavirus och papillomavirus (Fig. 4b). Det alternativa scenariot, under vilket SF3-helikaser av eukaryota RNA-virus gav upphov till de universella bakteriella DnaC-och DnaA-proteinerna, genom bakteriella plasmider, verkar icke-parsimoniska och extremt osannolika. Faktum är att DnaA är allestädes närvarande och väsentlig i bakterier50,51, så infångningen av helikaset från en plasmid skulle behöva ske vid själva ursprunget till den bakteriella domänen i livet. I synnerhet är pCRESS9 och P. pulchra plasmider inte kopplade till andra plasmider utan är snarare kopplade till resten av sekvenserna genom CRESS-DNA-virusen. Det senare mönstret har också observerats i den globala klusteranalysen av HUH-Reps (Fig. 1) såväl som i klustringen av nukleasdomänerna ensamma.
ursprung av CRESS-DNA-virus från bakteriella plasmider
analys av SF3-helikasdomänerna antyder att Reps av pE194/pMV158-liknande plasmider är förfäders snarare än härledda former. Den alternativa möjligheten, nämligen att Reps av pE194 / pMV158-liknande plasmider har förlorat helikasdomänen, kan för närvarande inte uteslutas. Det faktum att helikasdomänen inte har gått vilse i någon av de många kända grupperna av CRESS-DNA-virus eller i pCRESS1 till pCRESS9-plasmider antyder emellertid att helikasdomänen, när den väl förvärvats, blir viktig för effektiv plasmid/viral genomreplikation. Således är den nära likheten mellan pE194/pMV158-liknande Reps och YLxH-supergruppen, vilket resulterar i direkt anslutning av de två grupperna i det globala nätverket (Fig. 1), innebär att den tidigare gruppen är en adekvat utgrupp för fylogeni av Reps från bakteriella plasmider och CRESS-DNA-virus. För fylogenetiska analyser använde vi en dataset av SC2 Reps, exklusive Reps av Parvoviridae och CRESS-DNA-virus som tidigare bedömdes vara chimära med avseende på deras nukleas-och helikasdomäner53, för att undvika potentiella artefakter som härrör från motstridiga fylogenetiska signaler. Datauppsättningen inkluderade representanter för alla klassificerade familjer av CRESS-DNA-virus samt 6 grupper av oklassificerade CRESS-DNA-virus preliminärt märkta CRESSV1-6 (ref. 53) samt en liten grupp GasCSV-liknande virus, som tidigare har märkts för att koda Reps med signifikant likhet med bakteriella Reps54. I det välstödda fylogenetiska trädet med maximal sannolikhet konstruerat med PhyML och rotat med pE194/pMV158-liknande Reps ligger YLxH–supergruppen (pCRESS4-8) vid basen av en sammansättning som inkluderar alla CRESS–DNA-virus, pCRESS1-3 och pCRESS9 samt P. pulchra-plasmider. Denna sammansättning delas upp i två klader (Fig. 5). Clade 1 innehåller två subklader, varav en består av geminivirus och genomovirus som förenar pCRESS9-plasmider av fytoplasma, och den andra inkluderar CRESSV6 och P. pulchra-plasmider. I synnerhet verkar P. pulchra-plasmider dyka upp direkt från cressv6-mångfalden, med det närmaste förhållandet till cressv6-underklassen av virus sekvenserade från avloppsprover. Förhållandet mellan geminivirus / genomovirus och pCRESS9-plasmider löses inte i fylogeni. Klusteranalyser tyder dock starkt på att Reps av pCRESS9-plasmider utvecklats från geminivirus-Genomovirus (Fig. 1 och 4). I överensstämmelse med detta scenario delar fytoplasmala pCRESS7-och pCRESS9-plasmider, trots kodning av fylogenetiskt distinkta Reps, geninnehållet, nämligen kopianummerkontrollproteinet, PRK06752-liknande SSB-protein och konserverat hypotetiskt protein (kompletterande Fig. 3g, i). Vidare kodar geminivirus och CRESSV6 homologa kapsidproteiner vilket tyder på att de utvecklats från en vanlig viral förfader snarare än konvergerade från två grupper av plasmider genom att fånga homologa kapsidproteingener. Clade 2 inkluderar bakteriella Reps av pCRESS1 – 3 och, som en systergrupp, CRESS-DNA-virus av familjerna Nanoviridae/Alphasatellitidae, Smacoviridae och Circoviridae samt oklassificerade CRESSV1 till CRESSV5, medan GasCSV-liknande virus är kapslade inom bakteriell pCRESS2.
phyml-trädets robusthet validerades genom ytterligare analyser (kompletterande anmärkning 1), inklusive (i) maximal sannolikhet fylogenetiska analyser med RAxML och IQ-Tree, med alternativa grenstödsmetoder (figur S5); (ii) fylogenetisk rekonstruktion med 20-profilblandningsmodellen (figur S5); (iii) statistisk analys av de obegränsade och 3 begränsade trädtopologierna (kompletterande Tabell 2). Sammantaget indikerar dessa resultat att den erhållna trädtopologin är mycket robust och sannolikt kommer att återspegla den evolutionära historien för Reps kodade av CRESS-DNA-virus och plasmider.
i synnerhet analys av de konserverade motiven (Fig. 3) föreslår en specifik koppling mellan virusrepresentanterna i clade 1 och bakteriell pCRESS3 (snarare än pCRESS1–3 kollektivt), vilket innebär att den fylogenetiska placeringen kan påverkas av forntida rekombinationshändelser. Vidare utelämnades bacilladnavirus från det globala fylogenetiska trädet eftersom deras Reps visade instabil position i fylogeni beroende på taxon provtagning (kompletterande Fig. 6), möjligen på grund av det lilla antalet tillgängliga sekvenser, deras höga divergens och potentiella chimerism. Oavsett tyder fylogenetisk analys starkt på att majoriteten av CRESS-DNA-virus, inklusive circovirus, smacovirus, nanovirus och CRESSV1–5, utvecklats från en gemensam förfader med bakteriella Reps av pCRESS1–3, medan de odlade GasCSV-liknande virusen dyker upp direkt från de bakteriella pCRESS2-Reps (Fig. 5). Uppkomsten av samlingen inklusive geminivirus, GENOMOVIRUS och CRESSV6 är mindre tydlig men kan föregå uppkomsten av de andra CRESS-DNA-virusgrupperna och eventuellt involverade en gemensam förfader med YLxH-supergruppen. Reps av bakteriell pCRESS9 och P. pulchra-plasmider har sannolikt förvärvats horisontellt nyligen från motsvarande CRESS-DNA-virus.