Globalt nettverk AV HUH replikene
for å utforske DEN evolusjonære historien TIL HUH replikene, samlet vi et datasett AV HUH endonucleases—det eneste proteinet kodet av alle disse replikene—som representerer hver familie av virus, plasmider og transposoner assosiert med verter på tvers av alle tre cellulære DOMENER16, 27,28,29,30. I denne analysen vurderte Vi Ikke Mob relaxaser involvert i plasmid-konjugering. Enzymer i denne familien omfatter sirkulært permuted konserverte motiver som kompliserer deres sekvensbasert sammenligning MED HUH endonukleaser involvert I DNA replikasjon eller transposisjon16,19. Det resulterende datasettet inkluderte 8764 sekvenser. Disse ble gruppert basert på parvis likhet, og klynger ble identifisert ved hjelp av en konveks klyngealgoritme (p−verdi terskel på 1e-08) MED KLANS35. Denne analysen viste 33 klynger som varierte i størrelse fra 7 til 2711 sekvenser (Supplerende data 1). Etter en inspeksjon av tilkoblingen mellom klynger (Fig. 1), definerte vi 2 foreldreløse klynger og 2 superklynger, som viste enten ingen eller svært få tilkoblinger til hverandre (Tilleggsdata 1). Likevel, sammenligning av de tilgjengelige høyoppløselige strukturer for representanter for både foreldreløse klynger og 2 superclusters16, 36 utvetydig bekrefte sin felles opprinnelse.
Orphan cluster 1 inkluderer en enkelt familie AV IS200 / IS605 transposoner som er utbredt i bakterier og archaea37. HUH endonukleaser AV IS200 / IS605 innsetting sekvenser har blitt grundig studert strukturelt og biokjemisk, noe som resulterer i en helhetlig forståelse av deres functions 16,38. SELV OM IS200/IS605 transposaser har en strukturell fold som er felles for andre HUH endonukleaser og inneholder alle 3 signaturmotiver, viste DE ikke merkbar sekvenslikhet til noen annen klynge AV HUH endonukleaser og ble dermed koblet fra sekvenser i andre klynger. Likevel er sekvensdiversitet innenfor is200 / IS605-klyngen sammenlignbar med det i andre klynger.
Orphan cluster 2 inkluderer Rep-proteiner som er konservert i hypertermofile archaeal virus av familien Rudiviridae39. Strukturelle studier Av Rep-proteinet FRA rudiviruset SIRV1 avslørte den kanoniske HU – endonukleasefolden og biokjemisk karakterisering av proteinet bekreftet de forventede nicking-og sammenføyningsaktivitetene i vitro36. Som IS200/IS605 transposases, kobler ikke rudiviral Rep-klyngen til ANDRE HUH-endonukleaser, inkludert homologer fra andre familier av archaeal virus og plasmider.
Tenkes, det unike med de 2 foreldreløse klynger er knyttet til den uvanlige transposisjon og replikering mekanismer ansatt av de respektive elementene. FAKTISK, IS200/IS605 innsetting sekvenser transponere av en unik peel-and-paste mekanisme38, mens rudiviruses, i motsetning til de fleste andre virus og plasmider replikere av rolling-circle mekanisme, inneholder relativt store (~35 kb) lineære dsDNA genomer med kovalent lukket termini40.
Supercluster 1 er den desidert største OG mest varierte he-samlingen som inkluderer 24 klynger (Supplerende data 1). Av disse 24 klyngene inneholder 15 Reps fra bona fide extrachromosomale plasmider, hvorav 7 klynger inkluderer Også Reps fra forskjellige Ssdna (Microviridae, Inoviridae Og Pleolipoviridae) og/eller Dsdna (Myoviridae og Corticoviridae) virus av bakterier og archaea. Tre klynger består av Reps kodet av mikroviruser av underfamiliene Gokushovirinae og Bullavirinae, Og Xanthomonas Inovirus Cf1 (familie Inoviridae), henholdsvis. Spesielt viser phiX174-lignende mikroviruser (Bullavirinae) likhet utelukkende til mikroviruser av Underfamilien Gokushovirinae, som indikerer Repmonofylien i De To underfamiliene Av Mikroviridae, til tross for høy sekvensdivergens. Den bakterielle IS91 (INKLUDERT ISCR-underfamilien) og eukaryotiske Helitronfamilietransposoner danner henholdsvis to forskjellige klynger. De to gruppene av transposoner er ikke direkte forbundet med hverandre, men er knyttet til forskjellige grupper av bakterielle og, i TILFELLE AV IS91, archaeal plasmider, noe som tyder på uavhengig opprinnelse fra bakterielle ekstrakromosomale replikoner. Det har tidligere blitt foreslått at helitrons kan representere en manglende kobling mellom eukaryote CRESS-DNA virus, nemlig geminiviruses, og bakterielle HUH replicons41 eller at helitrons utviklet seg fra geminiviruses 42. Men i vår analyse kobler helitrons ikke til noen av gruppene AV CRESS-DNA-virus, noe som tyder på uavhengige evolusjonære baner, i samsvar med de siste funnene 43.
de resterende 5 klyngene inkluderer ikke noen gjenkjennelige plasmider, virale eller transposonsekvenser og representerer dermed sannsynligvis nye familier av integrert MGE. Fire av disse gruppene er hovedsakelig funnet i bakterier av taxa Clostridiales, Actinobacteria, Neisseriales, Og Bacteroidetes, henholdsvis (merket tilsvarende I Fig. 1), mens den femte gruppen er spesifikk for kandidatavdelingen MSBL1 (Middelhavet Brine Lakes 1) 44, en gruppe ukjente arkea funnet i forskjellige hypersaline miljøer. De fleste av klyngene viser taksonomisk ensartethet på domenenivå, dvs. klynger som inkluderte enten bakterielle eller arkaale eller eukaryotiske sekvenser (inkludert de tilsvarende virusene og plasmidene), noe som tyder på at horisontale overføringer av virus eller plasmider mellom vertsdomener er sjeldne. De to unntakene inkluderer pUB110-lignende og IS91-lignende bakteriedominerte klynger, som inkluderer en håndfull archaeal sekvenser. VED IS91 transposoner har horisontal overføring fra bakterier blitt fastslått ved fylogenetiske analyser45. I tillegg, noen av klyngene inkluderer sporadiske sekvenser merket som eukaryote; imidlertid, analyse av de tilsvarende contigs tyder på at disse er sannsynlig bakterielle forurensninger.
av spesiell interesse er de 7 klyngene som inkluderer både virus og plasmider. For eksempel inneholder pEC316_KPC-lignende klynge, foruten plasmider, evolusjonært urelaterte virus fra 3 familier, Myoviridae, Corticoviridae og Inoviridae, noe som tyder på omfattende horisontal spredning av rep-gener. Spesielt er Reps av inovirus fordelt på 5 klynger. Gitt mangelen på inovirale sekvenser i pVT736-1-lignende og pUB110-lignende klynger, som bare inkluderer Pseudomonas fag Pf3 og Propionibacterium fag B5, synes retningen av genoverføring, fra plasmider til de tilsvarende virusene, åpenbart. Videre, mange inoviruses ikke kode HUH endonukleaser, men heller kode replikering initiatorer av en evolusjonært urelatert superfamilie, Rep_trans (Pfam id: PF02486)15, som også overflod i bakterielle plasmid 30, mens inoviruses av slekten Vespertiliovirus mangler Reps og i stedet replikere ved transposisjon VED HJELP AV IS3 OG IS30 familie transposaser avledet fra den tilsvarende innsetting sekvenser 46. Samlet sett indikerer disse observasjonene at replikasjonsmodulene av inovirus har blitt utvekslet med fjernt relaterte og til og med ikke-homologe replikasjonsmoduler fra forskjellige plasmid-og transposonfamilier. På samme måte er arkaeal pleolipovirus delt mellom to klynger som tilsvarer forskjellige familier av arkaale plasmider, henholdsvis pgrb1-lignende og pTP2-lignende, noe som tyder på at utveksling av replikasjonsassosierte gener er vanlig i bakterielle og arkaale virus med små, plasmid-størrelse genomer. I noen tilfeller er det vanskelig å fastslå viral versus plasmid medlemskap Av Reps kodet i cellulære kromosomer fordi begge typer MGE kan integreres i vertsgenomene. For Eksempel Inneholder Den XacF1-lignende klyngen 62 Rep-sekvenser, hvorav 2 er kodet av filamentøse fag, mens resten kommer fra bakterielle genomer. Analyse av genomiske nabolag tyder på at bare 6 av de resterende 60 Reps representerer profetier. Videre inneholder den pAS28-lignende klyngen en plasmid, pAS28(ref. 47); imidlertid har relaterte Reps tidligere blitt identifisert i profeter48, men ikke i karakteriserte virus, noe som gir feilaktig inntrykk av at pAS28-lignende Rep er plasmid-eksklusiv. For ytterligere å karakterisere de evolusjonære relasjonene Mellom Reps kodet av forskjellige TYPER MGE, konstruerte vi maksimale sannsynlighetsfylogenetiske trær for de 7 klyngene som inkluderte Reps fra både virus og plasmider (Supplerende Fig. 2a-g). Resultatene av fylogenetiske analyser antyder horisontal overføring av rep-gener mellom plasmider og virus, med virale sekvenser som typisk blir nestet blant plasmid-kodede homologer.
Supercluster 2 (SC2) består av 7 klynger (Tilleggsdata 1) som inkluderer alle kjente klassifiserte og uklassifiserte eukaryote CRESS-DNA-virus, parvovirus, en klynge av plasmider Fra den røde Algen Pyropia pulchra49, og 4 klynger som inneholder bakterielle Rep-sekvenser. De aller fleste bakterielle Reps i pCPa-lignende og p4M-lignende klynger er kodet i bakterielle genomer i stedet for i plasmider og har ikke tidligere blitt karakterisert. I vårt nettverk er CRESS-DNA-virusene koblet til pCPa-lignende, p4M-lignende, pPAPh2-lignende og P. pulchra-lignende klynger, mens den pE194 / pMV158-lignende klyngen ikke danner direkte forbindelser til CRESS-DNA-virusene, men knytter SEG TIL SC2 gjennom pCPa-lignende klyngen (Fig . 1). Spesielt danner geminivirus og genomovirus en subcluster med plasmider av fytoplasma (pPAPh2-lignende klynge) Og P. pulchra, som er skilt fra andre CRESS-DNA-virus. Parvoviridae-klyngen, inkludert parvovirus og avledede endogene virus integrert i ulike eukaryote genomer, er løst koblet direkte til CRESS-DNA-virusene, noe som tyder på at parvovirus med lineære ssDNA-genomer deler felles forfedre med CRESS-DNA-virus som per definisjon har sirkulære genomer. Fascinert av den tilsynelatende nære evolusjonære forbindelsen mellom eukaryote CRESS-DNA-virus og bakterielle Og algrepresentanter, undersøkte vi disse relasjonene i større detalj, som rapportert i de følgende avsnittene.
mangfoldet av viruslignende Reps i bakterielle genomer
for å undersøke omfanget av likhet mellom Reps av eukaryote CRESS-DNA-virus og ikke-virale replikoner FRA SC2, sammenlignet vi deres domeneorganisasjoner. Med unntak av pE194 / pMV158-familien plasmider, som bare inneholder nuklease-domenet, hadde bakterie-OG algal SC2-Reps samme nuklease-helicase-domeneorganisasjon som CRESS-DNA-virus. Den samme to-domeneorganisasjonen er også karakteristisk for parvovirus Reps2. Dermed bekrefter domeneorganisasjonsanalyse resultatene av sekvensklynging og indikerer videre at bakterielle SC2-Reps er nærmere relatert til reps av eukaryote virus enn til de fra andre prokaryotiske plasmider og virus.
vi søkte da å få ytterligere informasjon om mangfoldet og taksonomisk fordeling av de viruslignende SC2-Reps som er kodet i bakterielle genomer. Maksimal sannsynlighet fylogenetisk analyse avdekket 9 godt støttet clades (Fig. 2a). Clustering og påfølgende samfunnsdeteksjonsanalyse validerte de 9 gruppene av bakterielle Reps (Fig. 2b), hvor grupper 1-3 tilsvarer den p4M-lignende klyngen vist I Fig. 1, grupper 4-8 til pCPa – lignende klyngen, og gruppe 9 til pPAPh2 – lignende klyngen. For å understreke deres likhet Med Representanter FOR CRESS-DNA-virus, refererer vi til de 9 gruppene som pCRESS1 gjennom pCRESS9. Disse gruppene viste delvis overlappende, men forskjellige taksonomiske fordelinger, som dekker flere klasser innen 4 bakteriell phyla (Supplerende Fig. 1 Og Utfyllende Tabell 1).
flertallet av Reps fra pCRESS7 og pCRESS9 er kodet av ekstrakromosomale plasmider (Supplerende Tabell 1). Det store flertallet (97.5%) Av Reps funnet i andre grupper er kodet i mobile genetiske elementer stedet – spesielt integrert i bakterielle kromosomer (Supplerende Tabell 1; Fig. 2c; Supplerende Fig. 3; Tilleggsnotat 1). Spesielt kodet ingen av elementene noen homologer av for tiden kjente virale strukturelle proteiner (Tilleggsnotat 1). Samlet sett indikerer disse observasjonene at viruslignende Reps i bakterier er kodet av forskjellige ekstrakromosomale og integrerte plasmider.
Konserverte trekk ved bakterie-OG KARSE-DNA-Virus Reps
Sekvensanalyse viste at, til tross for betydelig total sekvensdivergens, Reps av pCRESS4 til 8 inneholde tett lignende sekvensmotiver innenfor nuklease og helicase domener (Fig . 3), i samsvar med resultatene av clustering og fylogenetiske analyser (Fig. 2). Spesielt deler disse 5 pCRESS-gruppene en spesifikk signatur, YLxH (x, enhver aminosyre) innenfor motiv III av nuklease-domenet, som ikke ble observert i Representanter fra pCRESS1 – 3 og 9 (Fig. 3). Dermed refererer vi til pCRESS4 – 8 kollektivt som YLxH supergroup (i stedet for pCPa-lignende klynge), for å understreke denne delte funksjonen. YLxH-signaturen ble også bevart i Representanter fra den pE194/pMV158-lignende klyngen, noe som tyder på et nærmere evolusjonært forhold mellom de to klyngene, til tross for at pE194/pMV158-lignende Representanter mangler helicase-domenet. PCRESS9 viser også motiver som Ligner På P. pulchra-plasmidene og kan dermed forenes med disse plasmidene i en felles samling. Derimot viser pCRESS1, -2 og -3 (p4M – lignende klynge) særegne sett med motiver (Fig. 3; Tilleggsnotat 1).
Opprinnelsen TIL SF3 helicase domene
Sekvensanalyser tyder på AT SF3 helicase domene inneholder plasmid Representanter, spesielt de fra pCRESS2, pCRESS3, og pCRESS9, Og P. pulchra, er nært beslektet til reps av cress-dna-virus. Evolusjonens retning, dvs. om plasmid-Reps utviklet seg fra DE AV CRESS-DNA-virus eller omvendt, er imidlertid ikke åpenbart. Selv om det er fristende å ta fraværet av helicase-domenet i den pE194/pMV158-lignende klyngen som en indikasjon på at denne gruppen er forfedre til helicase-holdige Reps, kan det ikke utelukkes at helicase-domenet ble tapt av disse plasmidene. Dermed satte vi oss for å undersøke opprinnelsen TIL SF3 helicase-domenet i plasmid og viral Reps. Sensitive sekvenssøk med HMMER mot nr30-databasen viste at helicase-domenene til plasmid OG CRESS-DNA virale Reps er mest nært beslektet med eukaryote positive-sense RNA-virus (order Picornavirales og family Caliciviridae) samt AAA+ atpase superfamily50,51. I denne analysen inkluderte VI OGSÅ SF3-sekvensene av parvovirus, polyomavirus og papillomavirus som antas å være evolusjonært relatert TIL CRESS-DNA-virus2,25. Flere grupper av FJERNERE SF3-helikaser fra virus med store dsdna-genomer52 ble ignorert. På grunn av høy sekvens divergens og relativt kort lengde, fylogenetiske analyser AV SF3 helicase domener var ikke informativ, resulterer i stjerneformede tre topologier, uavhengig av evolusjonære modeller eller taksonomisk prøvetaking brukt. Derimot, clustering analyse basert på parvise likheter gitt innsikt i forholdet mellom de ulike atpase familier (Fig. 4a). Spesielt ble det nære forholdet mellom SF3 helicase-domenene til bakterielle Reps og CRESS-DNA-virus tydelig støttet. Begge gruppene kobler SEG til rna-virusene, men bare bakterielle Reps, spesielt De Av YLxH-supergruppen, viser tilkoblinger TIL AAA + superfamily Atpaser, nemlig bakteriell helicase loader DnaC og, i mindre grad, DnaA og Cdc48-lignende Atpaser (Fig. 4a). Den nærmere likheten mellom YLxH supergruppe OG bakterielle AAA + Atpaser støttes ved sammenligning av katalytiske motiver som avslørte flere delte avledede tegn, til utelukkelse av andre grupper (Supplerende Fig. 4). På samme clustering terskel, verken eukaryote DNA ELLER RNA virus knyttet til noen gruppe Av Atpaser enn de fra bakterielle plasmider. SF3 helicases av parvovirus knyttet til DE AV CRESS-DNA virus, i samsvar med analysen av Full lengde Rep sekvenser (Fig. 1). Papillomavirus og polyomavirus dannet 2 klynger som koblet til hverandre og til parvovirus.
dette mønsteret av tilkobling antyder en spesifikk vektor av evolusjon og ser ut til å være best kompatibel med følgende scenario. SF3 helicase-domenet til bakterielle plasmider utviklet seg fra en bakteriell DnaC-lignende ATPase; dette helicase-domenet ble lagt til nuklease-domenet Til Reps av pE194 / pMV158-lignende plasmider som ga forfederen til YLxH-supergruppen; bakterielle plasmid-Reps ble sendt videre til CRESS-DNA-virusene; SF3-helikasen av RNA-virus ble horisontalt ervervet enten fra bakterielle plasmider eller, mer sannsynlig, fra eukaryote KARSE-DNA-virus; KARSE-DNA-virus har skapt parvovirus som igjen ga opphav til polyomavirus og papillomavirus (Fig. 4b). Det alternative scenariet, under HVILKET SF3 helikaser av eukaryote RNA-virus ga opphav til de universelle bakterielle DnaC-og DnaA-proteiner, gjennom bakterielle plasmider, virker ikke-parsimoniske og ekstremt usannsynlige. Faktisk Er DnaA allestedsnærværende og viktig i bakterier50, 51, så fangsten av helikasen fra et plasmid må skje ved selve opprinnelsen til livets bakterielle domene. Spesielt er pCRESS9 og p. pulchra plasmider ikke forbundet med andre plasmider, men er heller forbundet med resten av sekvensene gjennom CRESS-DNA-virusene. Sistnevnte mønster har også blitt observert i den globale clustering analyse AV HUH Reps(Fig. 1) så vel som i clustering av nuklease domener alene.
Opprinnelsen TIL CRESS-DNA-virus fra bakterielle plasmider
Analyse AV SF3 helicase domener tyder På At Representanter for pE194 / pMV158-lignende plasmider er forfedre snarere enn avledede former. Den alternative muligheten, nemlig At Representanter for pE194 / pMV158-lignende plasmider har mistet helicase-domenet, kan for øyeblikket ikke utelukkes. Men det faktum at helicase-domenet ikke har gått tapt i noen av de mange kjente gruppene AV CRESS-DNA-virus eller i pCRESS1 til pCRESS9 plasmider, antyder at helicase-domenet, når det er oppnådd, blir viktig for effektiv plasmid / viral genomreplikasjon. Dermed er den nære likheten mellom pE194 / pMV158 – Lignende Reps og De Av YLxH supergruppen, noe som resulterer i direkte tilkobling av de to gruppene i det globale nettverket (Fig. 1), innebærer at den tidligere gruppen er en tilstrekkelig utgruppe for fylogeni Av Reps fra bakterielle plasmider og CRESS-DNA-virus. For fylogenetiske analyser, vi brukte et datasett AV SC2 Reps, unntatt Reps Av Parvoviridae OG CRESS-DNA virus som tidligere ble dømt til å være kimære med hensyn til deres nuklease og helicase domains53, for å unngå potensielle gjenstander som følge av motstridende fylogenetiske signaler. Datasettet inkluderte representanter for alle klassifiserte familier AV KARSE-DNA-virus samt 6 grupper av uklassifiserte KARSE-DNA-virus som foreløpig er merket KARSE-1-6 (ref. 53) samt en liten gruppe GasCSV-lignende virus, som tidligere har blitt lagt merke til å kode Reps med betydelig likhet med bakterielle Reps54. I det godt støttede maksimale sannsynlighetsfylogenetiske treet konstruert Med PhyML og forankret med pE194/pMV158-lignende Reps, Er YLxH supergroup (pCRESS4–8) ved foten av en samling som inkluderer alle CRESS-DNA–virus, pCRESS1-3 og pCRESS9 samt P. pulchra plasmider. Denne samlingen deler seg i to klader (Fig. 5). Klade 1 inneholder to subklader, hvorav den ene består av geminivirus og genomovirus som forbinder pCRESS9 plasmider av fytoplasma, og den andre inkluderer CRESSV6 og p. pulchra plasmider. Spesielt Ser P. pulchra plasmider ut til å komme direkte fra cressv6-mangfoldet, med det nærmeste forholdet til CRESSV6-underklassen av virus sekvensert fra avløpsvannsprøver. Forholdet mellom geminiviruses / genomovirus og pCRESS9 plasmider er ikke løst i fylogenien. Men clustering analyser tyder sterkt På At Reps av pCRESS9 plasmider utviklet seg fra geminiviruses-genomovirus (Fig. 1 og 4). I samsvar med dette scenariet deler fytoplasmale pCRESS7-og pCRESS9-plasmider, til tross for koding av fylogenetisk distinkte Reps, geninnholdet, nemlig kopinummerkontrollproteinet, PRK06752-lignende ssb-protein og konservert hypotetisk protein (Supplerende Fig. 3g, i). Videre koder geminivirus og CRESSV6 homologe kapsidproteiner som tyder på at de utviklet seg fra en felles viral forfader i stedet for å konvergeres fra to grupper av plasmider ved å fange homologe kapsidproteingener. Clade 2 inkluderer bakterielle Reps av pCRESS1 – 3 og, som en søstergruppe, CRESS-DNA virus av familiene Nanoviridae/Alphasatellitidae, Smacoviridae, Og Circoviridae samt uklassifisert CRESSV1 GJENNOM CRESSV5, mens GasCSV-lignende virus er nestet i bakteriell pCRESS2.
phyml-treets robusthet ble validert med tilleggsanalyser (Tilleggsnote 1), inkludert (I) maksimale sannsynlighetsfylogenetiske analyser ved Bruk Av RAxML og IQ-Tree, med alternative grenstøttemetoder (Figur S5); (ii) fylogenetisk rekonstruksjon ved bruk av 20-profilblandingsmodellen (Figur S5); (iii) statistisk analyse av de ubegrensede og 3 begrensede tretopologiene (Supplerende Tabell 2). Samlet sett indikerer disse resultatene at den oppnådde tretopologien er svært robust og sannsynligvis vil gjenspeile Den evolusjonære historien til Reps kodet av CRESS-DNA-virus og plasmider.
Spesielt analyse av de konserverte motivene (Fig. 3) antyder en spesifikk sammenheng mellom virusrepresentantene i klade 1 og bakteriell pCRESS3 (i stedet for pCRESS1–3 kollektivt), noe som tyder på at fylogenetisk plassering kan påvirkes av gamle rekombinasjonshendelser. Videre ble bacilladnavirus utelatt fra det globale fylogenetiske treet fordi Deres Reps viste ustabil posisjon i fylogenien avhengig av taxonprøvetaking (Supplerende Fig. 6), muligens, på grunn av det lille antallet tilgjengelige sekvenser, deres høye divergens og potensielle chimerisme. Uansett, fylogenetisk analyse tyder sterkt på at flertallet AV KARSE-DNA-virus, inkludert circoviruses, smacoviruses, nanoviruses, OG CRESSV1-5, utviklet seg fra en felles stamfar med bakterielle Reps av pCRESS1-3, mens de udyrkede GasCSV-lignende virus dukke opp direkte fra bakteriell pCRESS2 Reps (Fig. 5). Opprinnelsen til assemblage inkludert geminiviruses, genomovirus og CRESSV6 er mindre klar, men kan predate fremveksten av de andre CRESS-DNA virus grupper og muligens involvert en felles stamfar Med YLxH supergruppe. Reps av bakteriell pCRESS9 Og P. pulchra plasmider har sannsynligvis blitt oppnådd horisontalt nylig fra de tilsvarende CRESS-DNA-virusene.