Globální sítě CO replicons
prozkoumat evoluční historii CO replicons, jsme shromáždili soubor CO endonucleases—pouze protein kódovaný genem všechny tyto replicons—zastupující každou rodinu viry, plazmidy, a transpozony spojené s hostiteli přes všechny tři mobilní domains16,27,28,29,30. V této analýze jsme neuvažovali o mob relaxázách zapojených do konjugace plazmidu. Enzymy v této rodině zahrnují kruhově permutované konzervované motivy, které komplikují jejich sekvenční srovnání s ENDONUKLEÁZAMI HUH zapojenými do replikace nebo transpozice16,19. Výsledná datová sada obsahovala 8764 sekvencí. Ty byly seskupeny na základě párové podobnosti a shluky byly identifikovány pomocí konvexního shlukovacího algoritmu (prahová hodnota P 1e-08) s CLANS35. Tato analýza odhalila 33 shluků, které se lišily velikostí od 7 do 2711 sekvencí (doplňkové údaje 1). Po kontrole konektivity mezi klastry (obr. 1), jsme definovali 2 sirotek klastrů a 2 superclusters, který zobrazí buď žádné, nebo velmi málo spojení na sebe (Doplňující údaje 1). Nicméně srovnání dostupných struktur s vysokým rozlišením pro zástupce jak osiřelých klastrů, tak 2 superklastrů16, 36 jednoznačně potvrzuje jejich společný původ.
Sirotek shluk 1 zahrnuje jedné rodiny IS200/IS605 transpozony, které jsou rozšířené v bakterie a archaea37. Na CO endonucleases z IS200/IS605 vložení sekvence byly rozsáhle studovány strukturálně a biochemicky, což má za následek komplexní pochopení jejich functions16,38. I když IS200/IS605 transposases mají strukturální složit společné pro ostatní CO endonucleases a obsahovat všechny 3 podpis motivy, které neprokázaly, výrazná sekvenční podobnost k jiné shluk CO endonucleases, a tak zůstal odpojen od sekvencí v jiných uskupení. Nicméně diverzita sekvencí v rámci klastru IS200/IS605 je srovnatelná s diverzitou v rámci jiných klastrů.
Orphan cluster 2 zahrnuje Rep proteiny, které jsou konzervovány v hypertermofilních archaeálních virech čeledi Rudiviridae39. Strukturální studium Rep protein z rudivirus SIRV1 odhalil kanonické CO endonukleázy složit a biochemická charakterizace proteinu potvrdila očekává, že kradu a spojování činností v vitro36. Stejně jako transpozázy IS200/IS605 se rudivirální Rep cluster nepřipojuje k jiným endonukleázám, včetně homologů z jiných rodin archaeálních virů a plazmidů.
Teoreticky, jedinečnost 2 sirotek klastrů je spojen neobvyklé provedení a replikační mechanismy používané příslušnými prvky. Opravdu, IS200/IS605 vložení sekvence provést unikátní peel-a-vložit mechanism38, vzhledem k tomu, že rudiviruses, na rozdíl od většiny ostatních virů a plazmidů replikace rolling-circle mechanizmus, obsahují poměrně velké (~35 kb) lineární dsDNA genomy s kovalentně uzavřené termini40.
Supercluster 1 je zdaleka největší a nejrozmanitější asambláží, která zahrnuje 24 shluků (doplňující údaje 1). Z těchto 24 klastrů, 15 obsahují Opakování z pravého extrachromosomal plazmidů, z nichž 7 klastry rovněž zahrnují Opakování z různých ssDNA (Microviridae, Inoviridae, a Pleolipoviridae) a/nebo dsDNA (Myoviridae a Corticoviridae) viry bakterií a archaea. Tři shluky se skládají z Opakování kódovány microviruses podčeledí Gokushovirinae a Bullavirinae, a Xanthomonas inovirus Cf1 (rodina Inoviridae), resp. Zejména, phiX174-jako microviruses (Bullavirinae) zobrazení podobnost výhradně microviruses podčeledi Gokushovirinae, orientační Rep monophyly ve dvou podčeledí z Microviridae, i přes vysokou sekvenční divergence. Bakteriální is91 (včetně podčeledi ISCR) a eukaryotické transpozony rodiny Helitronů tvoří dva odlišné shluky. Obě skupiny transpozonů nejsou přímo spojeny, ale jsou spojeny s odlišnými skupinami bakteriálních a v případě IS91 archaálních plazmidů, což naznačuje nezávislý původ z bakteriálních extrachromozomálních replikonů. To bylo dříve naznačil, že helitrons by mohlo představovat chybějící článek mezi eukaryotické ŘEŘICHA-DNA viry, a to, geminiviruses, a bakteriální CO replicons41 nebo že helitrons vyvinul z geminiviruses42. V naší analýze se však helitrony nepřipojují k žádné ze skupin virů CRESS-DNA, což naznačuje nezávislé evoluční trajektorie, v souladu s nedávnými nálezy43.
zbývajících 5 shluků neobsahuje žádné rozpoznatelné plazmidové, virové nebo transpozonové sekvence, a proto pravděpodobně představují nové rodiny integrovaného MGE. Čtyři z těchto skupin se převážně nacházejí v bakteriích taxonů Clostridiales, Actinobacteria, Neisseriales a Bacteroidetes (odpovídajícím způsobem označeny na obr. 1), vzhledem k tomu, že pátá skupina je specifická pro kandidáta divize MSBL1 (Středozemní Moře slané vodě Jezer 1)44, skupina nekulturní archaea nalézt v různých hypersaline prostředí. Většina klastrů zobrazení taxonomické jednotnosti na úrovni domény, tj. klastrů zahrnut buď bakteriálního, nebo archaeal, nebo eukaryotických sekvencí (včetně příslušných virů a plazmidů), což naznačuje, že horizontální přenosy virů nebo plazmidů mezi hostitelem domény jsou řídké. Dvě výjimky zahrnují clustery s dominantou bakterií pUB110 a IS91, které zahrnují hrst archaeálních sekvencí. V případě transpozonů IS91 byl horizontální přenos z bakterií zjištěn fylogenetickými analýzami45. Kromě toho některé z klastrů zahrnují sporadické sekvence anotované jako eukaryotické; analýza odpovídajících spojů však naznačuje, že se jedná pravděpodobně o bakteriální kontaminanty.
zvláště zajímavé jsou 7 klastrů, které zahrnují jak viry, tak plazmidy. Například, pEC316_KPC-jako cluster, kromě plasmidů, obsahuje evolučně nepříbuzné viry z 3 rodin, Myoviridae, Corticoviridae, a Inoviridae, což naznačuje rozsáhlou horizontální šíření rep geny. Pozoruhodně, opakování inovirusů jsou rozděleny mezi 5 klastry. Vzhledem k nedostatku inoviral sekvence v pVT736-1-like a pUB110-jako klastry, které zahrnují pouze Pseudomonas phage Pf3 a Propionibacterium phage B5, respektive směr přenosu genů, z plazmidů odpovídající viry, se zdá zřejmé. Navíc, mnoho inoviruses není kódovat CO endonucleases, ale spíše kódovat replikace iniciátorů evolučně nepříbuzných nadčeleď, Rep_trans (Pfam id: PF02486)15, který také oplývá bakteriální plasmids30, vzhledem k tomu, že inoviruses rodu Vespertiliovirus nedostatek Opakování a místo replikaci provedení pomocí IS3 a IS30 rodiny transposases odvozené z odpovídajících vložení sequences46. Společně tato pozorování ukazují, že replikace moduly inoviruses byly vyměněny s vzdáleně příbuzné, a dokonce i non-homologní replikace moduly z různých plasmidu a transposon rodiny. Podobně, archaeal pleolipoviruses jsou rozděleny mezi dva shluky, které odpovídají různým rodinám archaeal plasmidy, pGRB1 a pTP2-jako, v tomto pořadí, což naznačuje, že výměna replikace spojená genů je běžné v bakteriální a archaeal viry s malými, plazmid-velikosti genomů. ¶V některých případech je obtížné zjistit, virové versus plasmidu členství Opakování zakódována v buněčné chromozomy, protože oba typy MGE lze integrovat do hostitelského genomu. Například, XacF1-jako shluk obsahuje 62 Rep sekvencí, z nichž 2 jsou kódovány pomocí vláknité bakteriofágy, zatímco zbytek pochází z bakteriální genomy. Analýza genomických čtvrtí naznačuje, že pouze 6 ze zbývajících 60 Opakování představuje proroctví. Kromě toho klastr podobný pAS28 zahrnuje jeden plazmid, pAS28 (ref. 47); nicméně, týkající se Opakování byly již dříve identifikovány v prophages48, ale ne v charakterizován viry, dává mylný dojem, že pAS28-jako Zástupce je plasmid-exkluzivní. ¶Dále charakterizovat evoluční vztahy mezi Opakování kódovány různými typy MGE, vytvořili jsme maximální pravděpodobnost fylogenetických stromů pro 7 klastrů, které zahrnovaly Opakování od virů a plazmidů (Doplňkový Obr. 2a-g). Výsledky fylogenetických analýz naznačují horizontální přenos genů rep mezi plazmidy a viry, přičemž virové sekvence jsou obvykle vnořeny mezi plazmidově kódované homology.
nadkupě galaxií 2 (SC2) se skládá ze 7 klastrů (Doplňující údaje 1), které zahrnují všechny známé utajovaných a neutajovaných eukaryotické ŘEŘICHA-DNA viry, parvoviruses, shluk plazmidů z červené řasy Pyropia pulchra49, a 4 shluků, které obsahují bakteriální Rep sekvencí. Drtivá většina bakteriálních opakování v klastrech podobných pCPa a p4M je kódována spíše v bakteriálních genomech než v plazmidech a nebyla dříve charakterizována. V naší síti, ŘEŘICHA-DNA viry jsou připojeny k pCPa-jako, p4M-jako, pPAPh2-jako a P. pulchra-jako klastry, vzhledem k tomu, že pE194/pMV158-jako cluster netvoří přímé spojení s ŘEŘICHOU-DNA viry, ale připojí SC2 přes pCPa-jako cluster (Obr. 1). Zejména geminiviry a genomoviry tvoří subkluster s plazmidy fytoplazmy (shluk podobný pPAPh2) a P. pulchra, která je oddělena od ostatních virů řeřicha-DNA. Na Parvoviridae clusteru, včetně parvoviruses a odvozené endogenní viry integrované do různých eukaryotických genomů, je volně připojen přímo k ŘEŘICHA-DNA viry, což naznačuje, že parvoviruses s lineární ssDNA genomy mají společné předky s ŘEŘICHOU-DNA viry, které, podle definice, mají kruhové genomy. Zaujala zdánlivě blízko evoluční spojení mezi eukaryotické ŘEŘICHA-DNA virů a bakterií a řas Opakování, jsme zkoumali tyto vztahy podrobněji, jak je uvedeno v následujících částech.
rozmanitost virové-jako Opakování v bakteriálních genomů
zjistit, v jaké míře podobnosti mezi Zástupci eukaryotických ŘEŘICHA-DNA viry a non-virové replicons z SC2, porovnali jsme jejich domény organizace. S výjimkou pE194/pMV158-rodiny plazmidů, které obsahují pouze výchozí domény, bakterií a řas SC2 Opakování měl stejný nuclease-helicase domény organizace jako ŘEŘICHA-DNA viry. Stejná organizace se dvěma doménami je také charakteristická pro parvovirus Reps2. Tak, domény, organizace analýza potvrzuje výsledky sekvence clustering a dále naznačuje, že bakteriální SC2 Opakování jsou více úzce souvisí se Zástupci eukaryotických virů než ty z jiných prokaryotické plasmidy a viry.
poté jsme se snažili získat další informace o rozmanitosti a taxonomické distribuci virových SC2 opakování, které jsou kódovány v bakteriálních genomech. Maximální pravděpodobnost fylogenetická analýza odhalila 9 dobře podporovaných clades (obr. 2a). Shlukování a následná analýza detekce komunity potvrdily 9 skupin bakteriálních opakování (obr. 2b), kde skupiny 1-3 odpovídají shluku podobnému p4M znázorněnému na obr. 1, skupiny 4-8 do clusteru podobného pCPa a skupina 9 do clusteru podobného pPAPh2. Abychom zdůraznili jejich podobnost s opakováními virů CRESS-DNA, označujeme 9 skupin jako pCRESS1 až pCRESS9. Tyto skupiny se zobrazí částečně překrývají, ale odlišné taxonomické rozdělení, zahrnující několik tříd v rámci 4 bakteriálních kmenů (Doplňkový Obr. 1 a doplňková Tabulka 1).
většina Zástupců z pCRESS7 a pCRESS9 jsou kódovány pomocí extrachromosomal plasmidy (Doplňující Tabulka 1). Naopak drtivá většina (97.5%) opakování nalezených v jiných skupinách je kódováno v místě mobilních genetických prvků-specificky integrováno do bakteriálních chromozomů (doplňková Tabulka 1; obr. 2c; Doplňkový obr. 3; Doplňková Poznámka 1). Zejména žádný z prvků nekódoval žádné homology v současné době známých virových strukturních proteinů (doplňková Poznámka 1). Souhrnně tato pozorování naznačují, že virové opakování v bakteriích jsou kódovány různými extrachromozomálními a integrovanými plazmidy.
Zachovaná funkce bakteriální a ŘEŘICHOU-DNA virus Opakování
analýza Sekvencí ukázala, že i přes značné celkové pořadí divergence, Opakování pCRESS4 až 8 obsahují velmi podobné sekvenční motivy v nuclease a helicase domén (Obr. 3), v souladu s výsledky shlukovacích a fylogenetických analýz (obr. 2). Zejména, tyto 5 pCRESS skupiny sdílet konkrétní podpis, YLxH (x, aminokyseliny) do motif III nuclease domény, která nebyla pozorována v Opakování z pCRESS1–3 a 9 (Obr. 3). Tedy, máme na mysli pCRESS4–8 kolektivně jako YLxH supergroup (spíše než pCPa-jako cluster), zdůrazňují, že tato společná vlastnost. Na YLxH podpis byl také zachovány v Opakování z pE194/pMV158-jako cluster, což naznačuje, že blíže evoluční vztah mezi dvěma clustery, a to navzdory skutečnosti, že pE194/pMV158-jako Opakování chybí helicase domény. PCRESS9 také zobrazuje motivy podobné motivům plazmidů P. pulchra, a tak by mohly být s těmito plazmidy sjednoceny do společné sestavy. Naproti tomu pCRESS1, -2 a -3 (cluster podobný P4M) zobrazují výrazné sady motivů (obr. 3; Doplňková Poznámka 1).
Původ SF3 helicase domény
Sekvence analýzy naznačují, že SF3 helicase domény obsahující plasmid Opakování, a to zejména ty z pCRESS2, pCRESS3, a pCRESS9, a P. pulchra, jsou úzce spojeny k Opakování ŘEŘICHA-DNA viry. Nicméně směr evoluce, tj. zda se Plazmidové opakování vyvinuly z virů CRESS-DNA nebo naopak, není zřejmý. I když je to lákavé, aby se absence helicase domény v pE194/pMV158-jako cluster jako náznak, že tato skupina je rodový do helicase-obsahující Opakování, nelze vyloučit, že helicase domény byla ztracena tím, že tyto plazmidy. Proto jsme se rozhodli prozkoumat původ SF3 helikázové domény v Plazmidových a virových opakováních. Citlivé sekvence vyhledávání s HMMER proti nr30 databáze ukázala, že helicase domény plasmidu a ŘEŘICHOU-DNA virové Opakování jsou nejvíce úzce souvisí s těmi eukaryotických pozitivní-sense RNA viry (řád Picornavirales a rodiny Caliciviridae), stejně jako AAA+ Atpázy superfamily50,51. V této analýze jsme také SF3 sekvence parvoviruses, polyomaviruses, a papilomaviry, které jsou považovány za vývojově souvisí s ŘEŘICHOU-DNA viruses2,25. Několik skupin vzdálenějších SF3 helikáz z virů s velkými genomy dsdna52 bylo ignorováno. Vzhledem k vysoké sekvenční divergence a relativně krátká délka, fylogenetické analýzy SF3 helicase domény nebyly informativní, což v hvězda ve tvaru stromu topologie, a to bez ohledu na evoluční modely nebo taxonomické vzorků používaných. Shlukovací analýza založená na párových podobnostech však poskytla pohled na vztahy mezi různými rodinami Atpáz (obr. 4a). Zejména byl jasně podporován úzký vztah mezi SF3 helikázovými doménami bakteriálních Reps a viry CRESS-DNA. Obě skupiny se připojit k RNA viry, ale pouze bakteriální Opakování, zejména těch YLxH supergroup, show, připojení k AAA+ nadčeleď ATPases, zejména, bakteriální helicase loader úřad dnac a, v menší míře, DnaA a Cdc48-jako ATPases (Obr. 4a). Blíže podobnost mezi YLxH supergroup a bakteriální AAA+ ATPases je podporován srovnání katalytických motivů, které odhalila několik sdílené odvozené znaky, k vyloučení jiných skupin (Doplňkový Obr. 4). Při stejném prahu shlukování se ani eukaryotické DNA ani RNA viry nevázaly na žádnou skupinu Atpáz jiných než na bakteriální plasmidy. SF3 helikázy parvovirů spojené s viry řeřicha-DNA, v souladu s analýzou sekvencí Rep v plné délce(obr. 1). Papilomaviry a polyomaviry tvořily 2 shluky, které se vzájemně propojily a parvoviry.
Tento vzor se připojení navrhuje konkrétní vektor evoluce a také se zdá být nejlepší kompatibilní s následujícími scénáři. Na SF3 helicase domény bakteriálních plazmidů, které se vyvinuly z bakteriálních úřad dnac-jako Atpáza; tento helicase domény byla připojena k výchozí doméně Opakování pE194/pMV158-jako plasmidy dávat na předek YLxH supergroup; bakteriální plazmid Opakování byly přeneseny na CRESS-DNA viry; na SF3 helicase RNA viry byla horizontálně získané buď z bakteriálních plasmidů nebo, více pravděpodobné, z eukaryotických ŘEŘICHA-DNA viry; ŘEŘICHA-DNA viry mají plodil parvoviruses, která zase dala vzniknout polyomaviruses a papilomaviry (Obr. 4b). Alternativní scénář, podle kterého SF3 helicases eukaryotických RNA viry dala vzniknout univerzální bakteriální úřad dnac a proteiny DnaA, přes bakteriální plazmidy, objeví non-střídmá a velmi nepravděpodobné. Ve skutečnosti je DnaA všudypřítomná a nezbytná u bakterií50, 51, takže zachycení helikázy z plazmidu by se muselo objevit na samém počátku bakteriální domény života. Zejména plazmidy pCRESS9 a P. pulchra nejsou spojeny s jinými plazmidy,ale jsou spíše spojeny se zbytkem sekvencí prostřednictvím virů CRESS-DNA. Tento vzorec byl také pozorován v globální shlukovací analýze HUH opakování (obr. 1) stejně jako v shlukování samotných nukleázových domén.
Původ ŘEŘICHA-DNA viry z bakteriální plasmidy
Analýza SF3 helicase domén naznačuje, že Opakování pE194/pMV158-jako plasmidy jsou předků, spíše než odvozené formy. Alternativní možnost, totiž, že opakování plazmidů podobných pE194 / pMV158 ztratilo helikázovou doménu, nelze v současné době vyloučit. Nicméně, skutečnost, že helicase domény nebyl ztracen v některém z mnoha známých skupin z ŘEŘICHY seté-DNA viry, nebo v pCRESS1 na pCRESS9 plasmidy, naznačuje, že poté, co získal, helicase domény se stává důležité pro efektivní plasmidu/virová replikace genomu. To znamená, že v blízkosti podobnost mezi pE194/pMV158-jako Opakování a YLxH supergroup, což v přímém propojení dvou skupin v globální síti (Obr. 1), znamená, že první skupina je adekvátní outgroup pro fylogenezi Reps z bakteriálních plazmidů a virů CRESS-DNA. Pro fylogenetické analýzy, použili jsme dataset z SC2 Opakování, bez Opakování Parvoviridae a ŘEŘICHOU-DNA viry, které byly dříve souzen být chimérický s ohledem na jejich nuclease a helicase domains53, aby se zabránilo potenciální artefakty vyplývající z konfliktní fylogenetických signálů. Datová sada zahrnovala zástupce všech klasifikovaných rodin virů CRESS-DNA a 6 skupin neklasifikovaných virů CRESS-DNA prozatímně označených CRESSV1-6 (ref . 53) stejně jako malá skupina virů podobných GasCSV, u kterých bylo dříve zaznamenáno, že kódují opakování s významnou podobností s bakteriálními Reps54. V no-podporované maximální pravděpodobnost fylogenetický strom konstruovány s PhyML a kořeny s pE194/pMV158-jako Opakování, YLxH supergroup (pCRESS4–8) je ve spodní části shromáždění, které zahrnuje všechny ŘEŘICHA-DNA viry, pCRESS1–3 a pCRESS9 stejně jako P. pulchra plazmidů. Tato sestava se rozdělí na dvě třídy (obr. 5). Clade 1 obsahuje dvě subclades, z nichž jeden se skládá z geminiviruses a genomoviruses spojení pCRESS9 plazmidů z phytoplasma, a druhý obsahuje CRESSV6 a P. pulchra plazmidů. Zejména se zdá, že plazmidy P. pulchra se objevují přímo z rozmanitosti CRESSV6, s nejbližším vztahem k podtřídě cressv6 virů sekvenovaných ze vzorků odpadních vod. Vztah mezi geminiviry / genomoviry a plazmidy pCRESS9 není ve fylogenezi vyřešen. Shlukovací analýzy však silně naznačují, že opakování plazmidů pCRESS9 se vyvinulo z geminivirů-genomovirů(obr. 1 a 4). V souladu s tímto scénářem, phytoplasmal pCRESS7 a pCRESS9 plasmidy, přes kódování fylogeneticky odlišných Opakování, sdílejte genu obsahu, jmenovitě, kopie číslo kontrolní protein, PRK06752-jako SSB proteinu a zachovaných hypotetický protein (Doplňkový Obr. 3g, i). Kromě toho, geminiviruses a CRESSV6 kódovat homologních proteinů kapsidový což naznačuje, že se vyvinuli ze společného virové předek, spíše než konvergované dvě skupiny plazmidů tím, že zachytí homologní kapsidový protein genů. Clade 2 zahrnuje bakteriální Opakování pCRESS1–3 a jako sesterská skupina, ŘEŘICHA-DNA viry z rodiny Nanoviridae/Alphasatellitidae, Smacoviridae, a Circoviridae, stejně jako nezařazené CRESSV1 přes CRESSV5, vzhledem k tomu, že GasCSV-like viry jsou vnořené v rámci bakteriální pCRESS2.
robustnost PhyML strom byl potvrzen další analýzy (Doplňková Poznámka 1), včetně (i) maximální pravděpodobnost fylogenetických analýz pomocí RAxML a IQ-Strom, s alternativní větev podporu metody (Obrázek S5); (ii) fylogenetická rekonstrukce pomocí 20-profil směs modelu (Obrázek S5); (iii) statistická analýza nenucený a 3 omezené stromové topologie (Doplňující Tabulka 2). Souhrnně tyto výsledky naznačují, že získaná topologie stromu je vysoce robustní a pravděpodobně přesně odráží evoluční historii opakování kódovaných viry a plazmidy CRESS-DNA.
zejména analýza konzervovaných motivů (obr. 3) naznačuje určitou souvislost mezi virem Opakování v kladu 1 a bakteriální pCRESS3 (spíše než pCRESS1–3 kolektivně), z čehož vyplývá, že fylogenetické umístění může být ovlivněn starověké rekombinace. Kromě toho, bacilladnaviruses byly vynechány z globální fylogenetický strom, protože jejich Opakování zobrazí nestabilní postavení ve fylogenezi, v závislosti na taxonu vzorků (Doplňkový Obr. 6), pravděpodobně kvůli malému počtu dostupných sekvencí, jejich vysoké divergenci a potenciálnímu chimerismu. Bez ohledu na to, fylogenetická analýza naznačuje, že většina z ŘEŘICHY seté-DNA viry, včetně circoviruses, smacoviruses, nanoviruses, a CRESSV1–5, se vyvinul ze společného předka s bakteriální Opakování pCRESS1–3, vzhledem k tomu, že neobdělávané GasCSV-jako viry, které se objeví přímo z bakteriální pCRESS2 Opakování (Obr. 5). Původ montáž včetně geminiviruses, genomoviruses a CRESSV6 je méně jasné, ale možná předcházejí vzniku dalších ŘEŘICHA-DNA virus skupiny a případně zahrnovala společný předek s YLxH supergroup. Opakování bakteriálních pCRESS9 a P. pulchra plazmidy byly pravděpodobně horizontálně získány v poslední době z odpovídajících virů CRESS-DNA.