細菌および古細菌のプラスミドからの原核生物および真核生物の一本鎖DNAウイルスの複数の起源

HUH repliconsのグローバルネットワーク

HUH repliconsの進化の歴史を探るために、これらすべてのrepliconsによってコードされる唯一のタンパク質であるHUHエンドヌクレアーゼのデータセットを収集しました。16、27、28、29、30の三つのセルラードメインすべてのホストに関連付けられています。 この解析では、我々はプラスミド抱合に関与するMobリラックスアーゼを考慮しなかった。 このファミリーの酵素は、DNA複製または転移に関与するHUHエンドヌクレアーゼとの配列ベースの比較を複雑にする円置換保存されたモチーフを包含する16,19。 結果のデータセットには、8764個のシーケンスが含まれていました。 これらはペアワイズ類似性に基づいてグループ化され、クラスターはCLANS35と凸クラスタリングアルゴリズム(1e-08のp値しきい値)を使用して同定された。 この解析では、33個のクラスターのサイズが7個から2711個のシーケンスに変化していることが明らかになった(補足データ1)。 クラスター間の接続性の検査に続いて(図。 1)、我々は2つの孤立したクラスタと2つのスーパークラスタを定義し、互いに接続がないか非常に少ない(補足データ1)のいずれかを表示しました。 それにもかかわらず、孤立したクラスターと2つのスーパークラスター16,36の両方の代表者のための利用可能な高分解能構造の比較は、それらの共通の起源を明確に確認している。

図。 1
figure1

代表ハァッスーパーファミリー担当者は、それらのペアワイズ配列類似性によってクラスタ化されました。 ラインは、P値≤1e-08のシーケンスを接続します。 グループは、よく特徴付けられたプラスミド、ウイルスまたは最も頻繁な分類群にちなんで命名されました

孤児クラスター1は、細菌やarchaea37に広まっているIS200/IS605トランスポゾンの単一のファミリーを含んでいます。 IS200/IS605挿入配列のHUHエンドヌクレアーゼは、構造的および生化学的に広く研究されており、その機能の包括的な理解が得られている16,38。 IS200/IS605トランスポーザーは、他のHUHエンドヌクレアーゼのそれに共通の構造フォールドを持っており、すべての3つの署名モチーフを含んでいるが、彼らはHUHエンドヌクレアーゼの他のクラスターにかなりの配列類似性を示さなかったので、他のクラスターの配列から切断されたままであった。 それにもかかわらず、IS200/IS605クラスター内のシーケンスの多様性は、他のクラスター内のそれに匹敵します。

Orphan cluster2には、rudiviridae39ファミリーの好熱性古細菌ウイルスに保存されているRepタンパク質が含まれています。 Rudivirus SIRV1からRepタンパク質の構造研究は、標準的なHUHエンドヌクレアーゼフォールドを明らかにし、タンパク質の生化学的特性は、vitro36で期待されるニッキング IS200/IS605トランスポーザーのように、rudiviral Repクラスターは、古細菌ウイルスやプラスミドの他のファミリーからの同族体を含む他のHUHエンドヌクレアーゼに接続しません。

おそらく、2つの孤立したクラスターの一意性は、それぞれの要素によって採用された異常な転位および複製メカニズムにリンクされています。 実際、IS200/IS605挿入配列は、ユニークなピールアンドペースト機構38によって転置するが、ルディウイルスは、他のほとんどのウイルスやプラスミドとは異なり、共有結合的に閉じたtermini40と比較的大きな(-35kb)線形dsDNAゲノムを含んでいる。

Supercluster1は、24個のクラスターを含む最大かつ最も多様なHUH集合体である(補足データ1)。 これらの24のクラスターのうち、15は真正染色体外プラスミドからのRepを含み、そのうち7つのクラスターには、細菌および古細菌の多様なssDNA(Microviridae、Inoviridae、およびPleolipoviridae)および/またはdsdna(MyoviridaeおよびCorticoviridae)ウイルスからのRepも含まれる。 三つのクラスターは、それぞれGokushovirinae亜科とBullavirinae亜科のマイクロウイルスによってコードされたRepsと、Xanthomonas inovirus Cf1(inoviridae科)で構成されています。 特に、phix174様マイクロウイルス(Bullavirinae)は、高い配列の発散にもかかわらず、マイクロウイルス科の二つのサブファミリーにおけるRep単系統を示す、サブファミリー Gokushovirinaeのマイクロウイルスに排他的に類似性を表示します。 細菌のIS91(ISCRサブファミリーを含む)と真核生物のヘリトロンファミリーのトランスポゾンは、それぞれ二つの異なるクラスターを形成する。 トランスポゾンの二つのグループは、直接互いに接続されていないが、細菌の異なるグループにリンクされており、IS91の場合には、古細菌プラスミドは、細菌の染色外レプリコンからの独立した起源を示唆している。 これまで、ヘリトロンは真核生物のクレス・DNAウイルス、すなわちゲミニウイルスと細菌のhuh replicons41との間のミッシングリンクを表している可能性が示唆されていた。また、ヘリトロンはゲミニウイルス42から進化している可能性が示唆されていた。 しかし、我々の分析では、ヘリトロンはCRESS-DNAウイルスのグループのいずれにも接続しておらず、最近の発見と一致する独立した進化の軌道を示唆している43。

残りの5つのクラスターは、認識可能なプラスミド、ウイルスまたはトランスポゾン配列を含まないため、統合されたMGEの新しいファミリーを表す可能性 これらの群のうちの4つは、それぞれ、分類群Clostridiales、Actinobacteria、Neisseriales、およびBacteroidetesの細菌に主に見出される(図1 0に従って標識されている)。 1)、第五のグループは、候補部門MSBL1(地中海塩水湖1)44、異なるhypersaline環境で発見された未培養古細菌のグループに固有であるのに対し。 クラスターのほとんどは、ドメインレベルで分類学的均一性を表示する、すなわち、クラスターは、細菌、または古細菌、または真核生物の配列(対応するウイ 二つの例外は、古細菌配列の一握りを含むpub110様およびIS91様の細菌支配クラスターを含みます。 IS91トランスポゾンの場合、細菌からの水平移動は系統発生分析によって確認されている45。 さらに、クラスターのいくつかは真核生物であると注釈された散発的配列を含むが、対応する連続体の分析は、これらが細菌汚染物質である可能性が高いことを示唆している。

特に興味深いのは、ウイルスとプラスミドの両方を含む7つのクラスターです。 例えば、pec316_kpc様クラスターは、プラスミドの他に、Myoviridae、Corticoviridae、Inoviridaeの3つのファミリーから進化的に無関係なウイルスを含み、rep遺伝子の広範な水平拡散を示唆している。 特に、イノウイルスのRepsは5つの集りの間で配られます。 Pvt736-1様とPub110様クラスターのみシュードモナスファージPf3とPropionibacteriumファージB5、それぞれを含むイノウイルス配列の不足を考えると、プラスミドから対応するウ さらに、多くのイノウイルスは、ハハエンドヌクレアーゼをコードするのではなく、進化的に無関係なスーパーファミリー、Rep_Trans(Pfam id:PF02486)15の複製開始剤をコードし、細菌のプラスミド30にも豊富であるが、ベスパルチリオウイルス属のイノウイルスはRepを欠いており、代わりに対応する挿入シーケンスから派生したIS3およびIS30ファミリートランスポーザーを使用して転位によって複製する46。 総称して、これらの観察は、イノウイルスの複製モジュールは、様々なプラスミドとトランスポゾンファミリーから遠くに関連し、さらには非相同複製モジュー 同様に、古細菌プレオリポウイルスは、それぞれ古細菌プラスミド、pgrb1様とptp2様の異なるファミリーに対応する二つのクラスターの間で分割され、複製関連遺伝子の交換は、小さな、プラスミドサイズのゲノムを持つ細菌および古細菌ウイルスで一般的であることを示唆している。 ②場合によっては、細胞染色体にコードされたRepのウイルス対プラスミドメンバーシップを確認することは困難であり、両方のタイプのMGEが宿主ゲノムに組 例えば、Xacf1様クラスターには62個のRep配列が含まれ、そのうち2個は糸状ファージによってコードされ、残りは細菌ゲノムから来ています。 ゲノム近傍の分析では、残りの60担当者のうち6人だけが予言を表すことが示唆されている。 さらに、PAS2 8様クラスターは、1つのプラスミド、PAS2 8(ref. 47); しかし、関連するRepは以前にprophages48で同定されているが、特徴づけられたウイルスでは同定されておらず、pas28様Repがプラスミド排他的であるという誤った印象を与えている。 ①異なるタイプのMGEによってコードされたReps間の進化的関係をさらに特徴付けるために、ウイルスとプラスミドの両方からのRepsを含む7つのクラスターの最尤系統樹を構築した(補足図)。 2a-g)。 系統解析の結果は、プラスミドとウイルス間のrep遺伝子の水平移動を示唆しており、ウイルス配列は通常、プラスミドでコードされた同族体の間でネストされている。

Supercluster2(SC2)は、既知の分類および未分類の真核生物CRESS-DNAウイルス、パルボウイルス、赤藻Pyropia pulchra49由来のプラスミドのクラスター、および細菌Rep配列を含む4つのクラスターからなる7つのクラスター(補足データ1)で構成されている。 PCPa様およびp4m様クラスター内の細菌担当者の大半は、プラスミドではなく細菌ゲノムにコードされており、以前に特徴付けられていません。 我々のネットワークでは、CRESS-DNAウイルスはpCPa様、p4m様、ppaph2様、P.pulchra様のクラスターに接続されていますが、pe194/pmv158様のクラスターはCRESS-DNAウイルスと直接接続されず、PCPA様のクラスターを介してSC2に接続されています(図。 1). 特に、ゲミニウイルスおよびゲノモウイルスは、植物プラズマ(ppaph2様クラスター)およびPのプラスミドを有するサブクラスターを形成する。 pulchraは、他のCRESS-DNAウイルスから分離されています。 Parvoviridaeクラスターは、様々な真核生物のゲノムに統合されたparvovirusesと派生した内因性ウイルスを含むが、緩く線状ssDNAゲノムを持つparvovirusesは、定義により、円形のゲノムを持 真核生物のCRESS-DNAウイルスと細菌および藻類の担当者との間の一見近い進化の接続に興味をそそられ、我々は、以下のセクションで報告されているように、

細菌ゲノムにおけるウイルス様Repの多様性

真核生物CRESS-DNAウイルスとSC2からの非ウイルス性レプリコンのRepとの類似性の程度を調 唯一のヌクレアーゼドメインを含むpe194/pmv158ファミリープラスミドを除いて、細菌および藻類SC2担当者は、CRESS-DNAウイルスと同じヌクレアーゼヘリカーゼドメイン 同じ2つのドメイン組織は、パルボウイルスReps2の特徴でもあります。 したがって、ドメイン組織分析は、シーケンスクラスタリングの結果を確証し、さらに細菌SC2担当者は、他の原核生物プラスミドやウイルスからのも

その後、細菌ゲノムにコードされているウイルス様SC2担当者の多様性と分類学的分布に関する追加情報を取得しようとしました。 最尤系統解析では、9つのよくサポートされているクレードが明らかになった(Fig. 2a)。 クラスタリングとその後のコミュニティ検出分析は、細菌の担当者の9グループを検証しました(図。 ここで、グループ1〜3は、図2bに示すP4m様のクラスタに対応する。 図1に示すように、グループ4-8はpCPa様クラスター、グループ9はppaph2様クラスターになります。 CRESS-DNAウイルスのRepsへの類似性を強調するために、我々はpcress1からpcress9として9つのグループを参照してください。 これらのグループは、部分的に重複するが、明確な分類学的分布を示し、4つの細菌門内のいくつかのクラスをカバーした(補足図。 1および補足表1)。

図。 2
図2

細菌におけるウイルス様Repタンパク質の多様性。 p.pulchraにおける細菌Repタンパク質とその同族体の系統樹。 密接に関連するシーケンスは、辺の長さが最も近いリーフノードと最も遠いリーフノードの間の距離に比例する三角形に折りたたまれます。 細菌のRepタンパク質とその同族体のb氏族グループ。 ノードはタンパク質配列を示す。 ラインはシーケンス関係を表します(CLANS P-value≤1e−05)。 同じクラスターに属するノードは、グループ1-9を表す統合および染色体外プラスミドのパネルa.cゲノムマップに示されているクレードに対応して、同じ色で着色されている。 相同遺伝子は同じ色を使用して描かれ、その機能は図の右側に記載されています

pcress7およびpcress9の担当者の大部分は、染色外プラスミドによってコードされています(補足表1)。 これとは対照的に、大多数(97。他のグループで見られるRepの5%)は、細菌染色体に特異的に統合されたモバイル遺伝要素内にコードされている(補足表1;図1;図1;図1;図1;図1;図1;図1;図1 図2c;補足図2C;補足図2C 3、補足注1)。 特に、現在知られているウイルス構造タンパク質の相同体をコードする要素はない(補足注1)。 総称して、これらの観察は、細菌のウイルス様の担当者は、多様な染色体外および統合プラスミドによってコードされていることを示しています。

細菌およびCRESS-DNAウイルスRepsの保存された特徴

配列分析は、かなりの全体的な配列の発散にもかかわらず、pcress4から8のRepsは、ヌクレースとヘリカーゼドメイン内に密接に類似した配列モチーフを含んでいることを示した(図。 図3)は、クラスタリングおよび系統発生解析の結果と一致している(図3)。 2). 特に、これらの5つのPCRES群は、ヌクレースドメインのモチーフIII内の特定のシグネチャ、Ylxh(x、任意のアミノ酸)を共有するが、これは、PCRES1−3および9からのRepでは 3). したがって、この共有機能を強調するために、pcress4–8をまとめてYLxHスーパーグループ(pCPaのようなクラスターではなく)と呼びます。 YLxH署名はまた、pe194/pmv158のようなRepsはヘリカーゼドメインを欠いているという事実にもかかわらず、二つのクラスターの間に近い進化の関係を示唆し、pe194/pmv158 また、pcress9は、P.pulchraプラスミドのものと同様のモチーフを表示し、したがって、共通の集合体にこれらのプラスミドと統一することができます。 対照的に、pcress1、-2および-3(p4m様クラスター)は、独特のモチーフのセットを表示する(図。 3、補足注1)。

図。 3
図3

Repタンパク質の保存された配列モチーフ。 細菌Repグループは灰色の背景で描かれています。 残基は、それらの化学的性質(極性、緑色;塩基性、青色;酸性、赤色;疎水性、黒色;中性、紫色)によって着色される。 Rep群は,整列したモチーフの対の類似性に従って手動で順序付けられた。 HUHエンドヌクレアーゼとSF3ヘリカーゼドメインは、図の上部に描かれています

SF3ヘリカーゼドメインの起源

配列分析は、SF3ヘリカーゼドメインを含むプラスミドReps、特にpcress2、pcress3、およびpcress9、およびP.pulchraからのプラスミドRepsに密接に関連していることを示唆している。cress-dnaウイルス。 しかし、進化の方向性、すなわち、プラスミドRepsがCRESS-DNAウイルスのものから進化したかどうか、またはその逆は明らかではない。 それは、このグループは、ヘリカーゼ含有担当者に先祖であることを示すようにpe194/pmv158様クラスターでヘリカーゼドメインの不在を取るために魅力的であるが、 したがって、我々はプラスミドとウイルス担当者におけるSF3ヘリカーゼドメインの起源を調査するために着手しました。 Nr30データベースに対するHMMERとの敏感な配列検索は、プラスミドとCRESS-DNAウイルス担当者のヘリカーゼドメインが最も密接に真核生物陽性センスRNAウイルス(順序Picornavirales この解析では、cress-DNAウイルスに進化的に関連していると考えられているパルボウイルス、ポリオマウイルス、およびパピローマウイルスのSF3配列も含まれていた2,25。 大規模なdsDNAゲノム52とウイルスからより遠いSF3ヘリカーゼのいくつかのグループは無視されました。 高い配列の発散と比較的短い長さのために、SF3ヘリカーゼドメインの系統発生分析は関係なく、進化モデルや使用される分類学的サンプリングの、星形の木のトポロジーで、その結果、有益ではありませんでした。 しかし、ペアワイズの類似性に基づくクラスタリング分析は、異なるATPaseファミリー間の関係についての洞察を提供した(図。 4a)。 特に、細菌RepsとCRESS-DNAウイルスのSF3ヘリカーゼドメインとの間の密接な関係は明らかにサポートされていました。 両方の群はRNAウイルスに接続するが、細菌のRep、特にYlxhスーパーグループのRepのみが、A A A+スーパーファミリー Atpアーゼ、すなわち、細菌のヘリカーゼローダー Dnac、および、より少ない程度では、DnaaおよびCdc4 8様Atpアーゼへの接続を示す(図4)。 4a)。 YLxHスーパーグループと細菌AAA+Atpaseの間のより近い類似性は、他のグループの除外に、いくつかの共有派生文字を明らかにした触媒モチーフの比較によって支持され 4). 同じクラスタリングしきい値では、真核生物のDNAもRNAウイルスは、細菌プラスミドからのもの以外のAtpaseの任意のグループにリンクされていません。 パルボウイルスのSF3ヘリカーゼは、CRESS−DNAウイルスのものと連結され、全長Rep配列の分析と一致した(図1 0A)。 1). パピローマウイルスとポリオマウイルスは、互いに接続し、パルボウイルスに2つのクラスターを形成した。

図。 4
図4

スーパーファミリー3ヘリカーゼとAAA+Atpaseの関係。 スーパーファミリー3ヘリカーゼとAAA+ATPaseドメインは、クランを使用してそれらのペアワイズ類似性によってクラスター化された。 合計で、3854個の配列がクランでクラスター化されました(クランP値№5e-09)。 未分類のCRESS-DNAウイルスのグループは、CRESSV1からCRESSV6と呼ばれています(ref. 53). bウイルススーパーファミリー3ヘリカーゼの起源と進化のための提案された進化のシナリオ。 略称:SF3,superfamily3helicase domain;HUH,HUH superfamily nuclease domain;OBD,origin-binding domain;HGT,horizontal gene transfer; RHR、ローリングヘアピン複製

この接続パターンは、進化の特定のベクトルを示唆しており、次のシナリオと最も互換性があるよう 細菌プラスミドのSF3ヘリカーゼドメインは、細菌DnaCのようなATPaseから進化し、このヘリカーゼドメインは、ylxhスーパーグループの祖先をもたらすpe194/pmv158のようなプ; RNAウイルスのSF3ヘリカーゼは、細菌プラスミドまたは真核生物のCRESS-DNAウイルスから水平に獲得された;CRESS-DNAウイルスはパルボウイルスを産生し、ポリオマウイルスおよびパピローマウイルスを生じさせた(Fig. 4b)。 真核生物RNAウイルスのSF3ヘリカーゼは、細菌のプラスミドを介して、普遍的な細菌DnaCとDnaAタンパク質を生じさせた下で、代替シナリオは、非節約と非常に 確かに、DnaAはbacteria50,51で遍在し、必要である、従ってプラスミドからのヘリカーゼの捕獲は生命の細菌の範囲のまさに起源で起こらなければならない。 特に、pcress9およびP.pulchraプラスミドは他のプラスミドと結合しておらず、むしろCRESS-DNAウイルスを介して残りの配列に結合している。 後者のパターンは、HUH Repsの大域クラスタリング解析でも観察されています(図。 1)だけでなく、ヌクレアーゼドメインのクラスタリングで。

細菌プラスミドからのCRESS-DNAウイルスの起源

SF3ヘリカーゼドメインの分析は、pe194/pmv158様プラスミドのRepsではなく、派生型であることを示唆して Pe194/pmv158様プラスミドの担当者がヘリカーゼドメインを失っていること、すなわち、代替可能性は、現在除外することはできません。 しかし、ヘリカーゼドメインは、CRESS-DNAウイルスの多数の既知のグループのいずれかまたはpcress1pcress9プラスミドに失われていないという事実は、一度取得し、ヘリカーゼドメインが効率的なプラスミド/ウイルスゲノム複製のために重要になる、ことを示唆している。 したがって、pe194/pmv158様のRepsとYLxHスーパーグループのRepsとの間の密接な類似性は、グローバルネットワーク内の二つのグループの直接接続をもたらします(図。 1)は、前のグループが細菌のプラスミドおよびCRESS DNAのウイルスからのRepsの系統発生のための十分なoutgroupであることを意味します。 系統発生解析のために、我々は、競合する系統発生シグナルに起因する潜在的なアーティファクトを避けるために、以前にそれらのヌクレアーゼとヘリカーゼドメイン53に関してキメラであると判断されたParvoviridaeとCRESS-DNAウイルスの担当者を除いて、SC2担当者のデータセットを使用しました。 データセットには、cress-DNAウイルスのすべての分類されたファミリーの代表者と、暫定的にcressv1-6と標識された未分類CRESS–DNAウイルスの6つのグループが含まれてい 53)だけでなく、細菌のReps54に有意な類似性を持つRepsをコードすることが以前に注目されているGasCSV様ウイルスの小さなグループ。 よくサポートされている最尤系統樹では、PhyMLで構築され、pe194/pmv158のようなRepsで根ざし、YLxHスーパーグループ(pcress4-8)は、すべてのCRESS–DNAウイルス、pcress1-3とpcress9だけでなく、P.pulchraプラスミド この集合体は二つのクレードに分割される(図。 5). クレード1は、植物プラズマのpcress9プラスミドを結合するゲミニウイルスとゲノモウイルスからなる二つのサブクラードを含み、もう一つはCRESSV6とP.pulchraプラスミドを含む。 特に、p.pulchraプラスミドは、廃水サンプルから配列決定されたウイルスのCRESSV6サブクレードに最も近い関係で、CRESSV6多様性の中から直接出てくるように見え ゲミニウイルス/ゲノモウイルスとpcress9プラスミドとの関係は系統発生では解決されていない。 しかし、クラスタリング解析は、pcress9プラスミドのRepsがゲミニウイルス-ゲノモウイルスから進化したことを強く示唆している。 1および4)。 このシナリオと一致して、植物質pcress7とpcress9プラスミドは、系統発生的に異なるRepsをコードするにもかかわらず、遺伝子含有量、すなわち、コピー数制御タンパク質、PRK06752様SSBタンパク質と保存された仮説的タンパク質を共有している(補足図。 3g、i)。 さらに、ゲミニウイルスとCRESSV6は、彼らが共通のウイルスの祖先から進化するのではなく、相同カプシドタンパク質遺伝子をキャプチャすることによ クレード2にはpcress1–3の細菌Repsが含まれており、姉妹群としてNanoviridae/Alphasatellitidae、Smacoviridae、CircoviridaeのCRESS-DNAウイルス、unclassified CRESSV1からCRESSV5が含まれているが、GasCSV様ウイルスは細菌pcress2内にネストされている。

図。 5
図5

Repタンパク質の最尤系統樹。 GasCSV-腹足類関連円形ssDNAウイルス。 木はPhyml78で構築されました。 70未満のサポート値を持つ枝は契約されています

PhyMLツリーのロバスト性は、追加の分析(補足注1)によって検証されました。(I)RAxMLとIQ-Treeを用いた最尤系統解析を含む、代替分岐サポート方法(図S5); (ii)20プロファイル混合モデルを用いた系統発生再構成(図S5);(iii)制約されていない3つの制約されたツリートポロジーの統計解析(補足表2)。 総称して、これらの結果は、得られたツリートポロジが非常に堅牢であり、正確にCRESS-DNAウイルスとプラスミドによってコードされたRepsの進化の歴史を反映している可能性があることを示しています。

特に、保存されたモチーフの分析(図。 3)は、クレード1のウイルス担当者と細菌のpcress3(総称してpcress1–3ではなく)との間の特定の関連性を示唆しており、系統発生の配置は古代の組換えイベン さらに、バシラドナウイルスは、分類群のサンプリングに応じて系統発生において不安定な位置を示すため、グローバル系統樹から省略された(補足図)。 6)、おそらく、利用可能な配列の数が少ないため、それらの高い発散および潜在的なキメラリズム。 それにもかかわらず、系統解析は、circoviruses、smacoviruses、nanoviruses、CRESSV1-5を含むCRESS–DNAウイルスの大部分がpcress1–3の細菌Repsとの共通の祖先から進化したのに対し、培養されていないGasCSV様ウイ 5). ゲミニウイルス、ゲノモウイルス、CRESSV6を含む集合体の起源はあまり明確ではないが、他のCRESS-DNAウイルス群の出現よりも前であり、おそらくYLxHスーパーグループとの共通の祖先を関与させている可能性がある。 細菌のpcress9およびP.のReps。 pulchraプラスミドは、対応するCRESS-DNAウイルスからより最近になって水平に獲得されている可能性が高い。

コメントを残す

メールアドレスが公開されることはありません。