<img height="1" width="1" src="https://www.facebook.com/tr?id=1582471781774081&amp;ev=PageView &amp;noscript=1">

ゲノムシーケンスと解析によるマイクロバイオームの理解

ゲノムシーケンス技術の進歩は、マイクロバイオームとその宿主への影響についての理解を深めてきました。このブログでは、複雑なマイクロバイオームをゲノムおよびトランスクリプトームレベルで研究するために使用される一般的なシーケンスのアプローチのいくつかを掘り下げます。

マイクロバイオーム

マイクロバイオームは、代謝物生成から免疫系機能まで、さまざまな重要な生理的プロセスを制御しています。現在、多くの重要な研究では、マイクロバイオームの撹乱と、さまざまな臓器系に影響を及ぼす 疾患との関連付けが行われています。



図1. マイクロバイオームのディスバオシスと各臓器系に影響を及ぼす疾患との関連性

今までは、マイクロバイオームの研究は培養に依存した手法に大きく依存しており、多くの微生物が「培養不可能」であることが知られているにもかかわらず、当然ながら解析対象は培養可能な微生物に限られていました。今では、新しいシーケンス技術の活用で、研究者は培養に頼ることなく、既知および新規の微生物を同定、分類、定量できるようになりました。

マイクロバイオームのゲノムプロファイリングに使用される2つの主なアプローチは、16SリボソームRNA(rRNA)アンプリコンシーケンス(ターゲット)とショットガンメタゲノミクス(全ゲノム)です。

16Sシーケンス

16S rRNA遺伝子のターゲットシーケンスは、確立された方法です。この遺伝子は細菌や古細菌の転写の仕組みの主要な構成要素をコード化しており、高度に保存された遺伝子配列と、種間で多様性を示す超可変領域の両方を含んでいます。これらの特徴により、16Sはマイクロバイオームプロファイリングの理想的なターゲットとなっています。なぜなら、16Sはゲノム物質の普遍的な増幅を可能にするだけでなく、複雑なサンプルにおける微生物の識別も可能にするからです。費用対効果の高いマイクロバイオーム解析法として、特に単純なサンプルや内容物がある程度事前に分かっているサンプルに適しています。

16Sワークフローとバイオインフォマティクス解析

基本的な16S rRNAシーケンスのワークフローは以下のようになります。

  • サンプル収集
  • DNA抽出
  • PCR法による特定可変領域の増幅
  • シーケンス
  • データ解析

一般的なシーケンスプラットフォームには、約150~500bpのショートリードデータを生成するもの(例えば、イルミナのMiSeq、NextSeq、NovaSeq)があり、今ではロングリードのシーケンスプラットフォーム(後述)もあります。

第3世代シーケンス(TGS)技術による全長16Sシーケンス



図2. ショートリードおよびロングリード16S rRNAシーケンスでよく使用されるDNA領域

TGS技術(PacBio RS II/SequelおよびOxford Nanopore MinION)が第2世代シーケンスプラットフォームよりも優れている主な利点は、ロングリードデータを生成することであり、これは比較的小さな1.5 kbの16S rRNA遺伝子とすべての超可変領域を容易にカバーします。Crown BioscienceはPacBio RSII/Sequelシステムを使ってHi-fiリードシーケンスを行っており、この間に各遺伝子座は環状化され、コンセンサス配列に達するまで繰り返しリードされます。これはサーキュラーコンセンサスシーケンス(CCS)モードと呼ばれ、99.9%という高い精度でリードが得られることが保証されています。



図3. サーキュラーコンセンサスシーケンスモードによるHiFiシーケンス(出典: Pacbio)

TGSプラットフォームは、16S rRNA遺伝子の部分領域のみを読み取るため、従来の16S rRNA分析の限界を克服しています。より高い分類学的分解能を得るためのロングリードシーケンスの利点は、発表された研究で確立されています。例えば、マイクロバイオーム解析における種や菌種レベルの同定では、ロングリード法の方がショートリード法よりも分解能が高いことが複数の研究で実証されています。リンク1リンク1リンク1を参照してください。全体として、高品質の長いシーケンスは、シーケンスに基づく微生物分析において、近縁種間のより良い識別を可能にします。.

前処理

シーケンス後、生のリードはバイオインフォマティクスのパイプラインを通過し、前処理と解析が行われます。一般的なパイプラインには、Subsystem Technology(MG-RAST)、Quantitative Insights into Microbial Ecology 2(QIIME2)、Mothurなどを使用する MetaGenome Rapid Annotationなどがあります。

本格的な解析の前に生のシーケンスデータを前処理することは、信頼性と再現性の高いデータを得るために非常に重要です。これには通常、データの完全性の全体的なQCチェック、低品質リードのフィルタリング、シーケンスアダプターやアンプリコンプライマーなどの汚染物質の除去が含まれます。また、キメラ配列(PCR増幅工程で異なる配列が誤って結合したもの)も、微生物の同定や多様性測定のエラーにつながる可能性があるため、除去する必要があります。多重分離は、シーケンスプラットフォームによって自動的に処理されない場合にも必要です。そこでのバーコード情報は、どのシーケンスがどのサンプル由来であるかを識別するために使用されるため、シーケンスがどのサンプル由来であったかを適切に割り当てることができます。

操作上の分類単位(OTU)/アンプリコンシーケンスバリアント(ASV)の同定

次に、シーケンスは分類学的種別に使用可能な形相に変換する必要があります。主要な課題は、本物のヌクレオチドとシーケンスエラーを区別することです。それぞれのシーケンスを個別に分析することは不可能なので、OTUとASVはこのプロセスを簡略化するために開発されました。

OTUアプローチでは、シーケンスは類似性に基づいてグループまたは「配列群」に分類されます。通常、最適な属または種の分離には97%の類似度しきい値が用いられます。 このクラスタリングは、参照ベース(クローズド参照)、参照なし(de novo)、またはその両方の組み合わせ(オープン参照)となります。参照配列データを使用する方が計算効率は良いが、既知の配列のデータベースに頼ることは新規の分類群の同定を妨げます。QIIME と Mothur は、16S rRNA 解析に OTU を実装したパイプラインの例です。

OTUは、似たような種を一つのグループにまとめてしまう危険性があり、その結果、測定された多様性が失われてしまいます。ASVは、それぞれの正確なシーケンスの頻度を考慮することで、この問題に立ち向かう新しい手法です。これはしばしば "ノイズ除去 "と呼ばれ、エラーまたは真の生物学的変異に起因すると予想されるシーケンスを識別するために、実行ごとにエラーモデルを生成することに依存しています。単一ヌクレオチドの差異を個別のASVとして定義できるため、より正確で微細なデータ分解能を達成できます。ASVを組み込んだツールには、DADA2、DeBlur、UNOISE3などがあります。また、DADA2は16S rRNAの全長シーケンスにおいて良好な性能を示すことが、以前の研究で検証されています。

分類学的割り当て

マイクロバイオームシーケンス実験の主な目的は、サンプル中の微生物相組成を同定することです。参照データベースには、SILVA、Greengenes、およびRibosomal Database Projectがあり、これらを分類指標アルゴリズムと共に使用して、OTUまたはASVに最も適合するものを見つけます。

下流の分析:多様性、差次的存在量、機能予測

分類にとどまらず、サンプル内およびサンプル間の微生物多様性を実際に測定することで、マイクロバイオームの構成に関する重要な洞察が得られます。アルファ多様性とは、検出されたさまざまな微生物の総数とその分布を含む、サンプル内の微生物のバランスのことです。β多様性とは、サンプル間の微生物叢のばらつきのことを意味します(例えば、治療群と対照群)

多くの統計的検定は、サンプル間で異なる特定の分類群を特定することができます。 これらは単純なt検定から、元々RNA-Seqデータ用に構築されたもの(DESeq2、edgeR)、対数比に基づく手法(ANCOM、ALDEx2、DR/differential ranking)、ゼロインフレートガウシアンに基づく代替混合モデル(Metagenome Seq)、バランスに基づく(比)手法など、より高度な統計モデルまで多岐にわたります。このように多くの方法が利用可能であるため、どのアプローチが最も信頼できる結果をもたらすかを知ることは難しいかもしれません。14の異なる方法の性能を比較した最近の研究では、研究者はデータを最大限に活用するために複数のツールを使用することを推奨しています。

サンプルの微生物組成を知るだけでは、微生物群集の機能性に関する情報はほとんど得られません。これは単一のマーカー遺伝子で直接評価することはできませんが、多くの洗練されたツール(PICRUSt、Tax4Funなど)がメタゲノム(サンプル中の全微生物のゲノム)を推定し、この情報を使って遺伝子ファミリーやパスウェイのデータベースから機能的可能性を予測します。

16Sアンプリコンシーケンスの長所と短所

このシーケンスは、マイクロバイオームの多様性を捉えるのに最もコスト効率の良い方法であることは間違いなく、したがってサンプル数の多いプロジェクトには最適の選択です。 堅牢なバイオインフォマティクスパイプラインと参照データベースが利用可能で、解析がより簡単になります。しかし、PCR増幅に伴う塩基配列の偏りや、ショートリード法による可変領域の一部のみの評価は、分類学的分解能を低下させる可能性があります。全長16S rRNAシーケンスによって得られる高分解能は、より高度な分類学的分類を可能にしますが、ショートリード16Sシーケンス法よりもコストがかかります。さらに、16S rRNAシーケンスは細菌と古細菌のみを対象としているため、より広範な情報を必要とする研究者は、実験を計画する際にこの点を考慮する必要があります。

ショットガンメタゲノムシーケンス

メタゲノムシーケンスは、16Sアンプリコンプロファイリングによるマーカー遺伝子アプローチに代わる方法を提供します。サンプル中の全遺伝子の配列を決定することで、マイクロバイオームをより包括的にカバーします。このアンターゲット法は「ショットガンシーケンス」とも呼ばれています。16Sシーケンスの大きな利点は、ウイルスを含むより広範な微生物のプロファイリングができることです。また、データベースや参照ゲノムの可用性やその品質にもよりますが、菌種レベルの分解能を提供することもできます。



図4. マイクロバイオーム解析における16Sアンプリコンシーケンスとメタゲノミクスシーケンスの比較

ショットガンメタゲノミクスデータのバイオインフォマティクス解析

メタゲノミクスのシーケンシングによって生成される膨大な量のデータは、16S rRNAの研究に比べてバイオインフォマティクス解析を著しく複雑なものにしています。メタゲノミクスデータの解析は、リードベースとゲノム分解の2つに大別できます。

前者では、生データは前処理され、分類学的割り当てのために参照ゲノムにマッピングされます。分類は、配列構成やゲノムデータベースとの類似性に基づいてリードをグループ化するビニングアプローチを採用することができます(例えば、Kraken2やCentrifugeのアルゴリズム)。これは比較的簡単ではありますが、計算量が多く、参照ゲノムの可用性と品質に大きく依存します。あるいは、分類学的な割り当ては、単一または複数のマーカー遺伝子に依存する場合があります(例:MetaPhlAn3など)。 リードは、特定の分類群または分類学上の門からの情報価値のある遺伝子配列を含むデータベースと比較され、菌種レベルまで同定することができます。さらに、広く使用されているマーカー遺伝子ベースのパイプラインHUMAnNは、最近3回目の反復をリリースし、微生物群集が貢献する可能性のある遺伝子ファミリーとパスウェイの存在/非存在と存在量の推定を正確に出力できるようになりました。

ゲノム分解メタゲノミクス解析は、リードを微生物ゲノムのドラフト、またはほぼ完全なゲノムにアセンブルする。これらの再構築されたメタゲノムは、単離された生物の配列決定から作成された参照ゲノムに依存するリードベースの解析に使用されます。

ゲノム分解解析の典型的なワークフローは以下のステップがあります。

  • データ前処理(汚染宿主リードを除去するステップを含む)
  • De novoアセンブリー
  • ゲノムビニングによる同一生物体の配列群のクラスター化
  • メタゲノムアッセンブルゲノム(MAG)を用いた分類学、機能、パスウェイプロファイリング、またはその他の下流解析

ゲノム分解メタゲノム解析で得られたメタゲノムアッセンブルゲノム(MAG)の助けを借りて、研究者たちはヒト マウスでは培養不可能な微生物を特定することに成功しました。 さらに、MAGの全遺伝子がアノテーションされたことで、研究者は、公開されているタンパク質ドメイン、オントロジー、代謝パスウェイデータベース(GO、KEGG、CAZYなど)を用いて、マイクロバイオームの機能、パスウェイ、代謝をより直接的に同定することができます。さらに、ゲノム分解解析は、オペロンのようなゲノム中のシスエレメントの研究も可能にします。

メタゲノムシーケンスの長所と短所

メタゲノムシーケンスが16S rRNA配シーケンスと異なる主な利点は、ゲノム全体に関する情報が得られることです。これにより、より高い分類学的分解能、より直接的な機能プロファイリング、新規/希少種の同定が可能になります。ただし、データの増加にはコストがかかります。ショットガンシーケンスははるかに高価で、専門的なバイオインフォマティクスの専門知識を必要とします。アンプリコンシーケンスよりも少ないサンプル数で、より深く調べたい研究者には良い選択です。

メタトランスクリプトミクスシーケンス

ゲノムシーケンスは、マイクロバイオームに関する研究発表の大半を占めています。しかし、DNAレベルの調査では、どの微生物が生物学的プロセスに積極的に関与しているかを特定することはできません。メタトランスクリプトミクスシーケンスは、マイクロバイオームが環境変化にどのように応答するかを遺伝子発現レベルで評価する強力な機会を提供します。RNA-Seqを用いることで、研究者はこのギャップを埋め、生きた微生物の機能的活動に対する直接的な洞察を提供する包括的な遺伝子発現プロファイルを得ることができる。

メタトランスクリプトミクスシーケンスは、ショットガンメタゲノミクスシーケンスと多くの類似点をもつていますが、さらなる熟慮が必要です。注目すべきは、豊富なリボソームRNAの存在がmRNAシーケンスの範囲に大きな影響を与えることです。したがって、これらの汚染物質は、サンプル調製時にリボデプレッションによって除去するか、ポストシークエンス解析時にデジタル的に除去する必要があります。

メタトランススクリプトミクスのバイオインフォマティックワークフローは、リードベース(例えばMetaTrans)とアセンブリーベース(例えばSqueezeMeta)のアプローチに分けられます。ワークフローの選択は、プロジェクトの目標と、高品質な参照ゲノムの可用性に依存します。メタトランススクリプトミクス研究の第一の目的は微生物の活動を評価することなので、解析には機能的注釈が不可欠です。転写データと互換性のある遺伝子注釈ツールがいくつかあり、パスウェイレベルでのリードのマッピングが可能です(例えば、FMAP、DIAMOND、MetaCLADE)。さらに、メタトランスクリプトミクスデータの複雑さに対処するため、様々なパイプラインやソフトウェアが開発されてきました。 例えば、HUMAnN3パイプラインは、微生物群集における代謝パスウェイの有無、存在量、活性を正確にプロファルします。 同様に、MEGAN(MEtaGenome ANalyzer)は、メタトランススクリプトミクスデータの比較、解析、探索を簡素化します。 さらに、RockhopperやTrinityのようなツールは、de novoトランスクリプトミクスアセンブリを支援し、参照ゲノムが利用できない場合の解析の活路を提供します。

多様な生物体に由来する転写物や、近縁だが異なる生物間で共有される遺伝子の存在により困難を伴いますが、マイクロバイオームのRNAレベルシーケンスは、微生物固有の活性を明らかにすることに成功しています。さらに、メタトランスクリプトミクスの将来は、メタトランスクリプトミクスデータを解析するツールやアルゴリズムの技術的進歩が続いていることから、有望であると思われます。これらの新しいツールが導入されれば、マイクロバイオームの生物学的に活性な部分を効率的に同定する能力が加速されます。

結論

最新のシーケンスはマイクロバイオーム研究の分野に革命をもたらしました。 これらの技術は、詳細な分類学的特徴づけ、機能予測、あるいは複雑な微生物群集内の活性をより直接的に評価することができます。バイオインフォマティクス解析、ロングリード技術、シーケンスコスト削減の進歩は、新たな発見の可能性を確実なものにし、この分野を前進させていきます。

マイクロバイオームシーケンスを含むCrown Bioscienceの包括的なゲノミクスサービスについては、当社のウェブサイトをご覧ください。

マイクロバイオームシーケンスプロジェクトでお困りの時は、Crown Bioscienceお問い合わせください。


関連記事