ヒトマイクロバイオームプロジェクトにおける宿主遺伝的変異とそのマイクロバイオーム相互作用

HMPコホートの高品質なDNAシークエンシング

HMPコホートのデザインとサンプルコレクションについて詳細に説明しました。 簡単に言えば、HMPコホートは、米国の二つの場所で募集された300ドナーで構成されています。 ドナーの大部分(71%)は白人起源であり、残りのドナーはアフリカ系(6%)、アジア系(9%)、ラテン系(11%)、または混合系(3%)の祖先であった。 男女比はほぼ等しく、女性151人、男性149人であった。 ドナーを選択する際の目標は、同様の年齢層(19-40歳)に属し、比較的健康な体格指数(19-34kg/m2)を有する、最近の薬物使用または病歴のない健康な個人を見つ

宿主ゲノム情報を得るために、298人のうち300人の血液からゲノムDNAをPCRフリー配列を用いて配列決定した。 平均配列決定範囲は32.77xであり、範囲は23.9x〜56.7xであった(図10B)。 1). 汚染およびキメラ読み取りの割合は、両方とも、すべてのサンプルで5%の標準カットオフを十分に下回っていた(追加ファイル1:図S1A)。 ペアで整列された挿入サイズや読み取りの割合などの他の品質指標の分布は、明確な外れ値サンプルを強調表示しなかったため、すべてのサンプルをさらなる分析に含めました。 変異体数はまた、一人当たり〜2Mの一塩基多型(Snp)および2 0 0Kインデルで顕著に安定であった(図1 0A)。 1)、より高い遺伝的多様性を持っていたアフリカ系アメリカ人のドナーを除いて(追加ファイル1: 図S1B)。 配列決定の深さと回収された変異体の数との間に検出可能な相関はなく、すべてのサンプルの深さが十分であったことを示している。

図1.1.1. 1
図1

ヒトマイクロバイオームプロジェクトのホストゲノムとメタゲノームカバレッジの概要。 各ホストゲノムのシークエンシング深さ(左)とメタゲノーム全体のシークエンシングを持つ利用可能なすべてのサンプルの読み取り数

これらのデータは、HMPコホート全体にわたって微生物アンプリコンとメタゲノムへのヒトゲノムシーケンスのほぼ完全なペアリングを提供します。 このコホートの遺伝的変異は、以前に93被験者のWMSデータから”汚染物質”ヒト読み取りを使用して推定されました。 これは-10倍の平均ヒトゲノムカバレッジを提供したが、それはサンプル間で大きく変化し、多くのためにわずか5倍に達した。 これは、全体で13Mの遺伝的変異体を検出するのに十分であり、MAF>0.05では5.5Mであった。 比較では、我々の研究は、ドナーの数を三倍以上、直接ホストDNAを標的とすることにより、我々はサンプル間で均一なカバレッジ(最小25×)で全体的に二倍の多 これにより、すべてのサンプルの品質が向上し、この作業と将来の研究で採掘できる完全なデータセットが生成されました。

配列決定結果は、他の同等の集団のものと一致しています

低複雑度領域における品質と場所に応じてフィルタリングした後、29Mの変異体が残り、26.7MのSnvと2.3Mの挿入-欠失(indels)からなる(追加ファイル1:表S1)。 GoNLおよび1000ゲノムプロジェクトと比較した場合、5.1M Snvおよび856Kインデルは新規であったが、これらの大部分はまれであった(図。 2a)。 対照的に、我々が同定した共通の変異体(MAF>5%)は、3つのコホート間でほぼ普遍的に共有されていた。 全体では、7を確認しました。同じ大きさのGoNLコンソーシアムと比較して8M以上の変異体。 変異体の多くは1000ゲノムプロジェクトにも存在していたので、我々はHMPコホートの大きな民族の多様性に違いを属性します。 多数のSnvは各コホートに固有であったが、ゲノムのイントロニック、エキソニック、および遺伝子間領域に落ちる変異体の割合は、コホート間でほぼ同一であった(追加ファイル1:図S2)。

図1.1.1. 2
図2

遺伝的変異体の分布と他のコホートとの比較。 発見された変異体は、頻度によって分類され、他のコホートと重複する。 AC対立遺伝子数、MAFマイナー対立遺伝子頻度。 b頻度および推定された影響によるコード突然変異の数の分布

次に、vepツールのLOFTEEプラグインを使用して、コーディングシーケンスへの影響に基づいてバリアントをクラスに分類するコーディングバリアントに注釈を付 特定の遺伝子の機能の喪失をもたらすであろうものとして定義された影響度の高い変異体の数は、2670であった(追加ファイル1:表S2); この結果は、これらの変異体に対する積極的な陰性選択と一致する。 対立遺伝子の影響の重症度が集団におけるその頻度に強く関連していたので、否定的な選択は対立遺伝子頻度分布からも明らかであった。 例えば、インパクトの高い変異体は、我々のデータセットで一度だけ観察された変異体で大幅に濃縮された(図10)。 2b、AC1)。 遺伝子間のコード変異の分布も均一ではなく、少数の遺伝子が多数の変異体を捕捉していた。 三つの遺伝子は五つ以上の潜在的な影響力の高い機能喪失変異体を示し、六つの遺伝子は十以上の変異体を有していた。 影響度の高いコード変異を持つ遺伝子の数が少ないことは、このコホートが遺伝子内の変異頻度と微生物の特徴との間の相関を引き出すには負担試験には小さすぎることを示唆した。 代わりに、我々は、一般的な変異体と微生物分類群または機能的可能性との間の関連性を同定することに我々の分析を焦点を当てた。

6体部位における微生物分類群と機能的可能性

HMPでは、18体部位から微生物サンプルを収集し、消化管(GI)管、口腔、皮膚、鼻孔、膣の5つの主要領域に分類した。 場合によっては、マイクロバイオームの時間的安定性を評価するために、時間の経過とともに複製サンプルを収集した。 合計で、5000以上のサンプルは16S rRNA遺伝子配列決定を使用して特徴付けられ、2000以上はshotgun WMSを使用して特徴付けられました。 前者のアプローチは、後者は種レベルの同定とマイクロバイオームの機能的可能性のプロファイリングを可能にするのに対し、分類学的組成の高レベ したがって、その後の分析でWMSデータを使用しました。 WMSのサンプルの分布は、上記の主要な領域の四つを表す六つの場所から引き出されたほとんどのサンプルで、体のサイト間で同等ではなかった:腸(便)、口(頬粘膜、 六つの体のサイト内では、ドナーの数は、膣後fornixのための80から腸サンプルのための209の範囲であり、サンプルあたりの読み取りの平均数は、後fornixの34Mから舌背 これらのサンプルからのWMSデータを使用して、我々はMetaphlan2を使用して分類学的組成とHumann2を使用して機能的ポテンシャルを同定した。 次に、これらの出力を宿主の遺伝的変異との関連について分析した。

ヒトゲノム主成分がマイクロバイオーム組成と相関する

宿主の遺伝的変異と微生物の変異を比較するために、我々は最初に高レベルの遺伝的パター 共通SNVs上のPCA(MAF>0.05)は、最初の五つの主成分が主にドナーの民族的および人種的祖先を表していることを示した。 例えば、アフリカ系アメリカ人、アジア系アメリカ人、および白人の二つのグループの一つの宿主遺伝学は、最も強い効果を示した(図。 3a)。 さらに他のコホートに全体的な遺伝的変異を比較するために、我々はまた、共同で両方のコホートでMAF>0.05とSnvを使用して、HMP300と1000ゲノム参加者の組み合わせ 結果として得られる主成分空間に分布する両方のコホートからの個体は、祖先に従ってほぼ同じように分布する(追加ファイル1:図S3)。

図1.1.1. 3
図3

高レベルの遺伝的変異とマイクロバイオーム組成との間の相関。 a遺伝的主成分分析の最初の二つの成分は、自己報告されたドナーの民族性によって重ねられた一般的な一塩基変異体に基づいて示されています。 アフリカ系アメリカ人。 示されているbは、同じデータの順列と比較した場合、平均してマイクロバイオームデータの分散が遺伝的主成分によって説明できるかどうかである。 示されている値は、経験的なp値を計算するためにも使用された順列に基づくZスコアである。 糞便中の異なる種および経路に対する遺伝的主成分R2値のC分布。 Y軸は説明された分散を示し、X軸はそれらの各数値の順列ベースの経験的p値を示します。 偽発見率(FDR)<0.05および経路のfdr<0.01を有する種の名前のみが示されている。 下のヒストグラムには経験的なp値の分布が表示され、Y軸にはビン内の種の数が表示されます。 経路ヒストグラムの下の緑色のバーは、発酵に関連する経路がR2でどのようにランク付けされているかを示しています

次に、HMP300について、最初の五つの宿主ゲノム主成分によって説明できる六つの体部位における微生物変動の割合(R2)を計算しました。 便サンプルでは、宿主の主成分によって説明される種レベルの変動の割合は3.8%であり、偶然だけで予想されるよりも高かった(経験的p=0.0001;図10.1;10.1;10.1;10.1;10.1; 3b)。 個々の種のR2値に対する経験的p値の分布は、ゼロに向かって強くシフトした(図。 強い相関がいくつかの種に限定されないが、遺伝的集団構造が全体的な微生物構成に影響を及ぼすことを示している(図3C)。 経口部位の種レベルにも同様の効果が認められた。 頬粘膜では、種レベルの変動の平均5.2%(経験的p=0.0008)に記載されたゲノム主成分;舌背では、この数字は4.1%(経験的p=0.0034)であった。 MetaCyc代謝経路の豊富さの同一の分析では、我々は有意に共通のバリアント主成分と相関する腸内微生物叢の唯一の経路を発見しました。 要約すると、高レベルのホストの遺伝的特徴とマイクロバイオーム特性との間の関連は、複数の身体部位で有意であった。

個々の微生物の特徴とこれらの平均に寄与した宿主遺伝学との相関を調べたところ、特定の特徴ははるかに強い個々の関連を示した。 遺伝的相関が最も強かった便では、118種のうち5種が有意に関連しており(置換試験による偽発見率(FDR)<5034>0.05)、R2値はほぼ10%に達していた(図10)。 3c)。 これらの五つの種のうち,Lachnospiraceaebacterium,Roseburia intestinalis,およびSubdoligranulum(未分類)はすべて最初のゲノム主成分と正の相関を示し,これらの種は白人起源のドナーにおいてより高い豊富さを有することを示した。 別の重要な種、Sutterella wadsworthensisは、二つのグループにアジア起源のドナーを分離PC4に関連付けられていました。 他の体のサイトを調べると、我々はPorphyromonas catoniae、Propionibacterium propionicum、および分類されていないGemellaが大幅に頬粘膜のホストゲノム変異と関連していたことがわかった(追加ファイル1:図S4と表S1)。

同様の経路レベルの分析では、便中の遺伝的主成分と有意に相関する多数の経路(541の82)(上記のようにFDR<0.05)が明らかになった(図。 3c)。 いくつかの経路は、アミノ酸および短鎖脂肪酸の生合成および分解に関連していた。 より体系的な見解では、MetaCycデータベースの発酵スーパークラスのメンバーは、トップ経路ランキングで有意に濃縮されていることがわかりました(図1)。 3c)。 これらの経路のほとんどは、白人ドナーを他の人種または民族の祖先と区別する最初の遺伝的主成分と関連していた。 このような機能的豊かさは、食事の民族的違いだけでなく、特定の栄養素を代謝する能力の遺伝的多様性を指摘する可能性がある。

他の身体部位では、経路レベルの変動は平均して遺伝的主成分と相関していなかったが、いくつかの個々の相関経路が見出された(追加ファイル1:図S5 例えば、舌背マイクロバイオームにおける経路の数は、遺伝的主成分と強く相関していた。 興味深いことに、関連する経路のほとんどすべてが呼吸とトリカルボン酸(TCA)サイクルに関連しており、酸素勾配とドナー間の舌背の口腔生物による好気呼吸の差を示していた。 経口マイクロバイオームにおけるTCAサイクルの濃縮と腸マイクロバイオームにおける発酵は、対応するマイクロバイオームの支配的な代謝機能を反映し、これらが遺伝的祖先と相関する宿主遺伝学および環境要因によってどのように影響されるかを示している。

関連ドナーは類似の微生物

HMPコホートには互いに関連するドナーが含まれていましたが、この情報は収集されたメタデータでは利用できませんでした。 ドナーのゲノムシーケンシングは、我々はすべてのドナー対の間の関係の程度を推測し、それらの間で三度の親戚まで識別することができました。 分析のための一般的なSnv(MAF>0.05)を使用して、我々は第一度の親戚の11ペアと第三度の親戚の一組を同定しました。

次に、関係の程度がそれらの微生物叢の類似性に反映されているかどうかを判断しようとしました。 この分析のために我々は、すべてのドナー対の間のブレイ-カーティス距離を計算し、三つのグループにペアを分割しました: 同じ民族性、異なる民族性、および親戚(Fig. 4a)。 PCAから期待できるように、民族グループ内のサンプルは、異なる民族グループからのサンプルよりも平均してわずかに類似していたが、関連するドナー間の 腸を除いて,すべての試験された身体部位において,親戚間のマイクロバイオームコミュニティ組成はランダムドナー対の間よりも類似しており,前鼻孔および頬粘膜では,無関係および関連する類似性スコアの間のtテストによっても効果は統計的に有意であった。 膣サンプルの場合、その効果も顕著であったが、統計的有意性を達成するのに十分な雌-雌のペアがなかった。

図1.1.1. 4
図4

既知の関連の親族およびマイクロバイオームの類似性および複製。 他のペア間の類似性と比較して、遺伝子データから同定された近親者(第三度または近い)の12ペア間のブレイ-カーティスの類似性。 P値は、他のすべてのペアに対する親戚の類似度スコア間のt検定の結果に対応します。 FUT2分泌変異体とB.longumとの間のB関連。 LCT遺伝子の近くの遺伝的変異rs4988235とB.longumとの間のC関連。 Bとcの両方で、log10変換された相対存在量を表示します

fut2とLCT遺伝子型はBifidobacterium longum

に関連付けられているマイクロバイオーム組成に対する個々の遺伝的変異体の影響を研究するために、我々はFUT2とLCTの既知の関連 FUT2は粘膜のグリカンへの末端のフコースの残余の移動に責任があります。 ビフィズス菌はまた、粘液由来のフコースを炭素源として使用し、B.longumの豊富さと多様性は、分泌物と比較して非分泌物(fut2、rs601338に早期停止コドンを有する個体)

この関連付けがHMPコホートで検証できるかどうかを決定するために、我々は、ホストフコシルトランスフェラーゼ分泌遺伝子型(MAF=0.41)と相関する微生物種を 我々は、分泌遺伝子型投与量に基づいて、各個々の種の相対的な存在量を予測するために線形回帰を使用しました。 B. longumは、試験された118種の中で最も強い相関を有していた(FDR=0.018;Fig. 非分泌型遺伝子型と比較して分泌型遺伝子型における相対的な存在量が増加していることを特徴とする。 この知見は、以前の実験的観察と一致しており、コホートが標的微生物-宿主関連仮説を検証するのに十分なパワーを与えられていることを示している。

同様に、LCTは腸内の乳糖代謝ビフィズス菌の豊富さの増加と関連している。 LCTはラクターゼ、上部消化管の乳糖を破壊するために責任がある酵素を符号化します; 増加したビフィズス菌と並行して、これはより多くの食餌性乳糖が大腸に集まることを示唆している。 成人期または乳糖不耐症(hypolactasia)でラクターゼを産生する能力は、lctに近いrs4988235SNVにおけるホモ接合g対立遺伝子の存在によって制御される。 牛乳の消費量とビフィズス菌の豊富さは、hypolactasia遺伝子変異体を持つ人々にのみ正の相関があるという最近の発見は、このメカニズムをサポートしています。

HMPコホートでは、我々はhypolactasiaと代替変異体とドナー間の便中の細菌種の存在量を比較しました。 Hypolactasiaは劣性形質であるため、我々は145ドナーの残りの部分にホモ接合G遺伝子型と64ドナーを比較するためにtテストを使用しました。 この変異体の存在に対する118個の個々の種の存在量のそれぞれを試験した後、本発明者らは、B.longumが最も強い効果を有し(FDR=0.095)、それによって以前に見つ 4c)。

宿主ゲノム変異体との微生物の関連付けは体部位特異的

最後に、我々は、ゲノム全体の関連付け研究を通じて直接非標的化された方法で宿主ゲノ 我々は、MAF>0.1とSnvに集中し、微生物種と代謝経路レベルの存在量の両方にそれらを比較し、各身体部位のために別々に分析を行った。 性別、民族性、およびサンプル収集場所の影響を考慮して、通常の線形回帰モデルを使用しました。 微生物の特徴(方法を参照)をフィルタリングした後、我々は消化管および経口サンプルで120-160種と皮膚および膣サンプルで約25種を同定した。 フィルタリングを通過する代謝経路の数は、サイトあたり350と530の主要な経路の間で、かなり高かった。 一緒に分析におけるSnv、ボディサイト、および微生物の特徴の多数は、厳格な有意性基準を課す(p<3×10-12複数のテストのためのBonferroni補正によると)、私たちの適度なサンプルサイズとの組み合わせで、非常に大きな効果サイズとの関連に私たちの発見の可能性を制限します。

このため、我々はまず、国立ヒトゲノム研究所(NHGRI)ゲノムワイド協会研究(GWAS)カタログに記載されているSnvに解析を限定し、これらのSnvにはマイクロバイオームの特性に影響を与える可能性のあるゲノム変異体が豊富に含まれていると仮定した。 このセットには、複雑な疾患から人体測定に至るまでの多様な定量的形質のセットに関連するSnvが含まれていました。 これらのSnvの合計16,869は、私たちのデータで発見されたが、我々はSnvのこのサブセットを使用して任意の重要な関連付けを検出しませんでした。 さらに、比較の分位点-分位点プロットによれば、比較の間でより小さいp値の体系的な濃縮はなかった(追加ファイル1:図S6およびS7)。 我々は、炎症性腸疾患または高レベルのGWASカタログサブカテゴリ(例えば、”免疫系障害”、”消化器系”)のいずれかに関連付けられているさらに制約された変異セッ

次に、すべての一般的なSnvについて関連分析を実行しました。 複数の検定補正された有意性限界よりも小さいp値との関連は見られませんでした。 しかし、比較的小さなp値を持つ多くの関連付け(追加ファイル1:図S8およびS9および表S2)がありました。 これらの関連は、将来のマイクロバイオーム全体の関連研究や特定の遺伝子や微生物種に興味のある研究者のための豊富な情報源を形成します。

HMPコホートのユニークなデザインのため、身体部位間の関連性の性質も調査することができました。 発現定量的形質遺伝子座における研究は、組織間の遺伝子発現-遺伝子型関連の顕著な安定性を報告している。 ここでは、複数の身体部位の協会ランキングのトップにSNV-微生物のペアを観察せず、これらの協会のより間接的な性質と各身体部位のユニークなコミ 関連する生物に関係なく、各身体部位からの最良のp値の分布を考慮すると、偶然に予想されるよりも微生物と強く関連しているSnvはまだ見つか この発見はさらに、マイクロバイオーム組成の背後にある遺伝的メカニズムが身体部位特異的であることを示唆している。



+