Variation génétique de l’hôte et ses interactions avec le microbiome au sein du Projet Microbiome humain

Séquençage de l’ADN de haute qualité de la cohorte HMP

La conception de la cohorte HMP et la collecte d’échantillons ont été décrites en profondeur. En bref, la cohorte HMP comprend 300 donneurs recrutés dans deux endroits aux États-Unis. La majorité des donneurs (71%) étaient d’origine caucasienne; les donneurs restants étaient d’ascendance africaine (6%), asiatique (9%), latino (11%) ou mixte (3 %). Le ratio hommes/femmes était à peu près égal, avec 151 femmes et 149 hommes. L’objectif de la sélection des donneurs était de trouver des personnes en bonne santé, sans consommation récente de médicaments ni antécédents de maladie, appartenant à un groupe d’âge similaire (19-40 ans) et ayant un indice de masse corporelle relativement sain (IMC de 19-34 kg / m2).

Pour obtenir des informations sur le génome de l’hôte, l’ADN génomique du sang de 298 des 300 individus a été séquencé à l’aide d’un séquençage sans PCR. La couverture moyenne du séquençage était de 32,77 x, avec une plage de 23,9× à 56,7× (Fig. 1). La contamination et le pourcentage de lectures chimériques étaient tous deux bien inférieurs à la limite standard de 5 % dans tous les échantillons (fichier supplémentaire 1: Figure S1A). La distribution d’autres mesures de qualité, telles que la taille des encarts et le pourcentage de lectures alignées par paires, n’a mis en évidence aucun échantillon aberrant clair; par conséquent, tous les échantillons ont été inclus dans une analyse plus approfondie. Le nombre de variantes était également remarquablement stable à ~ 2 M de polymorphismes nucléotidiques simples (SNP) et 200 K d’indels par personne (Fig. 1), à l’exception des donneurs afro-américains, qui avaient une diversité génétique plus élevée (fichier supplémentaire 1: Figure S1B). Il n’y avait pas de corrélation détectable entre la profondeur du séquençage et le nombre de variants récupérés, ce qui indique que la profondeur dans tous les échantillons était suffisante.

Fig. 1
 figure1

Aperçu du génome hôte et de la couverture du métagénome du Projet Microbiome humain. Profondeur de séquençage pour chaque génome hôte (à gauche) et nombre de lectures pour tous les échantillons disponibles avec séquençage complet du métagénome

Ces données fournissent un appariement presque complet du séquençage du génome humain aux amplicons microbiens et aux métagénomes dans l’ensemble de la cohorte HMP. La variation génétique de cette cohorte a déjà été déduite en utilisant des lectures humaines de « contaminants » à partir des données WMS de 93 sujets. Bien que cela fournisse une couverture moyenne du génome humain de ~ 10 ×, elle variait considérablement entre les échantillons et pour beaucoup n’atteignait que 5 ×. Cela était suffisant pour détecter 13 M de variants génétiques au total, 5,5 M avec un CRG > 0,05. En comparaison, notre étude a plus que triplé le nombre de donneurs, et en ciblant directement l’ADN de l’hôte, nous avons identifié deux fois plus de variantes dans l’ensemble avec une couverture uniforme (minimum 25×) entre les échantillons. Cela a augmenté la qualité de tous les échantillons et a généré un ensemble de données complet qui peut être extrait dans ce travail ainsi que dans de futures études.

Les résultats du séquençage sont cohérents avec ceux d’autres populations comparables

Après filtrage en fonction de la qualité et de l’emplacement dans des régions de faible complexité, il restait 29 M de variantes, constituées de 26,7 M de SNV et de 2,3 M d’insertions-suppressions (indels) (fichier supplémentaire 1: Tableau S1). Par rapport aux projets GoNL et 1000 Génomes, les SNV de 5,1 M et les indels de 856 K étaient nouveaux, mais la majorité d’entre eux étaient rares (Fig. 2 bis). En revanche, les variantes communes que nous avons identifiées (CRG > 5 %) étaient presque universellement partagées entre les trois cohortes. Dans l’ensemble, nous avons identifié 7.8 M de variantes supplémentaires par rapport au consortium GoNL de taille similaire. Étant donné que de nombreuses variantes étaient également présentes dans le projet 1000 Génomes, nous attribuons la différence à la plus grande diversité ethnique de la cohorte HMP. Bien qu’un grand nombre de SNV soient uniques à chaque cohorte, la proportion de variants tombant dans les régions introniques, exoniques et intergéniques du génome était presque identique entre les cohortes (fichier supplémentaire 1: Figure S2).

Fig. 2
 figure2

Distribution des variantes génétiques et comparaison avec d’autres cohortes. a Variants découverts classés par fréquence et chevauchement avec d’autres cohortes. Nombre d’allèles AC, fréquence des allèles mineurs MAF. b Distribution du nombre de mutations codantes par fréquence et impact estimé

Nous avons ensuite annoté des variantes de codage à l’aide du plugin LOFTEE pour l’outil VEP, qui classe les variantes en classes en fonction de leur impact sur la séquence de codage. Le nombre de variants à fort impact, définis comme ceux qui entraîneraient une perte de fonction d’un gène particulier, était de 2670 (Fichier supplémentaire 1: Tableau S2); ce résultat est cohérent avec la sélection négative active contre ces variantes. La sélection négative était également évidente à partir de la distribution de fréquence des allèles, car la gravité de l’impact d’un allèle était fortement liée à sa fréquence dans la population. Par exemple, les variantes à fort impact ont été considérablement enrichies en variantes qui n’ont été observées qu’une seule fois dans notre jeu de données (Fig. 2b, AC1). La distribution des mutations codantes entre les gènes n’était pas non plus uniforme, un petit nombre de gènes capturant un grand nombre de variants. Trente gènes présentaient plus de cinq variantes potentielles de perte de fonction à fort impact, et six gènes présentaient plus de dix variantes. Le petit nombre de gènes présentant des mutations codantes à fort impact suggère que cette cohorte était trop petite pour que des tests de charge puissent établir des corrélations entre la fréquence des mutations au sein d’un gène et les caractéristiques microbiennes. Au lieu de cela, nous avons concentré notre analyse sur l’identification des associations entre les variants communs et les taxons microbiens ou le potentiel fonctionnel.

Taxons microbiens et potentiel fonctionnel à six sites corporels

Pour le PGH, des échantillons de microbiome ont été prélevés à partir de 18 sites corporels, répartis en cinq zones principales : tractus gastro-intestinal (GI), cavité buccale, peau, narines et vagin. Dans certains cas, des échantillons répétés ont été prélevés au fil du temps pour évaluer la stabilité temporelle du microbiome. Au total, plus de 5000 échantillons ont été caractérisés à l’aide du séquençage du gène de l’ARNr 16S et plus de 2000 à l’aide de shotgun WMS. La première approche donne une vue d’ensemble de la composition taxonomique, tandis que la seconde permet l’identification au niveau de l’espèce et le profilage du potentiel fonctionnel du microbiome. Nous avons donc utilisé les données WMS dans les analyses ultérieures. La distribution des échantillons avec SMO n’était pas équivalente entre les sites du corps, la plupart des échantillons provenant de six emplacements représentant quatre des principales zones décrites ci-dessus: intestin (selles), bouche (muqueuse buccale, plaque supragingivale, dos de la langue), narines (narines antérieures) et vaginales (fornix postérieur); aucune donnée sur le SMO n’était disponible à partir des échantillons de peau. Dans les six sites du corps, le nombre de donneurs variait de 80 pour le fornix postérieur vaginal à 209 pour les échantillons intestinaux; le nombre moyen de lectures par échantillon variait de 34 M pour le fornix postérieur à 86 M pour le dos de la langue. En utilisant les données WMS de ces échantillons, nous avons identifié la composition taxonomique à l’aide de MétaPhlan2 et le potentiel fonctionnel à l’aide de HUMAnN2. Ces résultats ont ensuite été analysés pour déterminer les associations avec la variation génétique de l’hôte.

Les principaux composants génomiques humains sont en corrélation avec la composition du microbiome

Pour comparer la variation génétique de l’hôte avec la variation microbienne, nous avons d’abord évalué le degré de corrélation entre les modèles génétiques de haut niveau et la composition du microbiome. L’APC sur le SNV commun (CRG > 0,05) a démontré que les cinq premières composantes principales représentaient principalement l’ascendance ethnique et raciale des donneurs. Par exemple, la génétique de l’hôte chez les Afro-Américains, l’un des deux groupes d’Américains d’origine asiatique et chez les sujets caucasiens a montré l’effet le plus fort (Fig. 3 bis). Pour comparer davantage la variation génétique globale à d’autres cohortes, nous avons également ordonné conjointement un ensemble de données combiné de participants au génome HMP300 et 1000, en utilisant des SNV avec un CRG > 0,05 dans les deux cohortes. Les individus des deux cohortes se répartissent dans l’espace des composantes principales résultant de manière presque identique selon l’ascendance (fichier supplémentaire 1 : Figure S3).

Fig. 3
 figure3

Corrélation entre la variation génétique de haut niveau et la composition du microbiome. a Les deux premières composantes de l’analyse génétique en composantes principales sont présentées, sur la base de variants nucléotidiques simples communs, superposés à l’origine ethnique autodéclarée du donneur. AA Afro-américain. b Montre combien la variance moyenne des données sur le microbiome peut être expliquée par les composantes génétiques principales, par rapport à la permutation sur les mêmes données. Les valeurs indiquées sont des scores Z basés sur des permutations, qui ont également été utilisés pour calculer des valeurs empiriques de p. c Distribution des valeurs R2 du composant principal génétique pour différentes espèces et voies dans les selles. L’axe des ordonnées montre la variance expliquée et l’axe des abscisses montre les valeurs empiriques de p basées sur la permutation pour chacun de ces nombres. Seuls les noms des espèces dont le taux de fausse découverte (FDR) < 0,05 et le FDR des voies < 0,01 sont indiqués. L’histogramme ci-dessous affiche la distribution des valeurs empiriques de p, et l’axe des ordonnées montre le nombre d’espèces dans un bac. Les barres vertes sous l’histogramme de la voie montrent comment les voies associées à la fermentation sont classées par R2

Ensuite, pour HMP300, nous avons calculé quel pourcentage de variation microbienne dans les six sites du corps pouvait être expliqué (R2) par les cinq premiers composants principaux du génome de l’hôte. Dans les échantillons de selles, le pourcentage de variation au niveau de l’espèce expliqué par les composantes principales de l’hôte était de 3,8 %, plus élevé que prévu par le hasard seul (p empirique = 0,0001; Fig. 3b). La distribution des valeurs empiriques de p pour les valeurs de R2 de l’espèce individuelle a été fortement décalée vers zéro (Fig. 3c), indiquant que les corrélations fortes ne se limitaient pas à quelques espèces, mais que la structure génétique des populations influençait les configurations microbiennes globales. Nous avons observé un effet similaire sur le niveau des espèces dans les sites oraux. Dans la muqueuse buccale, les composantes principales génomiques ont décrit en moyenne 5,2% (p empirique = 0,0008) de la variation au niveau de l’espèce; dans le dos de la langue, ce chiffre était de 4,1% (p empirique = 0,0034). Dans une analyse identique de l’abondance de la voie métabolique des métacyques, nous avons constaté que seules les voies dans les microbiomes intestinaux étaient significativement corrélées avec les composants principaux des variantes communes. En résumé, l’association entre les caractéristiques génétiques de l’hôte de haut niveau et les propriétés du microbiome était significative à plusieurs sites du corps.

Lors de l’examen de la corrélation des caractéristiques microbiennes individuelles avec la génétique de l’hôte qui a contribué à ces moyennes, certaines caractéristiques ont montré des associations individuelles beaucoup plus fortes. Dans les selles, où la corrélation génétique était la plus forte, cinq espèces sur 118 étaient associées de manière significative (taux de fausses découvertes (FDR) < 0,05 par test de permutation), les valeurs de R2 atteignant près de 10% (Fig. 3c). Parmi ces cinq espèces, les bactéries Lachnospiraceae, Roseburia intestinalis et Subdoligranulum (non classées) ont toutes été corrélées positivement avec la première composante principale génomique, démontrant que ces espèces ont une abondance plus élevée chez les donneurs d’origine caucasienne. Une autre espèce importante, Sutterella wadsworthensis, a été associée au PC4, qui sépare les donneurs d’origine asiatique en deux groupes. En examinant d’autres sites corporels, nous avons constaté que Porphyromonas catoniae, Propionibacterium propionicum et Gemella non classifiée étaient significativement associées à la variation génomique de l’hôte dans la muqueuse buccale (fichier supplémentaire 1: Figure S4 et tableau S1).

Une analyse similaire au niveau des voies a révélé un grand nombre (82 sur 541) de voies significativement corrélées (FDR < 0,05 comme ci-dessus) avec les principaux composants génétiques des selles (Fig. 3c). Plusieurs voies étaient liées à la biosynthèse et à la dégradation des acides aminés et des acides gras à chaîne courte. Dans une vue plus systématique, nous avons constaté que les membres de la superclasse de fermentation de la base de données MetaCyc étaient considérablement enrichis dans les classements des voies supérieures (Fig. 3c). La plupart de ces voies étaient associées à la première composante génétique principale qui distingue les donneurs blancs des autres ancêtres raciaux ou ethniques. De tels enrichissements fonctionnels peuvent indiquer des différences ethniques dans l’alimentation, mais aussi une variabilité génétique dans la capacité de métaboliser certains nutriments.

Dans d’autres sites du corps, la variabilité au niveau des voies n’était en moyenne pas corrélée avec les composantes principales génétiques, bien que certaines voies corrélées individuelles aient été trouvées (fichier supplémentaire 1: Figure S5 et tableau S1). Par exemple, un certain nombre de voies dans les microbiomes du dos de la langue sont fortement corrélées avec les principaux composants génétiques. Fait intéressant, presque toutes les voies associées étaient liées à la respiration et au cycle de l’acide tricarboxylique (ATC), indiquant un gradient d’oxygène et des différences de respiration aérobie par les organismes oraux du dos de la langue entre les donneurs. L’enrichissement du cycle du TCA dans le microbiome buccal et la fermentation dans le microbiome intestinal reflètent les caractéristiques métaboliques dominantes des microbiomes correspondants et montrent comment ceux-ci peuvent être affectés par la génétique de l’hôte et des facteurs environnementaux corrélés à l’ascendance génétique.

Les donneurs apparentés ont des microbiomes similaires

Bien que la cohorte HMP comprenne des donneurs liés les uns aux autres, cette information n’était pas disponible dans les métadonnées collectées. Le séquençage génomique des donneurs nous a permis de déduire l’étendue de la relation entre toutes les paires de donneurs et d’identifier des parents jusqu’au troisième degré parmi eux. En utilisant des SNV communs (CRG > 0,05) pour l’analyse, nous avons identifié 11 paires de parents du premier degré et une paire de parents du troisième degré.

Nous avons ensuite cherché à déterminer si le degré de relation se reflétait dans la similitude de leurs microbiomes. Pour cette analyse, nous avons calculé la distance de Bray-Curtis entre toutes les paires de donneurs et divisé les paires en trois groupes: même ethnie, ethnie différente et parents (Fig. 4 bis). Comme on pouvait s’y attendre d’après l’APC, les échantillons au sein des groupes ethniques étaient en moyenne légèrement plus similaires que les échantillons de différents groupes ethniques, mais la similitude du microbiome entre les donneurs apparentés était plus prononcée. À l’exception de l’intestin, dans tous les sites du corps testés, la composition de la communauté du microbiome entre parents était plus similaire qu’entre paires de donneurs aléatoires; dans les narines antérieures et la muqueuse buccale, l’effet était également statistiquement significatif par test t entre les scores de similarité non liés et apparentés. Pour les échantillons vaginaux, l’effet était également prononcé, mais nous n’avions pas assez de paires femme-femme pour obtenir une signification statistique.

Fig. 4
 figure4

La parenté et la similitude du microbiome et la réplication d’associations connues. une similitude de Bray-Curtis entre les 12 paires de parents proches (au troisième degré ou plus proches) identifiées à partir de données génétiques par rapport aux similitudes entre d’autres paires. Les valeurs p correspondent aux résultats des tests t entre les scores de similarité pour les parents, par rapport à toutes les autres paires. association b entre la variante du sécréteur FUT2 et B. longum. association c entre la variante génétique rs4988235 près du gène LCT et B. longum. En b et en c, nous affichons l’abondance relative transformée log10

Les génotypes FUT2 et LCT sont associés à Bifidobacterium longum

Pour étudier l’influence des variants génétiques individuels sur la composition du microbiome, nous avons commencé par des associations connues de FUT2 et LCT. FUT2 est responsable du transfert des résidus de fucose terminaux vers les glycanes de la muqueuse. Les bifidobactéries utilisent également du fucose dérivé du mucus comme source de carbone, et l’abondance et la diversité de B. longum sont significativement plus faibles chez les non-sécréteurs (individus avec un codon d’arrêt prématuré dans FUT2, rs601338) que chez les sécréteurs.

Pour déterminer si cette association pouvait être vérifiée dans la cohorte HMP, nous avons recherché des espèces microbiennes corrélées au génotype sécréteur de la fucosyltransférase de l’hôte (CRG = 0,41). Nous avons utilisé la régression linéaire pour prédire l’abondance relative de chaque espèce individuelle en fonction du dosage du génotype sécréteur. B. longum avait la corrélation la plus forte des 118 espèces testées (FDR = 0,018; Fig. 4b), avec une abondance relative accrue dans le génotype sécréteur par rapport au génotype non sécréteur. Cette découverte est cohérente avec les observations expérimentales précédentes et démontre que la cohorte est suffisamment alimentée pour valider des hypothèses d’association microbienne-hôte ciblées.

De même, la LCT a été associée à une abondance accrue de bifidobactéries métabolisant le lactose dans l’intestin. Le LCT code pour la lactase, l’enzyme responsable de la décomposition du lactose dans le tractus gastro-intestinal supérieur; en tandem avec une augmentation des bifidobactéries, cela suggère que plus de lactose alimentaire s’accumule dans le gros intestin. La capacité à produire de la lactase à l’âge adulte ou une intolérance au lactose (hypolactasie) est contrôlée par la présence d’un allèle G homozygote dans rs4988235 SNV proche de la LCT. Une découverte récente selon laquelle la consommation de lait et l’abondance des bifidobactéries n’est corrélée positivement que chez les personnes atteintes de la variante du gène de l’hypolactasie soutient ce mécanisme.

Dans la cohorte HMP, nous avons comparé l’abondance des espèces bactériennes dans les selles entre donneurs avec l’hypolactasie et des variantes alternatives. Comme l’hypolactasie est un trait récessif, nous avons utilisé un test t pour comparer les 64 donneurs avec le génotype G homozygote au reste des 145 donneurs. Après avoir testé l’abondance de chacune des 118 espèces individuelles par rapport à la présence de cette variante, nous avons constaté que B. longum avait l’effet le plus fort (FDR = 0,095), confirmant ainsi l’association précédemment trouvée (Fig. 4c).

Les associations microbiennes avec des variantes du génome de l’hôte sont spécifiques au site du corps

Enfin, nous avons évalué les associations entre le génome de l’hôte et la variation du microbiome de manière non ciblée directement par le biais d’une étude d’association à l’échelle du génome. Nous avons effectué l’analyse séparément pour chaque site corporel, en nous concentrant sur les SNV dont le CRG > 0,1 et en les comparant aux abondances au niveau des espèces microbiennes et des voies métaboliques. Nous avons utilisé des modèles de régression linéaire ordinaires, en tenant compte des effets du sexe, de l’origine ethnique et du lieu de collecte des échantillons. Après avoir filtré les caractéristiques microbiennes (voir Méthodes), nous avons identifié 120 à 160 espèces dans des échantillons de voies gastro-intestinales et buccales et environ 25 espèces dans des échantillons cutanés et vaginaux. Le nombre de voies métaboliques passant par le filtrage était considérablement plus élevé, entre 350 et 530 voies principales par site. Ensemble, le grand nombre de SNV, de sites corporels et de caractéristiques microbiennes dans l’analyse imposent un critère de signification strict (p < 3 × 10-12 selon la correction de Bonferroni pour les tests multiples), ce qui, combiné à la taille modeste de notre échantillon, limite notre potentiel de découverte aux associations avec de très grandes tailles d’effets.

Pour cette raison, nous avons d’abord limité notre analyse aux SNV trouvés dans le catalogue des études d’association à l’échelle du génome (GWAS) du National Human Genome Research Institute (NHGRI), en émettant l’hypothèse que ces SNV ont été enrichis de variantes génomiques qui ont un impact potentiel sur les propriétés du microbiome. Cet ensemble comprenait des SNV associés à un ensemble diversifié de traits quantitatifs allant des maladies complexes aux mesures anthropométriques. Un total de 16 869 de ces SNV ont été trouvés dans nos données, mais nous n’avons détecté aucune association significative en utilisant ce sous-ensemble de SNV. De plus, selon le tracé quantile-quantile des comparaisons, il n’y a pas eu d’enrichissement systématique de valeurs de p plus petites parmi les comparaisons (fichier supplémentaire 1 : Figures S6 et S7). Nous n’avons pas obtenu de résultats significatifs avec des ensembles de variantes encore plus restreints associés à une maladie inflammatoire de l’intestin ou à l’une des sous-catégories du catalogue GWAS de haut niveau (par exemple, « troubles du système immunitaire », « système digestif »).

Nous avons ensuite effectué l’analyse d’association sur tous les SNV courants. Nous n’avons constaté aucune association avec des valeurs de p inférieures à plusieurs limites de signification corrigées par les tests. Cependant, il y avait un certain nombre d’associations (fichier supplémentaire 1 : Figures S8 et S9 et Tableau S2) avec des valeurs de p relativement petites. Ces associations constituent une riche source d’informations pour les futures études d’association à l’échelle du microbiome et les chercheurs intéressés par des gènes ou des espèces microbiennes spécifiques.

En raison de la conception unique de la cohorte HMP, nous avons également pu étudier la nature des associations entre les sites du corps. Des études sur les loci de caractères quantitatifs d’expression ont rapporté une stabilité remarquable des associations expression génique-génotype à travers les tissus. Ici, nous n’avons observé aucune paire SNV-microbe dans le haut du classement des associations pour plusieurs sites de corps, démontrant la nature plus indirecte de ces associations ainsi que les principes de construction communautaire uniques pour chaque site de corps. En considérant la distribution des meilleures valeurs de p de chaque site corporel, quel que soit l’organisme associé, nous n’avons toujours pas trouvé de SNV qui étaient plus fortement associés aux microbes que prévu par hasard. Cette découverte suggère en outre que les mécanismes génétiques à l’origine de la composition du microbiome sont spécifiques au site corporel.



+