genetische variatie van de gastheer en zijn interacties met microbioom binnen het Human Microbiome Project

hoogwaardige DNA-sequencing van de HMP-cohort

het ontwerp en de monsterverzameling van de HMP-cohort zijn diepgaand beschreven . In het kort omvat het HMP-cohort 300 donoren die op twee locaties in de VS zijn aangeworven. De meerderheid van de donoren (71%) was van Kaukasische oorsprong; de overige donoren waren van Afrikaanse (6%), Aziatische (9%), Latino (11%) of gemengde (3%) afkomst. De verhouding man / vrouw was ongeveer gelijk, met 151 vrouwen en 149 mannen. Het doel bij het selecteren van donoren was om gezonde personen te vinden zonder recent medicijngebruik of ziektegeschiedenis, die tot een vergelijkbare leeftijdsgroep (19-40 jaar) behoorden en die een relatief gezonde body mass index (BMI van 19-34 kg/m2) hadden.

om informatie over het gastgenoom te verkrijgen, werd genomisch DNA uit het bloed van 298 van de 300 individuen gesequenced met behulp van PCR-vrije sequencing. De gemiddelde sequencing dekking was 32,77 x, met een bereik van 23,9× tot 56,7× (Fig. 1). Contaminatie en het percentage chimerische reads lagen beide ver onder de standaard cut-off van 5% in alle monsters (aanvullend dossier 1: Figuur S1A). De verdeling van andere kwaliteit metrics zoals insert grootte en percentage van Leest die uitgelijnd in paren niet duidelijk uitschieter monsters markeren; daarom, alle monsters werden opgenomen in verdere analyse. Het variantgetal was ook opmerkelijk stabiel bij ~ 2 M enkelvoudige nucleotide polymorfismen (SNPs) en 200 K indels per persoon (Fig. 1), met uitzondering van de Afro-Amerikaanse donoren, die een hogere genetische diversiteit hadden (aanvullend dossier 1: Figuur S1B). Er was geen detecteerbare correlatie tussen de sequentiediepte en het aantal teruggevonden varianten, wat erop wijst dat de diepte in alle monsters voldoende was.

Fig. 1
figuur 1

overzicht van het menselijke microbioom Project gastheergenoom en metagenome dekking. Het rangschikken van diepte voor elk gastheergenoom (links) en aantal leest voor alle beschikbare steekproeven met het gehele metagenome rangschikken

deze gegevens verstrekken het bijna volledige in paren rangschikken van menselijk genoom aan microbiële amplicons en metagenomes over de volledige HMP-cohort. De genetische variatie in dit cohort werd eerder afgeleid gebruikend “contaminant” menselijke leest van 93 onderwerpen WMS gegevens . Terwijl dit een gemiddelde menselijke genoomdekking van ~ 10× verstrekte, varieerde het zeer tussen steekproeven en voor velen bereikte slechts 5×. Dit was voldoende om in totaal 13 m genetische varianten te detecteren, 5,5 m met MAF > 0,05. Ter vergelijking, onze studie meer dan verdrievoudigde het aantal donoren, en door direct gericht op de gastheer DNA, identificeerden we twee keer zoveel varianten in het algemeen met een gelijkmatige dekking (minimaal 25×) tussen de monsters. Dit verhoogde de kwaliteit van alle monsters en genereerde een complete dataset die zowel in dit werk als in toekomstige studies kan worden ontgonnen.

Sequentieresultaten zijn consistent met die van andere vergelijkbare populaties

na filtering op basis van kwaliteit en locatie in gebieden met een lage complexiteit bleven 29 m varianten over, bestaande uit 26,7 m SNV ‘ s en 2,3 M insertions-deletions (indels) (aanvullend bestand 1: tabel S1). In vergelijking met de GoNL en de 1000 Genomen projecten waren 5,1 M SNV ‘ s en 856 K indels nieuw, maar de meerderheid van deze waren zeldzaam (Fig. 2 bis). De door ons geïdentificeerde gemeenschappelijke varianten (maf > 5%) werden daarentegen bijna universeel gedeeld tussen de drie cohorten. In totaal hebben we er 7 geïdentificeerd.8 M meer varianten in vergelijking met het even grote GoNL consortium. Aangezien veel van de varianten ook aanwezig waren in het 1000 Genomen Project, schrijven we het verschil toe aan de grotere etnische diversiteit in de HMP cohort. Hoewel een groot aantal SNV ‘ s uniek waren voor elke cohort, was het aandeel van varianten die in intronische, exonische en intergene gebieden van het genoom vielen, bijna identiek tussen cohorten (aanvullend dossier 1: Figuur S2).

Fig. 2
figuur 2

verspreiding van genetische varianten en vergelijking met andere cohorten. een ontdekte varianten gecategoriseerd door frequentie en overlapping met andere cohorten. AC allel count, MAF minor allel frequentie. b verdeling van het aantal coderingsmutaties naar frequentie en geschat effect

we vervolgens geannoteerd codering varianten met behulp van de LOFTEE plugin voor de VEP tool , die varianten categoriseert in klassen op basis van hun impact op de codering sequentie. Het aantal varianten met hoge impact, gedefinieerd als die welke zouden leiden tot verlies van functie van een bepaald gen, was 2670 (aanvullend dossier 1: tabel S2); dit resultaat is consistent met actieve negatieve selectie tegen deze varianten. Negatieve selectie was ook duidelijk uit de verdeling van de allelfrequentie, omdat de ernst van de impact van een allel sterk gerelateerd was aan de frequentie ervan in de populatie. Bijvoorbeeld, high-impact varianten werden sterk verrijkt in varianten die slechts één keer werden waargenomen in onze dataset (Fig. 2b, AC1). De distributie van codeerveranderingen onder genen was ook niet uniform, met een klein aantal genen die een groot aantal varianten vastleggen. Dertig genen toonden meer dan vijf potentiële high-impact loss-of-function varianten, en zes genen hadden meer dan tien varianten. Het kleine aantal genen met veranderingen van de hoog-effectcodering suggereerde dat dit cohort te klein was voor het testen van de last om correlaties tussen de mutatiefrequentie binnen een gen en microbiële eigenschappen te trekken. In plaats daarvan richtten we onze Analyse op het identificeren van associaties tussen gemeenschappelijke varianten en microbiële taxa of functioneel potentieel.

microbiële taxa en functioneel potentieel op zes lichaamsplaatsen

voor de HMP werden microbiome-monsters verzameld op 18 lichaamsplaatsen, verdeeld over vijf belangrijke gebieden: maag-darmkanaal, mondholte, huid, nares en vagina. In sommige gevallen werden de herhaalde steekproeven in tijd verzameld om tijdelijke stabiliteit van microbiome te beoordelen. In totaal, werden meer dan 5000 steekproeven gekenmerkt gebruikend 16S rRNA gen rangschikkend en meer dan 2000 gebruikend Jachtgeweer WMS. De eerste benadering geeft een overzicht op hoog niveau van taxonomische samenstelling, terwijl de laatstgenoemde soortidentificatie en het profileren van functioneel potentieel van microbiome toestaat. Daarom hebben we WMS-gegevens gebruikt in latere analyses. De verdeling van de monsters met WMS was niet gelijkwaardig over de plaatsen op het lichaam, waarbij de meeste monsters werden genomen van zes plaatsen die vier van de hierboven beschreven belangrijke gebieden vertegenwoordigden: darm (ontlasting), orale (buccale mucosa, supragingivale plaque, tong dorsum), nares (anterior nares) en vaginale (posterior fornix); er waren geen WMS-gegevens beschikbaar van de huidmonsters. Binnen de zes lichaamsplaatsen varieerde het aantal donoren van 80 voor vaginale posterior fornix tot 209 voor darmmonsters; het gemiddelde aantal metingen per monster varieerde van 34 M voor posterior fornix tot 86 M voor tong dorsum. Met behulp van de WMS-gegevens van deze monsters identificeerden we taxonomische samenstelling met behulp van Metaflan2 en functioneel potentieel met behulp van Mens2 . Deze outputs werden toen geanalyseerd voor associaties met gastheergenetische variatie.

menselijke genomische hoofdbestanddelen correleren met de samenstelling van het microbioom

om de genetische variatie van de gastheer te vergelijken met de microbiële variatie, hebben we eerst de mate onderzocht waarin genetische patronen op hoog niveau gecorreleerd kunnen worden met de samenstelling van het microbioom. PCA op de gemeenschappelijke SNV ‘ s (MAF > 0,05) toonde aan dat de eerste vijf belangrijkste componenten voornamelijk de etnische en raciale afstamming van de donoren vertegenwoordigden. Bijvoorbeeld, gastheer genetica van de Afro-amerikaanse, een van de twee groepen van Aziatisch-Amerikaanse, en de Kaukasische proefpersonen toonde het sterkste effect (Fig. 3a). Om de Algemene genetische variatie verder te vergelijken met andere cohorten, hebben we ook gezamenlijk een gecombineerde dataset van hmp300 en 1000 Genomen deelnemers opgesteld, waarbij SNV ‘ s met MAF > 0,05 in beide cohorten werden gebruikt. Individuen van beide cohorten verdeeld in de resulterende hoofdcomponent ruimte bijna identiek volgens de voorouders (aanvullend bestand 1: Figuur S3).

Fig. 3
figuur 3

correlatie tussen genetische variatie op hoog niveau en microbiome samenstelling. a de eerste twee componenten van de analyse van de genetische hoofdcomponenten worden getoond, gebaseerd op gemeenschappelijke enkelvoudige nucleotidevarianten, bedekt door zelf gemelde donor etniciteit. AA Afro-Amerikaans. B getoond is hoeveel variantie in microbioomgegevens gemiddeld door de genetische belangrijkste componenten kan worden verklaard, wanneer vergeleken bij permutatie op dezelfde gegevens. De getoonde waarden zijn Z-scores op basis van permutaties, die ook werden gebruikt om empirische p-waarden te berekenen. C verdeling van de genetische belangrijkste component R2 waarden voor verschillende soorten en routes in de ontlasting. Y-as toont de variantie uitgelegd, en de X-as toont permutatie-gebaseerde empirische p waarden voor elk van deze getallen. Alleen de namen van soorten met false discovery rate (FDR) < 0,05 en pathways’ FDR < 0,01 worden weergegeven. Het histogram hieronder toont de verdeling van empirische p-waarden, en de Y-as toont het aantal soorten in een bak. Groene balken onder het pathway histogram laten zien hoe de routes die worden geassocieerd met fermentatie worden gerangschikt door R2

vervolgens hebben we voor HMP300 berekend welk percentage van de microbiële variatie in de zes lichaamsplaatsen kan worden verklaard (R2) door de eerste vijf hoofdcomponenten van het gastheergenoom. In ontlastingsmonsters was het percentage variatie op soortenniveau, verklaard door de belangrijkste componenten van de gastheer, 3,8%, hoger dan per toeval alleen werd verwacht (empirische p = 0,0001; Fig. 3b). De verdeling van de empirische p-waarden voor de R2-waarden van de afzonderlijke soorten werd sterk verschoven naar nul (Fig. 3c), wat erop wijst dat sterke correlaties niet beperkt waren tot een paar soorten, maar dat de genetische populatiestructuur de Algemene microbiële configuraties beïnvloedde. We hebben een vergelijkbaar effect waargenomen op het soortenniveau in orale plaatsen. In buccale mucosa werden de belangrijkste genomische componenten beschreven op gemiddeld 5,2% (empirische p = 0,0008) van de variatie op species-niveau; in tong dorsum was dit cijfer 4,1% (empirische p = 0,0034). In een identieke analyse van de abundantie van de metabolische route MetaCyc, vonden we alleen de routes in de darmmicrobiomen significant gecorreleerd met gemeenschappelijke variant hoofdcomponenten. Samengevat, was de vereniging tussen de genetische eigenschappen van de gastheer op hoog niveau en microbiome eigenschappen significant bij veelvoudige lichaamsplaatsen.

bij het onderzoeken van de correlatie van individuele microbiële kenmerken met gastheergenetica die bijdroegen aan deze gemiddelden, toonden bepaalde kenmerken veel sterkere individuele associaties. In de ontlasting, waar de genetische correlatie het sterkst was, werden vijf van de 118 soorten significant geassocieerd (false discovery rate (FDR) < 0,05 door permutatietest), met R2-waarden die bijna 10% bereikten (Fig. 3c). Van deze vijf soorten, Lachnospiraceae bacterie, roseburia intestinalis, en Subpoligranulum (niet geclassificeerd) waren alle positief gecorreleerd met de eerste genomische hoofdcomponent, waaruit blijkt dat deze soorten een hogere abundantie hebben in donors van Kaukasische oorsprong. Een andere belangrijke soort, Sutterella wadsworthensis, werd geassocieerd met PC4, dat donors van Aziatische oorsprong in twee groepen verdeelt. Het onderzoeken van andere lichaamsplaatsen, vonden wij dat Porphyromonas catoniae, Propionibacterium propionicum, en niet geclassificeerde Gemella beduidend met gastheergenomic variatie in buccal mucosa werden geassocieerd (aanvullend dossier 1: Figuur S4 en tabel S1).

een soortgelijke pathway-level analyse toonde aan dat een groot aantal (82 van 541) pathways significant (FDR < 0,05 zoals hierboven) correleerde met genetische hoofdbestanddelen in de ontlasting (Fig. 3c). Verschillende routes waren gerelateerd aan aminozuur en korte keten vetzuur biosynthese en degradatie. In een meer systematische visie, vonden we dat de leden van de fermentatie superklasse van de Metcyc database aanzienlijk waren verrijkt in de top pathway rankings (Fig. 3c). De meeste van deze wegen werden geassocieerd met de eerste genetische hoofdcomponent die witte donoren van andere raciale of etnische afstamming onderscheidt. Dergelijke functionele verrijkingen kunnen wijzen op etnische verschillen in voeding, maar ook op genetische variabiliteit in het vermogen om bepaalde voedingsstoffen te metaboliseren.

op andere plaatsen in het lichaam was de variabiliteit op pathway-niveau gemiddeld niet gecorreleerd met de belangrijkste genetische componenten, hoewel enkele individuele gecorreleerde routes werden gevonden (aanvullend dossier 1: Figuur S5 en tabel S1). Bijvoorbeeld, correleerde een aantal wegen in tong dorsum microbiomes sterk met genetische hoofdcomponenten. Interessant is dat bijna alle van de bijbehorende routes waren gerelateerd aan de ademhaling en de tricarbonzuur (TCA) cyclus, indicatief voor een zuurstof gradiënt en verschillen in aërobe ademhaling door orale organismen van de tong dorsum tussen donoren. De verrijking van de TCA-cyclus in het mondelinge microbioom en de fermentatie in het darmmicrobioom weerspiegelen de dominante metabolische eigenschappen van de overeenkomstige microbioom en tonen hoe deze door gastheergenetica en milieufactoren kunnen worden beà nvloed gecorreleerd met genetische voorouders.

verwante donoren hebben vergelijkbare microbiomen

hoewel het HMP-cohort aan elkaar gerelateerde donoren omvatte, was deze informatie niet beschikbaar in de verzamelde metagegevens. Genomische sequencing van de donoren stelde ons in staat om de mate van relatie tussen alle donorparen af te leiden en tot derdegraads verwanten onder hen te identificeren. Met behulp van gemeenschappelijke SNV ‘ s (MAF > 0,05) voor de analyse, identificeerden we 11 paren van eerstegraads verwanten en één paar derdegraads verwanten.Vervolgens probeerden we te bepalen of de mate van relatie weerspiegeld werd in de gelijkenis van hun microbiomen. Voor deze analyse berekenden we de Bray-Curtis afstand tussen alle donorparen en verdeelden de paren in drie groepen: dezelfde etniciteit, verschillende etniciteit, en familieleden (Fig. 4a). Zoals van de PCA kon worden verwacht, waren de steekproeven binnen etnische groepen gemiddeld iets meer gelijkaardig dan steekproeven van verschillende etnische groepen, maar microbiome gelijkenis tussen verwante donoren was meer uitgesproken. Met uitzondering van de darm was de samenstelling van de microbioomgemeenschap tussen verwanten in alle geteste lichaamsplaatsen gelijker dan tussen willekeurige donorparen; in anterieure nares en buccale mucosa was het effect ook statistisch significant door t-test tussen niet-gerelateerde en verwante gelijkvormigheidsscores. Voor vaginale monsters was het effect ook uitgesproken, maar we hadden niet genoeg vrouwelijke-vrouwelijke paren om statistische significantie te bereiken.

Fig. 4
figuur 4

verwantschap en microbiome gelijkenis en replicatie van bekende verenigingen. een Bray-Curtis gelijkenis tussen de 12 paren van naaste verwanten (derde graad of dichter) geïdentificeerd uit genetische gegevens in vergelijking met overeenkomsten tussen andere paren. De p-waarden komen overeen met de resultaten van t-tests tussen gelijkvormigheidsscores voor verwanten, ten opzichte van alle andere paren. B associatie tussen FUT2 secretor variant en B. longum. C associatie tussen genetische variant rs4988235 nabij het LCT gen en B. longum. In zowel b Als c tonen we log10 getransformeerde relatieve overvloed

FUT2 en LCT genotypes worden geassocieerd met Bifidobacterium longum

om de invloed van individuele genetische varianten op de samenstelling van microbiomen te bestuderen, begonnen we met bekende associaties van FUT2 en LCT. FUT2 is verantwoordelijk voor de overdracht van terminale fucose-residuen naar mucosale glycanen . Bifidobacteriën gebruiken ook slijm-afgeleide fucose als koolstofbron, en de overvloed en de diversiteit van B. longum zijn beduidend lager in niet-secretoren (individuen met een voortijdig stopcodon in FUT2, rs601338) in vergelijking met secretoren .

om te bepalen of deze associatie in het HMP-cohort kon worden geverifieerd, zochten we naar microbiële species gecorreleerd met het gastheergenotype fucosyltransferasesecretor (MAF = 0,41). We gebruikten lineaire regressie om de relatieve overvloed van elke individuele soort te voorspellen op basis van de secretor genotype dosering. B. longum had de sterkste correlatie van de 118 geteste soorten (FDR = 0,018; Fig. 4b), met een toegenomen relatieve abundantie in het secretorgenotype ten opzichte van het non-secretorgenotype. Deze bevinding is consistent met eerdere experimentele observaties en toont aan dat het cohort voldoende vermogen heeft om gerichte microbieel-gastheerassociatiehypothesen te valideren.Op dezelfde manier is LCT in verband gebracht met een verhoogde abundantie van lactose-metaboliserende bifidobacteriën in de darm . LCT codeert lactase, het enzym dat verantwoordelijk is voor het afbreken van lactose in het bovenste maagdarmkanaal; in combinatie met verhoogde bifidobacteriën, suggereert dit dat er meer lactose in de dikke darm verzameld wordt. Het vermogen om lactase op volwassen leeftijd of lactose-intolerantie (hypolactasia) te produceren wordt gecontroleerd door de aanwezigheid van een homozygote g-allel in RS4988235 SNV dicht bij LCT . Een recente bevinding dat de melkconsumptie en de overvloed aan bifidobacteriën alleen positief gecorreleerd is bij mensen met de hypolactasia genvariant ondersteunt dit mechanisme.

in het HMP-cohort hebben we de abundantie van bacteriële soorten in de ontlasting tussen donoren vergeleken met de hypolactasia en alternatieve varianten. Omdat hypolactasia een recessieve eigenschap is, hebben we een T-test gebruikt om de 64 donoren met het homozygote g genotype te vergelijken met de rest van de 145 donoren. Na het testen van elk van de 118 individuele soorten abundantie tegen de aanwezigheid van deze variant, vonden we dat B. longum het sterkste effect had( FDR = 0,095), waardoor de eerder gevonden associatie werd bevestigd (Fig. 4c).

microbiële associaties met gastheergenoomvarianten zijn lichaamsspecifiek

tenslotte hebben we de associaties tussen gastheergenoom en microbioomvariatie op een niet-gerichte manier direct beoordeeld door middel van een genoombrede associatiestudie. We voerden de analyse afzonderlijk uit voor elke lichaamsplaats, waarbij we ons concentreerden op SNV ‘ s met MAF > 0,1 en deze vergeleken met zowel microbiële species – als metabole pathway-Level abundances. We gebruikten gewone lineaire regressie modellen, rekening houdend met de effecten van geslacht, etniciteit, en monster collectie locatie. Na het filteren van de microbiële kenmerken (Zie methoden), identificeerden we 120-160 soorten in GI-en orale monsters en ongeveer 25 soorten in huid-en vaginale monsters. Het aantal metabole routes dat filtert was aanzienlijk hoger, tussen 350 en 530 belangrijke routes per plaats. Samen leggen de grote aantallen SNV ‘ s, lichaamsplaatsen en microbiële kenmerken in de analyse een strikt significantiecriterium op (p < 3 × 10-12 volgens Bonferroni correctie voor meerdere tests), dat, in combinatie met onze bescheiden steekproefgrootte, ons ontdekkingspotentieel beperkt tot associaties met zeer grote effectgroottes.Om deze reden hebben we onze Analyse eerst beperkt tot SNV ‘ s gevonden in de Genome-Wide Association Studies (GWAS) catalogus van het National Human Genome Research Institute (NHGRI). Deze reeks omvatte SNV ‘ s geassocieerd met een diverse reeks kwantitatieve eigenschappen variërend van complexe ziekten tot antropometrische metingen. Een totaal van 16.869 van deze SNV ’s werden gevonden in onze gegevens, maar we hebben geen significante associaties gevonden met behulp van deze subset van SNV’ s. Bovendien was er volgens de kwantiel-kwantielplot van de vergelijkingen geen systematische verrijking van kleinere p-waarden onder de vergelijkingen (aanvullend dossier 1: figuren S6 en S7). We hebben geen significante resultaten verkregen met nog meer beperkte variantensets geassocieerd met inflammatoire darmziekte of met een van de subcategorieën van de GWAS-catalogus op hoog niveau (bijvoorbeeld “immuunsysteemaandoeningen”, “spijsverteringsstelsel”).

vervolgens voerden we de associatieanalyse uit op alle gangbare SNV ‘ s. We hebben geen associaties gezien met p-waarden die kleiner zijn dan multiple testing-gecorrigeerde significantielimieten. Er waren echter een aantal associaties (aanvullend dossier 1: figuren S8 en S9 en tabel S2) met relatief kleine p-waarden. Deze verenigingen vormen een rijke bron van informatie voor toekomstige microbiome-brede verenigingsstudies en onderzoekers die in specifieke genen of microbiële species geinteresseerd zijn.

door het unieke ontwerp van het HMP-cohort konden we ook de aard van de associaties tussen lichaamslocaties onderzoeken. Studies in expressie kwantitatieve trait loci hebben opmerkelijke stabiliteit van genexpressie-genotype associaties over weefsels gemeld . Hier hebben we geen SNV-microbe-paren in de top van de vereniging rankings voor meerdere lichaam sites waargenomen, waaruit de meer indirecte aard van deze verenigingen evenals de unieke gemeenschap bouwprincipes voor elke lichaam site. Bij het overwegen van de verdeling van de beste p-waarden van elke plaats van het lichaam, ongeacht het geassocieerde organisme, konden we nog steeds geen SNV ‘ s vinden die sterker geassocieerd waren met microben dan bij toeval werd verwacht. Dit vinden stelt verder voor dat de genetische mechanismen achter microbiome samenstelling lichaamsplaats-specifiek zijn.



+