- DNA-sekventering af høj kvalitet af HMP-kohorten
- Sekventeringsresultater er i overensstemmelse med resultaterne fra andre sammenlignelige populationer
- mikrobiel taksa og funktionelt potentiale på seks kropssteder
- humane genomiske hovedkomponenter korrelerer med mikrobiomsammensætning
- relaterede donorer har lignende mikrobiomer
- FUT2-og LCT-genotyper er forbundet med Bifidobacterium longum
- mikrobielle foreninger med værtsgenomvarianter er kropsstedsspecifikke
DNA-sekventering af høj kvalitet af HMP-kohorten
HMP-kohortens design og prøveindsamling er beskrevet i dybden . Kort sagt omfatter HMP-kohorten 300 donorer rekrutteret to steder i USA. Størstedelen af donorerne (71%) var af kaukasisk oprindelse; de resterende donorer var af afrikansk (6%), Asiatisk (9%), Latino (11%) eller blandet (3%) herkomst. Forholdet mellem mand og kvinde var stort set ens med 151 hunner og 149 hanner. Målet med udvælgelsen af donorer var at finde raske personer uden nylig medicinbrug eller sygdomshistorie, der tilhørte en lignende aldersgruppe (19-40 år), og som havde et relativt sundt kropsmasseindeks (BMI på 19-34 kg/m2).
for at opnå værtsgenominformation blev genomisk DNA fra blodet fra 298 af de 300 individer sekventeret ved hjælp af PCR-fri sekventering. Den gennemsnitlige sekventeringsdækning var 32,77 gange med en rækkevidde på 23,9 liter til 56,7 liter (Fig. 1). Forurening og procentdelen af kimære aflæsninger var begge godt under standardafskæringen på 5% i alle prøver (yderligere fil 1: Figur S1A). Fordelingen af andre kvalitetsmålinger såsom indsatsstørrelse og procentdel af læsninger, der blev justeret parvis, fremhævede ikke nogen klare outlier-prøver; derfor blev alle prøver inkluderet i yderligere analyse. Variantnummeret var også bemærkelsesværdigt stabilt ved ~ 2 M enkelt nukleotidpolymorfier (SNP ‘ er) og 200 K indels pr. 1), med undtagelse af de afroamerikanske donorer, der havde højere genetisk mangfoldighed (yderligere fil 1: Figur S1B). Der var ingen påviselig sammenhæng mellem sekventeringsdybde og antal udvundne varianter, hvilket indikerer, at dybden i alle prøver var tilstrækkelig.
disse data giver en næsten fuldstændig parring af humant genomsekventering til mikrobielle amplikoner og metagenomer på tværs af hele HMP-kohorten. Genetisk variation i denne kohorte blev tidligere udledt ved hjælp af” forurenende ” human læser fra 93 forsøgspersoners masseødelæggelsesvåben data . Mens dette gav en gennemsnitlig menneskelig genomdækning på ~ 10 liter, varierede den meget mellem prøver og for mange nåede kun 5 liter. Dette var tilstrækkeligt til at detektere 13 M genetiske varianter samlet, 5,5 M med MAF > 0,05. Til sammenligning tredoblede vores undersøgelse mere end antallet af donorer, og ved direkte at målrette mod vært-DNA ‘ et identificerede vi dobbelt så mange varianter generelt med jævn dækning (minimum 25 liter) mellem prøver. Dette øgede kvaliteten over alle prøver og genererede et komplet datasæt, der kan udvindes i dette arbejde såvel som i fremtidige undersøgelser.
Sekventeringsresultater er i overensstemmelse med resultaterne fra andre sammenlignelige populationer
efter filtrering efter kvalitet og placering i regioner med lav kompleksitet forblev 29 m varianter bestående af 26,7 M SNV ‘ er og 2,3 M indsættelser-sletninger (indels) (yderligere fil 1: tabel S1). Sammenlignet med GoNL-og 1000-Genomprojekterne var 5,1 M SNV ‘ er og 856 K indels nye, men størstedelen af disse var sjældne (Fig. 2a). I modsætning hertil blev de almindelige varianter, vi identificerede (MAF > 5%), næsten universelt delt mellem de tre kohorter. Samlet set identificerede vi 7.8 M flere varianter sammenlignet med GoNL-konsortiet med samme størrelse. Da mange af varianterne også var til stede i 1000 Genomes-projektet, tilskriver vi forskellen til den større etniske mangfoldighed i HMP-kohorten. Selvom et stort antal SNV ‘ er var unikke for hver kohorte, var andelen af varianter, der faldt i introniske, eksoniske og intergeniske regioner i genomet, næsten identiske mellem kohorter (yderligere fil 1: Figur S2).
vi kommenterede derefter kodningsvarianter ved hjælp af LOFTEE-plugin til VEP-værktøjet , som kategoriserer varianter i klasser baseret på deres indflydelse på kodningssekvensen. Antallet af højeffektive varianter, defineret som dem, der ville resultere i tab af funktion af et bestemt gen, var 2670 (yderligere fil 1: tabel S2); dette resultat er i overensstemmelse med aktivt negativt valg mod disse varianter. Negativ selektion var også tydelig fra allelfrekvensfordelingen, da sværhedsgraden af en allels påvirkning var stærkt relateret til dens frekvens i befolkningen. For eksempel blev højeffektive varianter stærkt beriget i varianter, der kun blev observeret en gang i vores datasæt (Fig. 2B, AC1). Fordelingen af kodende mutationer blandt gener var heller ikke ensartet, med et lille antal gener, der fangede et stort antal varianter. Tredive gener viste mere end fem potentielle varianter med stor påvirkning af funktionstab, og seks gener havde mere end ti varianter. Det lille antal gener med kodende mutationer med høj effekt antydede, at denne kohorte var for lille til belastningstest til at tegne korrelationer mellem mutationsfrekvens inden for et gen og mikrobielle træk. I stedet fokuserede vi vores Analyse på at identificere sammenhænge mellem almindelige varianter og mikrobiel taksa eller funktionelt potentiale.
mikrobiel taksa og funktionelt potentiale på seks kropssteder
for HMP blev mikrobiomprøver indsamlet fra 18 kropssteder, der faldt i fem hovedområder: mave-tarmkanal, mundhule, hud, nares og vagina. I nogle tilfælde blev replikatprøver indsamlet over tid for at vurdere mikrobiomets tidsmæssige stabilitet. I alt blev mere end 5000 prøver karakteriseret ved anvendelse af 16S rRNA-gensekventering og mere end 2000 ved anvendelse af haglgevær. Den førstnævnte tilgang giver et overblik på højt niveau over taksonomisk sammensætning, mens sidstnævnte tillader identifikation af arter og profilering af mikrobiomets funktionelle potentiale. Vi har derfor anvendt data i efterfølgende analyser. De fleste prøver fra seks steder, der repræsenterer fire af de vigtigste områder beskrevet ovenfor: tarm (afføring), oral (bukkal slimhinde, supragingival plak, tunge dorsum), nares (anterior nares) og vaginal (posterior forniks); der var ingen data fra hudprøverne. Inden for de seks kropssteder varierede antallet af donorer fra 80 for vaginal posterior forniks til 209 for tarmprøver; det gennemsnitlige antal aflæsninger pr.prøve varierede fra 34 M i posterior forniks til 86 M i tunge dorsum. Ved hjælp af data fra disse prøver identificerede vi taksonomisk sammensætning ved hjælp af Metaflan2 og funktionelt potentiale ved hjælp af HUMAnN2 . Disse output blev derefter analyseret for foreninger med værtsgenetisk variation.
humane genomiske hovedkomponenter korrelerer med mikrobiomsammensætning
for at sammenligne værtsgenetisk variation med mikrobiel variation vurderede vi først, i hvilken grad genetiske mønstre på højt niveau kunne korreleres med mikrobiomsammensætning. PCA om de fælles SNV ‘ er (MAF > 0,05) viste, at de første fem hovedkomponenter overvejende repræsenterede donorernes etniske og racemæssige herkomst. For eksempel viste værtsgenetik af afroamerikaneren, en af to grupper af asiatisk-amerikanske og de kaukasiske emner den stærkeste effekt (Fig. 3a). For yderligere at sammenligne den samlede genetiske variation med andre kohorter ordinerede vi også i fællesskab et kombineret datasæt af hmp300 og 1000 genomdeltagere ved hjælp af SNV ‘ er med MAF > 0,05 i begge kohorter. Individer fra begge kohorter fordelt i det resulterende hovedkomponentrum næsten identisk i henhold til herkomst (yderligere fil 1: Figur S3).
dernæst beregnede vi for HMP300, hvilken procentdel af mikrobiel variation i de seks kropssteder, der kunne forklares (R2) af de første fem værtsgenom-hovedkomponenter. I afføringsprøver var procentdelen af artsniveauvariation forklaret af værtshovedkomponenterne 3,8%, højere end forventet ved en tilfældighed alene (empirisk p = 0,0001; Fig. 3b). Fordelingen af empiriske p-værdier for R2-værdierne for den enkelte art blev kraftigt forskudt mod nul (Fig. 3c), hvilket indikerer, at stærke korrelationer ikke var begrænset til nogle få arter, men at genetisk populationsstruktur påvirkede de samlede mikrobielle konfigurationer. Vi observerede en lignende effekt på artsniveauet i orale steder. I bukkal slimhinde beskrev de genomiske hovedkomponenter i gennemsnit 5,2% (empirisk p = 0,0008) af variationen på artsniveau; i tunge dorsum var dette tal 4,1% (empirisk p = 0,0034). I en identisk analyse af metacyc metabolisk vej overflod, vi fandt kun veje i tarmmikrobiomerne at være signifikant korreleret med almindelige varianthovedkomponenter. Sammenfattende var sammenhængen mellem værtsgenetiske egenskaber på højt niveau og mikrobiomegenskaber signifikant på flere kropssteder.
ved undersøgelse af sammenhængen mellem individuelle mikrobielle træk og værtsgenetik, der bidrog til disse gennemsnit, viste visse træk meget stærkere individuelle foreninger. I afføring, hvor den genetiske korrelation var den stærkeste, var fem arter ud af 118 signifikant forbundet (falsk opdagelsesrate (FDR) < 0,05 ved permutationstest), hvor R2-værdier nåede næsten 10% (Fig. 3c). Af disse fem arter var lachnospiraceae-bakterien, roseburia intestinalis og Subdoligranulum (uklassificeret) alle positivt korreleret med den første genomiske hovedkomponent, hvilket viste, at disse arter har højere overflod hos donorer af kaukasisk oprindelse. En anden vigtig Art, Sutterella var forbundet med PC4, som adskiller donorer af asiatisk oprindelse i to grupper. Undersøgelse af andre kropssteder fandt vi, at Porphyromonas catoniae, Propionibacterium propionicum og uklassificeret Gemella var signifikant forbundet med værtsgenomisk variation i buccal slimhinde (yderligere fil 1: Figur S4 og tabel S1).
en lignende analyse på vejniveau afslørede et stort antal (82 af 541) veje signifikant (FDR < 0,05 som ovenfor) korreleret med genetiske hovedkomponenter i afføring (Fig. 3c). Flere veje var relateret til aminosyre og kortkædede fedtsyre biosyntese og nedbrydning. I en mere systematisk opfattelse fandt vi, at medlemmerne af fermenteringssuperklassen i MetaCyc-databasen var signifikant beriget i topvejsrangeringen (Fig. 3c). De fleste af disse veje var forbundet med den første genetiske hovedkomponent, der adskiller hvide donorer fra andre racemæssige eller etniske forfædre. Sådanne funktionelle berigelser kan pege på etniske forskelle i kosten, men også på genetisk variation i evnen til at metabolisere visse næringsstoffer.
på andre kropssteder var variabilitet på vejniveau i gennemsnit ikke korreleret med genetiske hovedkomponenter, skønt der blev fundet nogle individuelle korrelerede veje (yderligere fil 1: Figur S5 og tabel S1). For eksempel korrelerede et antal veje i tunge dorsummikrobiomer stærkt med genetiske hovedkomponenter. Interessant nok var næsten alle de tilknyttede veje relateret til respiration og TCA-cyklussen, hvilket indikerer en iltgradient og forskelle i aerob respiration af orale organismer i tungen dorsum mellem donorer. Berigelsen af TCA-cyklussen i det orale mikrobiom og fermentering i tarmmikrobiomet afspejler de dominerende metaboliske træk ved de tilsvarende mikrobiomer og viser, hvordan disse kan påvirkes af værtsgenetik og miljøfaktorer korreleret med genetisk herkomst.
relaterede donorer har lignende mikrobiomer
selvom HMP-kohorten omfattede donorer relateret til hinanden, var disse oplysninger ikke tilgængelige i de indsamlede metadata. Genomisk sekventering af donorerne tillod os at udlede omfanget af forholdet mellem alle donorpar og identificere op til tredjegrads slægtninge blandt dem. Ved hjælp af almindelige SNV ‘ er (MAF > 0,05) til analysen identificerede vi 11 par første graders slægtninge og et par tredje graders slægtninge.
vi forsøgte derefter at afgøre, om graden af relation blev afspejlet i ligheden mellem deres mikrobiomer. Til denne analyse beregnede vi Bray-Curtis afstanden mellem alle donorpar og delte parene i tre grupper: samme etnicitet, forskellig etnicitet og slægtninge (Fig. 4a). Som det kunne forventes af PCA, var prøverne inden for etniske grupper i gennemsnit lidt mere ens end prøver fra forskellige etniske grupper, men mikrobiomens lighed mellem beslægtede donorer var mere udtalt. Med undtagelse af tarmen, på alle testede kropssteder, mikrobiom samfundssammensætning mellem slægtninge var mere ens end mellem tilfældige donorpar; i anterior nares og bukkal slimhinde, effekten var også statistisk signifikant ved t-test mellem ikke-relaterede og relaterede lighedsscore. For vaginale prøver blev effekten også udtalt, men vi havde ikke nok kvindelige-kvindelige par til at opnå statistisk signifikans.
FUT2-og LCT-genotyper er forbundet med Bifidobacterium longum
for at undersøge indflydelsen af individuelle genetiske varianter på mikrobiomsammensætning begyndte vi med kendte foreninger af FUT2 og LCT. FUT2 er ansvarlig for overførslen af terminale fucoserester til slimhindeglycaner . Bifidobakterier bruger også slimafledt fucose som kulstofkilde, og overflod og mangfoldighed af B. longum er signifikant lavere hos ikke-sekretorer (personer med et for tidligt stopkodon i FUT2, rs601338) sammenlignet med sekretorer .
for at afgøre, om denne tilknytning kunne verificeres i HMP-kohorten, søgte vi efter mikrobielle arter korreleret med værtsfucosyltransferase secretor genotype (MAF = 0,41). Vi brugte lineær regression til at forudsige den relative overflod af hver enkelt art baseret på secretor genotype dosering. B. longum havde den stærkeste korrelation af de 118 testede arter (FDR = 0,018; Fig. 4b) med øget relativ overflod i sekretorgenotypen i forhold til ikke-sekretorgenotypen. Dette fund er i overensstemmelse med tidligere eksperimentelle observationer og viser, at kohorten er tilstrækkeligt drevet til at validere målrettede mikrobielle værtsforeningshypoteser.
Tilsvarende har LCT været forbundet med øget overflod af laktosemetaboliserende bifidobakterier i tarmen . LCT koder for lactase, der er ansvarlig for nedbrydning af lactose i den øvre GI-kanal; i tandem med øgede bifidobakterier antyder dette, at mere diæt lactose samles i tyktarmen. Evnen til at producere lactase i voksenalderen eller laktoseintolerans (hypolactasia) styres af tilstedeværelsen af en homosygøs g-allel i rs4988235 SNV tæt på LCT . En nylig konstatering af, at mælkeforbrug og overflod af bifidobakterier kun er positivt korreleret hos mennesker med hypolactasia-genvarianten understøtter denne mekanisme.
i HMP-kohorten sammenlignede vi bakteriearternes overflod i afføring mellem donorer med hypolaktasi og alternative varianter. Fordi hypolaktasi er et recessivt træk, brugte vi en T-test til at sammenligne de 64 donorer med den homosygøse G-genotype med resten af de 145 donorer. Efter at have testet hver af de 118 individuelle arter Overflod mod tilstedeværelsen af denne variant, fandt vi, at B. longum havde den stærkeste effekt (FDR = 0,095) og derved bekræftede den tidligere fundne forening (Fig. 4c).
mikrobielle foreninger med værtsgenomvarianter er kropsstedsspecifikke
endelig vurderede vi sammenhænge mellem værtsgenom og mikrobiomvariation på en ikke-målrettet måde direkte gennem en genomomfattende associeringsundersøgelse. Vi udførte analysen separat for hvert kropssted, hvor vi koncentrerede os om SNV ‘ er med MAF > 0.1 og sammenlignede dem med både mikrobielle arter – og metaboliske niveauer på vejniveau. Vi brugte almindelige lineære regressionsmodeller, under hensyntagen til virkningerne af køn, etnicitet, og prøveindsamlingssted. Efter filtrering af de mikrobielle egenskaber (se metoder) identificerede vi 120-160 arter i mave-tarmkanalen og orale prøver og cirka 25 arter i hud-og vaginale prøver. Antallet af metaboliske veje, der passerer filtrering, var betydeligt højere, mellem 350 og 530 større veje pr. Sammen pålægger det store antal SNV ‘ er, kropssteder og mikrobielle træk i analysen et strengt signifikanskriterium (p < 3 til 10-12 ifølge Bonferroni-korrektion til multiple test), som i kombination med vores beskedne prøvestørrelse begrænser vores opdagelsespotentiale til foreninger med meget store effektstørrelser.
af denne grund begrænsede vi først vores Analyse til SNV ‘er, der blev fundet i National Human Genome Research Institute (NHGRI) Genome-dækkende associeringsundersøgelser (GVAR) katalog , idet vi antog, at disse SNV’ er blev beriget med genomiske varianter, der har potentiel indflydelse på mikrobiomegenskaber. Dette sæt omfattede SNV ‘ er forbundet med et forskelligt sæt kvantitative træk, der spænder fra komplekse sygdomme til antropometriske målinger. I alt 16.869 af disse SNV ‘er blev fundet i vores data, men vi registrerede ikke nogen signifikante foreninger ved hjælp af denne delmængde af SNV’ er. I henhold til sammenligningernes kvantile-kvantile-plot var der desuden ingen systematisk berigelse af mindre p-værdier blandt sammenligningerne (yderligere fil 1: Figur S6 og S7). Vi opnåede ikke signifikante resultater med endnu mere begrænsede variantsæt forbundet med inflammatorisk tarmsygdom eller med nogen af de høje niveauer af Katalogunderkategorier (f.eks.
vi kørte derefter associeringsanalysen på alle almindelige SNV ‘ er. Vi så ingen foreninger med p-værdier mindre end flere testkorrigerede signifikansgrænser. Der var dog en række foreninger (yderligere fil 1: tal S8 og S9 og tabel S2) med relativt små p-værdier. Disse foreninger udgør en rig kilde til information til fremtidige mikrobiom-dækkende associeringsundersøgelser og efterforskere interesseret i specifikke gener eller mikrobielle arter.
på grund af det unikke design af HMP-kohorten var vi også i stand til at undersøge arten af forbindelserne mellem kropssteder. Undersøgelser i udtryk kvantitativ egenskab loci har rapporteret bemærkelsesværdig stabilitet af genekspression-genotypeforeninger på tværs af væv . Her, vi observerede ikke nogen SNV-mikrobepar i toppen af foreningsrangeringen for flere kropssteder, demonstrerer den mere indirekte karakter af disse foreninger såvel som de unikke samfundskonstruktionsprincipper for hvert kropssted. Når man overvejer fordelingen af de bedste p-værdier fra hvert kropssted uanset den tilknyttede organisme, kunne vi stadig ikke finde nogen SNV ‘ er, der var stærkere forbundet med mikrober end forventet ved en tilfældighed. Dette fund antyder yderligere, at de genetiske mekanismer bag mikrobiomsammensætning er kropsspecifikke.