Vertsgenetisk variasjon Og dets mikrobiominteraksjoner innenfor Human Microbiome Project

Dna-sekvensering Av HMP-kohorten

HMP-kohortens design og prøveinnsamling Har blitt beskrevet i dybden . Kort SAGT består hmp-kohorten av 300 givere rekruttert på to steder i USA. Majoriteten av donorene (71%) var Av Kaukasisk opprinnelse; de resterende donorene var Av Afrikansk (6%), Asiatisk (9%), Latino (11%) eller blandet (3%) herkomst. Mann-til-kvinne-forholdet var omtrent like, med 151 kvinner og 149 menn. Målet med utvelgelsen av donorer var å finne friske personer uten nyere medisinbruk eller sykdomshistorie, som tilhørte en tilsvarende aldersgruppe (19-40 år), og som hadde en relativt sunn kroppsmasseindeks (BMI på 19-34 kg/m2).

for å få informasjon om vertsgenomet ble genomisk DNA fra blodet til 298 av de 300 individene sekvensert VED HJELP AV PCR – fri sekvensering. Gjennomsnittlig sekvenseringsdekning var 32.77 x, med en rekkevidde på 23.9× til 56.7× (Fig. 1). Forurensning og prosentandelen av kimære leser var begge godt under standard cutoff av 5% i alle prøver (Tilleggsfil 1: Figur S1A). Fordelingen av andre kvalitetsmålinger som innsatsstørrelse og prosentandel av leser som justert i par ikke fremhevet noen klare outlier-prøver; derfor ble alle prøver inkludert i videre analyse. Variantnummeret var også bemerkelsesverdig stabilt ved ~ 2 M enkelt nukleotidpolymorfismer (SNPs) og 200 k indels per person (Fig. 1), med unntak Av De Afroamerikanske giverne, som hadde høyere genetisk mangfold (Tilleggsfil 1: Figur S1B). Det var ingen påviselig korrelasjon mellom sekvenseringsdybde og antall varianter gjenvunnet, noe som indikerer at dybden i alle prøvene var tilstrekkelig.

Fig. 1
figur1

Oversikt Over Human Microbiome Project host genome og metagenome dekning. Sekvenseringsdybde for hvert vertsgenom (venstre) og antall leser for alle tilgjengelige prøver med hel metagenomsekvensering

Disse dataene gir en nesten fullstendig sammenkobling av menneskelig genomsekvensering til mikrobielle amplikoner og metagenomer over HELE hmp-kohorten. Genetisk variasjon i denne kohorten ble tidligere utledet ved hjelp av» forurensning » menneskelig leser fra 93 fagers WMS-data . Selv om dette ga en gjennomsnittlig menneskelig genomdekning på ~ 10×, varierte det sterkt mellom prøver og for mange nådde det bare 5×. Dette var tilstrekkelig til å påvise 13 M genetiske varianter totalt, 5,5 m MED MAF > 0,05. Til sammenligning har vår studie mer enn tredoblet antall donorer, og ved å målrette verts-DNA, identifiserte vi dobbelt så mange varianter totalt med jevn dekning (minimum 25×) mellom prøver. Dette økte kvaliteten over alle prøver og genererte et komplett datasett som kan utvinnes i dette arbeidet så vel som i fremtidige studier.

Sekvenseringsresultater er konsistente med Andre sammenlignbare populasjoner

etter filtrering i henhold til kvalitet og plassering i lavkompleksitetsområder, ble 29 m varianter igjen, bestående av 26,7 M Snver og 2,3 M innsettings-slettinger (indels) (Tilleggsfil 1: Tabell S1). Sammenlignet Med GoNL Og 1000 Genomer Prosjekter, 5.1 M SNVs og 856 K indels var romanen, men de fleste av disse var sjeldne (Fig. 2a). I kontrast var de vanlige variantene vi identifiserte (MAF > 5%) nesten universelt delt mellom de tre kohortene. Totalt sett identifiserte vi 7.8 M flere varianter sammenlignet Med GoNL-konsortiet med Samme Størrelse. Siden mange av variantene også var til stede i 1000 Genomes Project, tilskriver vi forskjellen til det større etniske mangfoldet I hmp-kohorten. Selv om et stort antall Snver var unike for hver kohort, var andelen varianter som falt i introniske, eksoniske og intergeniske regioner av genomet nesten identiske mellom kohorter (Tilleggsfil 1: Figur S2).

Fig. 2
figur2

Fordeling av genetiske varianter og sammenligning med andre kohorter. En Oppdaget varianter kategorisert etter frekvens og overlapping med andre kohorter. AC allel teller, maf mindre allel frekvens. B Fordeling av antall kodende mutasjoner etter frekvens og estimert innvirkning

Vi kommenterte neste kodingsvarianter ved HJELP AV LOFTEE-plugin for vep-verktøyet, som kategoriserer varianter i klasser basert på deres innvirkning på kodingssekvensen. Antall high-impact varianter, definert som de som ville resultere i tap av funksjon av et bestemt gen, var 2670 (Tilleggsfil 1: Tabell S2); dette resultatet er i samsvar med aktivt negativt utvalg mot disse variantene. Negativ seleksjon var også tydelig fra allelfrekvensfordelingen, da alvorlighetsgraden av et allels påvirkning var sterkt relatert til frekvensen i populasjonen. For eksempel ble high-impact varianter sterkt beriket i varianter som bare ble observert en gang i datasettet vårt(Fig. 2B, AC1). Fordelingen av kodende mutasjoner mellom gener var heller ikke ensartet, med et lite antall gener som fanget et stort antall varianter. Tretti gener viste mer enn fem potensielle high-impact tap-of-funksjon varianter, og seks gener hadde mer enn ti varianter. Det lille antallet gener med høyeffektkodende mutasjoner antydet at denne kohorten var for liten til belastningstesting for å tegne korrelasjoner mellom mutasjonsfrekvens i et gen og mikrobielle egenskaper. I stedet fokuserte vi vår analyse på å identifisere sammenhenger mellom vanlige varianter og mikrobiell taxa eller funksjonelt potensial.

Mikrobiell taxa og funksjonspotensial på seks kroppssteder

for HMP ble mikrobiomprøver samlet fra 18 kroppssteder, og falt i fem hovedområder: gastrointestinal (GI) kanal, munnhule, hud, nares og skjede. I noen tilfeller ble replikatprøver samlet over tid for å vurdere tidsmessig stabilitet av mikrobiomet. Totalt ble mer enn 5000 prøver karakterisert ved BRUK AV 16s rRNA gensekvensering og mer enn 2000 ved bruk av shotgun WMS. Den tidligere tilnærmingen gir et høyt nivå oversikt over taksonomisk sammensetning, mens sistnevnte tillater identifisering og profilering av mikrobiomets funksjonelle potensial. VI brukte DERFOR WMS-data i senere analyser. Fordelingen av prøver med WMS var ikke ekvivalent mellom kroppssteder, med de fleste prøver trukket fra seks steder som representerer fire av de viktigste områdene beskrevet ovenfor: tarm (avføring), oral (buccal mucosa, supragingival plaque, tunge dorsum), nares( anterior nares) og vaginal( posterior fornix); ingen WMS-data var tilgjengelige fra hudprøvene. Innenfor de seks kroppsstedene varierte antall donorer fra 80 for vaginal posterior fornix til 209 for tarmprøver; gjennomsnittlig antall leser per prøve varierte fra 34 M i posterior fornix til 86 M i tunge dorsum. VED HJELP AV wms-dataene fra disse prøvene identifiserte vi taksonomisk sammensetning ved Hjelp Av MetaPhlan2 og funksjonelt potensial ved Hjelp Av HUMAnN2 . Disse utgangene ble deretter analysert for foreninger med vertsgenetisk variasjon.

Humane genomiske hovedkomponenter korrelerer med mikrobiomsammensetning

for å sammenligne vertsgenetisk variasjon med mikrobiell variasjon, vurderte vi først i hvilken grad høyt nivå genetiske mønstre kunne korreleres med mikrobiomsammensetning. PCA på felles SNVs (MAF > 0.05) viste at de fem første hovedkomponentene hovedsakelig representerte donorens etniske og rasemessige forfedre. For eksempel viste vertsgenetikk Av Den Afroamerikanske, en Av To grupper Av Asiatisk-Amerikanske og De Kaukasiske fagene den sterkeste effekten (Fig. 3a). For ytterligere å sammenligne den generelle genetiske variasjonen med andre kohorter, ordinerte vi også et kombinert datasett AV HMP300 og 1000 Genomer deltakere, ved Hjelp Av Snver med MAF > 0.05 i begge kohortene. Individer fra begge kohorter fordelt i den resulterende hovedkomponent plass nesten identisk i henhold til opphav (Tilleggsfil 1: Figur S3).

Fig. 3
figur3

Korrelasjon mellom genetisk variasjon på høyt nivå og mikrobiomsammensetning. a De to første komponentene i den genetiske hovedkomponentanalysen er vist, basert på vanlige enkeltnukleotidvarianter, overlappet av selvrapportert donor etnisitet. AA Afrikansk-Amerikansk. b Vist er hvor mye varians i mikrobiomdata i gjennomsnitt kan forklares av de genetiske hovedkomponentene, sammenlignet med permutasjon på de samme dataene. Verdiene som vises Er Z-score basert på permutasjoner, som også ble brukt til å beregne empiriske p-verdier. C Fordeling av genetiske hovedkomponent r2 verdier for ulike arter og veier i avføring. Y-aksen viser variansen forklart, Og X-aksen viser permutasjonsbaserte empiriske p-verdier for hvert av disse tallene. Bare navn på arter med falsk funnrate (fdr) < 0,05 og pathways ‘ FDR < 0,01 er vist. Histogrammet nedenfor viser fordelingen av empiriske p-verdier, Og Y-aksen viser antall arter i en bin. Grønne barer under pathway histogram viser hvordan banene som er forbundet Med gjæring er rangert Etter R2

DERETTER beregnet VI FOR HMP300 hvilken prosentandel av mikrobiell variasjon i de seks kroppssidene som kunne forklares (R2) av de første fem vertsgenomens hovedkomponenter. I avføringsprøver var prosentandelen av artsnivåvariasjon forklart av vertshovedkomponentene 3,8%, høyere enn forventet ved en tilfeldighet alene (empirisk p = 0,0001; Fig. 3b). Fordelingen av empiriske p-verdier for r2-verdiene til den enkelte art ble sterkt forskjøvet mot null (Fig. 3c), noe som indikerer at sterke korrelasjoner ikke var begrenset til noen få arter, men at genetisk populasjonsstruktur påvirket generelle mikrobielle konfigurasjoner. Vi observerte en lignende effekt på artsnivået i orale steder. I buccal mucosa, de genomiske hovedkomponentene beskrevet i gjennomsnitt 5,2% (empirisk p = 0,0008) av arten nivå variasjon; i tungen dorsum, var dette tallet 4,1% (empirisk p = 0,0034). I en identisk analyse av metacyc metabolisk vei overflod, fant vi bare veiene i tarmmikrobiomene å være signifikant korrelert med vanlige variantens hovedkomponenter. Oppsummert var sammenhengen mellom vertsgenetiske egenskaper på høyt nivå og mikrobiomegenskaper signifikant på flere kroppssteder.

når man undersøkte korrelasjonen mellom individuelle mikrobielle egenskaper og vertsgenetikk som bidro til disse gjennomsnittene, viste visse funksjoner mye sterkere individuelle foreninger. I avføring, hvor den genetiske korrelasjonen var den sterkeste, var fem arter ut av 118 signifikant assosiert (falsk oppdagelsesrate (FDR) < 0,05 ved permutasjonstest), Med r2-verdier som nådde nesten 10% (Fig. 3c). Av disse fem artene Var lachnospiraceae-bakterien, Roseburia intestinalis og Subdoligranulum (uklassifisert) alle positivt korrelert med den første genomiske hovedkomponenten, noe som viste at disse artene har høyere overflod hos givere Av Kaukasisk opprinnelse. En annen viktig art, Sutterella wadsworthensis, var assosiert MED PC4, som skiller givere Av Asiatisk opprinnelse i to grupper. Ved å undersøke andre kroppssider fant Vi At Porphyromonas catoniae, Propionibacterium propionicum og uklassifisert Gemella var signifikant assosiert med vertsgenomisk variasjon i buccal mucosa (Tilleggsfil 1: Figur S4 og Tabell S1).

en lignende analyse av banenivå viste et stort antall (82 av 541) veier signifikant (FDR < 0,05 som ovenfor) korrelert med genetiske hovedkomponenter i avføring (Fig. 3c). Flere veier var relatert til aminosyre og kortkjedede fettsyrebiosyntese og nedbrytning. I en mer systematisk visning fant vi at medlemmene av fermenterings superklassen I MetaCyc-databasen ble betydelig beriket i toppbanenes rangeringer(Fig. 3c). De fleste av disse banene var assosiert med den første genetiske hovedkomponent som skiller hvite givere fra andre rase eller etniske ancestries. Slike funksjonelle berikelser kan peke på etniske forskjeller i kosthold, men også til genetisk variabilitet i evnen til å metabolisere visse næringsstoffer.

i andre kroppssider var variabilitet på banenivå i gjennomsnitt ikke korrelert med genetiske hovedkomponenter, selv om enkelte individuelle korrelerte veier ble funnet (Tilleggsfil 1: Figur S5 Og Tabell S1). For eksempel korrelerte en rekke veier i tunge dorsum mikrobiomer sterkt med genetiske hovedkomponenter. Interessant nok var nesten alle de tilknyttede veiene relatert til respirasjon og tricarboxylsyre (TCA) syklusen, som indikerte en oksygengradient og forskjeller i aerob respirasjon av orale organismer av tungen dorsum mellom donorer. Anrikningen AV TCA-syklusen i det orale mikrobiomet og fermenteringen i tarmmikrobiomet reflekterer de dominerende metabolske egenskapene til de tilsvarende mikrobiomene og viser hvordan disse kan påvirkes av vertsgenetikk og miljøfaktorer korrelert med genetisk forfedre.

Relaterte donorer har lignende mikrobiomer

SELV OM hmp-kohorten inkluderte donorer relatert til hverandre, var denne informasjonen ikke tilgjengelig i de innsamlede metadataene. Genomisk sekvensering av donorene tillot oss å utlede omfanget av forholdet mellom alle donorpar og identifisere opptil tredje grads slektninger blant dem. Ved hjelp av vanlige Snver (MAF > 0,05) for analysen identifiserte vi 11 par førstegradsslektninger og ett par tredjegradsslektninger.

vi søkte deretter å avgjøre om graden av forhold ble reflektert i likheten av deres mikrobiomer. For denne analysen beregnet Vi Bray-Curtis-avstanden mellom alle donorpar og delte parene i tre grupper: samme etnisitet, forskjellig etnisitet og slektninger (Fig. 4a). Som DET kunne forventes FRA PCA, var prøvene innenfor etniske grupper i gjennomsnitt litt mer like enn prøver fra forskjellige etniske grupper, men mikrobiom likhet mellom beslektede givere var mer uttalt. Med unntak av tarmen, på alle testede kroppssider, var mikrobiomsamfunnssammensetningen mellom slektninger mer lik enn mellom tilfeldige donorpar; i fremre nares og buccal mucosa var effekten også statistisk signifikant ved t-test mellom ikke-relaterte og relaterte likhetsresultater. For vaginale prøver ble effekten også uttalt, men vi hadde ikke nok kvinnelige-kvinnelige par for å oppnå statistisk signifikans.

Fig. 4
figur4

Slektskap og mikrobiom likhet og replikering av kjente assosiasjoner. En Bray-Curtis likhet mellom de 12 parene av nære slektninger (tredje grad eller nærmere) identifisert fra genetiske data sammenlignet med likheter mellom andre par. P-verdiene tilsvarer resultatene av t-tester mellom likhetsresultater for slektninger, mot alle andre par. B Assosiasjon MELLOM FUT2 secretor variant Og b. longum. C Assosiasjon mellom genetisk variant rs4988235 nær lct genet Og B. longum. I både b og c viser vi log10 transformert relativ overflod

FUT2-og LCT-genotyper er assosiert Med Bifidobacterium longum

for å studere påvirkning av individuelle genetiske varianter på mikrobiomsammensetning, begynte vi med kjente foreninger AV FUT2 og LCT. FUT2 er ansvarlig for overføring av terminale fukoserester til mukosale glykaner . Bifidobakterier bruker også slimavledet fucose som karbonkilde, og overflod og mangfold Av b. longum er betydelig lavere i ikke-sekretorer (personer med for tidlig stoppkodon I FUT2, rs601338) sammenlignet med sekretorer .

for å avgjøre om denne foreningen kunne verifiseres I hmp-kohorten, søkte vi etter mikrobielle arter korrelert med vertsfukosyltransferasesekretorgenotypen (MAF = 0,41). Vi brukte lineær regresjon for å forutsi den relative overflod av hver enkelt art basert på sekretor genotype dosering. B. longum hadde den sterkeste korrelasjonen av de 118 testede artene (FDR = 0,018; Fig. 4b), med økt relativ overflod i sekretorgenotypen i forhold til den ikke-sekretorgenotypen. Dette funnet er i samsvar med tidligere eksperimentelle observasjoner og viser at kohorten er tilstrekkelig drevet til å validere målrettede mikrobielle vertsforeningshypoteser.

PÅ Samme måte HAR LCT vært assosiert med økt overflod av laktosemetaboliserende Bifidobakterier i tarmen . LCT koder laktase, enzymet som er ansvarlig for å bryte ned laktose i øvre GI-kanal; i kombinasjon med økte Bifidobakterier, antyder dette at mer diettlaktose samler seg i tyktarmen. Evnen til å produsere laktase i voksen alder eller laktoseintoleranse (hypolaktasi) styres av tilstedeværelsen av et homozygot g-allel i rs4988235 SNV nær LCT . Et nylig funn at melkeforbruk og Bifidobakterier overflod er positivt korrelert bare hos personer med hypolactasia genvarianten støtter denne mekanismen.

i hmp-kohorten sammenlignet vi bakterieartenes forekomst i avføring mellom donorer med hypolaktasi og alternative varianter. Fordi hypolaktasi er et recessivt trekk, brukte vi en t-test for å sammenligne de 64 donorene med den homozygote g-genotypen med resten av de 145 donorene. Etter å ha testet hver av de 118 individuelle arter overflod mot tilstedeværelsen av denne varianten, fant Vi At b. longum hadde den sterkeste effekten (FDR = 0.095), og bekrefter dermed den tidligere funnet foreningen (Fig. 4c).

Mikrobielle foreninger med vertsgenomvarianter er kroppsspesifikke

Til Slutt vurderte Vi sammenhenger mellom vertsgenom og mikrobiomvariasjon på en ikke-målrettet måte direkte gjennom en genom-bred assosiasjonsstudie. Vi utførte analysen separat for hvert kroppssted, konsentrerte Oss om Snver med MAF > 0,1 og sammenlignet dem med både mikrobielle arter-og metabolismenivå. Vi brukte vanlige lineære regresjonsmodeller, med tanke på effektene av kjønn, etnisitet og prøveinnsamlingssted. Etter filtrering av de mikrobielle egenskapene (Se Metoder) identifiserte vi 120-160 arter I GI-kanalen og orale prøver og omtrent 25 arter i hud-og vaginale prøver. Antall metabolske veier som passerer filtrering var betydelig høyere, mellom 350 og 530 hovedveier per sted. Til sammen stiller Det store antallet Snver, kroppssteder og mikrobielle trekk i analysen et strengt signifikanskriterium (p < 3 × 10-12 I Henhold Til Bonferroni-korreksjon for multiple testing), som i kombinasjon med vår beskjedne utvalgsstørrelse begrenser vårt oppdagelsespotensial til assosiasjoner med svært store effektstørrelser.

av denne grunn begrenset vi først vår analyse Til Snver funnet i NATIONAL Human Genome Research Institute (NHGRI) Genome-Wide Association Studies (GWAS) Katalog, hypoteser at Disse Snvene ble beriket med genomiske varianter som har potensiell innvirkning på mikrobiomegenskaper. Dette settet inkluderte Snver forbundet med et mangfoldig sett av kvantitative egenskaper som spenner fra komplekse sykdommer til antropometriske målinger. Totalt 16.869 Av Disse Snvene ble funnet i våre data, men vi oppdaget ikke noen signifikante foreninger ved hjelp av Denne delmengden Av Snver. Videre var det i henhold til quantile-quantile-plottet av sammenligningene ingen systematisk berikelse av mindre p-verdier blant sammenligningene (Tilleggsfil 1: Tall S6 og S7). Vi oppnådde ikke signifikante resultater med enda mer begrensede variantsett assosiert med inflammatorisk tarmsykdom eller med noen AV UNDERKATEGORIENE PÅ GWAS-Katalogen på HØYT NIVÅ(f. eks. «immunsystemforstyrrelser»,»fordøyelsessystem»).

vi kjørte deretter foreningsanalysen på alle vanlige Snver. Vi så ingen assosiasjoner med p-verdier mindre enn flere testkorrigerte signifikansgrenser. Det var imidlertid en rekke foreninger (Tilleggsfil 1: Tall S8 Og S9 Og Tabell S2) med relativt små p-verdier. Disse foreningene danner en rik kilde til informasjon for fremtidige mikrobiom – brede assosiasjonsstudier og etterforskere interessert i bestemte gener eller mikrobielle arter.

på grunn AV DEN unike utformingen AV hmp-kohorten, var vi også i stand til å undersøke arten av foreningene mellom kroppssteder. Studier i expression quantitative trait loci har rapportert bemerkelsesverdig stabilitet av genuttrykk-genotype foreninger på tvers av vev . Her observerte VI ikke NOEN SNV-mikrobe-par i toppen av foreningens rangeringer for flere kroppssider, og demonstrerte den mer indirekte naturen til disse foreningene, samt de unike fellesskapskonstruksjonsprinsippene for hvert kroppssted. Når vi vurderte fordelingen av de beste p-verdiene fra hvert kroppssted uavhengig av tilhørende organisme, kunne vi fortsatt ikke finne Noen Snver som var sterkere forbundet med mikrober enn forventet ved en tilfeldighet. Dette funnet antyder videre at de genetiske mekanismene bak mikrobiomsammensetningen er kroppsspesifikke.



+