- Vysoce kvalitní DNA sekvenování HMP kohorty
- Sekvenování výsledky jsou v souladu s těmi z jiných srovnatelných populací
- Mikrobiálních taxonů a funkční potenciál na šesti místech těla
- Lidské genomické komponentami korelují s mikrobiomem složení
- příbuzní dárci mají podobné mikrobiomy
- FUT2 a LCT genotypy jsou spojeny s Bifidobacterium longum
- Mikrobiální sdružení s hostitelského genomu varianty jsou tělo site-specific
Vysoce kvalitní DNA sekvenování HMP kohorty
HMP kohorta design a vzorek kolekce byla popsána do hloubky . Stručně řečeno, kohorta HMP zahrnuje 300 dárců přijatých na dvou místech v USA. Většina dárců (71%) byla kavkazského původu; zbývající dárci byli afrického (6%), asijského (9%), latinskoamerického (11%) nebo smíšeného (3%) původu. Poměr mužů a žen byl zhruba stejný, s 151 ženami a 149 muži. Cílem při výběru dárců bylo najít zdravé jedince s žádné aktuální medikace nebo nemoc, historii, který patřil do podobné věkové skupiny (19-40 let), a který měl relativně zdravý index tělesné hmotnosti (BMI 19-34 kg/m2).
pro získání informací o genomu hostitele byla genomová DNA z krve 298 ze 300 jedinců sekvenována pomocí sekvenování bez PCR. Průměrné pokrytí sekvenováním bylo 32,77 x, s rozsahem 23,9× až 56,7× (obr. 1). Kontaminace a procento chimerická čte byli oba pod standardní cutoff 5% ve všech vzorcích (Další soubor 1: Obrázek S1A). Rozdělení dalších kvality metriky, jako je velikost vbd a procento čte, že zarovnán v párech, ne zvýraznit jakýkoliv jednoznačně nejvyšší počet vzorků; proto, všechny vzorky byly zahrnuty do další analýzy. Číslo varianty bylo také pozoruhodně stabilní při ~ 2 M jednonukleotidových polymorfismech (SNP)a 200 k indels na osobu (obr. 1), s výjimkou afroamerických dárců, kteří měli vyšší genetickou rozmanitost (další soubor 1: Obrázek S1B). Nebyla zjištěna žádná detekovatelná korelace mezi hloubkou sekvenování a počtem získaných variant, což naznačuje, že hloubka ve všech vzorcích byla dostatečná.
Tyto údaje poskytují téměř úplné párování z lidského genomu sekvenování mikrobiální amplikony a metagenomes celé HMP kohorty. Genetická variace v této kohortě byla dříve odvozena pomocí“ kontaminujících “ lidských čtení z údajů 93 WMS subjektů . I když to poskytlo průměrné pokrytí lidského genomu ~ 10×, mezi vzorky se velmi lišilo a pro mnohé dosáhlo pouze 5×. To stačilo k detekci 13 M genetických variant celkově, 5,5 M s MAF > 0,05. Ve srovnání, naše studie se více než ztrojnásobil počet dárců, a tím se přímo zaměřují na hostitelské DNA, jsme identifikovali dvakrát tolik variant, celkově se i pokrytí (minimum 25×) mezi vzorky. To zvýšilo kvalitu všech vzorků a vytvořilo kompletní datovou sadu, kterou lze těžit v této práci i v budoucích studiích.
Sekvenování výsledky jsou v souladu s těmi z jiných srovnatelných populací
Po filtrování podle kvality a umístění v low-složitost regionů, 29 M varianty zůstaly, skládající se z 26,7 M SNVs a 2,3 M insercí-delecí (indels) (Další soubor 1: Tabulka S1). Ve srovnání s projekty GoNL a 1000 genomů bylo 5, 1 M SNV a 856 k indels nové, ale většina z nich byla vzácná (obr. 2a). Naproti tomu společné varianty, které jsme identifikovali (MAF > 5%), byly téměř všeobecně sdíleny mezi třemi kohortami. Celkově jsme identifikovali 7.O 8 M více variant ve srovnání s podobně velkým konsorciem GoNL. Protože mnoho variant bylo také přítomno v projektu 1000 Genomes, připisujeme rozdíl větší etnické rozmanitosti v kohortě HMP. I když velké množství SNVs byly jedinečné pro každou kohortu, podíl variant, spadajících do intronic, exonic, a intergenic oblastí genomu bylo téměř totožné mezi skupinami (Další soubor 1: Obrázek S2).
dále Jsme komentovaný kódování variant pomocí LOFTEE plugin pro VEP nástroj , který kategorizuje variant do tříd na základě jejich dopad na kódující sekvenci. Počet variant s vysokým dopadem, definovaných jako varianty, které by vedly ke ztrátě funkce konkrétního genu, byl 2670 (další soubor 1: tabulka S2); tento výsledek je v souladu s aktivním negativním výběrem proti těmto variantám. Negativní výběr byl také patrný z distribuce frekvence alely, protože závažnost dopadu alely silně souvisela s její frekvencí v populaci. Například varianty s vysokým dopadem byly značně obohaceny o varianty, které byly pozorovány pouze jednou v našem datovém souboru (obr. 2b, AC1). Distribuce kódujících mutací mezi geny také nebyla jednotná, s malým počtem genů zachycujících velké množství variant. Třicet genů vykazovalo více než pět potenciálních variant ztráty funkce s vysokým dopadem a šest genů mělo více než deset variant. Malý počet genů s high-dopad kódování mutace navrhl, že tato kohorta byla příliš malá zátěž pro testování čerpat korelace mezi četnost mutací v genu a mikrobiální vlastnosti. Namísto, naši analýzu jsme zaměřili na identifikaci asociací mezi běžnými variantami a mikrobiálními taxony nebo funkčním potenciálem.
Mikrobiálních taxonů a funkční potenciál na šesti místech těla
Pro HMP, mikrobiomu vzorky byly odebrány od 18 místech těla, které spadají do pěti hlavních oblastí: gastrointestinální (GI) traktu, ústní dutiny, kůže, nosní dírky, a pochvy. V některých případech byly v průběhu času odebrány replikované vzorky, aby se vyhodnotila časová stabilita mikrobiomu. Celkem bylo charakterizováno více než 5000 vzorků pomocí sekvenování genů rRNA 16S a více než 2000 pomocí brokovnice WMS. První přístup poskytuje přehled o taxonomickém složení na vysoké úrovni, zatímco druhý umožňuje identifikaci a profilování funkčního potenciálu mikrobiomu na úrovni druhů. Data WMS jsme proto použili v následných analýzách. Rozdělení vzorků s WMS nebylo rovnocenné mezi tělo stránky, s většinou vzorky odebrané z šesti místech, což představuje čtyři hlavní oblasti, popsané výše: gut (stolice), ústní (bukální sliznice, supragingiválního plaku, jazyk hřbet), nosní dírky (přední nosní dírky) a vaginální (zadní fornix); č. WMS byly k dispozici údaje z kůže vzorky. Během šesti místech těla, počet dárců se pohybovaly od 80 pro zadní poševní klenby 209 pro střevní vzorky; průměrný počet čtení jednoho vzorku se pohybovala od 34 M v zadní fornix 86 M v jazyku hřbet. Pomocí dat WMS z těchto vzorků, identifikovali jsme taxonomické složení pomocí Metaflan2 a funkční potenciál pomocí HUMAnN2 . Tyto výstupy byly poté analyzovány na asociace s genetickou variací hostitele.
Lidské genomické komponentami korelují s mikrobiomem složení
porovnat hostitele genetické variace s mikrobiální změnu, musíme nejprve posoudit, do jaké míry vysoké úrovni genetické struktury by mohly být v korelaci s mikrobiomem složení. PCA na společných SNV (MAF > 0.05) prokázala, že prvních pět hlavních složek představovalo převážně etnický a rasový původ dárců. Například hostitelská genetika Afroameričana, jedné ze dvou skupin asijsko-amerických a kavkazských subjektů vykazovala nejsilnější účinek(obr. 3a). Dále porovnat celkové genetické variability do dalších kohorty, jsme také společně koordinovaný kombinovaný dataset z HMP300 a 1000 Genomů účastníků, pomocí SNVs s MAF > 0.05 v obou kohortách. Jednotlivci z obou kohort distribuovaných ve výsledném prostoru hlavní komponenty téměř identicky podle původu (další soubor 1: obrázek S3).
Další, pro HMP300 vypočítali jsme, jaké procento mikrobiální variace v šesti místech těla může být vysvětlena (R2) tím, že prvních pět hostitelského genomu hlavních komponent. Ve vzorcích stolice, procent druhů na úrovni variace vysvětlil moderátor hlavních komponent byla 3,8%, vyšší, než se očekávalo náhodou sám (empirický p = 0.0001; Obr. 3b). Distribuce empirických hodnot p pro hodnoty R2 jednotlivých druhů byla silně posunuta směrem k nule (obr. 3c), což naznačuje, že silné korelace nebyly omezeny na několik druhů, ale tato genetická populační struktura ovlivnila celkové mikrobiální konfigurace. Pozorovali jsme podobný účinek na úroveň druhů v ústních lokalitách. V bukální sliznice, genomová hlavních komponent je popsáno v průměru o 5,2% (empirický p = 0.0008) druhů-úroveň variace; v jazyku hřbet, to bylo o 4,1% (empirický p = 0.0034). Ve stejné analýze MetaCyc metabolické dráhy hojnosti, jsme našli pouze cesty ve střevech microbiomes být významně koreluje s běžnými varianta hlavních komponent. Stručně řečeno, souvislost mezi genetickými rysy hostitele na vysoké úrovni a vlastnostmi mikrobiomu byla významná na více místech těla.
při zkoumání korelace jednotlivých mikrobiálních rysů s genetikou hostitele, která přispěla k těmto průměrům, některé rysy vykazovaly mnohem silnější individuální asociace. Ve stolici, kde genetická korelace byla nejsilnější, pět druhů z 118 byly signifikantně spojeny (false discovery rate (FDR) < 0.05 tím, permutační test), s R2 hodnoty dosahující téměř 10% (Obr. 3c). Z těchto pěti druhů, bakterie Lachnospiraceae, Roseburia intestinalis, a Subdoligranulum (nezařazené) byly pozitivně korelovány s první genomické hlavní složkou, což dokazuje, že tyto druhy mají vyšší množství u dárců z Kavkazského původu. Další významný druh, Sutterella wadsworthensis, byl spojen s PC4, který odděluje dárce asijského původu do dvou skupin. Zkoumání jiných místech těla, zjistili jsme, že Porphyromonas catoniae, Propionibacterium propionicum, a nezařazené Gemella byly signifikantně spojeny s hostitelskou genomické variace v bukální sliznice (Další soubor 1: Obrázek S4 a Tabulka S1).
podobná analýza na úrovni dráhy odhalila velké množství (82 z 541) cest významně (FDR < 0,05 jak je uvedeno výše) korelovaných s genetickými hlavními složkami ve stolici (obr. 3c). Několik cest souviselo s biosyntézou a degradací aminokyselin a mastných kyselin s krátkým řetězcem. Systematičtější pohled, zjistili jsme, že členové kvašení nadtřídy z MetaCyc databáze byly významně obohaceny v horní dráhy žebříčku (Obr. 3c). Většina z těchto cest byla spojena s první genetickou hlavní složkou, která odlišuje bílé dárce od jiných rasových nebo etnických předků. Takové funkční obohacení může poukazovat na etnické rozdíly ve stravě, ale také na genetickou variabilitu schopnosti metabolizovat určité živiny.
V jiných místech těla, cesta-úroveň variability byla v průměru koreluje s genetickou hlavní komponenty, i když některé jednotlivé korelované cesty byly nalezeny (Další soubor 1: Obrázek S5 a Tabulka S1). Například řada cest v mikrobiomech dorsum jazyka silně korelovala s genetickými hlavními složkami. Zajímavé je, že téměř všechny spojené cesty byly vztahující se k dýchání a trikarboxylová (KREBSOVA) cyklu, orientační kyslíkový gradient a rozdíly v aerobní dýchání ústní organismy jazyka hřbet mezi dárci. Obohacení KREBSOVA cyklu v ústní mikrobiomu a kvašení ve střevech mikrobiomu odrážet dominantní metabolické funkce odpovídající microbiomes, a ukázat, jak tyto mohou být ovlivněny hostitele, genetika a faktory životního prostředí souvisí s genetickými předky.
příbuzní dárci mají podobné mikrobiomy
ačkoli kohorta HMP zahrnovala dárce ve vzájemném vztahu, tyto informace nebyly k dispozici ve shromážděných metadatech. Genomické sekvenování dárců nám umožnilo odvodit rozsah vztahu mezi všemi dárcovskými páry a identifikovat mezi nimi příbuzné až třetího stupně. Pomocí běžných SNV (MAF > 0,05) pro analýzu jsme identifikovali 11 párů příbuzných prvního stupně a jeden pár příbuzných třetího stupně.
dále jsme se snažili zjistit, zda se míra vztahu odráží v podobnosti jejich mikrobiomů. Pro tuto analýzu jsme vypočítali vzdálenost Bray-Curtis mezi všemi dárcovskými páry a rozdělili páry do tří skupin: stejný etnický původ, jiný etnický původ a příbuzní (obr. 4a). Jak by se dalo očekávat od PCA, vzorků v rámci etnické skupiny byly v průměru o něco více podobné, než vzorky z různých etnických skupin, ale mikrobiomu podobnosti mezi příbuznými dárci byl výraznější. S výjimkou střeva, ve všech testovaných místech těla, mikrobiomu společenství složení mezi příbuznými byly více podobné, než mezi náhodné dárce párů; v přední nosní dírky a bukální sliznice, účinek byl také statisticky významný pomocí t testu mezi nesouvisející a související skóre podobnosti. U vaginálních vzorků byl účinek také výrazný, ale neměli jsme dostatek párů žena-Žena k dosažení statistické významnosti.
FUT2 a LCT genotypy jsou spojeny s Bifidobacterium longum
studovat vliv jednotlivých genetických variant na složení mikrobiomu, začali jsme se známými sdružení FUT2 a LCT. FUT2 je zodpovědný za přenos terminálních zbytků fukózy na slizniční glykany . Bifidobakterie také použít hlenu-odvozené fucose jako zdroj uhlíku, a množství a rozmanitosti B. longum, je výrazně nižší v non-secretors (jedinci s předčasného stop kodonu v FUT2, rs601338) ve srovnání s secretors .
abychom zjistili, zda lze tuto asociaci ověřit v kohortě HMP, hledali jsme mikrobiální druhy korelované s genotypem sekretu fucosyltransferázy hostitele (MAF = 0,41). Použili jsme lineární regresi k předpovědi relativní hojnosti každého jednotlivého druhu na základě dávky genotypu sekretu. B. longum měl nejsilnější korelaci ze 118 testovaných druhů (FDR = 0,018; obr. 4b), se zvýšenou relativní hojností genotypu sekretu vzhledem k genotypu nesekretoru. Toto zjištění je v souladu s předchozí experimentální pozorování a ukazuje, že kohorta je dostatečně napájen ověřit cílené mikrobiální-host sdružení hypotéz.
podobně byla LCT spojena se zvýšeným množstvím bifidobakterií metabolizujících laktózu ve střevě . LCT kóduje laktázu, enzym zodpovědný za štěpení laktózy v horním GI traktu; v tandemu se zvýšenými bifidobakteriemi to naznačuje, že v tlustém střevě se shromažďuje více dietní laktózy. Schopnost produkovat laktázy v dospělosti, nebo intolerance laktózy (hypolactasia) je řízen přítomností homozygotní alela G v rs4988235 SNV v blízkosti LCT . Nedávné zjištění, že spotřeba mléka a hojnost bifidobakterií pozitivně korelují pouze u lidí s variantou genu hypolaktasie, tento mechanismus podporuje.
v kohortě HMP jsme porovnávali množství bakteriálních druhů ve stolici mezi dárci s hypolaktázií a alternativními variantami. Protože hypolaktázie je recesivní rys, použili jsme t test k porovnání 64 dárců s homozygotním g genotypem se zbytkem 145 dárců. Po testování každé z 118 jednotlivých druhů hojnost proti přítomnosti této varianty, jsme zjistili, že B. longum měla nejsilnější vliv (FDR = 0.095), což potvrzuje dříve nalezené asociace (Obr. 4c).
Mikrobiální sdružení s hostitelského genomu varianty jsou tělo site-specific
Nakonec jsme se hodnocena asociace mezi hostitelského genomu a mikrobiomu variace v non-cíleně přímo přes genomu-široký sdružení studie. Provedli jsme analýzu zvlášť pro každé tělo stránky, soustředit se na SNVs s MAF > 0,1 a jejich porovnání obou mikrobiální druhy – a metabolické cesty na úrovni abundances. Použili jsme běžné lineární regresní modely, s přihlédnutím k účinkům sex, etnický původ, a umístění odběru vzorků. Po filtraci mikrobiálních rysů (viz metody) jsme identifikovali 120-160 druhů v GI traktu a perorálních vzorcích a přibližně 25 druhů v kožních a vaginálních vzorcích. Počet metabolických cest procházejících filtrací byl podstatně vyšší, mezi 350 a 530 hlavními cestami na místo. Dohromady velké množství SNVs, tělo stránky a mikrobiální vlastnosti v analýze uložit přísných kritérií významnosti (p < 3 × 10-12 podle Bonferroniho korekce pro mnohonásobné testování), které v kombinaci s naší skromné velikosti vzorku, omezuje naše discovery potenciál, aby se sdružení s velmi velký vliv velikostí.
z tohoto důvodu, poprvé jsme omezili naše analýzy SNVs nalézt v National Human Genome Research Institute (NHGRI) celogenomové Asociační Studie (GWAS) Katalogu , vychází z hypotéz, že tyto SNVs byly obohacené genomové varianty, které mají potenciální dopad na mikrobiomu vlastnosti. Tato sada zahrnovala SNV spojené s různorodou sadou kvantitativních znaků od komplexních onemocnění po antropometrická měření. Celkem 16,869 těchto SNVs byly nalezeny v naší údaje, ale nezjistil žádné významné asociace pomocí této podskupiny SNVs. Dále podle kvantil-kvantilového grafu srovnání nedošlo k systematickému obohacení menších hodnot p mezi srovnáními (další soubor 1: Obrázky S6 a S7). Nechtěli jsme získat významné výsledky s ještě jistější varianta sady je spojena s zánětlivé onemocnění střev, nebo s některou z vysoké úrovni GWAS Katalog podkategorie (např. „poruchy imunitního systému“ a „trávicí soustava“).
dále jsme provedli asociační analýzu na všech běžných SNV. Neviděli jsme žádné asociace s hodnotami p menšími než vícenásobné limity významnosti opravené testováním. Existovala však řada asociací (další soubor 1: Obrázky S8 a S9 a tabulka S2) s relativně malými hodnotami p. Tato sdružení tvoří bohatý zdroj informací pro budoucí mikrobiomu-široký sdružení studie a vyšetřovatelé zajímají o konkrétní geny nebo mikrobiální druhy.
vzhledem k jedinečnému designu kohorty HMP jsme byli také schopni prozkoumat povahu asociací mezi místy těla. Studium v projevu kvantitativní znak loci hlásili, pozoruhodná stabilita genové exprese-genotyp sdružení napříč tkání . Tady, nepozorovali jsme žádné páry SNV-mikrobů v horní části žebříčku asociací pro více míst těla, prokazující nepřímou povahu těchto asociací a jedinečné principy budování komunity pro každé místo těla. Při posuzování distribuce nejlepší p hodnoty z každého nálezu těla bez ohledu na souborům organismu, jsme stále nemohli najít žádné SNVs, které byly silněji spojeny s mikroby, než se očekávalo náhodou. Toto zjištění dále naznačuje, že genetické mechanismy za složením mikrobiomu jsou specifické pro tělo.