- a HMP kohorsz kiváló minőségű DNS-szekvenálása
- a szekvenálási eredmények konzisztensek más hasonló populációkéval
- mikrobiális taxonok és funkcionális potenciál hat testhelyen
- az emberi genom főkomponensei korrelálnak a mikrobiom összetételével
- a rokon donorok mikrobiómája hasonló
- a FUT2 és az LCT genotípusok a Bifidobacterium longum
- a gazdagenom-variánsokkal való mikrobiális asszociációk testhely-specifikusak
a HMP kohorsz kiváló minőségű DNS-szekvenálása
a HMP kohorsz kialakítását és mintagyűjtését részletesen ismertették . Röviden, a HMP kohorsz 300 donorból áll, akiket két helyszínen toboroztak az USA-ban. A donorok többsége (71%) kaukázusi származású volt; a fennmaradó donorok afrikai (6%), Ázsiai (9%), Latin (11%) vagy vegyes (3%) származásúak voltak. A férfi-nő arány nagyjából egyenlő volt, 151 nő és 149 férfi volt. A donorok kiválasztásánál az volt a cél, hogy olyan egészséges egyéneket találjunk, akiknek nem volt közelmúltbeli gyógyszerhasználata vagy kórtörténete, akik hasonló korcsoportba tartoztak (19-40 év), és akiknek viszonylag egészséges testtömeg-indexe volt (BMI 19-34 kg/m2).
a gazdaszervezet Genom információinak megszerzéséhez a genomi DNS-t a 298 a 300 egyedek közül PCR-mentes szekvenálással szekvenáltuk. Az átlagos szekvenálási lefedettség 32,77 x volt, 23,9-től 56,7-ig terjedő tartományban (ábra. 1). A szennyeződés és a kiméra leolvasások százalékos aránya minden mintában jóval az 5% – os Standard határérték alatt volt (további 1.fájl: S1A ábra). Más minőségi mutatók eloszlása, mint például a beillesztési méret és a párokba igazított olvasások százalékos aránya, nem mutatott ki egyértelmű kiugró mintákat; ezért minden mintát bevontunk a további elemzésbe. A variáns szám szintén figyelemre méltóan stabil volt ~ 2 m egy nukleotid polimorfizmus (SNP) és 200 K Indel személyenként (ábra. 1), kivéve az afro-amerikai donorokat, akiknek magasabb volt a genetikai sokfélesége (1. kiegészítő fájl: S1B ábra). Nem volt kimutatható korreláció a szekvenálási mélység és a kinyert változatok száma között, ami azt jelzi, hogy a mélység minden mintában elegendő volt.
ezek az adatok a humán genom szekvenálásának majdnem teljes párosítását biztosítják mikrobiális amplikonokkal és metagenomokkal a teljes HMP kohorszban. Genetikai variáció ebben a kohorszban korábban 93 alany WMS-adataiból származó “szennyező” emberi olvasmányok felhasználásával következtettek . Míg ez az emberi genom átlagos lefedettségét ~ 10 xhamsternek tette ki, a minták között nagyon eltérő volt, és sokuk esetében csak 5 millimétert ért el. Ez elegendő volt összesen 13 m genetikai variáns kimutatására, 5,5 M MAF > 0,05 esetén. Összehasonlításképpen, tanulmányunk több mint háromszorosára növelte a donorok számát, és közvetlenül a gazdaszervezet DNS-ét célozva, kétszer annyi variánst azonosítottunk, amelyek egyenletes lefedettséggel (minimum 25) rendelkeztek a minták között. Ez növelte az összes minta minőségét, és egy teljes adatkészletet hozott létre, amely bányászható ebben a munkában, valamint a jövőbeni tanulmányokban.
a szekvenálási eredmények konzisztensek más hasonló populációkéval
a minőség és a hely szerinti szűrés után az alacsony komplexitású régiókban 29 millió variáns maradt, amelyek 26,7 millió SNV-t és 2,3 millió inszerció-törlést (Indel) tartalmaztak (1.kiegészítő fájl: S1 táblázat). A GoNL és az 1000 Genomprojekthez képest 5,1 millió SNV és 856 ezer Indel újszerű volt, de ezek többsége ritka volt (ábra. 2a). Ezzel szemben az általunk azonosított közös változatokat (MAF > 5%) szinte általánosan megosztották a három kohorsz között. Összességében 7-et azonosítottunk.8 M-rel több változat a hasonló méretű GoNL konzorciumhoz képest. Mivel sok változat is jelen volt az 1000 Genom projektben, a különbséget a HMP kohorsz nagyobb etnikai sokféleségének tulajdonítjuk. Bár az SNV-k nagy száma egyedi volt az egyes kohorszok esetében, a genom intronikus, exonikus és intergenikus régióiban eső variánsok aránya majdnem azonos volt a kohorszok között (további fájl 1: S2 ábra).
ezután a kódolási változatokat a LOFTEE plugin segítségével jegyeztük fel a VEP eszközhöz, amely a változatokat osztályokba sorolja a kódolási sorrendre gyakorolt hatásuk alapján. A nagy hatású variánsok száma, amelyek egy adott gén funkciójának elvesztését eredményeznék, 2670 volt (1. kiegészítő fájl: S2 táblázat); ez az eredmény összhangban van az ezekkel a variánsokkal szembeni aktív negatív szelekcióval. A negatív szelekció az allélfrekvencia-eloszlásból is nyilvánvaló volt, mivel az allél hatásának súlyossága szorosan összefüggött a populációban való gyakoriságával. Például a nagy hatású változatok nagymértékben gazdagodtak olyan változatokban, amelyeket csak egyszer figyeltek meg az adatkészletünkben (ábra. 2B, AC1). A kódoló mutációk eloszlása a gének között szintén nem volt egységes, kis számú gén nagyszámú variánst vett fel. Harminc gén több mint öt potenciális nagy hatású funkcióvesztési variánst mutatott, hat génnek pedig több mint tíz változata volt. A nagy hatású kódoló mutációkkal rendelkező gének kis száma azt sugallta, hogy ez a kohorsz túl kicsi ahhoz, hogy a terhelés vizsgálata összefüggéseket vonjon le a génen belüli mutációs gyakoriság és a mikrobiális jellemzők között. Ehelyett az elemzésünket a közös variánsok és a mikrobiális taxonok vagy funkcionális potenciál közötti asszociációk azonosítására összpontosítottuk.
mikrobiális taxonok és funkcionális potenciál hat testhelyen
a HMP esetében mikrobiommintákat gyűjtöttek 18 testhelyről, amelyek öt fő területre esnek: gyomor-bél traktus, szájüreg, bőr, orr és Hüvely. Bizonyos esetekben az idő múlásával párhuzamos mintákat gyűjtöttünk a mikrobiom időbeli stabilitásának felmérése érdekében. Összesen több mint 5000 mintát jellemeztünk 16S rRNS génszekvenálással, több mint 2000-et pedig shotgun WMS alkalmazásával. Az előbbi megközelítés magas szintű áttekintést ad a taxonómiai összetételről, míg az utóbbi lehetővé teszi a mikrobiom funkcionális potenciáljának fajszintű azonosítását és profilozását. Ezért WMS-adatokat használtunk a későbbi elemzésekben. A minták WMS-sel való eloszlása nem volt egyenértékű a test helyei között, a legtöbb mintát hat helyről vették, amelyek a fent leírt négy fő területet képviselik: bél (széklet), orális (bukkális nyálkahártya, supragingivális plakk, nyelv dorsum), nares (anterior nares) és vaginális (posterior fornix); a bőrmintákból nem álltak rendelkezésre WMS-adatok. A hat testhelyen belül a donorok száma a hüvelyi posterior fornix esetében 80-tól a bélminták esetében 209-ig terjedt; a mintánkénti leolvasások átlagos száma a posterior fornixben 34 M-től a nyelv dorsumában 86 M-ig terjedt. Ezekből a mintákból származó WMS-adatok felhasználásával azonosítottuk a taxonómiai összetételt Metaflan2 és funkcionális potenciál felhasználásával HUMAnN2 . Ezeket a kimeneteket ezután elemeztük a gazdaszervezet genetikai variációival való összefüggések szempontjából.
az emberi genom főkomponensei korrelálnak a mikrobiom összetételével
a gazdaszervezet genetikai variációjának a mikrobiális variációval való összehasonlításához először azt vizsgáltuk, hogy a magas szintű genetikai minták milyen mértékben korrelálhatnak a mikrobiom összetételével. A közös SNV-kre vonatkozó PCA (MAF > 0,05) kimutatta, hogy az első öt fő összetevő túlnyomórészt a donorok etnikai és faji származását képviselte. Például az afro-amerikai, az ázsiai-amerikai két csoport egyikének és a kaukázusi alanyok gazdagenetikája mutatta a legerősebb hatást (ábra. 3a). Az általános genetikai variáció további összehasonlítása más kohorszokkal, közösen koordináltuk a hmp300 és 1000 Genom résztvevőinek kombinált adatkészletét, SNV-k alkalmazásával, MAF > 0,05 mindkét kohorszban. Mindkét kohorszból származó egyének a kapott főkomponens térben szinte azonos módon oszlanak meg az ősök szerint (1.kiegészítő fájl: S3 ábra).
ezután a HMP300 esetében kiszámoltuk, hogy a hat testhely mikrobiális variációjának hány százaléka magyarázható (R2) az első öt gazda-Genom főkomponenssel. A székletmintákban a gazdaszervezet főkomponensei által magyarázott fajszintű variáció százalékos aránya 3,8% volt, magasabb, mint önmagában a véletlen várt (empirikus p = 0,0001; ábra. 3b). Az empirikus p értékek eloszlása az egyes fajok R2 értékeire erősen eltolódott a nulla felé (ábra. 3c), jelezve, hogy az erős korrelációk nem korlátozódtak néhány fajra, hanem a genetikai populáció szerkezete befolyásolta az Általános mikrobiális konfigurációkat. Hasonló hatást figyeltünk meg a fajok szintjén az orális helyeken. A bukkális nyálkahártyában a genomi főkomponensek a fajszintű variáció átlagosan 5,2%-át (empirikus p = 0,0008) írták le; a nyelv dorsumában ez az érték 4,1% volt (empirikus p = 0,0034). A MetaCyc metabolikus út bőségének azonos elemzésében csak a bél mikrobiómáinak útvonalait találtuk szignifikánsan korrelál a közös variáns főkomponensekkel. Összefoglalva, a magas szintű gazdaszervezet genetikai jellemzői és a mikrobiom tulajdonságai közötti kapcsolat jelentős volt a test több helyén.
az egyes mikrobiális tulajdonságok és a gazdagenetika összefüggésének vizsgálatakor, amelyek hozzájárultak ezekhez az átlagokhoz, bizonyos jellemzők sokkal erősebb egyéni asszociációkat mutattak. A székletben, ahol a genetikai korreláció volt a legerősebb, a 118-ból öt faj szignifikánsan társult (hamis felfedezési Arány (FDR) < 0,05 permutációs teszttel), az R2 értékek majdnem 10% – ot értek el (ábra. 3c). Ezen öt faj közül a Lachnospiraceae baktérium, a Roseburia intestinalis és a Subdoligranulum (osztályozatlan) mind pozitív korrelációt mutatott az első genomikus főkomponenssel, ami azt mutatja, hogy ezeknek a fajoknak nagyobb a száma a kaukázusi eredetű donorokban. Egy másik jelentős faj, a Sutterella wadsworthensis, a PC4-hez kapcsolódott, amely az ázsiai eredetű donorokat két csoportra osztja. Más testrészeket vizsgálva megállapítottuk, hogy a Porphyromonas catoniae, a Propionibacterium propionicum és a nem osztályozott Gemella szignifikánsan összefügg a szájüreg nyálkahártyájának gazdaszervezeti variációjával (további fájl 1: S4 Ábra és S1 táblázat).
egy hasonló útvonal-szintű elemzés nagyszámú (82 az 541-ből) utat mutatott ki szignifikánsan (FDR < 0,05 a fentiek szerint) korrelál a széklet genetikai főkomponenseivel (ábra. 3c). Számos útvonal kapcsolódott az aminosav és a rövid láncú zsírsav bioszintéziséhez és lebomlásához. Szisztematikusabb nézetben azt tapasztaltuk, hogy a metacyc adatbázis fermentációs szuperosztályának tagjai jelentősen gazdagodtak a felső útvonal rangsorban (ábra. 3c). Ezen utak többsége az első genetikai főkomponenshez kapcsolódott, amely megkülönbözteti a fehér donorokat más faji vagy etnikai ősöktől. Az ilyen funkcionális dúsítások rámutathatnak az étrend etnikai különbségeire, de bizonyos tápanyagok metabolizálásának képességének genetikai változékonyságára is.
más testhelyeken az útvonal szintű variabilitás átlagosan nem volt összefüggésben a genetikai főkomponensekkel, bár találtak néhány egyedi korrelációs útvonalat (további fájl 1: S5 Ábra és S1 táblázat). Például a nyelv dorsum mikrobiómáinak számos útja erősen korrelált a genetikai főkomponensekkel. Érdekes módon szinte az összes kapcsolódó útvonal kapcsolatban állt a légzéssel és a trikarbonsav (TCA) ciklussal, jelezve az oxigéngradienst és a nyelv hátsó részének orális organizmusai által végzett aerob légzés különbségeit a donorok között. A TCA-ciklus dúsítása az orális mikrobiomban és a fermentáció a bél mikrobiomjában tükrözi a megfelelő mikrobiómok domináns metabolikus jellemzőit, és megmutatja, hogy ezeket hogyan befolyásolhatják a gazdaszervezet genetikája és a genetikai ősökkel korreláló környezeti tényezők.
a rokon donorok mikrobiómája hasonló
bár a HMP kohorszban szerepeltek egymással rokon donorok, ez az információ nem állt rendelkezésre az összegyűjtött metaadatokban. A donorok genomikus szekvenálása lehetővé tette számunkra, hogy megállapítsuk az összes donorpár közötti kapcsolat mértékét, és azonosítsuk közöttük a harmadik fokú rokonokat. A közös SNV-k (MAF > 0,05) segítségével az elemzéshez 11 pár első fokú rokont és egy pár harmadfokú rokont azonosítottunk.
ezután arra törekedtünk, hogy meghatározzuk, hogy a kapcsolat mértéke tükröződik-e mikrobiomjaik hasonlóságában. Ehhez az elemzéshez kiszámítottuk az összes donorpár közötti Bray-Curtis távolságot, majd a párokat három csoportra osztottuk: azonos etnikum, különböző etnikum és rokonok (ábra. 4a). Amint az a PCA-tól várható volt, az etnikai csoportokon belüli minták átlagosan valamivel hasonlóbbak voltak, mint a különböző etnikai csoportokból származó minták, de a rokon donorok közötti mikrobiom hasonlóság kifejezettebb volt. A bél kivételével az összes vizsgált testrészben a rokonok közötti mikrobiom közösség összetétele hasonlóbb volt, mint a véletlenszerű donorpárok között; az elülső nares és a bukkális nyálkahártya esetében a hatás statisztikailag szignifikáns volt a T-teszttel a független és rokon hasonlósági pontszámok között. A hüvelyi minták esetében a hatás is kifejezett volt, de nem volt elegendő női-női pár a statisztikai szignifikancia eléréséhez.
a FUT2 és az LCT genotípusok a Bifidobacterium longum
– hoz kapcsolódnak az egyes genetikai variánsok mikrobiom összetételre gyakorolt hatásának tanulmányozásához a FUT2 és az LCT ismert asszociációival kezdtük. A FUT2 felelős a terminális fukózmaradékok nyálkahártya-glikánokba történő átviteléért . A bifidobaktériumok szénforrásként nyálkából származó fukózt is használnak, és a B. longum bősége és sokfélesége szignifikánsan alacsonyabb a nem szekréciókban (a fut2, rs601338 korai stop kodonnal rendelkező egyének) a szekréciókhoz képest .
annak megállapításához, hogy ez az asszociáció igazolható-e a HMP kohorszban, mikrobiális fajokat kerestünk korrelál a gazdaszervezet fukoziltranszferáz szekréciós genotípusával (MAF = 0,41). Lineáris regressziót használtunk az egyes fajok relatív bőségének előrejelzésére a szekréciós genotípus dózisa alapján. B. longum volt a legerősebb korreláció a 118 vizsgált faj közül (FDR = 0,018; ábra. 4b), megnövekedett relatív bőséggel a szekréciós genotípusban a nem szekréciós genotípushoz képest. Ez a megállapítás összhangban van a korábbi kísérleti megfigyelésekkel, és bizonyítja, hogy a kohorsz elegendő erővel rendelkezik a célzott mikrobiális-gazda asszociációs hipotézisek validálásához.
Hasonlóképpen, az LCT-t összefüggésbe hozták a laktóz-metabolizáló bifidobaktériumok megnövekedett bőségével a bélben . Az LCT a laktázt, a laktóz lebontásáért felelős enzimet kódolja a felső GI traktusban; a megnövekedett bifidobaktériumokkal párhuzamosan ez arra utal, hogy több étkezési laktóz gyűlik össze a vastagbélben. A laktáz felnőttkori vagy laktóz intoleranciában (hypolactasia) történő előállításának képességét homozigóta g allél jelenléte szabályozza az RS4988235 SNV-ben, közel az LCT-hez . Egy friss megállapítás, hogy a tejfogyasztás és a bifidobaktériumok bősége csak a hypolactasia génváltozattal rendelkező embereknél pozitív korrelációt mutat, támogatja ezt a mechanizmust.
a HMP kohorszban összehasonlítottuk a baktériumfajok székletbőségét a donorok között a hypolactasia és az alternatív variánsok között. Mivel a hypolactasia recesszív tulajdonság, t tesztet használtunk a 64 donor összehasonlítására a homozigóta g genotípussal a többi 145 donorral. Miután megvizsgáltuk mind a 118 egyedi faj bőségét ennek a variánsnak a jelenlétével szemben, azt találtuk, hogy a B. longumnak volt a legerősebb hatása (FDR = 0,095), ezáltal megerősítve a korábban talált összefüggést (ábra. 4c).
a gazdagenom-variánsokkal való mikrobiális asszociációk testhely-specifikusak
végül a gazdagenom és a mikrobiom-variáció közötti asszociációkat nem célzott módon, közvetlenül egy genomszintű asszociációs vizsgálat során értékeltük. Az elemzést minden testhelyre külön végeztük, az SNV-kre koncentrálva, MAF > 0,1 értékkel, és összehasonlítottuk őket mind a mikrobiális fajok, mind a metabolikus útvonal szintű abundanciákkal. Hagyományos lineáris regressziós modelleket használtunk, figyelembe véve a nem, az etnikai hovatartozás és a mintagyűjtés helyének hatásait. A mikrobiális jellemzők szűrése után (lásd a módszereket) 120-160 fajt azonosítottunk a gyomor-bél traktusban és az orális mintákban, és körülbelül 25 fajt a bőr-és hüvelymintákban. A szűrésen áthaladó metabolikus utak száma jelentősen magasabb volt, 350 és 530 fő útvonal között helyenként. Együtt az SNV-k, a testhelyek és a mikrobiális jellemzők nagy száma az elemzésben szigorú szignifikancia kritériumot ír elő (p < 3 60-12 a Bonferroni korrekció szerint többszörös teszteléshez), amely szerény mintaméretünkkel kombinálva felfedezési potenciálunkat nagyon nagy hatásmérettel rendelkező asszociációkra korlátozza.
emiatt először korlátoztuk elemzésünket a Nemzeti humán Genomkutató Intézet (NHGRI) Genomszintű asszociációs tanulmányok (GWAS) katalógusában található SNV-kre , feltételezve, hogy ezek az SNV-k genomi variánsokkal dúsítottak, amelyek potenciálisan hatással vannak a mikrobiom tulajdonságaira. Ez a készlet magában foglalta az SNV-ket, amelyek sokféle kvantitatív tulajdonsághoz kapcsolódnak, a komplex betegségektől az antropometriai mérésekig. Ezen SNV-k közül összesen 16 869-et találtunk adatainkban, de az SNV-k ezen részhalmazának felhasználásával nem észleltünk jelentős asszociációkat. Továbbá az összehasonlítások kvantilis-kvantilis diagramja szerint az összehasonlítások között nem volt szisztematikusan dúsítva a kisebb p értékek (1. kiegészítő fájl: S6 és S7 adatok). A gyulladásos bélbetegséggel vagy a magas szintű GWAS katalógus alkategóriák bármelyikével (pl. “immunrendszeri rendellenességek”, “emésztőrendszer”) összefüggő, még korlátozottabb variánskészletekkel nem értünk el jelentős eredményeket.
ezután lefuttattuk az asszociációs elemzést az összes közös SNV-n. Nem láttunk olyan asszociációkat, amelyek p értékei kisebbek lennének, mint a többszörös teszteléssel korrigált szignifikancia határértékek. Azonban számos asszociáció volt (további 1.fájl: S8 és S9 számok és S2 táblázat) viszonylag kis p értékekkel. Ezek az asszociációk gazdag információforrást jelentenek a jövőbeni mikrobiom egészére kiterjedő társulási tanulmányok és a specifikus gének vagy mikrobiális fajok iránt érdeklődő kutatók számára.
a HMP kohorsz egyedi kialakítása miatt képesek voltunk megvizsgálni a testhelyek közötti asszociációk jellegét is. Az expressziós kvantitatív tulajdonság lókuszokban végzett vizsgálatok a génexpresszió-genotípus asszociációk figyelemre méltó stabilitásáról számoltak be a szövetekben . Itt, nem figyeltünk meg SNV-mikroba párokat a több testhelyre vonatkozó társulási rangsor tetején, bemutatva ezen társulások közvetettebb jellegét, valamint az egyes testhelyekre vonatkozó egyedi közösségi építési elveket. Ha figyelembe vesszük a legjobb p-értékek eloszlását az egyes testhelyekről, függetlenül a kapcsolódó organizmustól, még mindig nem találtunk olyan SNV-ket, amelyek erősebben kapcsolódtak volna a mikrobákhoz, mint azt véletlenül várták. Ez a megállapítás azt is sugallja, hogy a mikrobiom összetételének genetikai mechanizmusai testhely-specifikusak.