zmienność genetyczna gospodarza i jej interakcje z mikrobiomem w ramach Human Microbiome Project

wysokiej jakości sekwencjonowanie DNA kohorty HMP

projekt kohorty HMP i pobieranie próbek zostały szczegółowo opisane . Krótko mówiąc, kohorta HMP obejmuje 300 darczyńców rekrutowanych w dwóch lokalizacjach w USA. Większość dawców (71%) była pochodzenia Kaukaskiego; pozostali dawcy byli Pochodzenia afrykańskiego (6%), azjatyckiego (9%), latynoskiego (11%) lub mieszanego (3%). Stosunek mężczyzn do kobiet był mniej więcej równy, z 151 kobietami i 149 mężczyznami. Celem selekcji dawców było znalezienie zdrowych osób, które nie stosowały ostatnio leków lub nie stosowały w przeszłości choroby, które należały do podobnej grupy wiekowej (19-40 lat) i miały stosunkowo zdrowy wskaźnik masy ciała (BMI 19-34 kg/m2).

aby uzyskać informacje o genomie gospodarza, genomowy DNA z krwi 298 z 300 osób zsekwencjonowano stosując sekwencjonowanie wolne od PCR. Średni zakres sekwencjonowania wynosił 32,77 x, z zakresem 23,9 x do 56,7 x (Fig. 1). Zanieczyszczenie i odsetek odczytów chimerycznych były znacznie poniżej standardowego odcięcia 5% we wszystkich próbkach (dodatkowy plik 1: Rysunek S1A). Rozkład innych wskaźników jakości, takich jak rozmiar wkładki i procent odczytów, które wyrównano w parach, nie podkreślał żadnych wyraźnych próbek odstających; dlatego wszystkie próbki zostały włączone do dalszej analizy. Liczba wariantowa była również niezwykle stabilna przy ~ 2 M polimorfizmach pojedynczych nukleotydów (SNPs) i 200 K indeli na osobę (Fig. 1), z wyjątkiem dawców afroamerykańskich, którzy mieli większą różnorodność genetyczną (plik dodatkowy 1: Rysunek S1B). Nie było wykrywalnej korelacji między głębokością sekwencjonowania a liczbą odzyskanych wariantów, co wskazuje, że głębokość we wszystkich próbkach była wystarczająca.

Fig. 1
figurka1

przegląd genomu gospodarza projektu ludzkiego mikrobiomu i pokrycia metagenomem. Głębokość sekwencjonowania dla każdego genomu gospodarza (po lewej) i liczba odczytów dla wszystkich dostępnych próbek z sekwencjonowaniem całego metagenomu

dane te dostarczają prawie kompletnego łączenia sekwencjonowania ludzkiego genomu z amplikonami mikrobiologicznymi i metagenomami w całej kohorcie HMP. Zmienność genetyczna w tej kohorcie została wcześniej wywnioskowana za pomocą „zanieczyszczających” ludzkich odczytów z danych WMS 93 osób . Chociaż zapewniało to Przeciętny zasięg ludzkiego genomu ~ 10×, różniło się znacznie między próbkami i dla wielu osiągnęło tylko 5×. Było to wystarczające do wykrycia 13 M wariantów genetycznych ogółem, 5,5 m z MAF > 0,05. Dla porównania, nasze badania ponad trzykrotnie zwiększyły liczbę dawców, a poprzez bezpośrednie ukierunkowanie na DNA gospodarza zidentyfikowaliśmy dwa razy więcej wariantów o równomiernym zasięgu (minimum 25×) między próbkami. To zwiększyło jakość wszystkich próbek i wygenerowało kompletny zestaw danych, który można wydobyć w tej pracy, jak również w przyszłych badaniach.

wyniki sekwencjonowania są zgodne z wynikami innych porównywalnych populacji

po filtrowaniu według jakości i lokalizacji w regionach o niskiej złożoności pozostało 29 m wariantów, składających się z 26,7 M SNV i 2,3 m insertions-deletions (indels) (dodatkowy plik 1: Tabela S1). W porównaniu z projektami GoNL i 1000 genomów, 5,1 M SNV i 856 K INDEL były nowatorskie, ale większość z nich była rzadka (Fig. 2A). Natomiast wspólne warianty, które zidentyfikowaliśmy (MAF > 5%), były prawie powszechne między trzema kohortami. Łącznie zidentyfikowaliśmy 7.O 8 M Więcej wariantów w porównaniu do podobnie dużego Konsorcjum GoNL. Ponieważ wiele wariantów było również obecnych w projekcie 1000 genomów, przypisujemy tę różnicę większej różnorodności etnicznej w kohorcie HMP. Chociaż duża liczba SNV była unikalna dla każdej kohorty, odsetek wariantów przypadających na introniczne, egzoniczne i międzygeniczne regiony genomu był prawie identyczny między kohortami (dodatkowy plik 1: Rysunek S2).

Fig. 2
figurka2

rozmieszczenie wariantów genetycznych i porównanie z innymi kohortami. Odkryte warianty podzielone według częstotliwości i pokrywają się z innymi kohortami. Liczba alleli AC, częstotliwość alleli MAF-moll. B rozkład liczby mutacji kodujących według częstości i szacowanego wpływu

następnie opisaliśmy warianty kodowania za pomocą wtyczki LOFTEE dla narzędzia VEP, które kategoryzuje warianty na klasy w oparciu o ich wpływ na sekwencję kodowania. Liczba wariantów o dużym wpływie, zdefiniowanych jako takie, które spowodowałyby utratę funkcji danego genu, wynosiła 2670 (dodatkowy plik 1: Tabela S2); wynik ten jest zgodny z aktywną selekcją negatywną w stosunku do tych wariantów. Negatywna selekcja była również widoczna na podstawie rozkładu częstości występowania alleli, ponieważ nasilenie wpływu allelu było silnie związane z jego częstością w populacji. Na przykład warianty o dużym wpływie zostały znacznie wzbogacone o warianty, które zaobserwowano tylko raz w naszym zbiorze danych (rys. 2B, AC1). Rozkład mutacji kodujących wśród genów również nie był jednolity, z niewielką liczbą genów wychwytujących dużą liczbę wariantów. Trzydzieści genów wykazało więcej niż pięć potencjalnych wariantów utraty funkcji o wysokim wpływie, a sześć genów miało więcej niż dziesięć wariantów. Niewielka liczba genów z mutacjami kodującymi o dużym wpływie sugerowała, że ta kohorta była zbyt mała, aby można było przeprowadzić badania obciążeniowe, aby narysować korelacje między częstotliwością mutacji w obrębie genu a cechami mikrobiologicznymi. Zamiast tego skupiliśmy się na identyfikacji związków między typowymi wariantami a taksonami drobnoustrojów lub potencjałem funkcjonalnym.

taksony drobnoustrojów i potencjał czynnościowy w sześciu miejscach ciała

w przypadku HMP próbki mikrobiomu Pobrano z miejsc ciała 18, mieszczących się w pięciu głównych obszarach: przewód pokarmowy (GI), jama ustna, skóra, nares i pochwa. W niektórych przypadkach próbki replikowano w czasie, aby ocenić czasową stabilność mikrobiomu. W sumie ponad 5000 próbek scharakteryzowano za pomocą sekwencjonowania genu 16S rRNA, a ponad 2000 za pomocą shotgun WMS. Pierwsze podejście daje wysoki poziom przeglądu składu taksonomicznego, podczas gdy drugie pozwala na identyfikację na poziomie gatunku i profilowanie potencjału funkcjonalnego mikrobiomu. Wykorzystaliśmy więc dane WMS w kolejnych analizach. Rozmieszczenie próbek z WMS nie było równoważne między miejscami ciała, przy czym większość próbek Pobrano z sześciu miejsc reprezentujących cztery z głównych obszarów opisanych powyżej: jelita (stolec), jamy ustnej (błona śluzowa policzka, płytka naddziąsłowa, grzbiet języka), nares (przednie nares) i pochwy (tylne fornix); brak danych WMS z próbek skóry. W sześciu miejscach ciała liczba dawców wahała się od 80 W przypadku tylnego fornixa pochwy do 209 w przypadku próbek jelitowych; średnia liczba odczytów na próbkę wahała się od 34 M W przypadku tylnego fornixa do 86 m w grzbiecie języka. Korzystając z danych WMS z tych próbek, zidentyfikowaliśmy skład taksonomiczny przy użyciu Metaflan2 i potencjał funkcjonalny przy użyciu HUMAnN2 . Wyniki te zostały następnie przeanalizowane pod kątem związków z zmiennością genetyczną gospodarza.

główne składniki ludzkiego genomu korelują ze składem mikrobiomu

aby porównać zmienność genetyczną gospodarza ze zmiennością mikrobiologiczną, najpierw oceniliśmy stopień, w jakim wzorce genetyczne wysokiego poziomu mogą być skorelowane ze składem mikrobiomu. PCA na wspólnych SNVs (MAF > 0,05) wykazały, że pierwsze pięć głównych składników reprezentuje głównie pochodzenie etniczne i rasowe dawców. Na przykład, genetyka gospodarza Afroamerykanów, jednej z dwóch grup azjatycko-amerykańskich i osób rasy kaukaskiej wykazały najsilniejszy efekt (rys. 3A). W celu dalszego porównania ogólnej zmienności genetycznej z innymi kohortami, wspólnie zarządzaliśmy również połączonym zestawem danych uczestników genomów HMP300 i 1000, stosując SNVs z MAF > 0,05 w obu kohortach. Jednostki z obu kohort rozmieszczone w powstałej głównej przestrzeni składowej niemal identycznie zgodnie z przodkami (dodatkowy plik 1: Rysunek S3).

Fig. 3
figurka3

korelacja pomiędzy zmiennością genetyczną wysokiego poziomu a składem mikrobiomu. a przedstawiono dwa pierwsze składniki genetycznej analizy głównych składników, oparte na typowych wariantach pojedynczego nukleotydu, pokrywane przez samozgłoszone pochodzenie etniczne dawców. AA Afroamerykanin. B pokazano, jak wiele wariancji w danych mikrobiomu średnio może być wyjaśnione przez główne składniki genetyczne, w porównaniu do permutacji na tych samych danych. Wartości pokazane są Z-scores na podstawie permutacji, które zostały również wykorzystane do obliczenia empirycznych wartości P. C rozkład wartości genetycznych głównego składnika R2 dla różnych gatunków i ścieżek w stolcu. Oś Y pokazuje wariancję wyjaśnioną, a oś X pokazuje empiryczne wartości p oparte na permutacji dla każdej z tych liczb. Przedstawiono jedynie nazwy gatunków o fałszywym wskaźniku wykrycia (FDR) < 0,05 i FDR < 0,01. Poniższy histogram pokazuje rozkład empirycznych wartości p, a oś Y pokazuje liczbę gatunków w pojemniku. Zielone paski pod histogramem szlaku pokazują, jak ścieżki, które są związane z fermentacją, są uszeregowane przez R2

następnie, dla HMP300 obliczyliśmy, jaki procent zmienności drobnoustrojów w sześciu miejscach ciała można wyjaśnić (R2) przez pierwsze pięć głównych składników genomu gospodarza. W próbkach kału odsetek zmienności na poziomie gatunkowym wyjaśnionych przez główne składniki gospodarza wynosił 3,8%, więcej niż oczekiwano Przez przypadek (empiryczne p = 0,0001; Fig. 3b). Rozkład empirycznych wartości p dla wartości R2 poszczególnych gatunków był silnie przesunięty w kierunku zera (Fig. 3c), wskazując, że silne korelacje nie były ograniczone do kilku gatunków, ale że genetyczna struktura populacji wpływała na ogólne konfiguracje drobnoustrojów. Zaobserwowaliśmy podobny wpływ na poziom gatunku w miejscach jamy ustnej. W błonie śluzowej jamy ustnej główne składniki genomu opisywały średnio 5,2% (empiryczne p = 0,0008) zmienności gatunkowej; w grzbiecie języka odsetek ten wynosił 4,1% (empiryczne P = 0,0034). W identycznej analizie obfitości szlaków metabolicznych MetaCyc stwierdziliśmy, że tylko Szlaki w mikrobiomach jelitowych są znacząco skorelowane ze wspólnymi wariantami głównych składników. Podsumowując, związek między wysokimi cechami genetycznymi gospodarza a właściwościami mikrobiomu był znaczący w wielu miejscach ciała.

badając korelację poszczególnych cech drobnoustrojów z genetyką gospodarza, która przyczyniła się do tych średnich, niektóre cechy wykazały znacznie silniejsze związki Indywidualne. W kale, gdzie korelacja genetyczna była najsilniejsza, pięć spośród 118 gatunków było znacząco powiązanych (fałszywy wskaźnik wykrycia (FDR) < 0,05 w teście permutacji), przy czym wartości R2 sięgały prawie 10% (Fig. 3c). Spośród tych pięciu gatunków, bakteria Lachnospiraceae, roseburia intestinalis i Subdoligranulum (niesklasyfikowane) były pozytywnie skorelowane z pierwszym głównym składnikiem genomu, wykazując, że gatunki te mają większą obfitość u dawców pochodzenia Kaukaskiego. Inny znaczący gatunek, Sutterella wadsworthensis, był związany z PC4, który dzieli dawców pochodzenia azjatyckiego na dwie grupy. Badając inne miejsca ciała, odkryliśmy, że Porphyromonas catoniae, Propionibacterium propionicum i unclassified Gemella były znacząco związane z zmiennością genomu gospodarza w błonie śluzowej jamy ustnej (dodatkowy plik 1: Rysunek S4 I Tabela S1).

podobna analiza poziomu szlaku ujawniła dużą liczbę (82 z 541) szlaków znacząco (FDR < 0,05 jak wyżej) skorelowanych z genetycznymi głównymi składnikami w stolcu (Fig. 3c). Kilka szlaków było związanych z biosyntezą i degradacją aminokwasów i krótkołańcuchowych kwasów tłuszczowych. W bardziej systematycznym ujęciu okazało się, że członkowie superklasy fermentacyjnej bazy MetaCyc zostali znacznie wzbogaceni w rankingach Top pathway (rys. 3c). Większość z tych szlaków była związana z pierwszym głównym składnikiem genetycznym, który odróżnia białych dawców od innych przodków rasowych lub etnicznych. Takie wzbogacenia funkcjonalne mogą wskazywać na różnice etniczne w diecie, ale także na zmienność genetyczną w zdolności metabolizmu niektórych składników odżywczych.

w innych miejscach ciała zmienność na poziomie szlaku nie była skorelowana z głównymi składnikami genetycznymi, chociaż znaleziono pewne indywidualne skorelowane szlaki (dodatkowy plik 1: Rysunek S5 i tabela S1). Na przyklad, liczba pathways w jezyku dorsum microbiomes skorelowany silnie z genetycznymi glównymi skladnikami. Co ciekawe, prawie wszystkie powiązane szlaki były związane z oddychaniem i cyklem kwasu trikarboksylowego (TCA), co wskazuje na gradient tlenu i różnice w oddychaniu tlenowym przez organizmy doustne grzbietu języka między dawcami. Wzbogacenie cyklu TCA w mikrobiomie doustnym i fermentacja w mikrobiomie jelitowym odzwierciedlają dominujące cechy metaboliczne odpowiednich mikrobiomów i pokazują, w jaki sposób mogą one mieć wpływ na genetykę gospodarza i czynniki środowiskowe skorelowane z genetycznym przodkiem.

spokrewnieni dawcy mają podobne mikrobiomy

chociaż kohorta HMP obejmowała spokrewnionych ze sobą dawców, informacje te nie były dostępne w zebranych metadanych. Sekwencjonowanie genomowe dawców pozwoliło nam wywnioskować zakres relacji między wszystkimi parami dawców i zidentyfikować krewnych do trzeciego stopnia wśród nich. Wykorzystując typowe SNVs (MAF > 0,05) do analizy, zidentyfikowaliśmy 11 par krewnych pierwszego stopnia i jedną parę krewnych trzeciego stopnia.

następnie staraliśmy się ustalić, czy stopień pokrewieństwa znajduje odzwierciedlenie w podobieństwie ich mikrobiomów. Do tej analizy obliczyliśmy odległość Braya-Curtisa między wszystkimi parami dawców i podzieliliśmy je na trzy grupy: to samo pochodzenie etniczne, różne pochodzenie etniczne i krewni (rys. 4a). Jak można się było spodziewać po PCA, próbki w grupach etnicznych były średnio nieco bardziej podobne niż próbki z różnych grup etnicznych, ale podobieństwo mikrobiomu między pokrewnymi dawcami było bardziej wyraźne. Z wyjątkiem jelita, we wszystkich badanych miejscach ciała, skład społeczności mikrobiomu między krewnymi był bardziej podobny niż między losowymi parami dawców; w przednich zębach i błonie śluzowej jamy ustnej efekt był również statystycznie istotny przez test t między niepowiązanymi i pokrewnymi wynikami podobieństwa. W przypadku próbek pochwy efekt był również wyraźny, ale nie mieliśmy wystarczającej liczby par kobiet-kobiet, aby osiągnąć znaczenie statystyczne.

Fig. 4
figurka4

pokrewieństwo i podobieństwo mikrobiomu oraz replikacja znanych skojarzeń. podobieństwo Braya-Curtisa pomiędzy 12 parami bliskich krewnych (trzeciego stopnia lub bliższych) zidentyfikowanych na podstawie danych genetycznych w porównaniu do podobieństw między innymi parami. Wartości p odpowiadają wynikom testów t pomiędzy wynikami podobieństwa dla krewnych, wobec wszystkich innych par. B związek między odmianą FUT2 secretor a B. longum. C związek między wariantem genetycznym rs4988235 w pobliżu genu LCT I B. longum. Zarówno w b, jak i c wyświetlamy log10 przekształconej liczebności względnej

genotypy FUT2 i LCT są związane z Bifidobacterium longum

aby zbadać wpływ poszczególnych wariantów genetycznych na skład mikrobiomu, zaczęliśmy od znanych skojarzeń FUT2 i LCT. FUT2 jest odpowiedzialny za przenoszenie końcowych pozostałości fukozy do glikanów śluzówkowych . Bifidobakterie wykorzystują również fukozę pochodzącą ze śluzu jako źródło węgla, a obfitość i różnorodność B. longum jest znacznie niższa u osób nie-sekretorowych (osoby z przedwczesnym kodonem stop w FUT2, rs601338) w porównaniu do sekretorowych .

aby ustalić, czy to skojarzenie można zweryfikować w kohorcie HMP, szukaliśmy gatunków drobnoustrojów skorelowanych z genotypem wydzielającym fukozylotransferazę gospodarza (MAF = 0,41). Użyliśmy regresji liniowej, aby przewidzieć względną obfitość każdego gatunku w oparciu o dawkę genotypu wydzielniczego. B. longum miało najsilniejszą korelację ze 118 badanych gatunków (FDR = 0,018; Fig. 4b), ze zwiększoną względną obfitością genotypu wydzielniczego w stosunku do genotypu innego niż wydzielniczy. To odkrycie jest zgodne z wcześniejszymi obserwacjami eksperymentalnymi i pokazuje, że kohorta jest wystarczająco zasilana, aby potwierdzić ukierunkowane hipotezy dotyczące związku drobnoustrojów z gospodarzem.

podobnie LCT jest związane ze zwiększoną obfitością bifidobakterii metabolizujących laktozę w jelitach . LCT koduje laktazę, enzym odpowiedzialny za rozkład laktozy w górnym przewodzie pokarmowym; w połączeniu ze zwiększoną Bifidobakterią sugeruje to, że więcej laktozy zbiera się w jelicie grubym. Zdolność do wytwarzania laktazy w wieku dorosłym lub nietolerancji laktozy (hipolaktazja) jest kontrolowana przez obecność homozygotycznego allelu G w RS4988235 SNV blisko LCT . Niedawne odkrycie, że spożycie mleka i obfitość bifidobakterii jest pozytywnie skorelowana tylko u osób z wariantem genu hipolaktazji wspiera ten mechanizm.

w kohorcie HMP porównaliśmy obfitość gatunków bakterii w stolcu między dawcami z hipolaktazją i alternatywnymi wariantami. Ponieważ hipolaktazja jest cechą recesywną, użyliśmy testu t, aby porównać 64 dawców z homozygotycznym genotypem G z resztą 145 dawców. Po przetestowaniu każdego ze 118 poszczególnych gatunków obfitości w porównaniu z obecnością tego wariantu, odkryliśmy, że B. longum miał najsilniejszy efekt (FDR = 0,095), potwierdzając tym samym wcześniej znalezione skojarzenie (Fig. 4c).

skojarzenia drobnoustrojów z wariantami genomu gospodarza są specyficzne dla miejsca ciała

wreszcie, oceniliśmy skojarzenia między genomem gospodarza a zmiennością mikrobiomu w sposób nie ukierunkowany bezpośrednio poprzez badanie asocjacji w całym genomie. Wykonaliśmy analizę oddzielnie dla każdego miejsca ciała, koncentrując się na SNV z MAF > 0,1 i porównując je zarówno do obfitości gatunków drobnoustrojów, jak i szlaków metabolicznych. Użyliśmy zwykłych modeli regresji liniowej, biorąc pod uwagę wpływ płci, pochodzenia etnicznego i lokalizacji pobierania próbek. Po przefiltrowaniu cech drobnoustrojów (Patrz metody) zidentyfikowaliśmy 120-160 gatunków w próbkach przewodu pokarmowego i jamy ustnej oraz około 25 gatunków w próbkach skóry i pochwy. Liczba szlaków metabolicznych przechodzących filtrację była znacznie wyższa, od 350 do 530 głównych szlaków na miejsce. Łącznie duża liczba SNV, miejsc ciała i cech drobnoustrojów w analizie narzuca ścisłe kryterium istotności (p < 3 × 10-12 zgodnie z korekcją Bonferroniego dla wielokrotnego testowania), które w połączeniu z naszą skromną wielkością próbki ogranicza nasz potencjał odkrywczy do skojarzeń o bardzo dużych rozmiarach efektów.

z tego powodu najpierw ograniczyliśmy naszą analizę do SNV znalezionych w katalogu National Human Genome Research Institute (NHGRI) Genome-Wide Association Studies (GWAS), stawiając hipotezę , że te SNV zostały wzbogacone o warianty genomowe, które mają potencjalny wpływ na właściwości mikrobiomu. Zestaw ten obejmował SNV związane z różnorodnym zestawem cech ilościowych, od złożonych chorób po pomiary antropometryczne. W sumie w naszych danych znaleziono 16 869 tych SNV, ale nie wykryliśmy żadnych znaczących skojarzeń przy użyciu tego podzbioru SNV. Ponadto, zgodnie z wykresem kwantyl-kwantyl porównań, nie było systematycznego wzbogacania mniejszych wartości p wśród porównań (dodatkowy plik 1: ryciny S6 i S7). Nie uzyskaliśmy znaczących wyników z jeszcze bardziej ograniczonymi zestawami wariantowymi związanymi z zapalną chorobą jelit lub z którąkolwiek z podkategorii katalogu GWAS wysokiego poziomu (np. „zaburzenia układu odpornościowego”,”układ trawienny”).

następnie przeprowadziliśmy analizę asocjacji na wszystkich typowych SNV. Nie widzieliśmy żadnych skojarzeń z wartościami P mniejszymi niż wielokrotne limity istotności skorygowane testami. Istnieje jednak szereg powiązań (dodatkowy plik 1: rysunki S8 i S9 Oraz tabela S2) o stosunkowo małych wartościach P. Stowarzyszenia te stanowią bogate źródło informacji dla przyszłych badań dotyczących mikrobiomu i badaczy zainteresowanych konkretnymi genami lub gatunkami drobnoustrojów.

ze względu na unikalną konstrukcję kohorty HMP byliśmy również w stanie zbadać naturę powiązań między miejscami ciała. Badania ekspresji cech ilościowych loci wykazały niezwykłą stabilność związków genu ekspresja-genotyp w tkankach . Tutaj nie zaobserwowaliśmy żadnych par SNV-microbe na szczycie rankingów asocjacji dla wielu miejsc ciała, wykazując bardziej pośredni charakter tych asocjacji, a także unikalne zasady budowy społeczności dla każdego miejsca ciała. Rozważając rozkład najlepszych wartości p z każdego miejsca ciała, niezależnie od powiązanego organizmu, nadal nie mogliśmy znaleźć żadnych SNV, które były silniej związane z drobnoustrojami niż oczekiwano Przez przypadek. To odkrycie dalej sugeruje, że genetyczne mechanizmy stojące za składem mikrobiomu są specyficzne dla miejsca ciała.



+