- Hochwertige DNA-Sequenzierung der HMP-Kohorte
- Sequenzierungsergebnisse stimmen mit denen anderer vergleichbarer Populationen überein
- Mikrobielle Taxa und funktionelles Potenzial an sechs Körperstellen
- Humane genomische Hauptkomponenten korrelieren mit der Mikrobiomzusammensetzung
- Verwandte Spender haben ähnliche Mikrobiome
- FUT2- und LCT-Genotypen sind mit Bifidobacterium longum assoziiert
- Mikrobielle Assoziationen mit Wirtsgenomvarianten sind körperstellenspezifisch
Hochwertige DNA-Sequenzierung der HMP-Kohorte
Das HMP-Kohortendesign und die Probensammlung wurden ausführlich beschrieben . Kurz gesagt, die HMP-Kohorte umfasst 300 Spender, die an zwei Standorten in den USA rekrutiert wurden. Die Mehrheit der Spender (71%) war kaukasischer Herkunft; Die übrigen Spender waren afrikanischer (6%), asiatischer (9%), lateinamerikanischer (11%) oder gemischter (3%) Abstammung. Das Verhältnis von Männern zu Frauen war mit 151 Frauen und 149 Männern ungefähr gleich. Das Ziel bei der Auswahl der Spender war es, gesunde Personen ohne kürzlichen Medikamentengebrauch oder Krankheitsgeschichte zu finden, die einer ähnlichen Altersgruppe (19-40 Jahre) angehörten und einen relativ gesunden Body-Mass-Index (BMI von 19-34 kg / m2) aufwiesen.
Zur Gewinnung von Wirtsgenominformationen wurde genomische DNA aus dem Blut von 298 der 300 Individuen mittels PCR-freier Sequenzierung sequenziert. Die durchschnittliche Sequenzierungsabdeckung betrug 32,77x mit einem Bereich von 23,9 × bis 56,7 × (Abb. 1). Die Kontamination und der Prozentsatz der chimären Reads lagen in allen Proben deutlich unter dem Standard-Cutoff von 5% (Zusätzliche Datei 1: Abbildung S1A). Die Verteilung anderer Qualitätsmetriken wie Einfügegröße und Prozentsatz der Lesevorgänge, die paarweise ausgerichtet waren, zeigten keine eindeutigen Ausreißerstichproben; Daher wurden alle Stichproben in die weitere Analyse einbezogen. Die Variantenzahl war auch bemerkenswert stabil bei ~ 2 M Einzelnukleotidpolymorphismen (SNPs) und 200 K Indels pro Person (Abb. 1), mit Ausnahme der afroamerikanischen Spender, die eine höhere genetische Vielfalt aufwiesen (Zusätzliche Datei 1: Abbildung S1B). Es gab keine nachweisbare Korrelation zwischen der Sequenziertiefe und der Anzahl der gewonnenen Varianten, was darauf hindeutet, dass die Tiefe in allen Proben ausreichend war.
Diese Daten liefern eine nahezu vollständige Paarung der humanen Genomsequenzierung mit mikrobiellen Amplikons und Metagenomen über die gesamte HMP-Kohorte hinweg. Die genetische Variation in dieser Kohorte wurde zuvor unter Verwendung von „Kontaminanten“ menschlichen Messungen aus den WMS-Daten von 93 Probanden abgeleitet . Während dies eine durchschnittliche Abdeckung des menschlichen Genoms von ~ 10 × ergab, variierte es stark zwischen den Proben und erreichte für viele nur 5 ×. Dies reichte aus, um insgesamt 13 M genetische Varianten nachzuweisen, 5,5 M mit MAF > 0,05. Im Vergleich dazu hat unsere Studie die Anzahl der Spender mehr als verdreifacht, und indem wir direkt auf die Wirts-DNA abzielten, identifizierten wir insgesamt doppelt so viele Varianten mit gleichmäßiger Abdeckung (mindestens 25 ×) zwischen den Proben. Dies erhöhte die Qualität über alle Proben hinweg und erzeugte einen vollständigen Datensatz, der sowohl in dieser Arbeit als auch in zukünftigen Studien abgebaut werden kann.
Sequenzierungsergebnisse stimmen mit denen anderer vergleichbarer Populationen überein
Nach Filterung nach Qualität und Lokalisation in Regionen mit geringer Komplexität blieben 29 M Varianten übrig, bestehend aus 26,7 M SNVs und 2,3 M Insertions-Deletions (Indels) (Zusätzliche Datei 1: Tabelle S1). Im Vergleich zu den Projekten GoNL und 1000 Genomes waren 5,1 M SNVs und 856 K Indels neu, aber die meisten davon waren selten (Abb. 2a). Im Gegensatz dazu wurden die von uns identifizierten gemeinsamen Varianten (MAF > 5%) fast universell zwischen den drei Kohorten geteilt. Insgesamt identifizierten wir 7.8 M mehr Varianten im Vergleich zum ähnlich großen GoNL-Konsortium. Da viele der Varianten auch im 1000-Genom-Projekt vorhanden waren, führen wir den Unterschied auf die größere ethnische Vielfalt in der HMP-Kohorte zurück. Obwohl eine große Anzahl von SNVs für jede Kohorte einzigartig war, war der Anteil der Varianten, die in intronische, exonische und intergene Regionen des Genoms fielen, zwischen den Kohorten nahezu identisch (Zusätzliche Datei 1: Abbildung S2).
Als nächstes haben wir Codierungsvarianten mit dem LOFTEE-Plugin für das VEP-Tool kommentiert , das Varianten basierend auf ihren Auswirkungen auf die Codierungssequenz in Klassen kategorisiert. Die Anzahl der High-Impact-Varianten, definiert als solche, die zum Funktionsverlust eines bestimmten Gens führen würden, betrug 2670 (Zusätzliche Datei 1: Tabelle S2); dieses Ergebnis steht im Einklang mit der aktiven negativen Selektion gegen diese Varianten. Eine negative Selektion zeigte sich auch in der Allelhäufigkeitsverteilung, da die Schwere der Auswirkungen eines Allels stark mit seiner Häufigkeit in der Population zusammenhing. Zum Beispiel wurden High-Impact-Varianten in Varianten, die nur einmal in unserem Datensatz beobachtet wurden, stark angereichert (Abb. 2b, AC1). Die Verteilung der kodierenden Mutationen unter den Genen war ebenfalls nicht einheitlich, wobei eine kleine Anzahl von Genen eine große Anzahl von Varianten erfasste. Dreißig Gene zeigten mehr als fünf potenzielle High-Impact-Loss-of-Function-Varianten, und sechs Gene hatten mehr als zehn Varianten. Die geringe Anzahl von Genen mit hochwirksamen kodierenden Mutationen deutete darauf hin, dass diese Kohorte für Belastungstests zu klein war, um Korrelationen zwischen der Mutationshäufigkeit innerhalb eines Gens und mikrobiellen Merkmalen zu ziehen. Stattdessen konzentrierten wir unsere Analyse auf die Identifizierung von Assoziationen zwischen häufigen Varianten und mikrobiellen Taxa oder funktionellem Potenzial.
Mikrobielle Taxa und funktionelles Potenzial an sechs Körperstellen
Für den HMP wurden Mikrobiomproben an 18 Körperstellen gesammelt, die in fünf Hauptbereiche unterteilt waren: Gastrointestinaltrakt (GI), Mundhöhle, Haut, Nasenlöcher und Vagina. In einigen Fällen wurden Replikatproben im Laufe der Zeit gesammelt, um die zeitliche Stabilität des Mikrobioms zu beurteilen. Insgesamt wurden mehr als 5000 Proben mit 16S rRNA-Gensequenzierung und mehr als 2000 mit Shotgun WMS charakterisiert. Der erstere Ansatz gibt einen Überblick über die taxonomische Zusammensetzung auf hoher Ebene, während der letztere die Identifizierung und Profilierung des funktionellen Potenzials des Mikrobioms auf Artenebene ermöglicht. Wir haben daher WMS-Daten in nachfolgenden Analysen verwendet. Die Verteilung der Proben mit WMS war zwischen den Körperstellen nicht gleichwertig, wobei die meisten Proben von sechs Stellen entnommen wurden, die vier der oben beschriebenen Hauptbereiche repräsentierten: Darm (Stuhl), Mund (bukkale Schleimhaut, supragingivale Plaque, Zungenrücken), Nasen (vordere Nasen) und vaginal (posteriorer Fornix); Aus den Hautproben lagen keine WMS-Daten vor. Innerhalb der sechs Körperstellen reichte die Anzahl der Spender von 80 für vaginal posterior Fornix bis 209 für Darmproben; Die durchschnittliche Anzahl der Lesevorgänge pro Probe lag zwischen 34 M im posterioren Fornix und 86 M im Zungenrücken. Unter Verwendung der WMS-Daten aus diesen Proben identifizierten wir die taxonomische Zusammensetzung mit MetaPhlan2 und das funktionelle Potenzial mit HUMAnN2 . Diese Ergebnisse wurden dann auf Assoziationen mit der genetischen Variation des Wirts analysiert.
Humane genomische Hauptkomponenten korrelieren mit der Mikrobiomzusammensetzung
Um die genetische Variation des Wirts mit der mikrobiellen Variation zu vergleichen, untersuchten wir zunächst, inwieweit genetische Muster auf hoher Ebene mit der Mikrobiomzusammensetzung korreliert werden können. PCA auf den gemeinsamen SNVs (MAF > 0,05) zeigte, dass die ersten fünf Hauptkomponenten überwiegend die ethnische und rassische Abstammung der Spender repräsentierten. Zum Beispiel zeigte die Wirtsgenetik des Afroamerikaners, einer von zwei Gruppen von asiatisch-amerikanischen und kaukasischen Probanden den stärksten Effekt (Abb. 3a). Um die gesamte genetische Variation weiter mit anderen Kohorten zu vergleichen, ordinierten wir auch gemeinsam einen kombinierten Datensatz von HMP300- und 1000-Genomteilnehmern unter Verwendung von SNVs mit MAF > 0.05 in beiden Kohorten. Individuen aus beiden Kohorten verteilten sich im resultierenden Hauptkomponentenraum nahezu identisch nach Abstammung (Zusätzliche Datei 1: Abbildung S3).
Als nächstes berechneten wir für HMP300, wie viel Prozent der mikrobiellen Variation in den sechs Körperstellen durch die ersten fünf Wirtsgenom-Hauptkomponenten erklärt werden konnten (R2). In Stuhlproben betrug der Prozentsatz der Variation auf Speziesebene, der durch die Wirtshauptkomponenten erklärt wurde, 3,8% und war damit allein durch Zufall höher als erwartet (empirisch p = 0,0001; Abb. 3b). Die Verteilung der empirischen p-Werte für die R2-Werte der einzelnen Spezies war stark gegen Null verschoben (Abb. 3c), was darauf hindeutet, dass starke Korrelationen nicht auf wenige Arten beschränkt waren, sondern dass die genetische Populationsstruktur die mikrobiellen Gesamtkonfigurationen beeinflusste. Wir beobachteten einen ähnlichen Effekt auf die Artenebene in oralen Standorten. In der bukkalen Mukosa machten die genomischen Hauptkomponenten durchschnittlich 5,2% (empirisch p = 0,0008) der Variation auf Speziesebene aus; im Zungenrücken betrug dieser Wert 4,1% (empirisch p = 0,0034). In einer identischen Analyse der MetaCyc-Stoffwechselweghäufigkeit fanden wir nur die Wege in den Darmmikrobiomen, die signifikant mit gemeinsamen Varianten korrelierten Hauptkomponenten. Zusammenfassend war der Zusammenhang zwischen genetischen Merkmalen des Wirts auf hoher Ebene und Mikrobiomeigenschaften an mehreren Körperstellen signifikant.
Bei der Untersuchung der Korrelation einzelner mikrobieller Merkmale mit der Wirtsgenetik, die zu diesen Durchschnittswerten beitrug, zeigten bestimmte Merkmale viel stärkere individuelle Assoziationen. Im Stuhl, wo die genetische Korrelation am stärksten war, waren fünf von 118 Arten signifikant assoziiert (False Discovery Rate (FDR) < 0,05 durch Permutationstest), wobei R2-Werte fast 10% erreichten (Abb. 3c). Von diesen fünf Arten waren Lachnospiraceae Bakterium, Roseburia intestinalis und Subdoligranulum (nicht klassifiziert) alle positiv mit der ersten genomischen Hauptkomponente korreliert, was zeigt, dass diese Arten bei Spendern kaukasischer Herkunft häufiger vorkommen. Eine weitere bedeutende Spezies, Sutterella wadsworthensis, wurde mit PC4 assoziiert, das Spender asiatischer Herkunft in zwei Gruppen unterteilt. Bei der Untersuchung anderer Körperstellen stellten wir fest, dass Porphyromonas catoniae, Propionibacterium propionicum und nicht klassifizierte Gemella signifikant mit der genomischen Variation des Wirts in der bukkalen Schleimhaut assoziiert waren (Zusätzliche Datei 1: Abbildung S4 und Tabelle S1).
Eine ähnliche Analyse auf Signalwegebene ergab eine große Anzahl (82 von 541) von Signalwegen, die signifikant (FDR < 0,05 wie oben) mit genetischen Hauptkomponenten im Stuhl korrelierten (Abb. 3c). Mehrere Wege waren mit der Biosynthese und dem Abbau von Aminosäuren und kurzkettigen Fettsäuren verbunden. In einer systematischeren Ansicht stellten wir fest, dass die Mitglieder der Fermentations-Superklasse der MetaCyc-Datenbank in den Top-Pathway-Rankings signifikant angereichert waren (Abb. 3c). Die meisten dieser Wege waren mit der ersten genetischen Hauptkomponente verbunden, die weiße Spender von anderen rassischen oder ethnischen Vorfahren unterscheidet. Solche funktionellen Anreicherungen können auf ethnische Unterschiede in der Ernährung hinweisen, aber auch auf genetische Variabilität in der Fähigkeit, bestimmte Nährstoffe zu metabolisieren.
In anderen Körperstellen korrelierte die Variabilität auf Signalwegebene im Durchschnitt nicht mit genetischen Hauptkomponenten, obwohl einige einzelne korrelierte Signalwege gefunden wurden (Zusätzliche Datei 1: Abbildung S5 und Tabelle S1). Zum Beispiel korrelierten eine Reihe von Signalwegen in den dorsalen Mikrobiomen der Zunge stark mit genetischen Hauptkomponenten. Interessanterweise waren fast alle assoziierten Wege mit der Atmung und dem Tricarbonsäure (TCA) -Zyklus verbunden, was auf einen Sauerstoffgradienten und Unterschiede in der aeroben Atmung durch orale Organismen des Zungenrückens zwischen den Spendern hinweist. Die Anreicherung des TCA-Zyklus im oralen Mikrobiom und die Fermentation im Darmmikrobiom spiegeln die dominanten Stoffwechselmerkmale der entsprechenden Mikrobiome wider und zeigen, wie diese durch Wirtsgenetik und Umweltfaktoren beeinflusst werden können, die mit der genetischen Abstammung korrelieren.
Verwandte Spender haben ähnliche Mikrobiome
Obwohl die HMP-Kohorte Spender enthielt, die miteinander verwandt waren, waren diese Informationen in den gesammelten Metadaten nicht verfügbar. Die genomische Sequenzierung der Spender ermöglichte es uns, das Ausmaß der Beziehung zwischen allen Spenderpaaren abzuleiten und Verwandte dritten Grades unter ihnen zu identifizieren. Mit gemeinsamen SNVs (MAF > 0,05) für die Analyse identifizierten wir 11 Paare von Verwandten ersten Grades und ein Paar von Verwandten dritten Grades.
Als nächstes wollten wir feststellen, ob sich der Grad der Beziehung in der Ähnlichkeit ihrer Mikrobiome widerspiegelte. Für diese Analyse berechneten wir den Bray-Curtis-Abstand zwischen allen Spenderpaaren und teilten die Paare in drei Gruppen ein: gleiche ethnische Zugehörigkeit, andere ethnische Zugehörigkeit und Verwandte (Abb. 4a). Wie von der PCA zu erwarten war, waren die Proben innerhalb ethnischer Gruppen im Durchschnitt etwas ähnlicher als Proben aus verschiedenen ethnischen Gruppen, aber die Mikrobiomähnlichkeit zwischen verwandten Spendern war ausgeprägter. Mit Ausnahme des Darms war in allen getesteten Körperstellen die Zusammensetzung der Mikrobiomgemeinschaft zwischen Verwandten ähnlicher als zwischen zufälligen Spenderpaaren; In vorderen Nasen und bukkaler Schleimhaut war der Effekt auch statistisch signifikant durch t-Test zwischen nicht verwandten und verwandten Ähnlichkeitswerten. Für vaginale Proben war der Effekt ebenfalls ausgeprägt, aber wir hatten nicht genug weiblich-weibliche Paare, um statistische Signifikanz zu erreichen.
FUT2- und LCT-Genotypen sind mit Bifidobacterium longum assoziiert
Um den Einfluss einzelner genetischer Varianten auf die Mikrobiomzusammensetzung zu untersuchen, begannen wir mit bekannten Assoziationen von FUT2 und LCT. FUT2 ist verantwortlich für den Transfer von terminalen Fucoseresten zu Schleimhautglykanen . Bifidobakterien verwenden auch aus Schleim gewonnene Fucose als Kohlenstoffquelle, und die Häufigkeit und Vielfalt von B. longum ist bei Nicht-Sekretoren (Personen mit einem vorzeitigen Stop-Codon in FUT2, rs601338) im Vergleich zu Sekretoren signifikant geringer .
Um festzustellen, ob diese Assoziation in der HMP-Kohorte verifiziert werden konnte, suchten wir nach mikrobiellen Spezies, die mit dem Wirtsfucosyltransferase-Sekretor-Genotyp korrelierten (MAF = 0,41). Wir haben die lineare Regression verwendet, um die relative Häufigkeit jeder einzelnen Spezies basierend auf der Dosierung des Sekretorgenotyps vorherzusagen. B. longum hatte die stärkste Korrelation der 118 getesteten Spezies (FDR = 0,018; Abb. 4b), mit erhöhter relativer Häufigkeit im Sekretorgenotyp im Vergleich zum Nicht-Sekretorgenotyp. Dieser Befund stimmt mit früheren experimentellen Beobachtungen überein und zeigt, dass die Kohorte ausreichend versorgt ist, um gezielte mikrobielle Wirtsassoziationshypothesen zu validieren.
In ähnlicher Weise wurde LCT mit einer erhöhten Häufigkeit von Lactose-metabolisierenden Bifidobakterien im Darm in Verbindung gebracht . LCT kodiert für Laktase, das Enzym, das für den Abbau von Laktose im oberen GI-Trakt verantwortlich ist; zusammen mit erhöhten Bifidobakterien deutet dies darauf hin, dass sich mehr diätetische Laktose im Dickdarm ansammelt. Die Fähigkeit, Laktase im Erwachsenenalter oder Laktoseintoleranz (Hypolaktasie) zu produzieren, wird durch das Vorhandensein eines homozygoten G-Allels in rs4988235 SNV in der Nähe von LCT kontrolliert . Ein kürzlich veröffentlichter Befund, dass der Milchkonsum und die Häufigkeit von Bifidobakterien nur bei Menschen mit der Hypolaktasie-Genvariante positiv korrelieren, unterstützt diesen Mechanismus.
In der HMP-Kohorte verglichen wir die Häufigkeit von Bakterienarten im Stuhl zwischen Spendern mit der Hypolaktasie und alternativen Varianten. Da Hypolaktasie ein rezessives Merkmal ist, verwendeten wir einen t-Test, um die 64 Spender mit dem homozygoten G-Genotyp mit dem Rest der 145 Spender zu vergleichen. Nachdem wir jede der 118 untersuchten Einzelarten gegen das Vorhandensein dieser Variante getestet hatten, stellten wir fest, dass B. longum die stärkste Wirkung hatte (FDR = 0,095), wodurch die zuvor gefundene Assoziation bestätigt wurde (Abb. 4c).
Mikrobielle Assoziationen mit Wirtsgenomvarianten sind körperstellenspezifisch
Schließlich untersuchten wir Assoziationen zwischen Wirtsgenom und Mikrobiomvariation auf nicht gezielte Weise direkt durch eine genomweite Assoziationsstudie. Wir führten die Analyse separat für jede Körperstelle durch, konzentrierten uns auf SNVs mit MAF > 0,1 und verglichen sie sowohl mit mikrobiellen Spezies- als auch mit Stoffwechselweg-Abundanzen. Wir verwendeten gewöhnliche lineare Regressionsmodelle unter Berücksichtigung der Auswirkungen von Geschlecht, ethnischer Zugehörigkeit und Probenentnahmeort. Nach dem Filtern der mikrobiellen Merkmale (siehe Methoden) identifizierten wir 120-160 Arten in GI-Trakt und oralen Proben und ungefähr 25 Arten in Haut- und Vaginalproben. Die Anzahl der Stoffwechselwege, die die Filterung passieren, war mit 350 bis 530 Hauptwegen pro Stelle erheblich höher. Die große Anzahl von SNVs, Körperstellen und mikrobiellen Merkmalen in der Analyse ergibt zusammen ein strenges Signifikanzkriterium (p < 3 × 10-12 gemäß Bonferroni-Korrektur für Mehrfachtests), das in Kombination mit unserer bescheidenen Stichprobengröße unser Entdeckungspotenzial auf Assoziationen mit sehr großen Effektgrößen einschränkt.
Aus diesem Grund haben wir unsere Analyse zunächst auf SNVs beschränkt, die im Katalog der genomweiten Assoziationsstudien (GWAS) des National Human Genome Research Institute (NHGRI) gefunden wurden , und die Hypothese aufgestellt, dass diese SNVs mit genomischen Varianten angereichert wurden, die potenzielle Auswirkungen auf die Mikrobiomeigenschaften haben. Dieser Satz umfasste SNVs, die mit einer Vielzahl quantitativer Merkmale verbunden waren, die von komplexen Krankheiten bis hin zu anthropometrischen Messungen reichten. Insgesamt wurden 16.869 dieser SNVs in unseren Daten gefunden, aber wir haben keine signifikanten Assoziationen mit dieser Teilmenge von SNVs festgestellt. Darüber hinaus gab es gemäß dem Quantil-Quantil-Diagramm der Vergleiche keine systematische Anreicherung kleinerer p-Werte unter den Vergleichen (Zusätzliche Datei 1: Abbildungen S6 und S7). Wir haben keine signifikanten Ergebnisse mit noch eingeschränkteren Variantensätzen erhalten, die mit entzündlichen Darmerkrankungen oder mit einer der GWAS-Katalogunterkategorien auf hoher Ebene assoziiert sind (z. B. „Erkrankungen des Immunsystems“, „Verdauungssystem“).
Als nächstes haben wir die Assoziationsanalyse für alle gängigen SNVs durchgeführt. Wir haben keine Assoziationen mit p-Werten gesehen, die kleiner als mehrere testkorrigierte Signifikanzgrenzen sind. Es gab jedoch eine Reihe von Assoziationen (Zusätzliche Datei 1: Abbildungen S8 und S9 und Tabelle S2) mit relativ kleinen p-Werten. Diese Assoziationen bilden eine reichhaltige Informationsquelle für zukünftige mikrobiomweite Assoziationsstudien und Forscher, die an bestimmten Genen oder mikrobiellen Spezies interessiert sind.
Aufgrund des einzigartigen Designs der HMP-Kohorte konnten wir auch die Art der Assoziationen zwischen Körperstellen untersuchen. Studien zur Expression quantitativer Merkmalsloci haben über eine bemerkenswerte Stabilität der Genexpression-Genotyp-Assoziationen im gesamten Gewebe berichtet . Hier, Wir haben keine SNV-Mikrobenpaare an der Spitze der Assoziationsrankings für mehrere Körperstellen beobachtet, Dies zeigt die indirektere Natur dieser Assoziationen sowie die einzigartigen Community-Konstruktionsprinzipien für jede Körperstelle. Bei der Betrachtung der Verteilung der besten p-Werte von jeder Körperstelle unabhängig vom assoziierten Organismus konnten wir immer noch keine SNVs finden, die stärker mit Mikroben assoziiert waren als zufällig erwartet. Dieser Befund legt ferner nahe, dass die genetischen Mechanismen hinter der Zusammensetzung des Mikrobioms körperortsspezifisch sind.