Variazione genetica dell’ospite e sue interazioni del microbioma all’interno del progetto Microbioma umano

Sequenziamento del DNA di alta qualità della coorte HMP

La progettazione della coorte HMP e la raccolta dei campioni sono state descritte in modo approfondito . In breve, la coorte HMP comprende 300 donatori reclutati in due sedi negli Stati Uniti. La maggior parte dei donatori (71%) era di origine caucasica; i restanti donatori erano di origine africana (6%), asiatica (9%), latina (11%) o mista (3%). Il rapporto maschio-femmina era approssimativamente uguale, con 151 femmine e 149 maschi. L’obiettivo nella selezione dei donatori era trovare individui sani senza uso recente di farmaci o storia di malattia, che appartenevano a un gruppo di età simile (19-40 anni) e che avevano un indice di massa corporea relativamente sano (BMI di 19-34 kg/m2).

Per ottenere informazioni sul genoma ospite, il DNA genomico dal sangue di 298 dei 300 individui è stato sequenziato utilizzando il sequenziamento senza PCR. La copertura media di sequenziamento era 32.77 x, con una gamma di 23.9× a 56.7× (Fig. 1). La contaminazione e la percentuale di letture chimeriche erano entrambe ben al di sotto del taglio standard del 5% in tutti i campioni (File aggiuntivo 1: Figura S1A). La distribuzione di altre metriche di qualità come la dimensione dell’inserto e la percentuale di letture allineate a coppie non ha evidenziato alcun campione outlier chiaro; pertanto, tutti i campioni sono stati inclusi in ulteriori analisi. Il numero di variante era anche notevolmente stabile a ~ 2 M polimorfismi a singolo nucleotide (SNPs) e 200 K indel per persona (Fig. 1), con l’eccezione dei donatori afro-americani, che avevano una maggiore diversità genetica (File aggiuntivo 1: Figura S1B). Non vi era alcuna correlazione rilevabile tra la profondità di sequenziamento e il numero di varianti recuperate, indicando che la profondità in tutti i campioni era sufficiente.

Fig. 1
figura1

Panoramica del progetto Microbiome umano genoma ospite e copertura metagenome. Profondità di sequenziamento per ciascun genoma ospite (a sinistra) e numero di letture per tutti i campioni disponibili con sequenziamento del metagenoma intero

Questi dati forniscono un accoppiamento quasi completo del sequenziamento del genoma umano ad ampliconi microbici e metagenomi attraverso l’intera coorte HMP. La variazione genetica in questa coorte è stata precedentemente dedotta utilizzando letture umane “contaminanti” dai dati WMS di 93 soggetti . Mentre questo ha fornito una copertura media del genoma umano di ~ 10×, variava notevolmente tra i campioni e per molti ha raggiunto solo 5×. Questo è stato sufficiente per rilevare 13 M varianti genetiche complessive, 5,5 M con MAF > 0,05. In confronto, il nostro studio ha più che triplicato il numero di donatori e, prendendo di mira direttamente il DNA dell’ospite, abbiamo identificato il doppio delle varianti complessive con una copertura uniforme (minimo 25×) tra i campioni. Ciò ha aumentato la qualità su tutti i campioni e ha generato un set di dati completo che può essere estratto in questo lavoro e negli studi futuri.

I risultati del sequenziamento sono coerenti con quelli di altre popolazioni comparabili

Dopo il filtraggio in base alla qualità e alla posizione in regioni a bassa complessità, sono rimaste 29 M varianti, costituite da 26,7 M SNV e 2,3 M inserzioni-eliminazioni (indel) (file aggiuntivo 1: Tabella S1). Rispetto ai progetti GoNL e 1000 Genomi, 5.1 M SNVs e 856 K indel erano nuovi, ma la maggior parte di questi erano rari (Fig. 2 bis). Al contrario, le varianti comuni che abbiamo identificato (MAF > 5%) erano quasi universalmente condivise tra le tre coorti. Nel complesso, abbiamo identificato 7.8 M più varianti rispetto al consorzio GoNL di dimensioni simili. Poiché molte delle varianti erano presenti anche nel progetto 1000 Genomes, attribuiamo la differenza alla maggiore diversità etnica nella coorte HMP. Sebbene un gran numero di SNV fosse unico per ciascuna coorte, la proporzione di varianti che cadevano nelle regioni introniche, esoniche e intergeniche del genoma era quasi identica tra le coorti (File aggiuntivo 1: Figura S2).

Fig. 2
figura2

Distribuzione delle varianti genetiche e confronto con altre coorti. a varianti scoperte classificate per frequenza e sovrapposizione con altre coorti. Conteggio allele AC, frequenza allele minore MAF. b Distribuzione del numero di mutazioni codificanti per frequenza e impatto stimato

Abbiamo poi annotato le varianti di codifica utilizzando il plugin LOFTEE per lo strumento VEP, che categorizza le varianti in classi in base al loro impatto sulla sequenza di codifica. Il numero di varianti ad alto impatto, definite come quelle che comporterebbero la perdita della funzione di un particolare gene, era 2670 (File aggiuntivo 1: Tabella S2); questo risultato è coerente con la selezione negativa attiva rispetto a queste varianti. La selezione negativa era anche evidente dalla distribuzione della frequenza dell’allele, poiché la gravità dell’impatto di un allele era fortemente correlata alla sua frequenza nella popolazione. Ad esempio, le varianti ad alto impatto sono state notevolmente arricchite in varianti che sono state osservate solo una volta nel nostro set di dati (Fig. 2b, AC1). Anche la distribuzione delle mutazioni codificanti tra i geni non era uniforme, con un piccolo numero di geni che catturavano un gran numero di varianti. Trenta geni hanno mostrato più di cinque potenziali varianti di perdita di funzione ad alto impatto e sei geni avevano più di dieci varianti. Il piccolo numero di geni con mutazioni codificanti ad alto impatto ha suggerito che questa coorte era troppo piccola per i test di carico per tracciare correlazioni tra la frequenza di mutazione all’interno di un gene e le caratteristiche microbiche. Invece, abbiamo focalizzato la nostra analisi sull’identificazione di associazioni tra varianti comuni e taxa microbici o potenziale funzionale.

Taxa microbici e potenziale funzionale in sei siti del corpo

Per l’HMP, sono stati raccolti campioni di microbiomi da 18 siti del corpo, che rientrano in cinque aree principali: tratto gastrointestinale (GI), cavità orale, pelle, narici e vagina. In alcuni casi sono stati raccolti campioni replicati nel tempo per valutare la stabilità temporale del microbioma. In totale, più di 5000 campioni sono stati caratterizzati utilizzando il sequenziamento del gene rRNA 16S e più di 2000 utilizzando shotgun WMS. Il primo approccio fornisce una panoramica di alto livello della composizione tassonomica, mentre il secondo consente l’identificazione a livello di specie e la profilazione del potenziale funzionale del microbioma. Abbiamo quindi utilizzato i dati WMS nelle analisi successive. La distribuzione dei campioni con WMS non era equivalente tra i siti del corpo, con la maggior parte dei campioni prelevati da sei posizioni che rappresentano quattro delle principali aree sopra descritte: intestino (feci), orale (mucosa buccale, placca sopragengivale, dorso della lingua), narici (narici anteriori) e vaginali (fornice posteriore); non erano disponibili dati WMS dai campioni di pelle. All’interno dei sei siti del corpo, il numero di donatori variava da 80 per il fornice posteriore vaginale a 209 per i campioni intestinali; il numero medio di letture per campione variava da 34 M nel fornice posteriore a 86 M nel dorso della lingua. Utilizzando i dati WMS di questi campioni, abbiamo identificato la composizione tassonomica usando MetaPhlan2 e il potenziale funzionale usando HUMAnN2 . Questi risultati sono stati poi analizzati per le associazioni con variazione genetica ospite.

I principali componenti genomici umani sono correlati alla composizione del microbioma

Per confrontare la variazione genetica dell’ospite con la variazione microbica, abbiamo innanzitutto valutato il grado in cui i modelli genetici di alto livello potrebbero essere correlati alla composizione del microbioma. Il PCA sugli SNV comuni (MAF > 0.05) ha dimostrato che le prime cinque componenti principali rappresentavano prevalentemente l’ascendenza etnica e razziale dei donatori. Ad esempio, la genetica ospite dell’afroamericano, uno dei due gruppi di soggetti asiatico-americani e caucasici ha mostrato l’effetto più forte (Fig. 3 bis). Per confrontare ulteriormente la variazione genetica complessiva con altre coorti, abbiamo anche ordinato congiuntamente un set di dati combinato di partecipanti ai genomi HMP300 e 1000, utilizzando SNV con MAF > 0.05 in entrambe le coorti. Individui di entrambe le coorti distribuiti nello spazio della componente principale risultante in modo quasi identico in base all’ascendenza (File aggiuntivo 1: Figura S3).

Fig. 3
figura3

Correlazione tra variazione genetica di alto livello e composizione del microbioma. a Vengono mostrate le prime due componenti dell’analisi della componente genetica principale, basate su varianti a singolo nucleotide comuni, sovrapposte all’etnia del donatore auto-segnalata. AA Afro-americano. b Mostrato è quanta varianza nei dati del microbioma in media può essere spiegata dai componenti principali genetici, rispetto alla permutazione sugli stessi dati. I valori mostrati sono punteggi Z basati su permutazioni, che sono stati utilizzati anche per calcolare i valori p empirici. c Distribuzione della componente genetica principale R2 valori per diverse specie e vie nelle feci. L’asse Y mostra la varianza spiegata e l’asse X mostra valori empirici p basati sulla permutazione per ciascuno di questi numeri. Vengono mostrati solo i nomi delle specie con false discovery rate (FDR) < 0.05 e pathways’ FDR < 0.01. L’istogramma seguente mostra la distribuzione dei valori p empirici e l’asse Y mostra il numero di specie in un contenitore. Le barre verdi sotto l’istogramma della via mostrano come i percorsi associati alla fermentazione sono classificati per R2

Successivamente, per HMP300 abbiamo calcolato quale percentuale di variazione microbica nei sei siti del corpo potrebbe essere spiegata (R2) dai primi cinque componenti principali del genoma ospite. Nei campioni di feci, la percentuale di variazione a livello di specie spiegata dai componenti principali dell’ospite è stata del 3,8%, superiore al previsto solo per caso (empirico p = 0,0001; Fig. 3 ter). La distribuzione dei valori p empirici per i valori R2 delle singole specie è stata fortemente spostata verso lo zero (Fig. 3c), indicando che le forti correlazioni non erano limitate a poche specie, ma che la struttura genetica della popolazione influenzava le configurazioni microbiche complessive. Abbiamo osservato un effetto simile a livello di specie nei siti orali. Nella mucosa buccale, i principali componenti genomici descrivevano in media il 5,2% (empirico p = 0,0008) della variazione a livello di specie; nel dorso della lingua, questa cifra era del 4,1% (empirico p = 0,0034). In un’analisi identica dell’abbondanza metabolica della via di MetaCyc, abbiamo trovato soltanto le vie nei microbiomi dell’intestino per essere correlate significativamente con le componenti principali comuni della variante. In sintesi, l’associazione tra le caratteristiche genetiche dell’ospite di alto livello e le proprietà del microbioma era significativa in più siti del corpo.

Esaminando la correlazione delle caratteristiche microbiche individuali con la genetica dell’ospite che ha contribuito a queste medie, alcune caratteristiche hanno mostrato associazioni individuali molto più forti. Nelle feci, dove la correlazione genetica era la più forte, cinque specie su 118 erano significativamente associate (false discovery rate (FDR) < 0.05 mediante test di permutazione), con valori di R2 che raggiungevano quasi il 10% (Fig. 3 quater). Di queste cinque specie, il batterio Lachnospiraceae, la Roseburia intestinalis e il Subdoligranulum (non classificati) erano tutti positivamente correlati con la prima componente principale genomica, dimostrando che queste specie hanno una maggiore abbondanza nei donatori di origine caucasica. Un’altra specie significativa, Sutterella wadsworthensis, è stata associata a PC4, che separa i donatori di origine asiatica in due gruppi. Esaminando altri siti del corpo, abbiamo scoperto che Porphyromonas catoniae, Propionibacterium propionicum e Gemella non classificati erano significativamente associati alla variazione genomica dell’ospite nella mucosa buccale (File aggiuntivo 1: Figura S4 e Tabella S1).

Un’analisi simile a livello di percorso ha rivelato un gran numero (82 su 541) di percorsi significativamente (FDR < 0,05 come sopra) correlato con componenti principali genetiche nelle feci (Fig. 3 quater). Diversi percorsi erano correlati alla biosintesi e alla degradazione degli aminoacidi e degli acidi grassi a catena corta. In una visione più sistematica, abbiamo scoperto che i membri della superclasse di fermentazione del database MetaCyc sono stati significativamente arricchiti nelle classifiche top pathway (Fig. 3 quater). La maggior parte di questi percorsi sono stati associati con la prima componente genetica principale che distingue i donatori bianchi da altre origini razziali o etniche. Tali arricchimenti funzionali possono indicare differenze etniche nella dieta, ma anche alla variabilità genetica nella capacità di metabolizzare determinati nutrienti.

In altri siti del corpo, la variabilità a livello di pathway non era in media correlata con le componenti principali genetiche, sebbene fossero stati trovati alcuni percorsi correlati individuali (File aggiuntivo 1: Figura S5 e Tabella S1). Ad esempio, un certo numero di percorsi nei microbiomi dorsali della lingua è correlato fortemente con i componenti principali genetici. È interessante notare che quasi tutti i percorsi associati erano correlati alla respirazione e al ciclo dell’acido tricarbossilico (TCA), indicativo di un gradiente di ossigeno e delle differenze nella respirazione aerobica da parte degli organismi orali del dorso della lingua tra i donatori. L’arricchimento del ciclo TCA nel microbioma orale e la fermentazione nel microbioma intestinale riflettono le caratteristiche metaboliche dominanti dei microbiomi corrispondenti e mostrano come questi possono essere influenzati dalla genetica dell’ospite e dai fattori ambientali correlati con l’ascendenza genetica.

I donatori correlati hanno microbiomi simili

Sebbene la coorte HMP includesse donatori correlati tra loro, queste informazioni non erano disponibili nei metadati raccolti. Il sequenziamento genomico dei donatori ci ha permesso di dedurre l’entità della relazione tra tutte le coppie di donatori e identificare fino a parenti di terzo grado tra di loro. Utilizzando SNV comuni (MAF > 0.05) per l’analisi, abbiamo identificato 11 coppie di parenti di primo grado e una coppia di parenti di terzo grado.

Abbiamo quindi cercato di determinare se il grado di relazione si riflettesse nella somiglianza dei loro microbiomi. Per questa analisi abbiamo calcolato la distanza Bray-Curtis tra tutte le coppie di donatori e diviso le coppie in tre gruppi: stessa etnia, diversa etnia, e parenti (Fig. 4 bis). Come ci si poteva aspettare dal PCA, i campioni all’interno dei gruppi etnici erano in media leggermente più simili rispetto ai campioni provenienti da diversi gruppi etnici, ma la somiglianza del microbioma tra donatori correlati era più pronunciata. Ad eccezione dell’intestino, in tutti i siti del corpo testati, la composizione della comunità del microbioma tra i parenti era più simile rispetto alle coppie di donatori casuali; nelle narici anteriori e nella mucosa buccale, l’effetto era statisticamente significativo anche dal test t tra punteggi di somiglianza non correlati e correlati. Anche per i campioni vaginali l’effetto è stato pronunciato, ma non abbiamo avuto abbastanza coppie femmina-femmina per raggiungere la significatività statistica.

Fig. 4
figura4

Parentela e microbioma similarità e replicazione di associazioni note. una somiglianza Bray-Curtis tra le 12 coppie di parenti stretti (terzo grado o più vicino) identificati da dati genetici rispetto alle somiglianze tra altre coppie. I valori p corrispondono ai risultati dei test t tra i punteggi di somiglianza per i parenti, contro tutte le altre coppie. b Associazione tra FUT2 secretor variante e B. longum. c Associazione tra variante genetica rs4988235 vicino al gene LCT e B. longum. Sia in b che in c visualizziamo l’abbondanza relativa trasformata log10

I genotipi FUT2 e LCT sono associati a Bifidobacterium longum

Per studiare l’influenza delle singole varianti genetiche sulla composizione del microbioma, abbiamo iniziato con le note associazioni di FUT2 e LCT. FUT2 è responsabile del trasferimento dei residui terminali di fucosio ai glicani della mucosa . I bifidobatteri usano anche il fucosio derivato dal muco come fonte di carbonio e l’abbondanza e la diversità di B. longum è significativamente inferiore nei non secretori (individui con un codone di arresto prematuro in FUT2, rs601338) rispetto ai secretori .

Per determinare se questa associazione potesse essere verificata nella coorte HMP, abbiamo cercato specie microbiche correlate al genotipo secretore della fucosiltransferasi ospite (MAF = 0.41). Abbiamo usato la regressione lineare per prevedere l’abbondanza relativa di ogni singola specie in base al dosaggio del genotipo secretore. B. longum aveva la più forte correlazione delle 118 specie testate (FDR = 0.018; Fig. 4b), con maggiore abbondanza relativa nel genotipo secretore rispetto al genotipo non secretore. Questo risultato è coerente con le precedenti osservazioni sperimentali e dimostra che la coorte è sufficientemente alimentata per convalidare le ipotesi di associazione microbica-ospite mirate.

Allo stesso modo, la LCT è stata associata ad una maggiore abbondanza di bifidobatteri che metabolizzano il lattosio nell’intestino . LCT codifica la lattasi, l’enzima responsabile della scomposizione del lattosio nel tratto gastrointestinale superiore; in tandem con l’aumento dei bifidobatteri, questo suggerisce che più lattosio dietetico si raccoglie nell’intestino crasso. La capacità di produrre lattasi in età adulta o intolleranza al lattosio (ipolattasia) è controllata dalla presenza di un allele G omozigote in rs4988235 SNV vicino a LCT . Una recente scoperta che il consumo di latte e l’abbondanza di bifidobatteri è correlata positivamente solo nelle persone con la variante del gene dell’ipolattasia supporta questo meccanismo.

Nella coorte HMP, abbiamo confrontato l’abbondanza di specie batteriche nelle feci tra donatori con l’ipolattasia e varianti alternative. Poiché l’ipolattasia è un tratto recessivo, abbiamo usato un test t per confrontare i 64 donatori con il genotipo G omozigote con il resto dei 145 donatori. Dopo aver testato ciascuna delle 118 specie individuali abbondanza contro la presenza di questa variante, abbiamo scoperto che B. longum ha avuto l’effetto più forte (FDR = 0.095), confermando così l’associazione precedentemente trovata (Fig. 4 quater).

Le associazioni microbiche con le varianti del genoma ospite sono specifiche del sito del corpo

Infine, abbiamo valutato le associazioni tra il genoma ospite e la variazione del microbioma in modo non mirato direttamente attraverso uno studio di associazione a livello del genoma. Abbiamo eseguito l’analisi separatamente per ogni sito del corpo, concentrandosi su SNV con MAF > 0.1 e confrontandoli con abbondanze sia a livello di specie microbiche che a livello di via metabolica. Abbiamo usato normali modelli di regressione lineare, tenendo conto degli effetti del sesso, dell’etnia e della posizione di raccolta dei campioni. Dopo aver filtrato le caratteristiche microbiche (vedi Metodi), abbiamo identificato 120-160 specie nel tratto gastrointestinale e nei campioni orali e circa 25 specie nei campioni cutanei e vaginali. Il numero di vie metaboliche che passavano il filtraggio era considerevolmente più alto, tra 350 e 530 vie principali per sito. Insieme il gran numero di SNV, siti corporei e caratteristiche microbiche nell’analisi impongono un rigoroso criterio di significatività (p < 3 × 10-12 secondo la correzione Bonferroni per test multipli), che, in combinazione con la nostra modesta dimensione del campione, limita il nostro potenziale di scoperta alle associazioni con dimensioni di effetto molto grandi.

Per questo motivo, in primo luogo abbiamo limitato la nostra analisi a SNVS trovati nel catalogo nazionale dell’Istituto di ricerca del genoma umano (NHGRI) Genome-Wide Association Studies (GWAS), ipotizzando che questi SNVs sono stati arricchiti con varianti genomiche che hanno un potenziale impatto sulle proprietà del microbioma. Questo set includeva SNV associati a una serie diversificata di tratti quantitativi che vanno dalle malattie complesse alle misurazioni antropometriche. Un totale di 16.869 di questi SNV sono stati trovati nei nostri dati, ma non abbiamo rilevato alcuna associazione significativa utilizzando questo sottoinsieme di SNV. Inoltre, secondo la trama quantile-quantile dei confronti, non vi è stato alcun arricchimento sistematico di valori p più piccoli tra i confronti (file aggiuntivo 1: Figure S6 e S7). Non abbiamo ottenuto risultati significativi con insiemi di varianti ancora più limitati associati a malattie infiammatorie intestinali o con nessuna delle sottocategorie del catalogo GWAS di alto livello (ad esempio, “disturbi del sistema immunitario”, “sistema digestivo”).

Abbiamo poi eseguito l’analisi dell’associazione su tutti gli SNV comuni. Non abbiamo visto alcuna associazione con valori p inferiori a più limiti di significatività corretti dai test. Tuttavia, c’erano un certo numero di associazioni (file aggiuntivo 1: Figure S8 e S9 e Tabella S2) con valori p relativamente piccoli. Queste associazioni costituiscono una ricca fonte di informazioni per futuri studi di associazione a livello di microbioma e ricercatori interessati a specifici geni o specie microbiche.

A causa del design unico della coorte HMP, siamo stati anche in grado di indagare la natura delle associazioni tra i siti del corpo. Gli studi nei loci del tratto quantitativo di espressione hanno riferito la stabilità notevole delle associazioni di espressione-genotipo del gene attraverso i tessuti . Qui, non abbiamo osservato alcuna coppia SNV-microbo nella parte superiore delle classifiche di associazione per più siti del corpo, dimostrando la natura più indiretta di queste associazioni, nonché i principi di costruzione della comunità unici per ogni sito del corpo. Quando si considera la distribuzione dei migliori valori di p da ogni sito del corpo indipendentemente dall’organismo associato, non siamo ancora riusciti a trovare SNV che fossero più fortemente associati ai microbi di quanto previsto per caso. Questa scoperta suggerisce inoltre che i meccanismi genetici alla base della composizione del microbioma sono specifici del sito del corpo.



+