- Secuenciación de ADN de alta calidad de la cohorte HMP
- Los resultados de la secuenciación son consistentes con los de otras poblaciones comparables
- Taxones microbianos y potencial funcional en seis sitios del cuerpo
- Los componentes principales genómicos humanos se correlacionan con la composición del microbioma
- Los donantes relacionados tienen microbiomas similares
- Los genotipos FUT2 y LCT se asocian con Bifidobacterium longum
- Las asociaciones microbianas con variantes del genoma del huésped son específicas del sitio corporal
Secuenciación de ADN de alta calidad de la cohorte HMP
El diseño de la cohorte HMP y la recogida de muestras se han descrito en profundidad . Brevemente, el HMP cohorte, que consta de 300 donantes reclutados en dos ubicaciones en los estados UNIDOS. La mayoría de los donantes (71%) eran de origen caucásico; los donantes restantes eran de ascendencia africana (6%), asiática (9%), latina (11%) o mixta (3%). La relación entre hombres y mujeres fue aproximadamente igual, con 151 mujeres y 149 hombres. El objetivo al seleccionar donantes era encontrar individuos sanos sin uso reciente de medicamentos o antecedentes de enfermedad, que pertenecieran a un grupo de edad similar (19-40 años) y que tuvieran un índice de masa corporal relativamente saludable (IMC de 19-34 kg/m2).
Para obtener información del genoma del huésped, se secuenció el ADN genómico de la sangre de 298 de los 300 individuos mediante secuenciación sin PCR. La cobertura promedio de secuenciación fue de 32,77 x, con un rango de 23,9× a 56,7× (Fig. 1). La contaminación y el porcentaje de lecturas quiméricas estuvieron muy por debajo del límite estándar del 5% en todas las muestras (Archivo adicional 1: Figura S1A). La distribución de otras métricas de calidad, como el tamaño de inserción y el porcentaje de lecturas alineadas en pares, no resaltó ninguna muestra de valores atípicos claros; por lo tanto, todas las muestras se incluyeron en un análisis posterior. El número de variantes también fue notablemente estable a ~ 2 M de polimorfismos de nucleótido único (SNPs) y 200 K indels por persona (Fig. 1), con la excepción de los donantes afroamericanos, que tenían una mayor diversidad genética (Archivo adicional 1: Gráfico S1B). No hubo correlación detectable entre la profundidad de secuenciación y el número de variantes recuperadas, lo que indica que la profundidad en todas las muestras fue suficiente.
Estos datos proporcionan un emparejamiento casi completo de la secuenciación del genoma humano con amplicones microbianos y metagenomas en toda la cohorte HMP. La variación genética en esta cohorte se infirió previamente utilizando lecturas humanas de «contaminantes» de los datos de WMS de 93 sujetos . Si bien esto proporcionó una cobertura promedio del genoma humano de ~ 10×, varió mucho entre las muestras y para muchos alcanzó solo 5×. Esto fue suficiente para detectar 13 M de variantes genéticas en general, 5,5 M con MAF > 0,05. En comparación, nuestro estudio triplicó con creces el número de donantes, y al apuntar directamente al ADN del huésped, identificamos el doble de variantes en general con cobertura uniforme (mínimo 25×) entre muestras. Esto aumentó la calidad de todas las muestras y generó un conjunto de datos completo que se puede extraer en este trabajo, así como en estudios futuros.
Los resultados de la secuenciación son consistentes con los de otras poblaciones comparables
Después del filtrado de acuerdo con la calidad y la ubicación en regiones de baja complejidad, quedaron 29 M de variantes, consistentes en 26,7 M de SNV y 2,3 M de inserciones-eliminaciones (indel) (Archivo adicional 1: Tabla S1). En comparación con los Proyectos de GoNL y 1000 Genomas, los SNV de 5,1 M y los indel de 856 K fueron nuevos, pero la mayoría de estos fueron raros (Fig. 2a). Por el contrario, las variantes comunes que identificamos (MAF > 5%) se compartieron casi universalmente entre las tres cohortes. En general, identificamos 7.8 M más de variantes en comparación con el consorcio GoNL de tamaño similar. Dado que muchas de las variantes también estaban presentes en el Proyecto 1000 Genomas, atribuimos la diferencia a la mayor diversidad étnica en la cohorte HMP. Aunque un gran número de SNV eran únicos para cada cohorte, la proporción de variantes que caían en las regiones intrónicas, exónicas e intergénicas del genoma era casi idéntica entre cohortes (archivo adicional 1: Figura S2).
A continuación, anotamos variantes de codificación utilizando el complemento LOFTEE para la herramienta VEP , que clasifica las variantes en clases en función de su impacto en la secuencia de codificación. El número de variantes de alto impacto, definidas como aquellas que resultarían en la pérdida de la función de un gen en particular, fue de 2670 (Archivo adicional 1: Tabla S2); este resultado es consistente con la selección negativa activa contra estas variantes. La selección negativa también fue evidente a partir de la distribución de frecuencia de los alelos, ya que la gravedad del impacto de un alelo estaba fuertemente relacionada con su frecuencia en la población. Por ejemplo, las variantes de alto impacto se enriquecieron en gran medida en variantes que solo se observaron una vez en nuestro conjunto de datos (Fig. 2b, AC1). La distribución de las mutaciones codificantes entre los genes tampoco era uniforme, con un pequeño número de genes que capturaban un gran número de variantes. Treinta genes mostraron más de cinco variantes potenciales de pérdida de función de alto impacto, y seis genes tenían más de diez variantes. El pequeño número de genes con mutaciones codificantes de alto impacto sugirió que esta cohorte era demasiado pequeña para realizar pruebas de carga para establecer correlaciones entre la frecuencia de mutación dentro de un gen y las características microbianas. En su lugar, centramos nuestro análisis en identificar asociaciones entre variantes comunes y taxones microbianos o potencial funcional.
Taxones microbianos y potencial funcional en seis sitios del cuerpo
Para el HMP, se recolectaron muestras de microbioma de 18 sitios del cuerpo, que cayeron en cinco áreas principales: tracto gastrointestinal (GI), cavidad oral, piel, narinas y vagina. En algunos casos, se recogieron muestras replicadas a lo largo del tiempo para evaluar la estabilidad temporal del microbioma. En total, se caracterizaron más de 5000 muestras utilizando secuenciación del gen 16S rRNA y más de 2000 utilizando WMS de escopeta. El primer enfoque ofrece una visión general de alto nivel de la composición taxonómica, mientras que el segundo permite la identificación a nivel de especie y el perfil del potencial funcional del microbioma. Por lo tanto, utilizamos datos de WMS en análisis posteriores. La distribución de las muestras con WMS no fue equivalente entre los sitios del cuerpo, con la mayoría de las muestras extraídas de seis lugares que representan cuatro de las áreas principales descritas anteriormente: intestino (heces), oral (mucosa bucal, placa supragingival, dorso de la lengua), narinas (narinas anteriores) y vaginal (fórnix posterior); no se disponía de datos de WMS de las muestras de piel. Dentro de los seis sitios del cuerpo, el número de donantes varió de 80 para el fórnix posterior vaginal a 209 para las muestras intestinales; el número promedio de lecturas por muestra varió de 34 M en el fórnix posterior a 86 M en el dorso de la lengua. Utilizando los datos de WMS de estas muestras, identificamos la composición taxonómica utilizando Metaflan2 y el potencial funcional utilizando Human2 . Estos resultados se analizaron para determinar su asociación con la variación genética del huésped.
Los componentes principales genómicos humanos se correlacionan con la composición del microbioma
Para comparar la variación genética del huésped con la variación microbiana, primero evaluamos el grado en que los patrones genéticos de alto nivel podrían correlacionarse con la composición del microbioma. La PCA en los SNV comunes (MAF > 0,05) demostró que los cinco primeros componentes principales representaban predominantemente la ascendencia étnica y racial de los donantes. Por ejemplo, la genética del huésped de los sujetos afroamericanos, uno de los dos grupos de asiáticos americanos y caucásicos mostró el efecto más fuerte (Fig. 3a). Para comparar aún más la variación genética general con otras cohortes, también ordenamos conjuntamente un conjunto de datos combinado de participantes de genomas HMP300 y 1000, utilizando SNV con MAF > 0,05 en ambas cohortes. Individuos de ambas cohortes distribuidos en el espacio de componentes principales resultante de forma casi idéntica de acuerdo con la ascendencia (Archivo adicional 1: Figura S3).
A continuación, para HMP300 calculamos qué porcentaje de variación microbiana en los seis sitios del cuerpo podría explicarse (R2) por los primeros cinco componentes principales del genoma del huésped. En muestras de heces, el porcentaje de variación a nivel de especie explicada por los componentes principales del huésped fue de 3,8%, mayor de lo esperado solo por casualidad (p empírico = 0,0001; Fig. 3b). La distribución de los valores empíricos de p para los valores R2 de las especies individuales se desplazó fuertemente hacia cero (Fig. 3c), indicando que las correlaciones fuertes no se limitaban a unas pocas especies, sino que la estructura genética de la población influía en las configuraciones microbianas generales. Se observó un efecto similar en el nivel de especies en sitios orales. En la mucosa bucal, los componentes principales genómicos describieron en promedio el 5,2% (p empírica = 0,0008) de la variación a nivel de especie; en el dorso de la lengua, esta cifra fue del 4,1% (p empírica = 0,0034). En un análisis idéntico de la abundancia de las vías metabólicas metacíticas, encontramos que solo las vías en los microbiomas intestinales están significativamente correlacionadas con componentes principales de variantes comunes. En resumen, la asociación entre las características genéticas del huésped de alto nivel y las propiedades del microbioma fue significativa en múltiples sitios del cuerpo.
Al examinar la correlación de las características microbianas individuales con la genética del huésped que contribuyó a estos promedios, ciertas características mostraron asociaciones individuales mucho más fuertes. En materia fecal, donde la correlación genética fue más fuerte, cinco especies de 118 se asociaron significativamente (tasa de falso descubrimiento (FDR) < 0,05 por prueba de permutación), con valores de R2 que alcanzaron casi el 10% (Fig. 3c). De estas cinco especies, la bacteria Lachnospiraceae, la Roseburia intestinalis y el Subdoligranulum (no clasificado) se correlacionaron positivamente con el primer componente principal genómico, lo que demuestra que estas especies tienen mayor abundancia en donantes de origen caucásico. Otra especie significativa, Sutterella wadsworthensis, se asoció con PC4, que separa a los donantes de origen asiático en dos grupos. Al examinar otros sitios del cuerpo, encontramos que Porphyromonas catoniae, Propionibacterium propionicum y Gemella no clasificada se asociaron significativamente con la variación genómica del huésped en la mucosa bucal (Archivo adicional 1: Figura S4 y Tabla S1).
Un análisis similar a nivel de vías reveló un gran número (82 de 541) de vías significativamente (FDR < 0,05 como se indica arriba) correlacionadas con componentes genéticos principales en heces (Fig. 3c). Varias vías se relacionaron con la biosíntesis y degradación de aminoácidos y ácidos grasos de cadena corta. En una visión más sistemática, encontramos que los miembros de la superclase de fermentación de la base de datos de MetaCyc se enriquecieron significativamente en las clasificaciones de vías superiores (Fig. 3c). La mayoría de estas vías se asociaron con el primer componente principal genético que distingue a los donantes blancos de otros ancestros raciales o étnicos. Tales enriquecimientos funcionales pueden apuntar a diferencias étnicas en la dieta, pero también a la variabilidad genética en la capacidad de metabolizar ciertos nutrientes.
En otros sitios del cuerpo, la variabilidad a nivel de las vías no se correlacionó en promedio con los componentes principales genéticos, aunque se encontraron algunas vías correlacionadas individuales (archivo adicional 1: Figura S5 y Tabla S1). Por ejemplo, una serie de vías en los microbiomas del dorso de la lengua se correlacionaron fuertemente con los componentes principales genéticos. Curiosamente, casi todas las vías asociadas estaban relacionadas con la respiración y el ciclo del ácido tricarboxílico (TCA), lo que indica un gradiente de oxígeno y diferencias en la respiración aeróbica por organismos orales del dorso de la lengua entre donantes. El enriquecimiento del ciclo de TCA en el microbioma oral y la fermentación en el microbioma intestinal reflejan las características metabólicas dominantes de los microbiomas correspondientes y muestran cómo estos pueden verse afectados por la genética del huésped y los factores ambientales correlacionados con la ascendencia genética.
Los donantes relacionados tienen microbiomas similares
Aunque la cohorte HMP incluyó donantes relacionados entre sí, esta información no estaba disponible en los metadatos recopilados. La secuenciación genómica de los donantes nos permitió inferir el alcance de la relación entre todos los pares de donantes e identificar parientes de hasta tercer grado entre ellos. Utilizando SNV comunes (MAF > 0,05) para el análisis, identificamos 11 pares de parientes de primer grado y un par de parientes de tercer grado.
A continuación buscamos determinar si el grado de relación se reflejaba en la similitud de sus microbiomas. Para este análisis calculamos la distancia de Bray-Curtis entre todos los pares de donantes y dividimos los pares en tres grupos: la misma etnia, diferente etnia y parientes (Fig. 4a). Como era de esperar de la PCA, las muestras dentro de los grupos étnicos fueron en promedio ligeramente más similares que las muestras de diferentes grupos étnicos, pero la similitud de microbiomas entre donantes emparentados fue más pronunciada. Con la excepción del intestino, en todos los sitios corporales analizados, la composición de la comunidad del microbioma entre parientes fue más similar que entre pares de donantes aleatorios; en la nariz anterior y la mucosa bucal, el efecto también fue estadísticamente significativo mediante la prueba t entre las puntuaciones de similitud no relacionadas y relacionadas. Para las muestras vaginales, el efecto también fue pronunciado, pero no teníamos suficientes pares mujer-mujer para lograr significación estadística.
Los genotipos FUT2 y LCT se asocian con Bifidobacterium longum
Para estudiar la influencia de las variantes genéticas individuales en la composición del microbioma, comenzamos con las asociaciones conocidas de FUT2 y LCT. FUT2 es responsable de la transferencia de residuos de fucosa terminal a los glucanos de la mucosa . Las bifidobacterias también usan fucosa derivada de moco como fuente de carbono, y la abundancia y diversidad de B. longum es significativamente menor en los no secretores (individuos con un codón de parada prematuro en FUT2, rs601338) en comparación con los secretores .
Para determinar si esta asociación se pudo verificar en la cohorte HMP, se buscaron especies microbianas correlacionadas con el genotipo secretor de fucosiltransferasa del huésped (MAF = 0,41). Se utilizó la regresión lineal para predecir la abundancia relativa de cada especie individual en función de la dosis del genotipo secretor. B. longum tuvo la correlación más fuerte de las 118 especies analizadas ( FDR = 0.018; Fig. 4b), con mayor abundancia relativa en el genotipo secretor en relación con el genotipo no secretor. Este hallazgo es consistente con observaciones experimentales anteriores y demuestra que la cohorte tiene la potencia suficiente para validar hipótesis de asociación microbiana-huésped específicas.
De manera similar, la TCL se ha asociado con una mayor abundancia de bifidobacterias metabolizadoras de lactosa en el intestino . LCT codifica la lactasa, la enzima responsable de descomponer la lactosa en el tracto gastrointestinal superior; junto con el aumento de las bifidobacterias, esto sugiere que se acumula más lactosa dietética en el intestino grueso. La capacidad de producir lactasa en la edad adulta o intolerancia a la lactosa (hipolactasia) está controlada por la presencia de un alelo G homocigoto en rs4988235 SNV cercano a LCT . Un hallazgo reciente de que el consumo de leche y la abundancia de bifidobacterias se correlacionan positivamente solo en personas con la variante génica de hipolactasia apoya este mecanismo.
En la cohorte HMP, comparamos la abundancia de especies bacterianas en heces entre donantes con la hipolactasia y variantes alternativas. Debido a que la hipolactasia es un rasgo recesivo, se utilizó una prueba t para comparar a los 64 donantes con el genotipo G homocigoto con el resto de los 145 donantes. Después de probar la abundancia de cada una de las 118 especies individuales contra la presencia de esta variante, encontramos que B. longum tuvo el efecto más fuerte (FDR = 0.095), confirmando así la asociación previamente encontrada (Fig. 4c).
Las asociaciones microbianas con variantes del genoma del huésped son específicas del sitio corporal
Finalmente, evaluamos las asociaciones entre el genoma del huésped y la variación del microbioma de una manera no dirigida directamente a través de un estudio de asociación de todo el genoma. Realizamos el análisis por separado para cada sitio corporal, concentrándonos en los SNV con MAF > 0,1 y comparándolos con abundancias a nivel de especies microbianas y vías metabólicas. Se utilizaron modelos de regresión lineal ordinarios, teniendo en cuenta los efectos del sexo, la etnia y la ubicación de la recolección de muestras. Después de filtrar las características microbianas (ver Métodos), identificamos de 120 a 160 especies en muestras orales y de tracto gastrointestinal y aproximadamente 25 especies en muestras de piel y vaginales. El número de vías metabólicas que pasaron por el filtrado fue considerablemente mayor, entre 350 y 530 vías principales por sitio. En conjunto, el gran número de SNV, sitios corporales y características microbianas en el análisis imponen un criterio de significación estricto (p < 3 × 10-12 de acuerdo con la corrección de Bonferroni para pruebas múltiples), que, en combinación con nuestro modesto tamaño de muestra, limita nuestro potencial de descubrimiento a asociaciones con tamaños de efecto muy grandes.
Por esta razón , primero limitamos nuestro análisis a los SNV que se encuentran en el Catálogo de Estudios de Asociación de Todo el Genoma (GWAS) del Instituto Nacional de Investigación del Genoma Humano (NHGRI), con la hipótesis de que estos SNV se enriquecieron con variantes genómicas que tienen un impacto potencial en las propiedades del microbioma. Este conjunto incluyó SNV asociados con un conjunto diverso de rasgos cuantitativos que van desde enfermedades complejas hasta mediciones antropométricas. En nuestros datos se encontraron un total de 16.869 de estos SNV, pero no detectamos ninguna asociación significativa utilizando este subconjunto de SNV. Además, de acuerdo con la gráfica cuantil-cuantil de las comparaciones, no hubo enriquecimiento sistemático de valores de p más pequeños entre las comparaciones (Archivo adicional 1: Figuras S6 y S7). No obtuvimos resultados significativos con conjuntos de variantes aún más restringidos asociados con la enfermedad inflamatoria intestinal o con ninguna de las subcategorías del Catálogo de GWAS de alto nivel (por ejemplo, «trastornos del sistema inmunológico», «sistema digestivo»).
A continuación, ejecutamos el análisis de asociación en todos los SNV comunes. No vimos ninguna asociación con valores de p menores que los límites de significación corregidos por múltiples pruebas. Sin embargo, hubo una serie de asociaciones (archivo adicional 1: Figuras S8 y S9 y Tabla S2) con valores de p relativamente pequeños. Estas asociaciones constituyen una rica fuente de información para futuros estudios de asociaciones de todo el microbioma e investigadores interesados en genes específicos o especies microbianas.
Debido al diseño único de la cohorte HMP, también pudimos investigar la naturaleza de las asociaciones entre sitios corporales. Los estudios en loci de rasgos cuantitativos de expresión han reportado una estabilidad notable de las asociaciones expresión génica-genotipo en los tejidos . Aquí, no observamos pares de SNV-microbios en la parte superior de la clasificación de asociaciones para múltiples sitios corporales, lo que demuestra la naturaleza más indirecta de estas asociaciones, así como los principios únicos de construcción de la comunidad para cada sitio corporal. Al considerar la distribución de los mejores valores de p de cada sitio corporal, independientemente del organismo asociado, todavía no pudimos encontrar ningún SNV que estuviera más fuertemente asociado con microbios de lo esperado por casualidad. Este hallazgo sugiere además que los mecanismos genéticos detrás de la composición del microbioma son específicos del sitio del cuerpo.