Host variação genética e sua microbiano interações entre Humanos Projeto Microbiano

Alta qualidade de sequenciamento de DNA do HMP coorte

O HMP coorte de design e a coleta da amostra, tem sido descrita em profundidade . Resumidamente, a coorte HMP é composta por 300 doadores recrutados em dois locais nos EUA. A maioria dos doadores (71%) eram de origem caucasiana; os restantes doadores eram de ascendência africana (6%), Asiática (9%), Latina (11%), ou mista (3%). A proporção homem-mulher era aproximadamente igual, com 151 mulheres e 149 homens. O objetivo na seleção de doadores foi encontrar indivíduos saudáveis sem uso recente de medicação ou histórico de doença, que pertenciam a um grupo etário semelhante (19-40 anos), e que tinham um índice de massa corporal relativamente saudável (IMC de 19-34 kg/m2).

para obter informação sobre o genoma do hospedeiro, o ADN genómico do sangue de 298 dos 300 indivíduos foi sequenciado usando sequenciação sem PCR. A cobertura de sequenciamento média foi de 32,77 x, com uma faixa de 23,9 x a 56,7 x (Fig. 1). A contaminação e a percentagem de leituras quiméricas estavam bem abaixo do limite padrão de 5% em todas as amostras (ficheiro adicional 1: Figura S1A). A distribuição de outras métricas de qualidade, como o tamanho da inserção e a porcentagem de leituras que alinhadas em pares não destacaram nenhuma amostra mais clara; portanto, todas as amostras foram incluídas em uma análise mais aprofundada. O número variante também era notavelmente estável a ~ 2 M polimorfismos nucleotídicos únicos (SNPs) e 200 K indels por pessoa (Fig. 1), com exceção dos doadores afro-americanos, que tiveram maior diversidade genética (arquivo adicional 1: Figura S1B). Não houve correlação detectável entre a profundidade sequenciada e o número de variantes recuperadas, indicando que a profundidade em todas as amostras era suficiente.

Fig. 1
Figura 1

Visão Geral do genoma do hospedeiro do projecto Microbiome humano e da cobertura do metagenoma. Sequenciamento de profundidade, para cada host genoma (à esquerda) e o número de leituras para todas as amostras disponíveis com todo metagenome de seqüenciamento

Estes dados fornecem uma quase completa de emparelhamento de sequenciamento do genoma humano microbiana amplicons e metagenomes de todo o HMP coorte. A variação genética nesta coorte foi anteriormente inferida usando leitura humana de” contaminante ” a partir de 93 dados WMS de indivíduos . Enquanto isso forneceu uma cobertura média do genoma humano de ~ 10×, variou muito entre as amostras e para muitos alcançou apenas 5×. Isto foi suficiente para detectar 13 m variantes genéticas em geral, 5,5 m com MAF > 0,05. Em comparação, nosso estudo mais do que triplicou o número de doadores, e ao direcionar diretamente o DNA do hospedeiro, identificamos duas vezes mais variantes em geral com cobertura uniforme (mínimo 25×) entre amostras. Isto aumentou a qualidade de todas as amostras e gerou um conjunto de dados completo que pode ser extraído neste trabalho, bem como em estudos futuros.

Sequenciamento resultados são consistentes com os de outras populações comparáveis

Depois de filtragem de acordo com a qualidade e a localização na baixa complexidade regiões, 29 M variantes permaneceu, consistindo de 26,7 M SNVs e 2,3 M inserções-deleções (indels) (arquivo Adicionais 1: Tabela S1). Quando comparados com os projetos GoNL e genomes 1000, 5,1 m SNVs e 856 K indels eram novos, mas a maioria deles eram raros(Fig. 2a). Em contraste, as variantes comuns que identificamos (MAF > 5%) eram quase universalmente compartilhadas entre as três coortes. No geral, identificamos 7.8 M mais variantes em comparação com o consórcio GoNL de tamanho semelhante. Uma vez que muitas das variantes também estavam presentes no projeto genomes 1000, atribuímos a diferença à maior diversidade étnica na coorte HMP. Embora um grande número de SNVs fossem únicos para cada coorte, a proporção de variantes caindo em regiões intrônicas, exônicas e intergênicas do genoma era quase idêntica entre coortes (arquivo adicional 1: Figura S2).

Fig. 2
Figura 2

distribuição de variantes genéticas e comparação com outras coortes. uma variante descoberta categorizada por frequência e sobreposição com outras coortes. Contagem de alelos AC, frequência de alelos MAF menor. b Distribuição do número de codificação de mutações por frequência e impacto estimado

Nós próxima anotada codificação variantes usando o LOFTEE plugin para o VEP ferramenta , que categoriza as variantes em classes com base em seu impacto sobre a sequência codificante. O número de variantes de alto impacto, definidas como aquelas que resultariam em perda de função de um determinado gene, foi de 2670 (arquivo adicional 1: Tabela S2); este resultado é consistente com seleção negativa ativa contra estas variantes. A seleção negativa também foi evidente a partir da distribuição de frequência do alelo, uma vez que a gravidade do impacto de um alelo estava fortemente relacionada com a sua frequência na população. Por exemplo, as variantes de alto impacto foram muito enriquecidas em variantes que foram observadas apenas uma vez no nosso conjunto de dados (Fig. 2b, AC1). A distribuição de mutações de codificação entre genes também não era uniforme, com um pequeno número de genes capturando um grande número de variantes. Trinta genes mostraram mais de cinco potenciais variantes de perda de funções de alto impacto, e seis genes tiveram mais de dez variantes. O pequeno número de genes com mutações de codificação de alto impacto sugeriu que esta coorte era muito pequena para testes de carga para desenhar correlações entre a frequência de mutação dentro de um gene e características microbianas. Em vez disso, focamos nossa análise na identificação de associações entre variantes comuns e táxons microbianos ou potencial funcional.

taxa microbiana e potencial funcional em seis locais do corpo

para o HMP, foram colhidas amostras de microbiomas em 18 locais do corpo, caindo em cinco áreas principais: tracto gastrointestinal (GI), cavidade oral, pele, nasres e vagina. Em alguns casos, amostras replicadas foram coletadas ao longo do tempo para avaliar a estabilidade temporal do microbioma. No total, mais de 5000 amostras foram caracterizadas usando sequenciamento de genes 16S rRNA e mais de 2000 usando WMS shotgun. A primeira abordagem dá uma visão geral de alto nível da composição taxonômica, enquanto a segunda permite a identificação de nível de espécie e o perfil do potencial funcional do microbioma. Por conseguinte, utilizámos os dados WMS em análises subsequentes. A distribuição de amostras com WMS não foi equivalente entre os locais do corpo, com a maioria das amostras retiradas em seis localidades que representam quatro das principais áreas acima descritas: a) intestino (fezes), oral (mucosa bucal, supragingival placa bacteriana, dorso da língua), narinas (anterior narinas), e vaginal (fórnix posterior); não WMS dados estavam disponíveis a partir de pele de amostras. Nos seis locais do corpo, o número de dadores variou entre 80 para o fornix vaginal posterior e 209 para as amostras intestinais; o número médio de leituras por amostra variou entre 34 M em fornix posterior e 86 M na língua dorsum. Usando os dados WMS dessas amostras, identificamos a composição taxonômica usando Metaflan2 e potencial funcional usando HUMAnN2 . Estas saídas foram então analisadas para associações com variação genética do hospedeiro.

genoma Humano componentes principais correlacionar com microbiano composição

Para comparar host variação genética microbiana variação, primeiramente, foi avaliado o grau de alto nível genético padrões pode ser correlacionada com microbiano composição. PCA on the common SNVs (MAF > 0,05) demonstrated that the first five principal components predominantly represented the ethnic and racial ancestry of the doors. Por exemplo, a genética hospedeira do Afro-americano, um dos dois grupos do asiático-americano, e os indivíduos caucasianos mostraram o efeito mais forte (Fig. 3a). Para comparar ainda mais a variação genética geral com outras coortes, nós também ordenamos em conjunto um conjunto de dados combinados de participantes de Hmp300 e 1000 genomas, usando SNVs com MAF > 0,05 em ambas as coortes. Indivíduos de ambas as coortes distribuídos no principal espaço de componentes resultante quase de forma idêntica de acordo com a ancestralidade (ficheiro adicional 1: Figura S3).

Fig. 3
Figura 3

correlação entre a variação genética de alto nível e a composição microbiológica. a os dois primeiros componentes da análise principal do componente genético são mostrados, com base em variantes de nucleótidos comuns, sobrepostos por etnia doadora auto-relatada. AA afro-americano. b mostrado é a quantidade de variância em dados microbiológicos, em média, pode ser explicada pelos principais componentes genéticos, quando comparado com a permutação nos mesmos dados. Os valores apresentados são z-scores baseados em permutações, que também foram utilizados para calcular valores empíricos de p. c distribuição dos principais valores do componente genético R2 para diferentes espécies e vias nas fezes. O eixo Y mostra a variância explicada, e o eixo X mostra valores empíricos de P baseados na permutação para cada um desses números. Apenas são apresentados os nomes das espécies com taxa de descoberta falsa (FDR) < 0,05 e as vias FDR < 0,01. O histograma abaixo mostra a distribuição dos valores empíricos de p, E o eixo de Y mostra o número de espécies em um cesto. Barras verdes sob a caminho histograma mostrar como os caminhos que estão associados com a fermentação são classificados por R2

em seguida, para HMP300 podemos calcular que porcentagem do microbiana variação em seis locais do corpo pode ser explicada (R2) pelos cinco primeiros host genoma de componentes principais. Em amostras de fezes, a porcentagem de variação de nível de espécie explicada pelos principais componentes do hospedeiro foi de 3,8%, maior do que o esperado apenas pelo acaso (empírico p = 0,0001; Fig. 3b). A distribuição dos valores empíricos de p para os valores de R2 da espécie individual foi fortemente deslocada para zero(Fig. 3c), indicando que fortes correlações não se limitaram a algumas espécies, mas que a estrutura da população genética influenciou configurações microbianas globais. Observamos um efeito semelhante no nível da espécie em locais orais. Na mucosa bucal, genômica principais componentes descritos em média de 5,2% (empírica p = 0.0008) das espécies em nível de variação; no dorso da língua, este valor foi de 4,1% (empírica p = 0.0034). Numa análise idêntica da abundância da via metabólica MetaCyc, descobrimos que apenas as vias nos microbiomas intestinais estão significativamente correlacionadas com os principais componentes da variante comum. Em resumo, a associação entre características genéticas do hospedeiro de alto nível e propriedades microbiológicas foi significativa em vários locais do corpo.Ao examinar a correlação das características microbianas individuais com a genética hospedeira que contribuiu para estas médias, certas características mostraram associações individuais muito mais fortes. Nas fezes, onde a correlação genética foi a mais forte, cinco espécies em 118 foram significativamente associadas (taxa de descoberta falsa (FDR) < 0,05 por teste de permutação), com valores de R2 atingindo quase 10% (Fig. 3c). Destas cinco espécies, a bactéria Lachnospiraceae, a Roseburia intestinalis e o Subdoligranulum (não classificados) estavam todos positivamente correlacionados com o primeiro componente principal genômico, demonstrando que estas espécies têm maior abundância em dadores de origem caucasiana. Outra espécie significativa, Sutterella Wadsworth, foi associada ao PC4, que separa doadores de origem asiática em dois grupos. Examinando outros locais do corpo, descobrimos que Porphyromonas catoniae, Propionibacterium propionicum, e Gemella não classificada foram significativamente associados com a variação genômica do hospedeiro na mucosa bucal (arquivo adicional 1: Figura S4 e tabela S1).

uma análise semelhante de nível de Via revelou um grande número (82 de 541) de vias significativamente (FDR < 0, 05 como acima) correlacionadas com os principais componentes genéticos nas fezes (Fig. 3c). Várias vias foram relacionadas com a biossíntese e degradação dos aminoácidos e dos ácidos gordos de cadeia curta. Numa visão mais sistemática, descobrimos que os membros da superclasse de fermentação da Base de dados MetaCyc foram significativamente enriquecidos nos rankings de pathway top (Fig. 3c). A maioria dessas vias foram associadas com o primeiro componente principal genético que distingue doadores brancos de outras raças ou etnias. Tais enriquecimentos funcionais podem apontar para diferenças étnicas na dieta, mas também para a variabilidade genética na capacidade de metabolizar certos nutrientes.

noutros locais do corpo, a variabilidade do nível da via não foi, em média, correlacionada com os componentes genéticos principais, embora tenham sido encontradas algumas vias individuais correlacionadas (ficheiro adicional 1: Figura S5 e quadro S1). Por exemplo, uma série de vias nos microbiomas dorsais da língua correlacionaram-se fortemente com os principais componentes genéticos. Curiosamente, quase todas as vias associadas estavam relacionadas com a respiração e o ciclo do ácido tricarboxílico (TCA), indicando um gradiente de oxigênio e diferenças na respiração aeróbica por organismos orais do dorso da língua entre Doadores. O enriquecimento do ciclo TCA no microbioma oral e a fermentação no microbioma intestinal reflectem as características metabólicas dominantes dos microbiomas correspondentes e mostram como estes podem ser afectados pela genética do hospedeiro e factores ambientais correlacionados com a ascendência genética.

os dadores relacionados têm microbiomas semelhantes

embora a coorte de HMP incluísse dadores relacionados uns com os outros, esta informação não estava disponível nos metadados recolhidos. O sequenciamento genômico dos doadores nos permitiu inferir a extensão da relação entre todos os pares doadores e identificar até parentes de terceiro grau entre eles. Usando SNVs comuns (MAF > 0,05) para a análise, identificamos 11 pares de parentes de primeiro grau e um par de parentes de terceiro grau.Em seguida, procurámos determinar se o grau de relação se reflectia na semelhança dos seus microbiomas. Para esta análise, calculámos a distância Bray-Curtis entre todos os pares doadores e dividimos os pares em três grupos.: a mesma etnia, etnia diferente e parentes (Fig. 4a). Como seria de esperar do APC, as amostras dentro de grupos étnicos eram, em média, ligeiramente mais semelhantes do que amostras de diferentes grupos étnicos, mas a semelhança microbiológica entre Doadores relacionados foi mais pronunciada. Com exceção do intestino, em todos os locais do corpo testados, a composição da comunidade microbiológica entre parentes foi mais semelhante do que entre pares de doadores aleatórios; em nasais anteriores e mucosa bucal, o efeito também foi estatisticamente significativo pelo teste t entre escores de similaridade não relacionados e relacionados. Para amostras vaginais o efeito também foi pronunciado, mas não tivemos pares mulheres-mulheres suficientes para alcançar significância estatística.

Fig. 4
Figura 4

parentesco e semelhança microbiológica e replicação de associações conhecidas. uma semelhança Bray-Curtis entre os 12 pares de parentes próximos (de terceiro grau ou mais perto) identificados a partir de dados genéticos em comparação com semelhanças entre outros pares. Os valores p correspondem aos resultados dos testes t entre as pontuações de similaridade para parentes, contra todos os outros pares. b Association between FUT2 secretor variant and B. longum. C Association between genetic variant rs4988235 near the LCT gene and B. longum. Em b e c, apresentamos log10 transformado abundância relativa

FUT2 e LCT genótipos estão associados com Bifidobacterium longum

Para estudar a influência da genética individual variantes no microbiano composição, começamos com associações conhecidas de FUT2 e LCT. O FUT2 é responsável pela transferência de resíduos de fucose terminais para glicanos mucosos . Bifidobacteria também usa fucose derivada do muco como fonte de carbono, e abundância e diversidade de B. longo é significativamente menor em não-secretores (indivíduos com um codão de paragem prematura no FUT2, rs601338) em comparação com secretores .

para determinar se esta associação podia ser verificada na coorte de HMP, procuramos espécies microbianas correlacionadas com o genótipo hospedeiro do secretor fucosiltransferase (MAF = 0, 41). Usamos regressão linear para prever a abundância relativa de cada espécie com base na dosagem do genótipo do secretor. B. longum teve a mais forte correlação das 118 espécies testadas (FDR = 0.018; Fig. 4b), com um aumento da abundância relativa no genótipo do secretor relativamente ao genótipo do não-secretor. Esta conclusão é consistente com observações experimentais anteriores e demonstra que a coorte é suficientemente poderosa para validar hipóteses de associação microbiana-Hospedeira específicas.Do mesmo modo, a LCT tem sido associada a um aumento da abundância de bifidobactérias metabolizadoras pela lactose no intestino . A LCT codifica a lactase, a enzima responsável pela degradação da lactose no tracto GI superior. ; em conjunto com o aumento da bifidobactéria, isto sugere que mais lactose dietética se acumula no intestino grosso. A capacidade de produzir lactase na idade adulta ou intolerância à lactose (hipolactasia) é controlada pela presença de um alelo g homozigótico em rs4988235 SNV próximo da TCL . Uma descoberta recente de que o consumo de leite e a abundância de bifidobactérias está positivamente correlacionada apenas em pessoas com a variante do gene hipolactasia suporta este mecanismo.

no grupo HMP, comparamos espécies bacterianas abundantes nas fezes entre dadores com hipolactasia e variantes alternativas. Como a hipolactasia é uma característica recessiva, usámos um teste t para comparar os 64 dadores com o genótipo g homozigótico com os restantes 145 dadores. Após testar cada uma das 118 espécies individuais de abundância contra a presença desta variante, descobrimos que b. longo teve o efeito mais forte( FDR = 0,095), confirmando assim a associação anteriormente encontrada (Fig. 4c).

associações microbianas com variantes do genoma do hospedeiro são organismos específicos do local

finalmente, nós avaliamos associações entre o genoma do hospedeiro e a variação do microbioma de uma forma não orientada diretamente através de um estudo de associação em todo o genoma. Realizamos a análise separadamente para cada local do corpo, concentrando-nos em VNS com MAF > 0.1 e comparando – os com espécies microbianas-e níveis metabólicos de abundância. Usamos modelos de regressão linear ordinários, levando em conta os efeitos do sexo, etnia e local de coleta de amostras. Após filtrar as características microbianas (ver Métodos), identificamos 120-160 espécies no trato gastrointestinal e amostras orais e aproximadamente 25 espécies em amostras de pele e vaginal. O número de vias metabólicas que passavam pela filtragem foi consideravelmente superior, entre 350 e 530 vias principais por local. Juntos, o grande número de SNVs, sites corporais e características microbianas na análise impõem um critério de significância estrito (p < 3 × 10-12 de acordo com a correção Bonferroni para testes múltiplos), o que, em combinação com o nosso modesto tamanho da amostra, limita o nosso potencial de descoberta a associações com tamanhos de efeito muito grandes.

Por este motivo, nós primeiro limitada a nossa análise para SNVs encontrado no National Genoma Humano Research Institute (NHGRI) Genome-Wide Association Studies (GWAS) Catálogo , hypothesizing que estes SNVs foram enriquecidos com variantes genômicas que têm potencial de impacto microbiano propriedades. Este conjunto incluía SNVs associados a um conjunto diversificado de traços quantitativos que vão desde doenças complexas a medições antropométricas. Um total de 16.869 destes SNVs foram encontrados em nossos dados, mas não detectamos nenhuma associação significativa usando este subconjunto de SNVs. Além disso, de acordo com a parcela quantile-quantile das comparações, não houve enriquecimento sistemático de valores p mais pequenos entre as comparações (ficheiro adicional 1: figuras S6 e S7). Nós não obtivemos resultados significativos com conjuntos variantes ainda mais limitados associados à doença inflamatória intestinal ou com qualquer uma das subcategorias de catálogo de alto nível GWAS (por exemplo, “doenças do sistema imunológico”, “sistema digestivo”).Em seguida, executamos a análise da Associação sobre todos os SNVs comuns. Não vimos nenhuma associação com valores p menores que múltiplos limites de significância corrigidos por testes. No entanto, houve uma série de associações (ficheiro adicional 1: figuras S8 e S9 e quadro S2) com valores p relativamente pequenos. Estas associações formam uma rica fonte de informação para futuros estudos de associações microbiológicas e investigadores interessados em genes específicos ou espécies microbianas.Devido ao design único da coorte HMP, também fomos capazes de investigar a natureza das associações entre os locais do corpo. Estudos em expressão de traços quantitativos loci relataram estabilidade notável da expressão genética-associações genotipos através dos tecidos . Aqui, não observamos quaisquer pares SNV-micróbios no topo da classificação da Associação para múltiplos locais de corpo, demonstrando a natureza mais indireta destas associações, bem como os princípios de construção comunitária únicos para cada local de corpo. Ao considerar a distribuição dos melhores valores de p de cada local do corpo independentemente do organismo associado, ainda não conseguimos encontrar nenhum SNVs que estavam mais fortemente associados com micróbios do que o esperado por acaso. Esta descoberta sugere ainda que os mecanismos genéticos por trás da composição microbiológica são específicos do local do corpo.



+