Variația genetică a gazdei și interacțiunile sale microbiome în cadrul proiectului microbiomului uman / Genome Medicine

secvențierea ADN de înaltă calitate a cohortei HMP
rezultatele secvențierii sunt în concordanță cu cele ale altor populații comparabile
taxoni microbieni și potențial funcțional în șase zone ale corpului
componentele genomice umane se corelează cu compoziția microbiomului
donatorii înrudiți au microbiomi similari
genotipurile FUT2 și LCT sunt asociate cu Bifidobacterium longum
asociațiile microbiene cu variante ale genomului gazdă sunt specifice site-ului corpului

secvențierea ADN de înaltă calitate a cohortei HMP

proiectarea cohortei HMP și colectarea probelor au fost descrise în profunzime . Pe scurt, cohorta HMP cuprinde 300 de donatori recrutați în două locații din SUA. Majoritatea donatorilor (71%) au fost de origine caucaziană; donatorii rămași au fost de origine africană (6%), asiatică (9%), Latino (11%) sau mixtă (3%). Raportul bărbat-femeie a fost aproximativ egal, cu 151 de femei și 149 de bărbați. Scopul selectării donatorilor a fost de a găsi indivizi sănătoși fără utilizare recentă de medicamente sau antecedente de boală, care aparțineau unei grupe de vârstă similare (19-40 de ani) și care aveau un indice de masă corporală relativ sănătos (IMC de 19-34 kg/m2).

pentru a obține informații despre genomul gazdei, ADN-ul genomic din sângele a 298 din cei 300 de indivizi a fost secvențiat folosind secvențierea fără PCR. Acoperirea medie de secvențiere a fost de 32,77 X, cu un interval cuprins între 23,9 si 56,7. 1). Contaminarea și procentul de citiri himerice au fost ambele sub limita standard de 5% în toate probele (fișier suplimentar 1: Figura s1a). Distribuția altor valori de calitate, cum ar fi dimensiunea inserției și procentul de citiri aliniate în perechi, nu a evidențiat eșantioane clare; prin urmare, toate eșantioanele au fost incluse în analize suplimentare. Numărul variantei a fost, de asemenea, remarcabil de stabil la ~ 2 m polimorfisme cu un singur nucleotid (SNP) și 200 K indels pe persoană (Fig. 1), cu excepția donatorilor afro-americani, care au avut o diversitate genetică mai mare (fișier suplimentar 1: Figura S1B). Nu a existat o corelație detectabilă între adâncimea de secvențiere și numărul de variante recuperate, indicând faptul că adâncimea în toate probele a fost suficientă.

aceste date oferă o asociere aproape completă a secvențierii genomului uman la ampliconi microbieni și metagenomi pe întreaga cohortă HMP. Variația genetică în această cohortă a fost dedusă anterior folosind citiri umane „contaminante” din datele WMS ale 93 de subiecți . În timp ce acest lucru a oferit o acoperire medie a genomului uman de ~ 10%, a variat foarte mult între probe și pentru mulți a ajuns la doar 5%. Acest lucru a fost suficient pentru a detecta 13 m variante genetice în general, 5,5 m cu MAF > 0,05. În comparație, studiul nostru a triplat numărul de donatori, iar prin direcționarea directă a ADN-ului gazdă, am identificat de două ori mai multe variante în general, cu acoperire uniformă (minim 25%) între probe. Acest lucru a sporit calitatea tuturor eșantioanelor și a generat un set complet de date care poate fi exploatat atât în această lucrare, cât și în studiile viitoare.

rezultatele secvențierii sunt în concordanță cu cele ale altor populații comparabile

după filtrarea în funcție de calitate și locație în regiuni cu complexitate redusă, au rămas variante de 29 m, constând din 26,7 m SNV-uri și 2,3 M inserții-ștergeri (indels) (fișier suplimentar 1: Tabelul S1). În comparație cu proiectele GoNL și cele 1000 de genomi, 5,1 m SNV-uri și 856 k indels au fost noi, dar majoritatea acestora au fost rare (Fig. 2a). În schimb, variantele comune pe care le-am identificat (MAF > 5%) au fost aproape universal împărțite între cele trei cohorte. În general, am identificat 7.Cu 8 M Mai multe variante comparativ cu Consorțiul GoNL de dimensiuni similare. Deoarece multe dintre variante au fost prezente și în proiectul 1000 Genomes, atribuim diferența diversității etnice mai mari din cohorta HMP. Deși un număr mare de SNV-uri au fost unice pentru fiecare cohortă, proporția variantelor care se încadrează în regiunile intronice, exonice și intergenice ale genomului a fost aproape identică între cohorte (fișier suplimentar 1: Figura S2).

am adnotat următoarele variante de codificare folosind pluginul LOFTEE pentru instrumentul VEP, care clasifică variantele în clase pe baza impactului lor asupra secvenței de codificare. Numărul de variante cu impact ridicat, definite ca cele care ar duce la pierderea funcției unei anumite gene, a fost de 2670 (fișier suplimentar 1: Tabelul S2); acest rezultat este în concordanță cu selecția negativă activă împotriva acestor variante. Selecția negativă a fost evidentă și din distribuția frecvenței alelelor, deoarece severitatea impactului unei alele a fost puternic legată de frecvența acesteia în populație. De exemplu, variantele cu impact ridicat au fost foarte îmbogățite în variante care au fost observate o singură dată în setul nostru de date (Fig. 2b, AC1). Distribuția mutațiilor de codificare între gene nu a fost, de asemenea, uniformă, cu un număr mic de gene care captează un număr mare de variante. Treizeci de gene au prezentat mai mult de cinci variante potențiale de pierdere a funcției cu impact ridicat, iar șase gene au avut mai mult de zece variante. Numărul mic de gene cu mutații de codificare cu impact ridicat a sugerat că această cohortă a fost prea mică pentru testarea sarcinii pentru a atrage corelații între frecvența mutației în cadrul unei gene și caracteristicile microbiene. În schimb, ne-am concentrat analiza pe identificarea asociațiilor dintre variantele comune și taxonii microbieni sau potențialul funcțional.

taxoni microbieni și potențial funcțional în șase zone ale corpului

pentru HMP, au fost colectate probe de microbiom din 18 zone ale corpului, care se încadrează în cinci zone majore: tractul gastro-intestinal (GI), cavitatea bucală, pielea, narele și vaginul. În unele cazuri, probele reproduse au fost colectate în timp pentru a evalua stabilitatea temporală a microbiomului. În total, mai mult de 5000 de probe au fost caracterizate folosind secvențierea genei rRNA 16S și mai mult de 2000 folosind shotgun WMS. Prima abordare oferă o imagine de ansamblu la nivel înalt a compoziției taxonomice, în timp ce cea din urmă permite identificarea la nivel de specie și profilarea potențialului funcțional al microbiomului. Prin urmare, am folosit datele WMS în analizele ulterioare. Distribuția probelor cu WMS nu a fost echivalentă între locurile corpului, majoritatea probelor extrase din șase locații reprezentând patru dintre zonele majore descrise mai sus: intestin (scaun), oral (mucoasa bucală, placa supragingivală, dorsul limbii), nares (nare anterioare) și vaginal (fornix posterior); nu au fost disponibile date WMS din probele de piele. În cele șase locuri ale corpului, numărul donatorilor a variat de la 80 pentru fornixul posterior vaginal la 209 pentru probele intestinale; numărul mediu de citiri pe probă a variat de la 34 m în fornixul posterior la 86 m în dorsul limbii. Folosind datele WMS din aceste probe, am identificat compoziția taxonomică folosind Metaflan2 și potențialul funcțional folosind HUMAnN2 . Aceste rezultate au fost apoi analizate pentru asocieri cu variația genetică a gazdei.

componentele genomice umane se corelează cu compoziția microbiomului

pentru a compara variația genetică a gazdei cu variația microbiană, am evaluat mai întâi gradul în care modelele genetice de nivel înalt ar putea fi corelate cu compoziția microbiomului. PCA pe SNV-urile comune (MAF > 0,05) a demonstrat că primele cinci componente principale reprezentau predominant strămoșii etnici și rasiali ai donatorilor. De exemplu, genetica gazdă a afro-americanilor, unul dintre cele două grupuri de subiecți asiatici-americani și caucazieni au prezentat cel mai puternic efect (Fig. 3a). Pentru a compara în continuare variația genetică generală cu alte cohorte, am ordonat, de asemenea, în comun un set de date combinat de HMP300 și 1000 genomi participanți, folosind SNVs cu MAF > 0,05 în ambele cohorte. Indivizii din ambele cohorte distribuite în spațiul component principal rezultat aproape identic în funcție de strămoși (fișier suplimentar 1: Figura S3).

apoi, pentru HMP300 am calculat ce procent de variație microbiană în cele șase situri ale corpului ar putea fi explicat (R2) de primele cinci componente principale ale genomului gazdă. În probele de scaun, procentul de variație la nivel de specie explicat de componentele principale ale gazdei a fost de 3,8%, mai mare decât se aștepta doar întâmplător (empiric p = 0,0001; Fig. 3b). Distribuția valorilor p empirice pentru valorile R2 ale speciei individuale a fost puternic deplasată spre zero (Fig. 3c), indicând faptul că corelațiile puternice nu s-au limitat la câteva specii, ci că structura genetică a populației a influențat configurațiile microbiene generale. Am observat un efect similar asupra nivelului speciilor în locurile orale. În mucoasa bucală, componentele principale genomice au descris în medie 5,2% (p empiric = 0,0008) din variația la nivel de specie; în dorsum limbă, această cifră a fost de 4,1% (p empiric = 0,0034). Într-o analiză identică a abundenței căilor metabolice MetaCyc, am constatat că numai căile din microbiomii intestinali sunt corelate semnificativ cu componentele principale ale variantelor comune. În rezumat, asocierea dintre caracteristicile genetice ale gazdei la nivel înalt și proprietățile microbiomului a fost semnificativă la mai multe site-uri ale corpului.

la examinarea corelației caracteristicilor microbiene individuale cu genetica gazdei care a contribuit la aceste medii, anumite caracteristici au arătat asociații individuale mult mai puternice. În scaun, unde corelația genetică a fost cea mai puternică, cinci specii din 118 au fost asociate semnificativ (rata de descoperire falsă (FDR) < 0,05 prin testul de permutare), valorile R2 ajungând la aproape 10% (Fig. 3c). Dintre aceste cinci specii, bacteria Lachnospiraceae, roseburia intestinalis și Subdoligranulum (neclasificate) au fost corelate pozitiv cu prima componentă principală genomică, demonstrând că aceste specii au o abundență mai mare la donatorii de origine caucaziană. O altă specie semnificativă, Sutterella wadsworthensis, a fost asociată cu PC4, care separă donatorii de origine asiatică în două grupuri. Examinând alte situri ale corpului, am constatat că Porphyromonas catoniae, Propionibacterium propionicum și Gemella neclasificată au fost asociate semnificativ cu variația genomică a gazdei în mucoasa bucală (fișier suplimentar 1: Figura S4 și tabelul S1).

o analiză similară la nivel de cale a relevat un număr mare (82 din 541) de căi semnificativ (FDR < 0,05 ca mai sus) corelat cu componentele genetice principale din scaun (Fig. 3c). Mai multe căi au fost legate de biosinteza și degradarea aminoacizilor și a acizilor grași cu lanț scurt. Într-o viziune mai sistematică, am constatat că membrii superclasei de fermentare a bazei de date MetaCyc au fost îmbogățiți semnificativ în clasamentul Top pathway (Fig. 3c). Majoritatea acestor căi au fost asociate cu prima componentă genetică principală care distinge donatorii albi de alte strămoși rasiali sau etnici. Astfel de îmbogățiri funcționale pot indica diferențe etnice în dietă, dar și variabilitatea genetică a capacității de a metaboliza anumiți nutrienți.

în alte situsuri ale corpului, variabilitatea nivelului căii nu a fost în medie corelată cu componentele genetice principale, deși s-au găsit unele căi corelate individuale (fișier suplimentar 1: Figura S5 și tabelul S1). De exemplu, o serie de căi în microbiomii dorsului limbii s-au corelat puternic cu componentele genetice principale. Interesant, aproape toate căile asociate au fost legate de respirație și ciclul acidului tricarboxilic (TCA), indicând un gradient de oxigen și diferențe în respirația aerobă de către organismele orale ale dorsului limbii între donatori. Îmbogățirea ciclului TCA în microbiomul oral și fermentarea în microbiomul intestinal reflectă caracteristicile metabolice dominante ale microbiomilor corespunzători și arată modul în care acestea pot fi afectate de genetica gazdei și de factorii de mediu corelați cu strămoșii genetici.

donatorii înrudiți au microbiomi similari

deși cohorta HMP a inclus donatori înrudiți între ei, aceste informații nu au fost disponibile în metadatele colectate. Secvențierea genomică a donatorilor ne-a permis să deducem amploarea relației dintre toate perechile de donatori și să identificăm până la rudele de gradul trei dintre ele. Folosind SNV-uri comune (MAF > 0.05) pentru analiză, am identificat 11 perechi de rude de gradul I și o pereche de rude de gradul III.

am căutat apoi să determinăm dacă gradul de relație s-a reflectat în similitudinea microbiomilor lor. Pentru această analiză am calculat distanța Bray-Curtis între toate perechile donatoare și am împărțit perechile în trei grupe: aceeași etnie, etnie diferită și rude (Fig. 4a). După cum s-ar putea aștepta de la PCA, probele din cadrul grupurilor etnice au fost, în medie, puțin mai asemănătoare decât probele din diferite grupuri etnice, dar similitudinea microbiomilor între donatorii înrudiți a fost mai pronunțată. Cu excepția intestinului, în toate locurile testate ale corpului, compoziția comunității microbiome între rude a fost mai asemănătoare decât între perechile de donatori aleatorii; în nares anterioare și mucoasa bucală, efectul a fost, de asemenea, semnificativ statistic prin testul t între scorurile de similitudine fără legătură și conexe. Pentru probele vaginale efectul a fost de asemenea pronunțat, dar nu am avut suficiente perechi de sex feminin pentru a obține o semnificație statistică.

genotipurile FUT2 și LCT sunt asociate cu Bifidobacterium longum

pentru a studia influența variantelor genetice individuale asupra compoziției microbiomului, am început cu asociații cunoscute de FUT2 și LCT. FUT2 este responsabil pentru transferul reziduurilor de fucoză terminală către glicanii mucoaselor . Bifidobacteriile folosesc, de asemenea, fucoza derivată din mucus ca sursă de carbon, iar abundența și diversitatea B. longum este semnificativ mai mică la non-secretori (indivizi cu un codon de oprire prematură în FUT2, rs601338) comparativ cu secretorii .

pentru a determina dacă această asociere ar putea fi verificată în cohorta HMP, am căutat specii microbiene corelate cu genotipul secretor al fucosiltransferazei gazdă (MAF = 0,41). Am folosit regresia liniară pentru a prezice abundența relativă a fiecărei specii individuale pe baza dozei de genotip secretor. B. longum a avut cea mai puternică corelație dintre cele 118 specii testate (FDR = 0,018; Fig. 4b), cu abundență relativă crescută în genotipul secretor în raport cu genotipul nesecretor. Această constatare este în concordanță cu observațiile experimentale anterioare și demonstrează că cohorta este suficient de alimentată pentru a valida ipotezele de asociere microbiană-gazdă vizate.

în mod similar, LCT a fost asociat cu o abundență crescută de bifidobacterii care metabolizează lactoza în intestin . LCT codifică lactaza, enzima responsabilă de descompunerea lactozei în tractul GI superior; în tandem cu bifidobacteriile crescute, acest lucru sugerează că mai multă lactoză dietetică se colectează în intestinul gros. Capacitatea de a produce lactază la vârsta adultă sau intoleranță la lactoză (hipolactazie) este controlată de prezența unei alele g homozigote în rs4988235 SNV aproape de LCT . O constatare recentă că consumul de lapte și abundența bifidobacteriilor sunt corelate pozitiv numai la persoanele cu varianta genei hipolactaziei susține acest mecanism.

în cohorta HMP, am comparat abundența speciilor bacteriene în scaun între donatori cu hipolactazia și variantele alternative. Deoarece hipolactazia este o trăsătură recesivă, am folosit un test t pentru a compara cei 64 de donatori cu genotipul g homozigot cu restul celor 145 de donatori. În urma testării fiecăreia dintre cele 118 specii individuale de abundență față de prezența acestei variante, am constatat că B. longum a avut cel mai puternic efect (FDR = 0,095), confirmând astfel asocierea găsită anterior (Fig. 4c).

asociațiile microbiene cu variante ale genomului gazdă sunt specifice site-ului corpului

în cele din urmă, am evaluat asocierile dintre genomul gazdă și variația microbiomului într-o manieră ne-vizată direct printr-un studiu de Asociere la nivel de genom. Am efectuat analiza separat pentru fiecare situs al corpului, concentrându – ne pe SNVs cu MAF > 0,1 și comparându-le atât cu abundențele la nivel de specii microbiene, cât și cu calea metabolică. Am folosit modele obișnuite de regresie liniară, luând în considerare efectele sexului, etniei și locației de colectare a probelor. După filtrarea caracteristicilor microbiene (vezi metodele), am identificat 120-160 de specii în probele de tract GI și oral și aproximativ 25 de specii în probele cutanate și vaginale. Numărul de căi metabolice care trec prin filtrare a fost considerabil mai mare, între 350 și 530 de căi majore pe sit. Împreună, numărul mare de SNV – uri, site-uri ale corpului și caracteristici microbiene din analiză impun un criteriu strict de semnificație (p < 3 Oct 10-12 conform corecției Bonferroni pentru teste multiple), care, în combinație cu dimensiunea modestă a eșantionului, limitează potențialul nostru de descoperire la asocieri cu dimensiuni de efect foarte mari.

din acest motiv, ne-am limitat mai întâi analiza la SNV-urile găsite în catalogul National Human Genome Research Institute (NHGRI) Genome-Wide Association Studies (GWAS), ipotezând că aceste SNV-uri au fost îmbogățite cu variante genomice care au impact potențial asupra proprietăților microbiomului. Acest set a inclus SNVs asociate cu un set divers de trăsături cantitative, de la boli complexe la măsurători antropometrice. Un total de 16.869 dintre aceste SNV-uri au fost găsite în datele noastre, dar nu am detectat nicio asociere semnificativă folosind acest subset de SNV-uri. Mai mult, conform graficului cuantil-cuantil al comparațiilor, nu a existat o îmbogățire sistematică a valorilor p mai mici între comparații (fișier suplimentar 1: figurile S6 și S7). Nu am obținut rezultate semnificative cu seturi de variante și mai constrânse asociate cu boala inflamatorie intestinală sau cu oricare dintre subcategoriile catalogului GWAS de nivel înalt (de exemplu, „tulburări ale sistemului imunitar”, „sistem digestiv”).

am rulat apoi analiza de Asociere pe toate SNV-urile comune. Nu am văzut nicio asociere cu valori p mai mici decât limitele multiple de semnificație corectate prin testare. Cu toate acestea, au existat o serie de asociații (fișier suplimentar 1: figurile S8 și S9 și tabelul S2) cu valori p relativ mici. Aceste asociații formează o sursă bogată de informații pentru viitoarele studii de Asociere la nivel de microbiom și investigatori interesați de gene specifice sau specii microbiene.

datorită designului unic al cohortei HMP, am putut, de asemenea, să investigăm natura asociațiilor dintre siturile corpului. Studiile privind expresia cantitativă a trăsăturilor loci au raportat o stabilitate remarcabilă a asociațiilor de Expresie genică-genotip între țesuturi . Aici, nu am observat nicio pereche SNV-microb în topul clasamentului asociațiilor pentru mai multe site-uri ale corpului, demonstrând natura mai indirectă a acestor asociații, precum și principiile unice de construcție a comunității pentru fiecare site al corpului. Atunci când luăm în considerare distribuția celor mai bune valori p de la fiecare loc al corpului, indiferent de organismul asociat, încă nu am putut găsi SNV-uri care să fie mai puternic asociate cu microbii decât se aștepta din întâmplare. Această constatare sugerează în continuare că mecanismele genetice din spatele compoziției microbiomului sunt specifice site-ului corpului.