인간 마이크로바이옴 프로젝트 내에서의 숙주 유전적 변이와 그 마이크로바이옴 상호작용
인간 마이크로바이옴 코호트의 고품질 시퀀싱
간단히 말해서,한인회복지단체 코호트는 미국의 두 지역에서 모집된 300 명의 기증자로 구성되어 있다. 나머지 기증자는 아프리카(6%),아시아(9%),라틴계(11%)또는 혼합(3%)조상이었습니다. 남성 대 여성 비율은 여성 151 명과 남성 149 명으로 거의 같았습니다. 기증자를 선택하는 목표는 비슷한 연령 그룹(19-40 세)에 속한 최근의 약물 사용이나 질병 병력이없는 건강한 개인을 찾는 것이었고 상대적으로 건강한 체질량 지수(체질량 지수 19-34 킬로그램/평방 미터).
숙주 게놈 정보를 얻기 위해,300 명의 개체 중 298 명의 혈액으로부터 게놈 유전자 서열을 사용하여 염기 서열을 하였다. 평균 시퀀싱 커버리지는 32.77 배였으며,범위는 23.9~56.7 배였습니다. 1). 오염 및 키메라 읽기의 비율은 모두 모든 샘플에서 5%의 표준 컷오프 미만이었습니다(추가 파일 1:그림 1). 삽입 크기 및 쌍으로 정렬된 읽기 비율과 같은 다른 품질 메트릭의 분포는 명확한 이상치 샘플을 강조하지 않았으므로 모든 샘플이 추가 분석에 포함되었습니다. 1 인당 200 케이 인델(그림 1)과 1 인당 200 케이 인델(그림 2)에서 변형 수는 현저하게 안정적이었다. 1),더 높은 유전 적 다양성을 가진 아프리카 계 미국인 기증자를 제외하고(추가 파일 1: 그림 1). 시퀀싱 깊이와 변종 복구,모든 샘플에서 깊이 충분 한 나타내는 수 사이 감지 상관 관계가 있었다.
이 데이터는 인간 게놈 시퀀싱의 거의 완전한 쌍을 제공합니다. 이 코호트의 유전 적 변이는 이전에”오염 물질”인간을 사용하여 추론되었습니다. 이것은~10 의 평균 인간 게놈 커버리지를 제공했지만,샘플간에 크게 달라졌으며 많은 사람들이 5 에 도달했습니다. 이것은 전체 13 미터 유전자 변이체를 검출하기에 충분했다. 비교 하 여,우리의 연구 기증자의 수를 3 배 이상 하 고 직접 호스트 유전자를 대상으로,우리는 두 배 많은 변종 전체 샘플 사이도 범위(최소 25,000,000)와 확인. 이로 인해 모든 샘플에 비해 품질이 향상되었으며 이 작업과 향후 연구에서 채굴할 수 있는 완전한 데이터세트가 생성되었습니다.
시퀀싱 결과 다른 비교 인구
품질 및 복잡도 낮은 지역에서 위치에 따라 필터링 후와 일치,29 엠 변종 남아,26.7 엠 삽입과 2.3 엠 삽입-삭제(인델)로 구성 된(추가 파일 1:테이블 에스 1). 1000 개의 게놈 프로젝트와 비교했을 때,510 만개의 게놈과 856 개의 인델은 새로운 것이었지만,이들 중 대부분은 드물었다(그림 1). 2 에이). 대조적으로,우리가 확인한 일반적인 변종(매프>5%)은 거의 보편적으로 세 집단간에 공유되었습니다. 전반적으로,우리는 7 을 확인했습니다.더 큰 데이터 요금제로 가정용 인터넷을 해지하고 핸드폰 핫스팟기능을 이용하여 인터넷을 사용할 수 있습니다 이후 변종의 많은 또한 1000 게놈 프로젝트에 존재 했다,우리는 더 큰 인종 다양성에 차이 속성. 각 코호트마다 고유 한 변이체가 많았지 만,게놈의 인트로닉,엑소닉 및 유전자 간 영역에서 떨어지는 변이체의 비율은 코호트간에 거의 동일했습니다(추가 파일 1:그림 2).
우리는 다음 코딩 시퀀스에 미치는 영향에 따라 클래스로 변종을 분류 벱 도구에 대한 로프트 플러그인을 사용하여 변종을 코딩 주석. 특정 유전자의 기능 상실을 초래하는 것으로 정의되는 고 영향도 변이체의 수는 2670 이었다(추가 파일 1:표 2); 이 결과는 이러한 변형에 대한 활성 부정적인 선택과 일치합니다. 부정적인 선택 또한 대립 유전자의 영향의 심각도 인구에서의 주파수에 강력 하 게 관련 된 대립 유전자 주파수 분포에서 분명 했다. 예를 들어,높은 충격 변형은 우리의 데이터 세트(그림 1)에서 한 번만 관찰 된 변형에서 크게 풍부 해졌습니다. 1). 유전자 간의 코딩 돌연변이의 분포는 또한 균일하지 않았으며 소수의 유전자가 많은 변종을 포착했습니다. 30 개의 유전자는 5 개 이상의 잠재적인 높은 영향 기능 손실 변이체를 보였고 6 개의 유전자는 10 개 이상의 변이체를 가졌다. 높은 영향 코딩 돌연변이와 유전자의 작은 수는이 코 호트 유전자 및 미생물 기능 내에서 돌연변이 주파수 사이의 상관 관계를 그릴 부담 테스트에 대 한 너무 작은 제안. 대신,우리는 일반적인 변종과 미생물 분류군 또는 기능적 잠재력 사이의 연관성을 식별하는 데 분석을 집중했습니다.
6 개의 신체 부위에서의 미생물 분류군 및 기능적 잠재력
어떤 경우에는 복제 샘플을 시간이 지남에 따라 수집하여 마이크로 바이 옴의 시간적 안정성을 평가했습니다. 총 5000 개 이상의 샘플을 16 초의 유전자 시퀀싱을 사용하여 특성화했으며 2000 개 이상의 샷건을 사용하여 특성화했습니다. 이전 접근 방식은 분류 학적 구성의 높은 수준의 개요를 제공하는 반면,후자는 종 수준의 식별 및 미생물 군집의 기능적 잠재력을 프로파일 링 할 수 있습니다. 따라서 우리는 후속 분석에서 데이터를 사용했습니다. 대부분의 샘플은 위에서 설명한 주요 영역 중 4 개를 나타내는 6 개의 위치에서 채취되었습니다:장(대변),구강(협측 점막,치은 상패,혀 등),나레스(전방 나레스)및 질(후방 포닉스). 6 개의 신체 부위 내에서 기증자의 수는 질 후부 포닉스의 경우 80 개에서 장 샘플의 경우 209 개까지 다양했으며,샘플 당 평균 읽기 수는 후부 포닉스의 경우 34 미터에서 혀의 등쪽 86 미터로 다양했습니다. 이러한 샘플에서 데이터를 사용 하 여,우리 식별 분류학 구성 메타 플 란 2 를 사용 하 여 기능 잠재력 휴먼 2 를 사용 하 여. 이러한 출력 다음 호스트 유전 변이 가진 협회에 대 한 분석 했다.
인간 게놈 주요 구성 요소 마이크로바이옴 구성과 상관 관계
호스트 유전자 변이와 미생물 변이를 비교 하려면 먼저 높은 수준의 유전자 패턴 마이크로바이옴 구성과 상관 될 수 있는 정도 평가. 5103>0.05)는 처음 다섯 가지 주요 구성 요소가 주로 기증자의 민족 및 인종 조상을 대표한다는 것을 보여주었습니다. 예를 들어,아시아계 미국인의 두 그룹 중 하나 인 아프리카 계 미국인의 숙주 유전학 및 백인 피험자가 가장 강력한 효과를 나타 냈습니다(그림 1). 3 에이). 전체 유전 변이를 다른 코호트와 더 비교하기 위해,우리는 또한 공동 좌표 결합 된 데이터 세트 1000 게놈 참가자,두 코호트에서>0.05. 조상에 따라 결과 주성분 공간에 거의 동일하게 분포 된 두 코호트의 개인(추가 파일 1:그림 에스 3).
우리는 처음 5 호스트 게놈 주요 구성 요소에 의해 설명 될 수 있는 6 개의 신체 사이트에 미생물 변이의 백분율을 계산. 대변 샘플에서 숙주 주성분에 의해 설명 된 종 수준 변이의 비율은 3.8%로 우연히 예상보다 높았습니다(경험적 피=0.0001;그림. 3 비). 경험적 분포 피 에 대한 값 아르 자형 2 개별 종의 값은 0 으로 강하게 이동되었습니다(그림 1). 3 기음),강한 상관 관계가 몇 종에 국한되지 않았 음을 나타내는,하지만 유전 인구 구조는 전체 미생물 구성에 영향을. 우리는 구두 사이트에서 종 수준에 비슷한 효과 관찰. 협측 점막에서,게놈 주성분은 종 수준 변이의 평균 5.2%(경험적 피=0.0008)에 기술되었다;혀 등쪽에서이 수치는 4.1%(경험적 피=0.0034)였다. 메타 시크 대사 경로 풍부의 동일한 분석에서 우리는 일반적인 변형 주요 구성 요소와 유의 하 게 상관 될 장내 미생물에 경로만 발견. 요약하면,높은 수준의 호스트 유전 적 특징과 마이크로 바이 옴 특성 사이의 연관성은 여러 신체 부위에서 중요했습니다.
개별 미생물 특징과 이러한 평균에 기여한 숙주 유전학의 상관 관계를 조사 할 때,특정 특징은 훨씬 더 강력한 개별 연관성을 보였다. 유전 적 상관 관계가 가장 강한 대변에서 118 종 중 5 종이 유의하게 연관되어 있었다(순열 시험에 의한 거짓 발견률<0.05). 3 기음). 이 다섯 종 중 라크 노스피라세과 박테리아,로즈 부리아 장,및 하위 과립(분류되지 않음)모두 첫 번째 게놈 주성분과 양의 상관 관계가 있었으며,이 종은 백인 기원의 기증자에서 더 풍부하다는 것을 보여줍니다. 또 다른 중요한 종인 수테 렐라 뭉치 워르 텐 시스는 아시아 출신의 기증자를 두 그룹으로 분리하는 4 번과 관련이 있습니다. 다른 신체 사이트를 검사,우리는 발견 반암,프로 피 오 니 박 테 리움 프로 피 오 니 쿰,및 분류 되지 않은 제 멜라 협측 점 막(추가 파일 1:그림 4 및 표 1)에서 호스트 게놈 변이와 유의 하 게 연관 되었다.
유사한 경로 수준 분석 결과 대변에서 유전 적 주성분과 상관 관계가 상당히 많은 수의 경로(541 개 중 82 개)가 나타났습니다(그림 1). 3 기음). 몇몇 통로는 아미노산과 짧 사슬 지방산 생합성 및 강직과 관련있었다. 보다 체계적인 관점에서,우리는 메타 데이터 데이터베이스의 발효 슈퍼 클래스의 구성원이 크게 상위 경로 순위(그림 1)에 농축 된 것을 발견했다. 3 기음). 이러한 경로의 대부분은 다른 인종 또는 민족 조상에서 흰색 기증자를 구별하는 최초의 유전 적 주성분과 관련이 있습니다. 이러한 기능적 풍부는 식단의 민족적 차이뿐만 아니라 특정 영양소를 대사하는 능력의 유전 적 다양성을 지적 할 수 있습니다.
다른 신체 부위에서는 경로 수준의 변동성이 평균적으로 유전 적 주성분과 상관되지 않았지만 일부 개별 상관 경로가 발견되었습니다(추가 파일 1:그림 5 및 표 1). 예를 들어,혀 등 미생물 군집의 여러 경로는 유전 적 주요 구성 요소와 강하게 상관 관계가 있습니다. 흥미롭게도,거의 모든 관련 된 경로 호흡 및 트리 카 복 실 산(트)주기,산소 구배와 기증자 사이 혀 등쪽의 구강 생물에 의해 호기성 호흡의 차이 나타내는 관련이 있었다. 구강 마이크로바이옴에서의 티카 사이클의 농축과 장내 마이크로바이옴에서의 발효는 해당 마이크로바이옴의 지배적인 대사 특징을 반영하고 이들이 유전적 조상과 상관된 숙주 유전학 및 환경적 요인에 의해 어떻게 영향을 받을 수 있는지를 보여준다.
관련 기증자는 유사한 미생물 군집
하지만,이 정보는 수집 된 메타 데이터에서 사용할 수 없습니다. 기증자의 게놈 시퀀싱 모든 기증자 쌍 사이의 관계의 범위를 추론 하 고 그들 가운데 3 도 친척을 식별 하도록 허용. 분석을 위해 11 쌍의 1 도 친척과 1 쌍의 3 도 친척을 확인했습니다.
우리는 다음으로 관계의 정도가 그들의 미생물 군집의 유사성에 반영되었는지 여부를 결정하려고 노력했다. 이 분석을 위해 우리는 모든 기증자 쌍 사이의 브레이-커티스 거리를 계산하고 쌍을 세 그룹으로 나누었습니다: 동일한 민족,다른 민족 및 친척(그림 1). 4). 이 연구에서 예상 할 수 있듯이,인종 그룹 내의 샘플은 평균적으로 다른 인종 그룹의 샘플보다 약간 더 유사했지만 관련 기증자 간의 미생물 군집 유사성이 더 두드러졌습니다. 창자를 제외하고,모든 테스트 바디 사이트,친척 사이의 마이크로 바이 옴 지역 사회 구성은 무작위 기증자 쌍 사이보다 더 유사했다;전방 나레스와 협측 점막에서,효과는 관련이없는 및 관련 유사성 점수 사이의 테스트로 통계적으로 유의했다. 질 샘플에 대 한 효과 또한 발음 했다 하지만 우리는 통계적 유의성을 달성 하기 위해 충분 한 여성-여성 쌍을 하지 않았다.
개별 유전자 변이체가 마이크로바이옴 조성에 미치는 영향을 연구하기 위해,우리는 2 번과 2 번 유전자좌의 알려진 연관성으로 시작했다. 퓨트 2 는 말단 푸코스 잔기를 점막 글리 칸으로 옮기는 역할을합니다. 비피더스 균은 또한 점액 유래 푸코 스를 탄소 공급원으로 사용하며,비 롱검의 풍부함과 다양성은 분비자에 비해 비 분비자(조기 정지 코돈이있는 개인)에서 유의하게 낮습니다.
이 연관이 헤 코 호트 코 호트에서 확인할 수 있는지 여부를 확인 하려면 우리 숙주 푸 코 실 트랜스퍼 라 제 분 비 유전자형(매프=0.41)와 상관 미생물 종에 대 한 검색. 우리는 분 비 유전자형 복용량에 따라 각 개별 종의 상대적 풍부를 예측 하기 위해 선형 회귀를 사용 합니다. B. 롱검은 시험된 118 종의 가장 강한 상관관계를 가지고 있었다. 4 비),비 분비 유전자형에 비해 분비 유전자형의 상대적 풍부도가 증가했습니다. 이 발견 이전 실험 관찰과 일치 하 고 코 호트 대상된 미생물 호스트 협회 가설을 확인 하려면 충분히 전원 표시 됩니다.
마찬가지로,유당 대사는 장내 비피더스 균의 풍부함 증가와 관련이 있습니다. 락타아제,상부 위장관 유당을 분해하는 효소; 증가 된 비피더스 균과 함께,이것은 더 많은식이 유당이 대장에서 수집된다는 것을 암시합니다. 성인기 또는 유당 불내증(저 락토오스)에서 락타아제를 생산하는 능력은 동형 접합 대립 유전자의 존재에 의해 제어됩니다. 우유 소비와 비피더스 균 풍부가 저 락톨락시아 유전자 변형을 가진 사람들에서만 긍정적 인 상관 관계가 있다는 최근의 발견은이 메커니즘을 지원합니다.
모체공동체 코호트에서,우리는 기증자 간 대변에서 세균 종 풍부도와 저 락톨락시아 및 대체 변종을 비교했다. 145 기증자의 나머지 동형 접합 지 유전자형과 64 기증자를 비교 하는 테스트를 사용 합니다. 이 변종의 존재에 대해 118 개의 개별 종 풍부도를 각각 테스트 한 후,우리는 비 롱검이 가장 강한 효과를 가졌음을 발견했습니다(루피 드=0.095). 4 기음).
호스트 게놈 변이체와 미생물 협회는 몸 사이트 특정
마지막으로,우리는 게놈 전체 협회 연구를 통해 직접 비 대상 방식으로 호스트 게놈과 마이크로바이옴 변이 사이의 연관 평가. 0.1 과 미생물 종 및 대사 경로 수준의 풍부도 비교. 우리는 성별,민족성 및 샘플 수집 위치의 영향을 고려하여 일반 선형 회귀 모델을 사용했습니다. 미생물 기능을 필터링 한 후(방법 참조),우리는 위장관 및 구강 샘플에서 120-160 종과 피부 및 질 샘플에서 약 25 종을 확인했습니다. 필터링을 통과하는 대사 경로의 수는 사이트 당 350~530 개의 주요 경로 사이에서 상당히 높았습니다. 이 연구에서는 샘플의 크기가 매우 크다는 점에서 발견 가능성을 제한하고 있습니다.
이러한 이유로 우리는 먼저 국립 인간 게놈 연구소의 게놈 전체 연구 카탈로그에서 발견 된 단세포 세포로 분석을 제한했다. 이 세트에는 복잡한 질병에서 인체 측정 측정에 이르기까지 다양한 정량적 특성 세트와 관련된 스나이퍼가 포함되었습니다. 이 중 총 16,869 개가 우리의 데이터에서 발견되었지만,이 일부분을 사용하여 중요한 연관성을 감지하지 못했습니다. 또한,비교의 분위수-분위수 플롯에 따르면,더 작은 체계적인 농축이 없었다 피 비교 중 값(추가 파일 1:그림 에스 6 과 에스 7). 우리는 염증성 장 질환 또는 높은 수준의 과스 카탈로그 하위 범주(예:”면역 체계 장애”,”소화 시스템”)와 관련된 훨씬 더 제한된 변형 세트로 중요한 결과를 얻지 못했습니다.
우리는 다음에 모든 일반적인 스나이퍼에 대한 연관 분석을 실행했습니다. 우리는 여러 테스트 수정 중요성 제한 보다 작은 피 값을 가진 모든 연결을 보지 않았다. 그러나 상대적으로 작은 피 값을 가진 여러 연결(추가 파일 1:그림 에스 8 과 에스 9 및 테이블 에스 2)이있었습니다. 이러한 연관성은 특정 유전자 또는 미생물 종에 관심이있는 미래의 미생물 전체 연관 연구 및 조사자를위한 풍부한 정보원을 형성합니다.
우리 또한 신체 사이트 간의 협회의 성격을 조사할 수 있었다. 식 양적 형질 유전자좌 연구 조직에 걸쳐 유전자 발현-유전자형 협회의 놀라운 안정성을 보고 했다. 여기,우리는 각 신체 사이트에 대 한 독특한 커뮤니티 건설 원칙 뿐만 아니라 이러한 협회의 더 간접적 인 성격을 보여주는 여러 신체 사이트에 대 한 협회 순위의 상단에 어떤 공조 미생물 쌍을 관찰 하지 않았다. 관련 유기체에 관계없이 각 신체 부위에서 가장 좋은 피 값의 분포를 고려할 때,우리는 여전히 우연히 예상했던 것보다 미생물과 더 강하게 연관되어있는 어떤 신 생물도 찾을 수 없었다. 이 발견은 마이크로 바이 옴 구성 뒤에 유전 적 메커니즘은 신체 사이트 특정 제안.