많은 시퀀싱 라이브러리 준비 키트에는 소위”페어 엔드 읽기”를 생성하는 옵션이 포함되어 있습니다. “짧은 읽기”시퀀싱에서 손상되지 않은 게놈 유전자는”읽기”라고 불리는 수백만 개의 짧은 유전자 조각으로 전단됩니다. 개별 읽기는 다운 스트림 생물 정보학 데이터 분석 알고리즘에 대한 몇 가지 이점을 제공하는 쌍 엔드 읽기를 만들기 위해 함께 페어링 할 수 있습니다. 쌍 엔드 읽기의 구조는 여기에 설명되어 있습니다.
그림. 1
그림. 1 일루미나 쌍 엔드 읽기의 개략도를 도시. 페어링 된 엔드 읽기의 양쪽 끝에는”읽기 1 어댑터”및”읽기 2 어댑터”라고 표시된 고유 한 어댑터 시퀀스가 있습니다.
“읽기 1″은 종종”앞으로 읽기”라고 불리며,”읽기 1 어댑터”에서 5’–3’방향으로”읽기 2″쪽으로 확장된다.
“읽기 2″는 종종”역방향 읽기”라고 불리는데,”읽기 2 어댑터”로부터 5’–3’방향으로 역 유전자 가닥을 따라”읽기 1″쪽으로 확장된다.
“읽기 1″과”읽기 2″사이에 임의의 유전자 시퀀스가 삽입되어 있으며,이를”내부 시퀀스”라고 부릅니다. 이 시퀀스의 길이는”내부 거리”로 측정됩니다. 정의에 따르면”삽입”은”읽기 1″,”내부 거리”시퀀스 및”읽기 2″의 연결입니다. 그리고”삽입”의 길이는”삽입 크기”입니다. 단일”조각”은”읽기 1 어댑터”,”읽기 1″,”내부 시퀀스”,”읽기 2″및”읽기 2 어댑터”를 포함합니다. 그리고이”조각”의 길이는 단지”조각 길이”입니다.
그림. 2
그림. 도 2 는 일루미나 넥스테라 라이브러리 준비 키트에 대한 일반적인 인서트 크기 분포를 나타낸다. 이것은 확률적 분포이며,각 유전자 샘플마다 다소 차이가 있을 것입니다. 분포는 약 300 혈압 피크 삽입 크기를 나타낸다. 분포는 다소 렙토 커틱이며 최소 인서트 크기는 약 40 혈압,최대 인서트 크기는 약 850 혈압으로 긍정적으로 비뚤어집니다.
분포의 양극으로 치우친 특성으로 인해 전체 길이가 상당히 긴 쌍으로 된 최종 읽기가 상당수 있음을 유의하십시오(개별 읽기와 비교). 이러한 총 길이의 증가는 시퀀스 정렬 알고리즘,드 노보 어셈블리 알고리즘,반복적 인 시퀀스 스패닝 및 삽입,삭제 및 반전 감지에 유용합니다.