多くの配列決定ライブラリ準備キットには、いわゆる”ペアエンド読み取り”を生成するオプションが含まれています。 “Short-read”sequencingでは、無傷のゲノムDNAは”reads”と呼ばれる数百万の短いDNA断片に剪断されます。 個々の読み取りをペアリングしてペアエンド読み取りを作成することができ、下流のバイオインフォマティクスデータ解析アルゴリズムにいくつかの利点を提供します。 ペアエンド読み取りの構造については、ここで説明します。
図1.1.1. 1
図1.1.1. 図1は、Illumina paired−endd読出しの概略図を示す。 ペアエンド読み取りの両端には、”Read1Adapter”と”Read2Adapter”というラベルの付いた一意のアダプタシーケンスがあります。
“Read1″は、しばしば”forward read”と呼ばれ、”Read1Adapter”から前方DNA鎖に沿って”Read2″に向かって5’–3’方向に延びています。
“Read2″は、しばしば”reverse read”と呼ばれ、”Read2Adapter”から逆DNA鎖に沿って”Read1″に向かって5’–3’方向に延びています。
“Read1″と”Read2″の間に任意のDNA配列が挿入されており、これを”Inner sequence”と呼びます。 このシーケンスの長さは、「内部距離」として測定されます。 定義上、「挿入」は、「読み取り1」、「内部距離」シーケンス、および「読み取り2」の連結です。 そして、「挿入」の長さは「挿入サイズ」です。 単一の「フラグメント」には、「Read1Adapter」、「Read1」、「Inner sequence」、「Read2」、および「Read2Adapter」が含まれます。 そして、この”断片”の長さはちょうど”断片の長さ”です。
図1.1.1. 2
Illumina Nextera Β DNA Library Preparation Kitの典型的な挿入サイズ分布を示す。 これは確率的分布であり、Μキットで調製された各DNAサンプルについて幾分変化する。 この分布は、約300bpのピーク挿入サイズを示しています。 分布はややレプトクルト性であり、最小挿入サイズは約40bp、最大挿入サイズは約850bpで正に歪んでいます。
分布の正の歪曲された性質のために、(個々の読み取り自体と比較して)かなり長い全長を持つ対端読み取りのかなりの数があることに注意してくださ 全長のこの増加は、配列アライメントアルゴリズム、de novoアセンブリアルゴリズム、反復配列および挿入、欠失および反転の検出に有益である。