Quali sono accoppiati-end legge?

Molti kit di preparazione della libreria di sequenziamento includono un’opzione per generare le cosiddette “letture accoppiate”. Nel sequenziamento “a lettura breve”, il DNA genomico intatto viene tagliato in diversi milioni di frammenti di DNA brevi chiamati”letture”. Le singole letture possono essere accoppiate insieme per creare letture accoppiate, il che offre alcuni vantaggi per gli algoritmi di analisi dei dati bioinformatici a valle. La struttura di una lettura accoppiata è descritta qui.

Fig. 1

Fig. 1 mostra una vista schematica di una lettura finale accoppiata Illumina. C’è una sequenza di adattatori unica su entrambe le estremità della lettura accoppiata, etichettata “Leggi 1 adattatore” e “Leggi 2 adattatore”.

“Read 1″, spesso chiamato” forward read”, si estende dal” Read 1 Adapter “nella direzione 5′ – 3′ verso” Read 2 ” lungo il filamento di DNA in avanti.

“Read 2”, spesso chiamato “reverse read”, si estende dal “Read 2 Adapter” nella direzione 5′ – 3′ verso “Read 1” lungo il filamento di DNA inverso.

C’è una sequenza di DNA arbitraria inserita tra “Read 1” e “Read 2”, che chiameremo “Sequenza interna”. La lunghezza di questa sequenza è misurata come “Distanza interna”. Per definizione, “Insert” è la concatenazione di “Read 1”, la sequenza “Inner distance”e” Read 2″. E la lunghezza di “Inserisci” è la “Dimensione dell’inserto”. Un singolo” Frammento “include” Leggi 1 Adattatore”, “Leggi 1”, “Sequenza interna”, “Leggi 2″e” Leggi 2 adattatore”. E la lunghezza di questo “Frammento” è solo la “lunghezza del frammento”.

Fig. 2

Fig. 2 mostra una distribuzione delle dimensioni tipica dell’inserto per il kit di preparazione della libreria DNA Illumina Nextera XT. Questa è una distribuzione probabilistica e varierà un po ‘ per ogni campione di DNA che viene preparato con il kit XT. La distribuzione mostra una dimensione dell’inserto di picco intorno a 300 bp. La distribuzione è un po ‘ leptokurtic e positivamente distorta con una dimensione minima inserto intorno 40 bp e dimensione massima inserto intorno 850 bp.

Si noti che a causa della natura positivamente distorta della distribuzione esiste un numero significativo di letture accoppiate con una lunghezza totale abbastanza lunga (rispetto alla sola lettura individuale). Questo aumento della lunghezza totale è vantaggioso per gli algoritmi di allineamento delle sequenze, gli algoritmi di assemblaggio de novo, che coprono sequenze ripetitive e il rilevamento di inserimenti, eliminazioni e inversioni.



+