Information

¿Qué son las lecturas de extremo emparejado?

Muchos kits de preparación de bibliotecas de secuenciación incluyen una opción para generar las llamadas «lecturas de extremo emparejado». En la secuenciación de» lectura corta», el ADN genómico intacto se divide en varios millones de fragmentos de ADN cortos llamados»lecturas». Las lecturas individuales se pueden emparejar para crear lecturas de extremo emparejado, lo que ofrece algunas ventajas para los algoritmos de análisis de datos bioinformáticos posteriores. La estructura de una lectura de extremo emparejado se describe aquí.

Fig. 1

Fig. 1 muestra una vista esquemática de una lectura de extremo emparejado de Illumina. Hay una secuencia de adaptador única en ambos extremos de la lectura del extremo emparejado, etiquetada como» Leer adaptador 1 «y»Leer adaptador 2».

«Leer 1″, a menudo llamado» leer hacia adelante», se extiende desde el» Adaptador de lectura 1 «en la dirección 5′ – 3′ hacia» Leer 2 » a lo largo de la cadena de ADN hacia adelante.

«Leer 2″, a menudo llamado» lectura inversa», se extiende desde el» Adaptador de lectura 2 «en la dirección 5′ – 3′ hacia» Leer 1 » a lo largo de la cadena de ADN inversa.

Hay una secuencia de ADN arbitraria insertada entre» Leer 1 «y» Leer 2″, que llamaremos la»Secuencia interna». La longitud de esta secuencia se mide como la «distancia interior». Por definición, el » Insertar «es la concatenación de» Leer 1″, la secuencia de» Distancia interior «y»Leer 2″. Y la longitud del» Inserto «es el»Tamaño del inserto». Un solo «Fragmento » incluye» Adaptador de lectura 1″, «Adaptador de Lectura 1», «Secuencia interna», «Adaptador de Lectura 2″y» Adaptador de lectura 2″. Y la longitud de este «Fragmento» es solo la «Longitud del fragmento».

Fig. 2

Fig. 2 muestra una distribución de tamaño de plaquita típica para el Kit de Preparación de Biblioteca de ADN Illumina Nextera XT. Esta es una distribución probabilística y variará para cada muestra de ADN que se prepara con el kit XT. La distribución muestra un tamaño de inserción de pico de alrededor de 300 pb. La distribución es algo leptocurtica y positivamente sesgada con un tamaño mínimo de inserción alrededor de 40 pb y un tamaño máximo de inserción alrededor de 850 pb.

Tenga en cuenta que, debido a la naturaleza positivamente sesgada de la distribución, hay un número significativo de lecturas de extremos emparejados con una longitud total bastante larga (en comparación con solo las lecturas individuales). Este aumento en la longitud total es beneficioso para algoritmos de alineación de secuencias, algoritmos de ensamblaje de novo, que abarcan secuencias repetitivas y la detección de inserciones, eliminaciones e inversiones.