De nombreux kits de préparation de bibliothèques de séquençage incluent une option permettant de générer des « lectures de fin appariées « . Dans le séquençage « à lecture courte », l’ADN génomique intact est cisaillé en plusieurs millions de fragments d’ADN courts appelés « lectures ». Les lectures individuelles peuvent être couplées pour créer des lectures de fin appariées, ce qui offre certains avantages pour les algorithmes d’analyse de données bioinformatiques en aval. La structure d’une lecture d’extrémité appariée est décrite ici.
Fig. 1
Fig. 1 montre une vue schématique d’une lecture d’extrémité appariée Illumina. Il existe une séquence d’adaptateur unique aux deux extrémités de la lecture d’extrémité appariée, intitulée « Lire 1 Adaptateur » et « Lire 2 adaptateur ».
« Lecture 1 », souvent appelée « lecture directe », s’étend de « l’adaptateur Lecture 1 » dans la direction 5’–3′ vers « Lecture 2 » le long du brin d’ADN direct.
« Lecture 2 », souvent appelée « lecture inverse », s’étend de l' »adaptateur Lecture 2″ dans le sens 5’– 3′ vers « Lecture 1 » le long du brin d’ADN inverse.
Il y a une séquence d’ADN arbitraire insérée entre « Read 1 » et « Read 2 », que nous appellerons la « séquence interne ». La longueur de cette séquence est mesurée comme la « distance intérieure ». Par définition, « Insérer » est la concaténation de « Lire 1 », de la séquence « Distance intérieure » et de « Lire 2 ». Et la longueur de « l’insert » est la « Taille de l’insert ». Un seul « Fragment » comprend les « Adaptateur de lecture 1 », « Lecture 1 », « Séquence interne », « Lecture 2 » et « Adaptateur de lecture 2 ». Et la longueur de ce « Fragment » est juste la « Longueur du fragment ».
Fig. 2
Fig. 2 montre une distribution typique de la taille de l’insert pour le kit de préparation de la bibliothèque d’ADN Illumina Nextera XT. Il s’agit d’une distribution probabiliste qui variera quelque peu pour chaque échantillon d’ADN préparé avec le kit XT. La distribution montre une taille d’insertion maximale d’environ 300 pb. La distribution est quelque peu leptokurtique et positivement biaisée avec une taille minimale de l’insert autour de 40 pb et une taille maximale de l’insert autour de 850 pb.
Notez qu’en raison de la nature positivement asymétrique de la distribution, il existe un nombre important de lectures d’extrémité appariées avec une longueur totale assez longue (par rapport aux lectures individuelles elles-mêmes). Cette augmentation de la longueur totale est bénéfique pour les algorithmes d’alignement de séquences, les algorithmes d’assemblage de novo, couvrant les séquences répétitives et la détection des insertions, des suppressions et des inversions.