Wat zijn gepaarde-end reads?

veel bibliotheekvoorbereidingskits voor sequencing bevatten een optie om zogenaamde “gepaarde reads”te genereren. In het” short-read “rangschikken, wordt het intacte genomic DNA geschoren in verscheidene miljoen korte fragmenten van DNA genoemd”leest”. De individuele leest kunnen samen worden in paren gerangschikt om in paren gerangschikt-eindlezen tot stand te brengen, die sommige voordelen voor de stroomafwaartse algoritmen van de bio-informatica gegevensanalyse aanbiedt. De structuur van een gepaarde-einde lezen wordt hier beschreven.

Fig. 1

Fig. 1 toont een schematische weergave van een Illumina gepaarde-einde lezen. Er is een unieke adaptervolgorde aan beide uiteinden van het gepaarde-einde gelezen, geëtiketteerd “Lees 1 Adapter” en “Lees 2 Adapter”.

“Lees 1″, vaak de” vooruit lezen “genoemd, strekt zich uit van de” Lees 1 Adapter “in de 5′ – 3′ richting naar” Lees 2 ” langs de voorwaartse DNA-streng.

“Read 2″, vaak de” reverse read “genoemd, strekt zich uit van de” Read 2 Adapter “in de 5′ – 3′ richting naar” Read 1 ” langs de omgekeerde DNA-streng.

er is een willekeurige DNA-sequentie ingevoegd tussen “Lees 1” en “Lees 2″, die we de”binnenste sequentie” noemen. De lengte van deze sequentie wordt gemeten als de “Binnenafstand”. Per definitie is de ” Insert “de aaneenschakeling van” Read 1″, De” Inner distance “sequentie en”Read 2″. En de lengte van de” Insert “is de”Insert size”. Een enkel ” Fragment “omvat de” Lees 1 Adapter”,” Lees 1″,” Inner sequence”,” Lees 2 “en”Lees 2 Adapter”. En de lengte van dit” Fragment “is gewoon de”Fragmentlengte”.

Fig. 2

Fig. 2 toont een typische wisselplaatgrootteverdeling voor de Illumina Nextera XT DNA Library Preparation Kit. Dit is een probabilistische verdeling en zal enigszins variëren voor elk DNA monster dat wordt bereid met de XT kit. De verdeling toont een piek wisselplaat grootte rond 300 bp. De verdeling is enigszins leptokurtisch en positief scheef met een minimale wisselplaatgrootte rond 40 bp en maximale wisselplaatgrootte rond 850 bp.

merk op dat vanwege de positieve scheefheid van de verdeling er een significant aantal gepaarde-end reads is met een vrij lange totale lengte (vergeleken met alleen het individu leest zelf). Deze toename in totale lengte is gunstig voor algoritmen van de opeenvolgingsalgoritmen, de novo assemblagealgoritmen, die repetitieve opeenvolgingen en de opsporing van inserties, schrappingen en inversies overspannen.



+