wiele zestawów do przygotowywania bibliotek sekwencjonowania zawiera opcję generowania tak zwanych „sparowanych odczytów końcowych”. W sekwencjonowaniu „short-read”, nienaruszone genomowe DNA jest ścinane na kilka milionów krótkich fragmentów DNA zwanych”czyta”. Poszczególne odczyty mogą być sparowane w celu utworzenia sparowanych odczytów końcowych, co oferuje pewne korzyści dla dalszych algorytmów analizy danych bioinformatycznych. Struktura sparowanego odczytu końcowego jest opisana tutaj.
Fig. 1
Fig. 1 pokazuje schematyczny widok sparowanego końca Illumina. Na obu końcach sparowanego czytnika znajduje się unikalna Sekwencja adaptera, oznaczona „Read 1 Adapter” i „Read 2 Adapter”.
„Read 1”, często nazywany „forward read”, rozciąga się od „Read 1” w kierunku 5′ – 3′ w kierunku „Read 2” wzdłuż przedniej nici DNA.
„Read 2″, często nazywany” reverse read”, rozciąga się od” Read 2 „w kierunku 5′ – 3′ w kierunku” Read 1 ” wzdłuż odwrotnej nici DNA.
pomiędzy „Read 1” i „Read 2” wstawiona jest dowolna sekwencja DNA, którą nazwiemy „sekwencją wewnętrzną”. Długość tej sekwencji jest mierzona jako „wewnętrzna odległość”. Z definicji „Insert” jest połączeniem sekwencji” Read 1″, sekwencji” Inner distance „I”Read 2”. A długość „wkładki” to „rozmiar wkładki”. Pojedynczy ” Fragment „zawiera” Read 1 Adapter”,” Read 1″,” Inner sequence”,” Read 2 „i”Read 2 Adapter”. A długość tego „fragmentu” jest właśnie „długością fragmentu”.
Fig. 2
rys. 2 przedstawia typowy rozkład wielkości wkładek dla zestawu do przygotowania Biblioteki DNA Illumina Nextera XT. Jest to rozkład probabilistyczny i będzie się nieco różnić dla każdej próbki DNA przygotowanej za pomocą zestawu XT. Rozkład pokazuje wielkość wkładki szczytowej około 300 bp. Rozkład jest nieco leptokurtyczny i pozytywnie przekrzywiony przy minimalnej wielkości wkładki około 40 bp i maksymalnej wielkości wkładki około 850 bp.
zauważ, że ze względu na pozytywnie przekrzywiony charakter dystrybucji istnieje znaczna liczba sparowanych czytań końcowych o dość długiej całkowitej długości (w porównaniu do samych czytań pojedynczych). Ten wzrost całkowitej długości jest korzystny dla algorytmów wyrównywania sekwencji, algorytmów de novo asemblacji, obejmujących powtarzające się sekwencje i wykrywania wstawek, delecji i inwersji.