Was sind Lesevorgänge am gepaarten Ende?

Viele Sequenzierungsbibliotheksvorbereitungskits enthalten eine Option zum Generieren sogenannter „Paired-End-Reads“. Bei der „Short-Read“ -Sequenzierung wird intakte genomische DNA in mehrere Millionen kurze DNA-Fragmente, sogenannte „Reads“, geschert. Einzelne Lesevorgänge können miteinander gekoppelt werden, um Lesevorgänge am gepaarten Ende zu erstellen, was einige Vorteile für nachgelagerte Bioinformatik-Datenanalysealgorithmen bietet. Die Struktur eines gepaarten Lesevorgangs wird hier beschrieben.

Abb. 1

Abb. 1 zeigt eine schematische Ansicht eines Illumina Paired-End-Lesegeräts. An beiden Enden des Lesevorgangs mit gepaarten Enden befindet sich eine eindeutige Adaptersequenz mit der Bezeichnung „Read 1 Adapter“ und „Read 2 Adapter“.

„Read 1“, oft als „forward Read“ bezeichnet, erstreckt sich vom „Read 1 Adapter“ in der 5’– 3′ Richtung zu „Read 2“ entlang des Forward DNA Strangs.

„Read 2“, oft als „Reverse Read“ bezeichnet, erstreckt sich vom „Read 2 Adapter“ in der 5’– 3′ Richtung zu „Read 1“ entlang des reverse DNA Strangs.

Zwischen „Read 1“ und „Read 2“ ist eine beliebige DNA-Sequenz eingefügt, die wir die „Innere Sequenz“ nennen. Die Länge dieser Sequenz wird als „Innere Distanz“ gemessen. Per Definition ist das „Insert“ die Verkettung von „Read 1“, der Sequenz „Inner distance“ und „Read 2“. Und die Länge des „Einsatzes“ ist die „Einsatzgröße“. Ein einzelnes „Fragment“ enthält den „Read 1 Adapter“, „Read 1“, „Inner sequence“, „Read 2“ und „Read 2 Adapter“. Und die Länge dieses „Fragments“ ist nur die „Fragmentlänge“.

Abb. 2

Abb. 2 zeigt eine typische Insertgrößenverteilung für das Illumina Nextera XT DNA Library Preparation Kit. Dies ist eine probabilistische Verteilung und wird für jede DNA-Probe, die mit dem XT-Kit hergestellt wird, etwas variieren. Die Verteilung zeigt eine Peak-Insert-Größe um 300 bp. Die Verteilung ist etwas leptokurtisch und positiv verzerrt mit einer minimalen Insertgröße um 40 bp und einer maximalen Insertgröße um 850 bp.

Beachten Sie, dass es aufgrund der positiv verzerrten Natur der Verteilung eine signifikante Anzahl von Lesevorgängen am gepaarten Ende mit einer ziemlich langen Gesamtlänge gibt (im Vergleich zu nur den einzelnen Lesevorgängen selbst). Diese Zunahme der Gesamtlänge ist vorteilhaft für Sequenzausrichtungsalgorithmen, De-Novo-Assemblierungsalgorithmen, die sich wiederholende Sequenzen und die Erkennung von Einfügungen, Deletionen und Inversionen umfassen.



+