Information

co jsou spárována-konec čte?

mnoho sekvenčních knihoven obsahuje možnost generovat tzv. V sekvenování“ krátkého čtení „je intaktní genomová DNA rozřezána na několik milionů krátkých fragmentů DNA zvaných“čtení“. Jednotlivá čtení mohou být spárována dohromady a vytvářet párová čtení, což nabízí některé výhody pro algoritmy analýzy dat bioinformatiky. Struktura párového čtení je popsána zde.

obr. 1

obr. 1 znázorňuje schematický pohled na Illumina párového konce čtení. Na obou koncích párového čtení je jedinečná sekvence adaptéru, označená „číst 1 adaptér“ a „číst 2 Adaptér“.

„Read 1“, často nazývané „forward read“, sahá od „Read 1 Adapter“ ve směru 5′ – 3 ‚směrem k“ Read 2 “ podél dopředného řetězce DNA.

„Read 2“, často nazývané „reverse read“, sahá od „read 2 Adapter“ ve směru 5′ – 3 ‚směrem k“ Read 1 “ podél reverzního řetězce DNA.

mezi „Read 1“ a „Read 2“ je vložena libovolná sekvence DNA, kterou nazýváme „Inner sequence“. Délka této sekvence se měří jako „vnitřní vzdálenost“. Podle definice je „vložka “ zřetězením“ čtení 1″, sekvence“ vnitřní vzdálenosti „a“ čtení 2″. A délka „Insert“ je „Insert size“. Jeden “ Fragment „zahrnuje“ adaptér pro čtení 1″, „Čtení 1“, „vnitřní sekvenci“, „čtení 2“ a „adaptér pro čtení 2“. A délka tohoto „fragmentu“je pouze “ délka fragmentu“.

obr. 2

obr. 2 znázorňuje typické rozložení velikosti vložky pro přípravu knihovny dna Illumina Nextera XT. Toto je pravděpodobnostní distribuce a bude se poněkud lišit pro každý vzorek DNA, který je připraven pomocí sady XT. Distribuce ukazuje maximální velikost vložky kolem 300 bp. Distribuce je poněkud leptokurtická a pozitivně zkosená s minimální velikostí vložky kolem 40 bp a maximální velikostí vložky kolem 850 bp.

Všimněte si, že vzhledem k pozitivně zkreslený charakter distribuce existuje značný počet spárovaných-end čte s poměrně dlouhým celková délka (ve srovnání s jen jednotlivé čte sebe). Toto zvýšení celkové délky je výhodné pro algoritmy zarovnání sekvencí, de novo montážní algoritmy, překlenující opakující se sekvence a detekci vložení, delecí a inverzí.