Fastq-tiedostot selitti

Illumina sekvensointi tekniikka käyttää klusterin sukupolven ja sekvensointi synteesi (SBS) kemia sekvensoida miljoonia tai miljardeja klustereita virtauskennossa, riippuen sekvensointi Alustan. Aikana SBS chemistry, kunkin klusterin, base puhelut tehdään ja tallennetaan jokaisen syklin sekvensointi avulla reaaliaikainen analyysi (RTA) ohjelmisto väline. RTA tallentaa peruspuhelutiedot yksittäisten peruspuhelutiedostojen (tai BCL) muodossa. Kun sekvensointi on valmis, base puhelut BCL tiedostot on muunnettava sekvenssitiedoiksi. Tätä prosessia kutsutaan BCL FASTQ muuntaminen.

FASTQ-tiedosto on tekstitiedosto, joka sisältää sekvenssitiedot klustereista, jotka läpäisevät suodattimen virtauskennossa (lisätietoja klusterien läpäisevästä suodattimesta on tämän tiedotteen kohdassa ”Lisätietoja”). Jos näytteitä multipleksoitiin, ensimmäinen vaihe fastq-tiedoston generoinnissa on demultiplexing. Demultiplexing määrittää klusterit otokseen, joka perustuu klusterin indeksijaksoon (s). Demultiplexingin jälkeen kootut sekvenssit kirjoitetaan fastq-tiedostoihin näytettä kohti. Jos näytteitä ei multipleksoitu, demultipleksointivaihetta ei tapahdu, ja jokaisen virtaussolukaistan osalta kaikki klusterit osoitetaan yhteen näytteeseen.

kertalukuajossa luodaan yksi Read 1 (R1) FASTQ-tiedosto jokaista näytettä kohti virtauskennokaistaa. Pariloppuista ajoa varten luodaan yksi R1-ja yksi Read 2 (R2) FASTQ-tiedosto jokaista näytettä varten kullekin kaistalle. Fastq-tiedostot pakataan ja luodaan laajennuksella *.fastq.gz.

miltä FASTQ-tiedosto näyttää?

jokaisesta suodattimen läpäisevästä klusterista kirjoitetaan yksi sekvenssi vastaavan näytteen R1 FASTQ-tiedostoon, ja pariloppuisessa ajossa kirjoitetaan myös yksi sekvenssi näytteen R2 FASTQ-tiedostoon. Jokainen fastq-tiedostojen merkintä koostuu 4 rivistä:

  1. sekvenssitunniste, joka sisältää tiedot sekvenssiajosta ja klusterista. Tarkka sisältö tämän rivin vaihtelevat perustuu BCL FASTQ muuntaminen ohjelmisto käytetään.
  2. sekvenssi (kantakutsut; A, C, T, G ja N).
  3. erotin, joka on pelkkä plus ( + ) – merkki.
  4. peruspuhelun laatupisteet. Nämä ovat Phred +33-koodattuja, käyttäen ASCII-merkkejä numeeristen laatupisteiden esittämiseen.

tässä on esimerkki yhdestä tietueesta R1 FASTQ-tiedostossa:

tarkempia tietoja FASTQ-formaatista löytyy täältä.

Fastq-tiedoston katsominen

FASTQ-tiedostot voivat sisältää jopa miljoonia merkintöjä ja ne voivat olla useiden megatavujen tai gigatavujen kokoisia, mikä tekee niistä usein liian suuria avatakseen normaalissa tekstieditorissa. Yleensä FASTQ-tiedostoja ei tarvitse tarkastella, koska ne ovat välituotostiedostoja, joita käytetään syötteenä työkaluissa, jotka suorittavat loppupään analyysiä, kuten linjaus referenssiin tai de novo-kokoonpanoon.

jos haluat tarkastella fastq-tiedostoa vianmääritystarkoituksiin tai uteliaisuudesta, tarvitset joko tekstieditorin, joka pystyy käsittelemään hyvin suuria tiedostoja, tai pääsyn Unix-tai Linux-järjestelmään, jossa suuria tiedostoja voidaan tarkastella komentorivin kautta.

Fastq-tiedostojen luominen

FASTQ-tiedostojen luominen on ensimmäinen askel kaikille MiSeq Reporterin MiSeq-ja Local Run managerin miniseq-ohjelmissa käyttämille analyysityövirtoille. Kun analyysi on valmis, FASTQ-tiedostot sijaitsevat < suorita-kansiossa> \Data\Intensities\Peruspuhelut MiSeq: ssa ja <tulostekansio>\alikansio>\Fastq miniseq: ssa.

kaikissa BaseSpace Sequence Hubiin ladatuissa suorituksissa FASTQ-tiedoston luominen tapahtuu automaattisesti, kun suoritus on kokonaan ladattu, ja FASTQ-tiedostoja käytetään BaseSpace Sequence Hubin eri analyysisovellusten syötteenä. BaseSpace Sequence Hub-palvelusta löydät fastq-tiedostosi suoritukseesi liittyvistä projekteista.

bcl2fastq-muunnosohjelmiston avulla voidaan luoda FASTQ-tiedostoja kaikista nykyisistä Illumina-sekvensointijärjestelmistä tuotetuista tiedoista.

lisätietoja eri asetuksista, joita voidaan käyttää fastq-tiedostojen generoinnin aikana, on alla olevissa ohjelmiston käyttöohjeissa.

    MiSeq Reporter
    Local Run Manager
    bcl2fastq

lisätietoja

  • miseq: Imaging and Base Calling-verkkokoulutuskurssin kohdasta 1.5.8.
  • Katso 2-kanavainen SBS Technology lisätietoja novaseq -, NextSeq 500/550-ja MiniSeq-järjestelmistä.
  • Katso lisätietoja MiSeq-ja HiSeq-järjestelmien tukikohtapuheluista Illumina-Sekvensointiteknologiasta.



+