Mikä on CRAM-tiedosto ja miten sitä käytetään WGS-analyysissä (koko genomin sekvensointi)?

Päivitetty

CRAM-tiedosto on pakattu tiedostomuoto, jota käytetään tallentamaan genomisen sekvensoinnin dataa, joka on aiemmin kohdistettu viitegenomiin. Koko genomin sekvensoinnin (WGS) yhteydessä, joka mahdollistaa 100 %:n analysoinnin DNA:stasi, CRAM-tiedosto sisältää sekvensoinnissa tuotetut DNA-lukemat sekä niiden sijainnin viitegenomissa ja niihin liittyvät laatutiedot. 

Toisin kuin FASTQ-tiedosto, joka sisältää sekvensointilaitteen suoraan tuottamat raakadataa, CRAM-tiedosto edustaa bioinformatiikan analyysin myöhempää vaihetta. Toisin sanoen lukemat on jo käsitelty ja kohdistettu, minkä ansiosta voidaan tietää, millä genomin alueella kukin DNA-fragmentti sijaitsee. 

CRAM-tiedostoa käyttävät bioinformaatikot, geneetikot ja tutkijat, jotka haluavat tehdä edistyneitä analyysejä kohdistetusta genomisesta datasta, kuten tarkastella tiettyjä genomin alueita, tunnistaa variantteja, analysoida kattavuutta tai validoida tiettyjä geneettisiä löydöksiä. Se on hyödyllinen myös käyttäjille, jotka haluavat säilyttää käsitellyn ja kompaktimman version genomisesta datastaan tulevia analyysejä varten. 

CRAM-tiedoston ominaisuudet:

  • Korkea pakkaustaso: Vie vähemmän tilaa kuin muut kohdistetut tiedostomuodot tehokkaamman pakkausjärjestelmän ansiosta.

  • Kohdistetut lukemat: Sisältää tietoa kunkin lukeman sijainnista viitegenomissa.

  • Laatutiedot: Säilyttää olennaiset tekniset tiedot, kuten laatupisteet ja muut sekvensointiin ja kohdistukseen liittyvät metatiedot.

  • Tallennustehokkuus: Erityisen hyödyllinen WGS-datalle, koska se mahdollistaa suurten genomisen tiedon määrien tallentamisen kompaktimmassa muodossa.

Rajoitukset

  • Riippuvuus viitegenomista: CRAM-tiedoston oikea lukeminen ja tulkinta edellyttää yleensä samaa viitegenomia, jota käytettiin kohdistuksen aikana.

  • Ei ihmiselle suoraan luettavissa: CRAM-tiedostoa ei voi “lukea” suoraan saadakseen tietoa geneettisistä ominaisuuksista tai alttiuksista. Sen visualisointi tai analysointi edellyttää erityisiä bioinformatiikan työkaluja.

  • Vaatii teknistä osaamista: Sen käyttö on suunnattu edistyneille käyttäjille, bioinformaatikoille tai ammattilaisille, jotka tuntevat genomisen datan analyysin.

Formaatit ja lataus:

CRAM-muodon lisäksi tarjoamme myös muita teknisiä formaatteja, kuten FASTQ ja VCF. Voit ladata nämä tiedostot suoraan tellmeGen-käyttäjätililtäsi.

Tekniset vaatimukset:

  • Käyttöjärjestelmä: Linuxia tai macOS:ää suositellaan, vaikka sitä voidaan käyttää myös Windowsissa yhteensopivien työkalujen tai esimerkiksi WSL-ympäristöjen avulla.

  • Erityisohjelmistot: Bioinformatiikan työkalut, kuten samtools, IGV, bcftools tai muut erikoistuneet ohjelmat.

  • RAM-muisti: WGS-analyyseihin suositellaan vähintään 32 Gt RAM-muistia.

  • Tallennustila: Vaikka CRAM-tiedosto vie vähemmän tilaa kuin FASTQ, on suositeltavaa varmistaa riittävä tallennuskapasiteetti koko genomisen datan käsittelyä varten.

Tämä formaatti sopii edistyneille käyttäjille, jotka haluavat työskennellä jo kohdistetun genomisen datan kanssa ja tehdä tarkempia, tehokkaampia ja yksityiskohtaisempia teknisiä analyysejä koko genomistaan.