Hva er en CRAM-fil og hvordan brukes den i WGS-analyse (helgenomsekvensering)?

Oppdatert i

CRAM-filen er et komprimert format som brukes til å lagre genomiske sekvenseringsdata som tidligere er justert mot et referansegenom. I sammenheng med helgenomsekvensering (WGS), som gjør det mulig å analysere 100 % av DNA-et ditt, inneholder CRAM-filen DNA-avlesningene generert av sekvenseringen, sammen med deres posisjon innenfor referansegenomet og tilhørende kvalitetsinformasjon. 

I motsetning til FASTQ-filen, som inneholder rådata direkte generert av sekvenseringsmaskinen, representerer CRAM-filen et senere trinn i bioinformatisk analyse. Det vil si at avlesningene allerede er behandlet og justert, noe som gjør det mulig å vite hvilken region av genomet hvert DNA-fragment befinner seg i. 

CRAM brukes av bioinformatikere, genetikere og forskere som ønsker å utføre avanserte analyser av justerte genomiske data, som gjennomgang av spesifikke genomregioner, identifikasjon av varianter, dekningsanalyse eller validering av spesifikke genetiske funn. Det er også nyttig for brukere som ønsker å bevare en behandlet og mer kompakt versjon av sine genomiske data for fremtidige analyser. 

Kjennetegn ved CRAM-filen:

  • Høy komprimering: Tar mindre plass enn andre justerte formater takket være et mer effektivt komprimeringssystem.

  • Justert avlesninger: Inneholder informasjon om posisjonen til hver avlesning i referansegenomet.

  • Kvalitetsinformasjon: Bevarer relevante tekniske data, som kvalitetspoeng og andre metadata assosiert med sekvensering og justering.

  • Lagringseffektivitet: Er spesielt nyttig for WGS-data, da det gjør det mulig å lagre store mengder genomisk informasjon på en mer kompakt måte.

Begrensninger

  • Avhengighet av referansegenomet: For å lese og tolke en CRAM-fil korrekt, er det vanligvis nødvendig å ha det samme referansegenomet som ble brukt under justeringen.

  • Ikke lesbart for mennesker: Du kan ikke direkte "lese" en CRAM-fil for å få informasjon om dine genetiske trekk eller predisposisjoner. Det krever spesifikke bioinformatikkverktøy for å visualisere eller analysere det.

  • Krever teknisk kunnskap: Bruken er rettet mot avanserte brukere, bioinformatikere eller fagpersoner som er kjent med analyse av genomiske data.

Formater og nedlasting:

I tillegg til CRAM tilbyr vi også andre tekniske formater som FASTQ og VCF. Du kan laste ned disse filene direkte fra brukerkontoen din på tellmeGen.

Tekniske krav:

  • Operativsystem: Linux eller macOS anbefales, selv om det også kan brukes på Windows ved hjelp av kompatible verktøy eller miljøer som WSL.

  • Spesifikk programvare: Bioinformatiske verktøy som samtools, IGV, bcftools eller andre spesialiserte programmer.

  • RAM: 32 GB eller mer anbefales for WGS-analyse.

  • Lagring: Selv om CRAM-filen tar mindre plass enn FASTQ, anbefales det å ha tilstrekkelig lagringskapasitet for å arbeide med komplette genomiske data.

Dette formatet er egnet for avanserte brukere som ønsker å arbeide med allerede justerte genomiske data og utføre mer spesifikke, effektive og detaljerte tekniske analyser av hele genomet sitt.