Hvad er en CRAM-fil, og hvordan bruges den i WGS-analyse (Whole Genome Sequencing)?

Actualizado en

CRAM-filen er et komprimeret format, der bruges til at lagre genomiske sekventeringsdata, som tidligere er blevet alignet mod et referencegenom. I forbindelse med helgenomsekventering (WGS), som gør det muligt at analysere 100 % af dit DNA, indeholder CRAM-filen de DNA-læsninger, der genereres ved sekventeringen, sammen med deres position i referencegenomet og de tilknyttede kvalitetsoplysninger. 

I modsætning til FASTQ-filen, som indeholder de rå data, der genereres direkte af sekventeringsmaskinen, repræsenterer CRAM-filen et senere trin i den bioinformatiske analyse. Det betyder, at læsningerne allerede er blevet behandlet og alignet, hvilket gør det muligt at vide, i hvilket område af genomet hvert DNA-fragment er placeret. 

CRAM bruges af bioinformatikere, genetikere og forskere, der ønsker at udføre avancerede analyser af alignede genomiske data, såsom gennemgang af specifikke genomregioner, identifikation af varianter, dækningsanalyse eller validering af bestemte genetiske fund. Det er også nyttigt for brugere, der ønsker at gemme en behandlet og mere kompakt version af deres genomiske data til fremtidige analyser. 

Egenskaber ved CRAM-filen:

  • Høj komprimering: Optager mindre plads end andre alignede formater takket være et mere effektivt komprimeringssystem.

  • Alignede læsninger: Indeholder oplysninger om placeringen af hver læsning i referencegenomet.

  • Kvalitetsoplysninger: Bevarer relevante tekniske data, såsom kvalitetsscorer og andre metadata forbundet med sekventeringen og aligneringen.

  • Lagringseffektivitet: Er særligt nyttig til WGS-data, da den gør det muligt at gemme store mængder genomisk information i et mere kompakt format.

Begrænsninger

  • Afhængighed af referencegenomet: For korrekt at kunne læse og fortolke en CRAM-fil er det normalt nødvendigt at have adgang til det samme referencegenom, som blev brugt under aligneringen.

  • Ikke læsbar for mennesker: Du kan ikke “læse” en CRAM-fil direkte for at få oplysninger om dine genetiske træk eller dispositioner. Den kræver specifikke bioinformatiske værktøjer for at kunne visualiseres eller analyseres.

  • Kræver teknisk viden: Brugen er rettet mod avancerede brugere, bioinformatikere eller fagfolk, der er fortrolige med analyse af genomiske data.

Formater og download:

Ud over CRAM tilbyder vi også andre tekniske formater såsom FASTQ og VCF. Du kan downloade disse filer direkte fra din brugerkonto hos tellmeGen.

Tekniske krav:

  • Operativsystem: Linux eller macOS anbefales, selvom formatet også kan bruges i Windows ved hjælp af kompatible værktøjer eller miljøer som WSL.

  • Specifik software: Bioinformatiske værktøjer såsom samtools, IGV, bcftools eller andre specialiserede programmer.

  • RAM: 32 GB eller mere anbefales til WGS-analyser.

  • Lagring: Selvom CRAM-filen optager mindre plads end FASTQ, anbefales det at have tilstrækkelig lagerkapacitet til at arbejde med komplette genomiske data.

Dette format er egnet til avancerede brugere, der ønsker at arbejde med allerede alignede genomiske data og udføre mere specifikke, effektive og detaljerede tekniske analyser af deres komplette genom.