Cos'è un file CRAM e come viene utilizzato nell'analisi WGS (Sequenziamento dell'intero genoma)?

Aggiornato il

Il file CRAM è un formato compresso utilizzato per archiviare dati di sequenziamento genomico precedentemente allineati a un genoma di riferimento. Nel contesto del Sequenziamento dell’Intero Genoma (WGS), che consente di analizzare il 100% del tuo DNA, il file CRAM contiene le letture di DNA generate dal sequenziamento, insieme alla loro posizione all’interno del genoma di riferimento e alle informazioni di qualità associate. 

A differenza del file FASTQ, che contiene i dati grezzi generati direttamente dalla macchina di sequenziamento, il file CRAM rappresenta una fase successiva dell’analisi bioinformatica. In altre parole, le letture sono già state processate e allineate, permettendo di sapere in quale regione del genoma si trova ciascun frammento di DNA. 

Il CRAM è utilizzato da bioinformatici, genetisti e ricercatori che desiderano eseguire analisi avanzate su dati genomici allineati, come la revisione di regioni specifiche del genoma, l’identificazione di varianti, l’analisi della copertura o la validazione di determinati risultati genetici. È inoltre utile per gli utenti che desiderano conservare una versione processata e più compatta dei propri dati genomici per analisi future. 

Caratteristiche del file CRAM:

  • Alta compressione: Occupa meno spazio rispetto ad altri formati allineati grazie a un sistema di compressione più efficiente.

  • Letture allineate: Contiene informazioni sulla posizione di ciascuna lettura nel genoma di riferimento.

  • Informazioni di qualità: Conserva dati tecnici rilevanti, come i punteggi di qualità e altri metadati associati al sequenziamento e all’allineamento.

  • Efficienza di archiviazione: È particolarmente utile per i dati WGS, poiché consente di salvare grandi volumi di informazioni genomiche in modo più compatto.

Limitazioni

  • Dipendenza dal genoma di riferimento: Per leggere e interpretare correttamente un file CRAM, normalmente è necessario disporre dello stesso genoma di riferimento utilizzato durante l’allineamento.

  • Non leggibile direttamente dall’uomo: Non puoi “leggere” direttamente un file CRAM per ottenere informazioni sui tuoi tratti genetici o sulle tue predisposizioni. Richiede strumenti bioinformatici specifici per essere visualizzato o analizzato.

  • Richiede conoscenze tecniche: Il suo utilizzo è rivolto a utenti avanzati, bioinformatici o professionisti che hanno familiarità con l’analisi dei dati genomici.

Formati e download:

Oltre al CRAM, offriamo anche altri formati tecnici come FASTQ e VCF. Puoi scaricare questi file direttamente dal tuo account utente tellmeGen.

Requisiti tecnici:

  • Sistema operativo: Si consiglia Linux o macOS, anche se può essere utilizzato anche su Windows tramite strumenti compatibili o ambienti come WSL.

  • Software specifico: Strumenti bioinformatici come samtools, IGV, bcftools o altri programmi specializzati.

  • RAM: Per le analisi WGS si raccomandano 32 GB o più.

  • Archiviazione: Sebbene il file CRAM occupi meno spazio rispetto al FASTQ, si raccomanda di disporre di una capacità di archiviazione sufficiente per lavorare con dati genomici completi.

Questo formato è adatto a utenti avanzati che desiderano lavorare con dati genomici già allineati ed eseguire analisi tecniche più specifiche, efficienti e dettagliate del proprio genoma completo.