¿Qué es un archivo CRAM y cómo se utiliza en el análisis de WGS (Secuenciación del Genoma Completo)?

Actualizado en

El archivo CRAM es un formato comprimido utilizado para almacenar datos de secuenciación genómica previamente alineados contra un genoma de referencia. En el contexto de la Secuenciación del Genoma Completo (WGS), que permite analizar el 100% de tu ADN, el archivo CRAM contiene las lecturas de ADN generadas por la secuenciación, junto con su posición dentro del genoma de referencia y la información de calidad asociada.

A diferencia del archivo FASTQ, que contiene los datos crudos directamente generados por la máquina de secuenciación, el archivo CRAM representa una etapa posterior del análisis bioinformático. Es decir, las lecturas ya han sido procesadas y alineadas, permitiendo saber en qué región del genoma se ubica cada fragmento de ADN.

El CRAM es utilizado por bioinformáticos, genetistas e investigadores que desean realizar análisis avanzados sobre datos genómicos alineados, como la revisión de regiones específicas del genoma, la identificación de variantes, el análisis de cobertura o la validación de determinados hallazgos genéticos. También resulta útil para usuarios que desean conservar una versión procesada y más compacta de sus datos genómicos para futuros análisis.

Características del archivo CRAM: 

  • Alta compresión: Ocupa menos espacio que otros formatos alineados gracias a un sistema de compresión más eficiente.

  • Lecturas alineadas: Contiene información sobre la posición de cada lectura en el genoma de referencia. 

  • Información de calidad: Conserva datos técnicos relevantes, como las puntuaciones de calidad y otros metadatos asociados a la secuenciación y al alineamiento.

  • Eficiencia de almacenamiento: Es especialmente útil para datos de WGS, ya que permite guardar grandes volúmenes de información genómica de forma más compacta.

Limitaciones

  • Dependencia del genoma de referencia: Para leer e interpretar correctamente un archivo CRAM, normalmente es necesario disponer del mismo genoma de referencia utilizado durante el alineamiento.

  • No legible para humanos: No puedes “leer” directamente un archivo CRAM para obtener información sobre tus rasgos genéticos o predisposiciones. Requiere herramientas bioinformáticas específicas para visualizarlo o analizarlo.

  • Requiere conocimientos técnicos: Su uso está orientado a usuarios avanzados, bioinformáticos o profesionales familiarizados con el análisis de datos genómicos.

Formatos y descarga:

Además de CRAM, también ofrecemos otros formatos técnicos como FASTQ y VCF. Puedes descargar estos archivos directamente desde tu cuenta de usuario en tellmeGen.

Requisitos técnicos:

  • Sistema operativo: Linux o macOS recomendado, aunque también puede utilizarse en Windows mediante herramientas compatibles o entornos como WSL.

  • Software específico: Herramientas bioinformáticas como samtools, IGV, bcftools u otros programas especializados.

  • RAM: Se recomiendan 32 GB o más para análisis de WGS.

  • Almacenamiento: Aunque el archivo CRAM ocupa menos espacio que FASTQ, se recomienda disponer de suficiente capacidad de almacenamiento para trabajar con datos genómicos completos.

Este formato es adecuado para usuarios avanzados que desean trabajar con datos genómicos ya alineados y realizar análisis técnicos más específicos, eficientes y detallados de su genoma completo.