O que é um arquivo CRAM e como é utilizado na análise de WGS (Sequenciamento do Genoma Completo)?

Atualizado em

O ficheiro CRAM é um formato comprimido utilizado para armazenar dados de sequenciação genómica previamente alinhados contra um genoma de referência. No contexto da Sequenciação do Genoma Completo (WGS), que permite analisar 100% do seu ADN, o ficheiro CRAM contém as leituras de ADN geradas pela sequenciação, juntamente com a sua posição no genoma de referência e a informação de qualidade associada. 

Ao contrário do ficheiro FASTQ, que contém os dados brutos gerados diretamente pela máquina de sequenciação, o ficheiro CRAM representa uma etapa posterior da análise bioinformática. Ou seja, as leituras já foram processadas e alinhadas, permitindo saber em que região do genoma se encontra cada fragmento de ADN. 

O CRAM é utilizado por bioinformáticos, geneticistas e investigadores que desejam realizar análises avançadas sobre dados genómicos alinhados, como a revisão de regiões específicas do genoma, a identificação de variantes, a análise de cobertura ou a validação de determinados achados genéticos. Também é útil para utilizadores que desejam conservar uma versão processada e mais compacta dos seus dados genómicos para futuras análises. 

Características do ficheiro CRAM:

  • Alta compressão: Ocupa menos espaço do que outros formatos alinhados graças a um sistema de compressão mais eficiente.

  • Leituras alinhadas: Contém informação sobre a posição de cada leitura no genoma de referência.

  • Informação de qualidade: Conserva dados técnicos relevantes, como as pontuações de qualidade e outros metadados associados à sequenciação e ao alinhamento.

  • Eficiência de armazenamento: É especialmente útil para dados de WGS, pois permite guardar grandes volumes de informação genómica de forma mais compacta.

Limitações

  • Dependência do genoma de referência: Para ler e interpretar corretamente um ficheiro CRAM, normalmente é necessário dispor do mesmo genoma de referência utilizado durante o alinhamento.

  • Não legível diretamente por humanos: Não é possível “ler” diretamente um ficheiro CRAM para obter informação sobre as suas características genéticas ou predisposições. Requer ferramentas bioinformáticas específicas para ser visualizado ou analisado.

  • Requer conhecimentos técnicos: A sua utilização destina-se a utilizadores avançados, bioinformáticos ou profissionais familiarizados com a análise de dados genómicos.

Formatos e transferência:

Além do CRAM, também oferecemos outros formatos técnicos, como FASTQ e VCF. Pode transferir estes ficheiros diretamente a partir da sua conta de utilizador tellmeGen.

Requisitos técnicos:

  • Sistema operativo: Recomenda-se Linux ou macOS, embora também possa ser utilizado em Windows através de ferramentas compatíveis ou ambientes como WSL.

  • Software específico: Ferramentas bioinformáticas como samtools, IGV, bcftools ou outros programas especializados.

  • RAM: Recomenda-se 32 GB ou mais para análises de WGS.

  • Armazenamento: Embora o ficheiro CRAM ocupe menos espaço do que FASTQ, recomenda-se dispor de capacidade de armazenamento suficiente para trabalhar com dados genómicos completos.

Este formato é adequado para utilizadores avançados que desejam trabalhar com dados genómicos já alinhados e realizar análises técnicas mais específicas, eficientes e detalhadas do seu genoma completo.