O ficheiro CRAM é um formato comprimido utilizado para armazenar dados de sequenciação genómica previamente alinhados contra um genoma de referência. No contexto da Sequenciação do Genoma Completo (WGS), que permite analisar 100% do seu ADN, o ficheiro CRAM contém as leituras de ADN geradas pela sequenciação, juntamente com a sua posição no genoma de referência e a informação de qualidade associada.
Ao contrário do ficheiro FASTQ, que contém os dados brutos gerados diretamente pela máquina de sequenciação, o ficheiro CRAM representa uma etapa posterior da análise bioinformática. Ou seja, as leituras já foram processadas e alinhadas, permitindo saber em que região do genoma se encontra cada fragmento de ADN.
O CRAM é utilizado por bioinformáticos, geneticistas e investigadores que desejam realizar análises avançadas sobre dados genómicos alinhados, como a revisão de regiões específicas do genoma, a identificação de variantes, a análise de cobertura ou a validação de determinados achados genéticos. Também é útil para utilizadores que desejam conservar uma versão processada e mais compacta dos seus dados genómicos para futuras análises.
Características do ficheiro CRAM:
-
Alta compressão: Ocupa menos espaço do que outros formatos alinhados graças a um sistema de compressão mais eficiente.
-
Leituras alinhadas: Contém informação sobre a posição de cada leitura no genoma de referência.
-
Informação de qualidade: Conserva dados técnicos relevantes, como as pontuações de qualidade e outros metadados associados à sequenciação e ao alinhamento.
-
Eficiência de armazenamento: É especialmente útil para dados de WGS, pois permite guardar grandes volumes de informação genómica de forma mais compacta.
Limitações
-
Dependência do genoma de referência: Para ler e interpretar corretamente um ficheiro CRAM, normalmente é necessário dispor do mesmo genoma de referência utilizado durante o alinhamento.
-
Não legível diretamente por humanos: Não é possível “ler” diretamente um ficheiro CRAM para obter informação sobre as suas características genéticas ou predisposições. Requer ferramentas bioinformáticas específicas para ser visualizado ou analisado.
-
Requer conhecimentos técnicos: A sua utilização destina-se a utilizadores avançados, bioinformáticos ou profissionais familiarizados com a análise de dados genómicos.
Formatos e transferência:
Além do CRAM, também oferecemos outros formatos técnicos, como FASTQ e VCF. Pode transferir estes ficheiros diretamente a partir da sua conta de utilizador tellmeGen.
Requisitos técnicos:
-
Sistema operativo: Recomenda-se Linux ou macOS, embora também possa ser utilizado em Windows através de ferramentas compatíveis ou ambientes como WSL.
-
Software específico: Ferramentas bioinformáticas como samtools, IGV, bcftools ou outros programas especializados.
-
RAM: Recomenda-se 32 GB ou mais para análises de WGS.
-
Armazenamento: Embora o ficheiro CRAM ocupe menos espaço do que FASTQ, recomenda-se dispor de capacidade de armazenamento suficiente para trabalhar com dados genómicos completos.
Este formato é adequado para utilizadores avançados que desejam trabalhar com dados genómicos já alinhados e realizar análises técnicas mais específicas, eficientes e detalhadas do seu genoma completo.
