Le fichier CRAM est un format compressé utilisé pour stocker des données de séquençage génomique préalablement alignées sur un génome de référence. Dans le contexte du Séquençage du Génome Complet (WGS), qui permet d’analyser 100 % de votre ADN, le fichier CRAM contient les lectures d’ADN générées par le séquençage, ainsi que leur position dans le génome de référence et les informations de qualité associées.
Contrairement au fichier FASTQ, qui contient les données brutes directement générées par la machine de séquençage, le fichier CRAM représente une étape ultérieure de l’analyse bioinformatique. Autrement dit, les lectures ont déjà été traitées et alignées, ce qui permet de savoir dans quelle région du génome se situe chaque fragment d’ADN.
Le CRAM est utilisé par les bioinformaticiens, les généticiens et les chercheurs qui souhaitent réaliser des analyses avancées sur des données génomiques alignées, telles que la révision de régions spécifiques du génome, l’identification de variants, l’analyse de la couverture ou la validation de certains résultats génétiques. Il est également utile pour les utilisateurs qui souhaitent conserver une version traitée et plus compacte de leurs données génomiques pour de futures analyses.
Caractéristiques du fichier CRAM :
-
Compression élevée : Occupe moins d’espace que d’autres formats alignés grâce à un système de compression plus efficace.
-
Lectures alignées : Contient des informations sur la position de chaque lecture dans le génome de référence.
-
Informations de qualité : Conserve les données techniques pertinentes, telles que les scores de qualité et d’autres métadonnées associées au séquençage et à l’alignement.
-
Efficacité de stockage : Particulièrement utile pour les données WGS, car il permet de stocker de grands volumes d’informations génomiques de manière plus compacte.
Limitations
-
Dépendance au génome de référence : Pour lire et interpréter correctement un fichier CRAM, il est généralement nécessaire de disposer du même génome de référence que celui utilisé lors de l’alignement.
-
Non lisible directement par l’humain : Vous ne pouvez pas “lire” directement un fichier CRAM pour obtenir des informations sur vos traits génétiques ou vos prédispositions. Des outils bioinformatiques spécifiques sont nécessaires pour le visualiser ou l’analyser.
-
Nécessite des connaissances techniques : Son utilisation s’adresse aux utilisateurs avancés, aux bioinformaticiens ou aux professionnels familiarisés avec l’analyse des données génomiques.
Formats et téléchargement :
En plus du CRAM, nous proposons également d’autres formats techniques tels que FASTQ et VCF. Vous pouvez télécharger ces fichiers directement depuis votre compte utilisateur tellmeGen.
Exigences techniques :
-
Système d’exploitation : Linux ou macOS recommandé, bien qu’il puisse également être utilisé sous Windows au moyen d’outils compatibles ou d’environnements tels que WSL.
-
Logiciel spécifique : Outils bioinformatiques tels que samtools, IGV, bcftools ou d’autres programmes spécialisés.
-
RAM : 32 Go ou plus sont recommandés pour les analyses WGS.
-
Stockage : Bien que le fichier CRAM occupe moins d’espace que le FASTQ, il est recommandé de disposer d’une capacité de stockage suffisante pour travailler avec des données génomiques complètes.
Ce format convient aux utilisateurs avancés qui souhaitent travailler avec des données génomiques déjà alignées et réaliser des analyses techniques plus spécifiques, efficaces et détaillées de leur génome complet.
