Het CRAM-bestand is een gecomprimeerd formaat dat wordt gebruikt om genomische sequencinggegevens op te slaan die eerder zijn uitgelijnd met een referentiegenoom. In de context van Whole Genome Sequencing (WGS), waarmee 100% van je DNA kan worden geanalyseerd, bevat het CRAM-bestand de DNA-reads die door sequencing zijn gegenereerd, samen met hun positie binnen het referentiegenoom en de bijbehorende kwaliteitsinformatie.
In tegenstelling tot het FASTQ-bestand, dat de ruwe gegevens bevat die rechtstreeks door de sequencingmachine worden gegenereerd, vertegenwoordigt het CRAM-bestand een latere fase van de bio-informatische analyse. Met andere woorden, de reads zijn al verwerkt en uitgelijnd, waardoor kan worden bepaald in welk gebied van het genoom elk DNA-fragment zich bevindt.
CRAM wordt gebruikt door bio-informatici, genetici en onderzoekers die geavanceerde analyses willen uitvoeren op uitgelijnde genomische gegevens, zoals het beoordelen van specifieke regio’s van het genoom, het identificeren van varianten, het analyseren van dekking of het valideren van bepaalde genetische bevindingen. Het is ook nuttig voor gebruikers die een verwerkte en compactere versie van hun genomische gegevens willen bewaren voor toekomstige analyses.
Kenmerken van het CRAM-bestand:
-
Hoge compressie: Neemt minder ruimte in dan andere uitgelijnde formaten dankzij een efficiënter compressiesysteem.
-
Uitgelijnde reads: Bevat informatie over de positie van elke read in het referentiegenoom.
-
Kwaliteitsinformatie: Bewaart relevante technische gegevens, zoals kwaliteitsscores en andere metadata die verband houden met sequencing en uitlijning.
-
Opslagefficiëntie: Vooral nuttig voor WGS-gegevens, omdat grote hoeveelheden genomische informatie compacter kunnen worden opgeslagen.
Beperkingen
-
Afhankelijkheid van het referentiegenoom: Om een CRAM-bestand correct te kunnen lezen en interpreteren, is meestal hetzelfde referentiegenoom nodig dat tijdens de uitlijning is gebruikt.
-
Niet leesbaar voor mensen: Je kunt een CRAM-bestand niet rechtstreeks “lezen” om informatie te verkrijgen over je genetische kenmerken of aanleg. Hiervoor zijn specifieke bio-informatische tools nodig om het te visualiseren of te analyseren.
-
Vereist technische kennis: Het gebruik ervan is bedoeld voor gevorderde gebruikers, bio-informatici of professionals die vertrouwd zijn met de analyse van genomische gegevens.
Formaten en download:
Naast CRAM bieden we ook andere technische formaten aan, zoals FASTQ en VCF. Je kunt deze bestanden rechtstreeks downloaden vanuit je tellmeGen-gebruikersaccount.
Technische vereisten:
-
Besturingssysteem: Linux of macOS wordt aanbevolen, hoewel het ook op Windows kan worden gebruikt met compatibele tools of omgevingen zoals WSL.
-
Specifieke software: Bio-informatische tools zoals samtools, IGV, bcftools of andere gespecialiseerde programma’s.
-
RAM: Voor WGS-analyses wordt 32 GB of meer aanbevolen.
-
Opslag: Hoewel het CRAM-bestand minder ruimte inneemt dan FASTQ, wordt aanbevolen om voldoende opslagcapaciteit te hebben om met volledige genomische gegevens te kunnen werken.
Dit formaat is geschikt voor gevorderde gebruikers die willen werken met reeds uitgelijnde genomische gegevens en specifiekere, efficiëntere en gedetailleerdere technische analyses van hun volledige genoom willen uitvoeren.
