Czym jest plik CRAM i jak jest używany w analizie WGS (Sekwencjonowanie Całego Genomu)?

Zaktualizowano dnia

Plik CRAM to skompresowany format wykorzystywany do przechowywania danych z sekwencjonowania genomowego, które zostały wcześniej wyrównane względem genomu referencyjnego. W kontekście sekwencjonowania całego genomu (WGS), które umożliwia analizę 100% Twojego DNA, plik CRAM zawiera odczyty DNA wygenerowane podczas sekwencjonowania, wraz z ich pozycją w genomie referencyjnym oraz powiązanymi informacjami jakościowymi. 

W przeciwieństwie do pliku FASTQ, który zawiera surowe dane generowane bezpośrednio przez urządzenie do sekwencjonowania, plik CRAM reprezentuje późniejszy etap analizy bioinformatycznej. Oznacza to, że odczyty zostały już przetworzone i wyrównane, co pozwala określić, w którym regionie genomu znajduje się każdy fragment DNA. 

CRAM jest wykorzystywany przez bioinformatyków, genetyków i badaczy, którzy chcą przeprowadzać zaawansowane analizy wyrównanych danych genomowych, takie jak przegląd konkretnych regionów genomu, identyfikacja wariantów, analiza pokrycia lub walidacja określonych wyników genetycznych. Jest również przydatny dla użytkowników, którzy chcą zachować przetworzoną i bardziej kompaktową wersję swoich danych genomowych do przyszłych analiz. 

Charakterystyka pliku CRAM:

  • Wysoka kompresja: Zajmuje mniej miejsca niż inne wyrównane formaty dzięki bardziej wydajnemu systemowi kompresji.

  • Wyrównane odczyty: Zawiera informacje o pozycji każdego odczytu w genomie referencyjnym.

  • Informacje jakościowe: Zachowuje istotne dane techniczne, takie jak wyniki jakości oraz inne metadane związane z sekwencjonowaniem i wyrównaniem.

  • Efektywność przechowywania: Szczególnie przydatny dla danych WGS, ponieważ umożliwia przechowywanie dużych ilości informacji genomowych w bardziej kompaktowej formie.

Ograniczenia

  • Zależność od genomu referencyjnego: Aby prawidłowo odczytać i zinterpretować plik CRAM, zwykle konieczne jest posiadanie tego samego genomu referencyjnego, który został użyty podczas wyrównania.

  • Nieczytelny bezpośrednio dla człowieka: Nie można bezpośrednio “odczytać” pliku CRAM, aby uzyskać informacje o swoich cechach genetycznych lub predyspozycjach. Do jego wizualizacji lub analizy wymagane są specjalistyczne narzędzia bioinformatyczne.

  • Wymaga wiedzy technicznej: Jego użycie jest przeznaczone dla zaawansowanych użytkowników, bioinformatyków lub specjalistów zaznajomionych z analizą danych genomowych.

Formaty i pobieranie:

Oprócz CRAM oferujemy również inne formaty techniczne, takie jak FASTQ i VCF. Możesz pobrać te pliki bezpośrednio ze swojego konta użytkownika tellmeGen.

Wymagania techniczne:

  • System operacyjny: Zalecany jest Linux lub macOS, choć plik może być również używany w systemie Windows przy pomocy kompatybilnych narzędzi lub środowisk takich jak WSL.

  • Specjalistyczne oprogramowanie: Narzędzia bioinformatyczne, takie jak samtools, IGV, bcftools lub inne specjalistyczne programy.

  • RAM: Do analiz WGS zaleca się 32 GB lub więcej.

  • Pamięć masowa: Chociaż plik CRAM zajmuje mniej miejsca niż FASTQ, zaleca się posiadanie wystarczającej pojemności pamięci masowej do pracy z pełnymi danymi genomowymi.

Ten format jest odpowiedni dla zaawansowanych użytkowników, którzy chcą pracować z już wyrównanymi danymi genomowymi i przeprowadzać bardziej szczegółowe, wydajne i precyzyjne analizy techniczne swojego pełnego genomu.