Что такое файл CRAM и как он используется при анализе WGS (полногеномное секвенирование)?

Обновлено

Файл CRAM — это сжатый формат, используемый для хранения данных геномного секвенирования, которые были предварительно выровнены относительно референсного генома. В контексте полногеномного секвенирования (WGS), позволяющего анализировать 100% вашей ДНК, файл CRAM содержит ДНК-риды, полученные в результате секвенирования, вместе с их положением в референсном геноме и связанной с ними информацией о качестве. 

В отличие от файла FASTQ, который содержит необработанные данные, напрямую сгенерированные секвенатором, файл CRAM представляет собой более поздний этап биоинформатического анализа. Иными словами, риды уже были обработаны и выровнены, что позволяет определить, в какой области генома находится каждый фрагмент ДНК. 

CRAM используется биоинформатиками, генетиками и исследователями, которые хотят выполнять расширенный анализ выровненных геномных данных, например просматривать конкретные области генома, идентифицировать варианты, анализировать покрытие или подтверждать определённые генетические находки. Он также полезен для пользователей, которые хотят сохранить обработанную и более компактную версию своих геномных данных для будущих анализов. 

Характеристики файла CRAM:

  • Высокая степень сжатия: Занимает меньше места, чем другие выровненные форматы, благодаря более эффективной системе сжатия.

  • Выровненные риды: Содержит информацию о положении каждого рида в референсном геноме.

  • Информация о качестве: Сохраняет важные технические данные, такие как показатели качества и другие метаданные, связанные с секвенированием и выравниванием.

  • Эффективность хранения: Особенно полезен для данных WGS, поскольку позволяет хранить большие объёмы геномной информации в более компактном виде.

Ограничения

  • Зависимость от референсного генома: Для корректного чтения и интерпретации файла CRAM обычно необходимо иметь тот же референсный геном, который использовался при выравнивании.

  • Не предназначен для непосредственного чтения человеком: Вы не можете напрямую “прочитать” файл CRAM, чтобы получить информацию о своих генетических признаках или предрасположенностях. Для его визуализации или анализа требуются специальные биоинформатические инструменты.

  • Требует технических знаний: Его использование предназначено для продвинутых пользователей, биоинформатиков или специалистов, знакомых с анализом геномных данных.

Форматы и загрузка:

Помимо CRAM, мы также предлагаем другие технические форматы, такие как FASTQ и VCF. Вы можете загрузить эти файлы напрямую из своей пользовательской учётной записи tellmeGen.

Технические требования:

  • Операционная система: Рекомендуется Linux или macOS, хотя файл также можно использовать в Windows с помощью совместимых инструментов или сред, таких как WSL.

  • Специализированное программное обеспечение: Биоинформатические инструменты, такие как samtools, IGV, bcftools или другие специализированные программы.

  • ОЗУ: Для анализов WGS рекомендуется 32 ГБ или больше.

  • Хранилище: Хотя файл CRAM занимает меньше места, чем FASTQ, рекомендуется иметь достаточный объём хранилища для работы с полными геномными данными.

Этот формат подходит для продвинутых пользователей, которые хотят работать с уже выровненными геномными данными и выполнять более специфические, эффективные и подробные технические анализы своего полного генома.