CRAMファイルとは何ですか?また、WGS(全ゲノムシーケンス)解析ではどのように使用されますか?

更新日

CRAMファイルは、参照ゲノムに対して事前にアラインメントされたゲノムシーケンシングデータを保存するために使用される圧縮形式です。DNAの100%を解析できる全ゲノムシーケンシング(WGS)の文脈では、CRAMファイルには、シーケンシングによって生成されたDNAリード、その参照ゲノム内での位置、および関連する品質情報が含まれます。 

シーケンシング装置によって直接生成された生データを含むFASTQファイルとは異なり、CRAMファイルはバイオインフォマティクス解析の後続段階を表します。つまり、リードはすでに処理およびアラインメントされており、各DNA断片がゲノムのどの領域に位置しているかを把握することができます。 

CRAMは、アラインメント済みのゲノムデータに対して高度な解析を行いたいバイオインフォマティシャン、遺伝学者、研究者によって使用されます。具体的には、ゲノムの特定領域の確認、バリアントの同定、カバレッジ解析、特定の遺伝学的所見の検証などに利用されます。また、将来の解析のために、処理済みでよりコンパクトなゲノムデータのバージョンを保存しておきたいユーザーにも有用です。 

CRAMファイルの特徴:

  • 高い圧縮率:より効率的な圧縮システムにより、他のアラインメント済み形式よりも少ない容量で保存できます。

  • アラインメント済みリード:参照ゲノム内における各リードの位置情報を含みます。

  • 品質情報:品質スコアや、シーケンシングおよびアラインメントに関連するその他のメタデータなど、重要な技術情報を保持します。

  • 保存効率:大量のゲノム情報をよりコンパクトに保存できるため、WGSデータに特に有用です。

制限事項

  • 参照ゲノムへの依存:CRAMファイルを正しく読み取り、解釈するためには、通常、アラインメント時に使用されたものと同じ参照ゲノムが必要です。

  • 人が直接読める形式ではありません:遺伝的特徴や素因に関する情報を得るために、CRAMファイルを直接“読む”ことはできません。可視化または解析するには、専用のバイオインフォマティクスツールが必要です。

  • 技術的知識が必要:その使用は、ゲノムデータ解析に精通した上級ユーザー、バイオインフォマティシャン、または専門家を対象としています。

形式とダウンロード:

CRAMに加えて、FASTQやVCFなどの他の技術的形式も提供しています。これらのファイルは、tellmeGenのユーザーアカウントから直接ダウンロードできます。

技術要件:

  • オペレーティングシステム:LinuxまたはmacOSを推奨しますが、対応ツールやWSLなどの環境を使用すればWindowsでも利用できます。

  • 専用ソフトウェア:samtools、IGV、bcftools、またはその他の専門的なバイオインフォマティクスツール。

  • RAM:WGS解析には32 GB以上を推奨します。

  • ストレージ:CRAMファイルはFASTQよりも少ない容量で保存できますが、全ゲノムデータを扱うためには十分なストレージ容量を確保することを推奨します。

この形式は、すでにアラインメントされたゲノムデータを扱い、自身の全ゲノムについて、より具体的で効率的かつ詳細な技術解析を行いたい上級ユーザーに適しています。