Hvad er en VCF-fil, og hvad bruges den til?

Actualizado en

VCF-filen (Variant Call Format) er resultatet af behandlingen af dine data i FASTQ-format. Denne fil sammenligner dit rå-DNA med et "referencegenom" (en standardmodel for mennesker). VCF-filen viser de steder, hvor dit DNA adskiller sig fra referencegenomet, det vil sige de varianter (SNP'er, indsættelser eller sletninger), der findes i din genetik.

VCF-filer er normalt komprimeret i formatet .vcf.gz. Bioinformatikværktøjer er designet til at læse disse komprimerede filer direkte, selvom de også kan udpakkes med værktøjer som 7zip eller gzip.

Hvem er den nyttig for?

  • Nysgerrige brugere: Hvis du ønsker at søge efter en specifik genetisk mutation (for eksempel på positionen for kromosom 14, 64877827 i genet MTHFD1).
  • Tredjepartsanalyse: Dette format er den påkrævede standard, hvis du ønsker at uploade dine data til andre tjenester, der accepterer WGS-data for at få information om herkomst eller helbred.

Styrker

  • Handlingsorienteret: Denne fil indeholder de faktiske genetiske data.
  • Kompakt: Ved kun at liste forskellene er den meget mindre end de rå FASTQ-filer (link til spørgsmålet om FASTQ).

Begrænsninger

  • Behandlede data: Filen afhænger af det nuværende referencegenom, som tellmeGen bruger (GRCh37). Hvis referencemodellen ændres, vil denne fil blive forældet, i modsætning til FASTQ-filen.

Hvordan man åbner og bruger filen

  • Basal brug: Efter udpakning kan den åbnes som en tekstfil (med Notepad++ i Windows, TextMate på Mac).
  • Avanceret brug: Brug en VCF-fremviser eller Integrative Genomics Viewer (IGV) for at se varianterne visuelt. Du kan også bruge tredjepartsværktøjer som Galaxy til at udføre handlinger med din VCF-fil.

Systemkrav

  • Operativsystem: Windows, Mac eller Linux.
  • RAM: 8GB standard.
  • Lagerplads: <1GB.