ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Variants Call Format (VCF) 파일 하나로 합치기
    genome data analysis/Genome analysis 2020. 4. 17. 15:55

    Plink와 the Variant Call Format (VCF) 파일을 이용해 Cases-Controls 간, Cases - Cases간 관련성있는 변이들을 찾을 수 있습니다.  이때 VCF 파일들을 하나로 합치는게 필요한데 그 때 쓰는게 vcftools 입니다. 보통 하나의 VCF 파일들은 한 개체의 변이들에 대한 정보입니다. 이 과정들은 우분투 서버에서 진행했습니다.

     

    1. vcftools 다운로드

    터미널창에 vcftools라고 쳤을 때 깔려있는게 없다면 클릭할 수 있는 URL을 보여줍니다. 그걸 클릭하면 .deb형식의 파일을 받을 수 있습니다. 아마 설치가 자동으로 될 텐데..이렇게는 해본 적은 없습니다. 따로 .deb 형식의 파일을 받았다면 아래와 같이 진행하면 됩니다.

    sudo dpkg –i 패키지파일명.deb

    혹시 설치한 것 삭제할 때는 아래를 입력합니다.

    sudo apt-get remove 패키지이름

    .deb 파일을 받을 경우 path 설정까지 해줘서 편리합니다.

     

    2. Working directory로 이동

    VCF 파일이 있는 디렉토리로 이동합니다.

     

    3. VCF 파일 확인

    파일 이름이

    case1.vcf

    case2.vcf

    case3.vcf

    control1.vcf

    control2.vcf

    control3.vcf

    이렇게 총 6개라고 가정하고 진행하겠습니다.

     

    4. gz 형식으로 저장

    bgzip case1.vcf

    이렇게 6개를 각각 해줍니다. 한 200개 정도 되는경우 한번에 bgzip *.vcf 라고 해도 되는지는 안해봤네요..시간이 될 때 해보고 본문을 수정하겠습니다. 분석 진행했던 때와 글 적는 때가 워낙 차이가 나다보니 깔끔하지가 않네요... 아뭏든 이렇게 하면 case1.vcf.gz  이런 파일들이 생깁니다.

     

    5. Indexing 하기

    다시 리눅스 터미널에서 아래를 입력합니다. 이 것 역시 tabix –p *.vcf.gz 해도 되는지는 해보고 본문 수정하겠습니다.

    tabix –p vcf case1.vcf.gz  

    6. VCF 파일 합치기

    그리고 다 입력이 되면 아래를 입력합니다.

    vcf-merge *.vcf.gz > output.vcf.gz

    각각 case들을 어떻게 명명할지 vcf tools가 알아서 정하기 때문에 리눅스 터미널에 있는 기록들을 잘 봐두세요. 작업이 진행 중일 때 이들의 이름을 어떻게 정했는지 화면에 보여줍니다.

     

    7. Merge된 파일 확인하기

     

    less output.vcf.gz

    를 통해 잘 만들어졌는지 확인해봅니다.

     

     

    *참고:

    gz 파일을 풀 때는 아래를 입력합니다.

    bgzip –d output.vcf.gz

    gz파일로 압축할 때는 아래를 입력합니다.

    bgzip output.vcf

     

     

     

    SMALL
Designed by Tistory.