-
Local BLAST - makeblastdb 이용 nhr, nin, nsq 파일 만들기genome data analysis/Genome analysis 2020. 4. 15. 15:27
Genome 분석 시 fasta(fna 파일 포함) 파일 이외에도. nhr, nin 파일이 필요한 경우가 있습니다. 이 때는 Local BLAST를 설치해 makeblast 명령어를 사용해 fasta 파일로부터. nhr, nin 파일을 생성할 수 있습니다. 윈도우 환경에서도 생성할 수 있습니다.
nhr, nin 파일은 간단하게 다음 순서대로 진행됩니다.
1. Local BLAST 다운로드
2. Local BLAST path 설정(exe 형태로 받을 경우 자동 설정되기도 함)
3. 명령프롬프트에서 " 명령어 치기"
이렇게 하면 nhr, nin 파일이 생성됩니다.
1. Local BLAST 다운로드
Local BLAST는 아래 사이트에서 각 PC 환경에 맞는 파일을 받으면 됩니다. 그런데 최신 버전은 nhr, nin, nsq 파일 만드는데 오류가 있네요. 최신버젼
(ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/)은 안되네요. 나~~ 중에 아래 과정을 다 진행하고 실행 시 BLAST Database creation error: mdb_env_open: 디스크 공간이 부족합니다 라는 문구가 뜹니다.
아직 수정이 안됐나 봐요. 그래서 예전 버전 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/2.2.30/ 을 받아서 진행했습니다.
제 컴의 환경은 윈도 64비트이기 때문에 "ncbi-blast-2.2.30+-win64.exe" 이걸 받았습니다.
2. Local BLAST path 설정
다음은 Path 설정 과정입니다. ncbi-blast-2.2.30+-win64.exe을 받았을 경우 자동으로 path설정이 되어있습니다. Path 설정을 확인해보시려면 아래 사이트 설명을 참고하면 확인할 수 있습니다.
여기 보면 잘 나와있네요.
3. 명령 프롬프트 열기
명령 프롬프트는 실행창 또는 검색창에 "cmd"라고 치거나, 검색창, 실행창이 안 보이면 윈도 마크를 클릭한 후 그냥 "cmd"라고 타이핑해도 이렇게 설정 후 "명령 프롬프트"라는 앱이 보일 겁니다. 클릭합니다.
어떤 주소로 떠있던 상관없습니다. Path 설정을 했기 때문에(저는 exe 파일을 받아 설치 때 자동으로 설정되었습니다) 여기에다가 "makeblastdb"라고 입력합니다. 그러면 아래와 같은 내용을 확인할 수 있습니다.
만일 안 된다면 몇 가지 이유가 있을 수 있습니다. Path 설정을 제대로 했는지 확인해야 합니다만 아마 대부분은 Path 설정 설명들을 보고 잘했을 겁니다. 문제는 오히려 명령 프롬프트가 켜진상태로 Path 설정을 했을 경우 때문인 경우가 많습니다. 그래서 Path 설정을 하기 전 명령 프롬프트가 켜져 있었다면 실행창을 끈 후 path 설정 후 다시 명령 프롬프트를 열어봅니다. 그리고 makeblastdb를 쳐봅니다. 아마 위의 그림과 같은 진행을 볼 수 있습니다. 자동으로 path 설정이 된 경우는 이 과정이 필요 없습니다.
저는 파일이 "E" 드라이브에 있기 때문에 E 드라이브에서 진행하였습니다.
이렇게 입력하면 E 드라이브로 넘어갑니다.
4. 명령어 입력하기
makeblastdb -in sequence.fasta -dbtype nucl -out sequence.fasta
위와 같은 명령어를 입력해주면 됩니다.
예시 파일을 첨부합니다. 연습해보실 분들은 참고해서 해보세요.
잘 되면 위와 같은 글자들을 볼 수 있습니다.
파일도 잘 만들어졌네요~~
nhr 파일 앞에. fasta를 붙인 이유는 BRIG과 같은 프로그램들에서 인식이 안 되는 경우들이 있습니다. 그래서 저렇게 적은 것이고 다른 프로그램을 쓰신다면 sequenc.nhr 등과 같이 만들어도 될 거예요.
SMALL'genome data analysis > Genome analysis' 카테고리의 다른 글
Multiple genome alignment, Synteny map 그리기 - Mauve (0) 2020.04.18 Variants Call Format (VCF) 파일 하나로 합치기 (0) 2020.04.17 gbk 파일 변환하기 (0) 2020.04.11 Fastq to consensus sequences (1) 2020.04.04 Genome circular map 그리기 (1) 2020.04.01