genome data analysis/Genome analysis
-
Insilico PCR including Batch optiongenome data analysis/Genome analysis 2021. 9. 12. 00:31
제작한 프라이머의 예상 사이즈을 알아보는 방법 (https://genome.ucsc.edu/cgi-bin/hgPcr)이 여러가지가 있습니다만 여러개의 프라이머 리스트를 한꺼번에 해주는 방법이 필요할 때가 있습니다. 간단하게 이렇게 하면 됩니다. isPcr reference_fasta example_isPcr.txt output_flie.txt reference_fasta 에 reference fasta file (참고: https://www.gungorbudak.com/blog/2014/04/13/download-human-reference-genome-hg19/)을 넣어주고 프라이머 정보가 든 example_isPcr.txt 파일을 넣어주고 output_file.txt 라는 이름의 파일로 넣어주면 프라..
-
awk 다루기 - Data preprocessinggenome data analysis/Genome analysis 2021. 3. 1. 12:46
대량의 genome data를 다룰 때 awk, grep 등을 잘 쓰면 효율적으로 원하는 데이터를 얻거나 원하는 형식으로 만들 수 있습니다. 예제 샘플은 github.com/tobiasrausch/svcatalog 여기서 받았습니다. 여기에 있는 "samples.tsv"를 썼습니다. 아래 나오는 방법들은 파이썬으로 거의 똑같이 할 수 있습니다만 저처럼 파이썬 기본이 좀 부족한 상태에서 데이터를 다루다 보면 글자를 다루는 코드라 숫자라서 안 되는 경우가 있고 반대로 글자라서 안 되는 오류들이 많이 생길 거예요. 근데 awk 나 grep에서는 그런 오류가 잘 안 생깁니다. 그래서 좀 더 편한 거 같아요 1. Data 형태보기 cat samples.tsv| awk '{print $0}' | less # or,..
-
Intergrative Genomics View (IGV) 사용법genome data analysis/Genome analysis 2020. 5. 5. 16:35
Intergrative Genomics View (IGV)는 가지고 있는 염기서열(bam file 이용)을 시각화해서 보여주고 보유한 유전체 염기서열의 depth 도 확인 가능합니다. 이 프로그램은 윈도에서도 사용 가능합니다. 1. IGV 프로그램 Download 및 설치 (2.8.0 버전 이용)https://software.broadinstitute.org/software/igv/download Downloads | Integrative Genomics ViewerDid you know that there is also an IGV web application that runs only in a web browser, does not use Java, and requires no downloads? S..
-
Multiple genome alignment, Synteny map 그리기 - Mauvegenome data analysis/Genome analysis 2020. 4. 18. 23:58
Multiple genome alignment & Synteny map 그리기 - 이 과정은 Mauve를 이용해 진행할 수 있습니다. Mauve Mauve is a system for constructing multiple genome alignments in the presence of large-scale evolutionary events such as rearrangement and inversion. Multiple genome alignments provide a basis for research into comparative genomics and the study of genome- darlinglab.org - 최근에는 업데이트가 안되는 것 같습니다. 2015년 버전이 마지막이네요..하지..
-
Variants Call Format (VCF) 파일 하나로 합치기genome data analysis/Genome analysis 2020. 4. 17. 15:55
Plink와 the Variant Call Format (VCF) 파일을 이용해 Cases-Controls 간, Cases - Cases간 관련성있는 변이들을 찾을 수 있습니다. 이때 VCF 파일들을 하나로 합치는게 필요한데 그 때 쓰는게 vcftools 입니다. 보통 하나의 VCF 파일들은 한 개체의 변이들에 대한 정보입니다. 이 과정들은 우분투 서버에서 진행했습니다. 1. vcftools 다운로드 터미널창에 vcftools라고 쳤을 때 깔려있는게 없다면 클릭할 수 있는 URL을 보여줍니다. 그걸 클릭하면 .deb형식의 파일을 받을 수 있습니다. 아마 설치가 자동으로 될 텐데..이렇게는 해본 적은 없습니다. 따로 .deb 형식의 파일을 받았다면 아래와 같이 진행하면 됩니다. sudo dpkg –i 패키..
-
Local BLAST - makeblastdb 이용 nhr, nin, nsq 파일 만들기genome data analysis/Genome analysis 2020. 4. 15. 15:27
Genome 분석 시 fasta(fna 파일 포함) 파일 이외에도. nhr, nin 파일이 필요한 경우가 있습니다. 이 때는 Local BLAST를 설치해 makeblast 명령어를 사용해 fasta 파일로부터. nhr, nin 파일을 생성할 수 있습니다. 윈도우 환경에서도 생성할 수 있습니다. nhr, nin 파일은 간단하게 다음 순서대로 진행됩니다. 1. Local BLAST 다운로드 2. Local BLAST path 설정(exe 형태로 받을 경우 자동 설정되기도 함) 3. 명령프롬프트에서 " 명령어 치기" 이렇게 하면 nhr, nin 파일이 생성됩니다. 1. Local BLAST 다운로드 Local BLAST는 아래 사이트에서 각 PC 환경에 맞는 파일을 받으면 됩니다. 그런데 최신 버전은 nhr..
-
gbk 파일 변환하기genome data analysis/Genome analysis 2020. 4. 11. 17:04
Genome 데이터 분석할 때 gbk 파일이 필요한 경우가 있습니다.간단하게 DNA sequence만 필요한 경우 아래와 같이 진행하면 됩니다.아래는 gene runner 프로그램을 이용해 gbk 파일을 만들었습니다. 전체적인 과정은 간단합니다.1. Gene Runner를 연다.2. File > Open > 변환할 fasta (fna) 파일 선택 또는 File > New > Nucleic acid sequence 클릭 후 변환할 염기서열 ctrl C + ctrl V3. Save as > 파일이름.gbk > 저장이렇습니다.1. 먼저, Gene Runner 는 아래 사이트에서 다운로드 합니다.http://www.generunner.net/ Gene Runner www.generunner.net(32비트인지 ..
-
Fastq to consensus sequencesgenome data analysis/Genome analysis 2020. 4. 4. 17:53
Bacteria genome sequencing을 Pacbio로 했다면 필요없는 과정이겠지만, Miseq이나 Hiseq으로 데이터를 만들었고 이걸 하나의 sequence로 합치고자 한다면 아래와 같은 과정이 필요합니다. Denovo sequencing을 하려는 경우는 해당되지 않아요. Reference 에 mapping하고 하나의 sequence를 만드는 과정입니다. Sample이 하나의 chromosome으로 되어있지않고 Plasmid가 하나 또는 여러개가 더 있을 경우 아래 있는 방법으로 하면 plasmid sequence는 놓칠 수 있어요. - SAMtools와 BCFtools는 버젼을 같은 것으로 하는게 좋습니다. 둘 다 한꺼번에 새버젼으로 새로 설치를 하는게 좋습니다. 버젼이 다르면 오류가 생길..