genome data analysis
-
Insilico PCR including Batch optiongenome data analysis/Genome analysis 2021. 9. 12. 00:31
제작한 프라이머의 예상 사이즈을 알아보는 방법 (https://genome.ucsc.edu/cgi-bin/hgPcr)이 여러가지가 있습니다만 여러개의 프라이머 리스트를 한꺼번에 해주는 방법이 필요할 때가 있습니다. 간단하게 이렇게 하면 됩니다. isPcr reference_fasta example_isPcr.txt output_flie.txt reference_fasta 에 reference fasta file (참고: https://www.gungorbudak.com/blog/2014/04/13/download-human-reference-genome-hg19/)을 넣어주고 프라이머 정보가 든 example_isPcr.txt 파일을 넣어주고 output_file.txt 라는 이름의 파일로 넣어주면 프라..
-
awk 다루기 - Data preprocessinggenome data analysis/Genome analysis 2021. 3. 1. 12:46
대량의 genome data를 다룰 때 awk, grep 등을 잘 쓰면 효율적으로 원하는 데이터를 얻거나 원하는 형식으로 만들 수 있습니다. 예제 샘플은 github.com/tobiasrausch/svcatalog 여기서 받았습니다. 여기에 있는 "samples.tsv"를 썼습니다. 아래 나오는 방법들은 파이썬으로 거의 똑같이 할 수 있습니다만 저처럼 파이썬 기본이 좀 부족한 상태에서 데이터를 다루다 보면 글자를 다루는 코드라 숫자라서 안 되는 경우가 있고 반대로 글자라서 안 되는 오류들이 많이 생길 거예요. 근데 awk 나 grep에서는 그런 오류가 잘 안 생깁니다. 그래서 좀 더 편한 거 같아요 1. Data 형태보기 cat samples.tsv| awk '{print $0}' | less # or,..
-
Targeted sequencing - KAS sequencinggenome data analysis 2021. 1. 18. 04:52
Kethoxal-assisted single-stranded DNA sequencing (KAS-seq) captures global transcription dynamics and enhancer activity in situ www.nature.com/articles/s41592-020-0797-9?proof=t Kethoxal이란 chemical 을 사용한 sequencing 방법입니다. 기존에 ATAC-seq 방법과 유사한 결과를 얻을 수 있는데.. 논문에서는 훨씬 해상도가 좋다고 합니다...만 제가 아직 ATAC-seq은 따로 공부를 안해서 공부를 좀 하고 이 부분은 더 채우도록 하겠습니다. 그 둘 방법으로 비교한 결과 그림입니다. ATAC-seq에서 Catch 못 한 부분도 꽤 염기서열을 해독..
-
Could not detect a suitable 64-bit Java Runtime Environment. 오류 발생시genome data analysis 2021. 1. 17. 23:59
프로그램 설치시 아래와 같은 오류가 발생할 수 있습니다. - 이럴 경우, 윈도(10)의 경우 https://www.java.com/ko/download/win10.jsp로 들어갑니다. - 사이트가 변경되었거나 환경이 조금 다른 경우 구글에 "java runtime environment" 쳐서 들어가면 됩니다. - 이때 32bit를 받아야 하는지 64bit jave runtime environment를 받아야 하는지 확인해야 합니다. 제 컴에는 64bit를 깔라고 윗 그림에 표시되어있습니다. - 그림상 빨간색 화살 표에 해당하는 부분을 클릭하면 아래 그림에 해당하는 페이지를 볼 수 있습니다. 64비트를 받으라고 했으므로 저걸 받아주면 됩니다. - 이렇게 설치를 진행한 후 다시 설치를 원하는 프로그램을 깔아..
-
시퀀싱 단계에서 불필요한 리드는 시퀀싱 안해버리는 기술 -나노포어genome data analysis 2021. 1. 16. 23:42
Targeted nanopore sequencing by real-time mapping of raw electrical signal with UNCALLED Timp 교수님께서 온라인으로 진행한 발표를 듣다가 다음과 같은 동영상을 보여주셨는데..이게 가능하다고?? 하면서 본 자료에 대해서 이야기 하고자 합니다. 시간이 좀 지나서 아시는 분들도 있겠지만 처음 접하시는 분들도 많을거라 생각합니다. Targeted Sequencing 방법 중 하나입니다. 동영상 40초 쯤 부분부터 해당 내용이 나옵니다. nanoporetech.com/about-us/news/towards-real-time-targeting-enrichment-or-other-sampling-nanopore-sequencing-devices..
-
Intergrative Genomics View (IGV) 사용법genome data analysis/Genome analysis 2020. 5. 5. 16:35
Intergrative Genomics View (IGV)는 가지고 있는 염기서열(bam file 이용)을 시각화해서 보여주고 보유한 유전체 염기서열의 depth 도 확인 가능합니다. 이 프로그램은 윈도에서도 사용 가능합니다. 1. IGV 프로그램 Download 및 설치 (2.8.0 버전 이용)https://software.broadinstitute.org/software/igv/download Downloads | Integrative Genomics ViewerDid you know that there is also an IGV web application that runs only in a web browser, does not use Java, and requires no downloads? S..
-
Multiple genome alignment, Synteny map 그리기 - Mauvegenome data analysis/Genome analysis 2020. 4. 18. 23:58
Multiple genome alignment & Synteny map 그리기 - 이 과정은 Mauve를 이용해 진행할 수 있습니다. Mauve Mauve is a system for constructing multiple genome alignments in the presence of large-scale evolutionary events such as rearrangement and inversion. Multiple genome alignments provide a basis for research into comparative genomics and the study of genome- darlinglab.org - 최근에는 업데이트가 안되는 것 같습니다. 2015년 버전이 마지막이네요..하지..
-
Variants Call Format (VCF) 파일 하나로 합치기genome data analysis/Genome analysis 2020. 4. 17. 15:55
Plink와 the Variant Call Format (VCF) 파일을 이용해 Cases-Controls 간, Cases - Cases간 관련성있는 변이들을 찾을 수 있습니다. 이때 VCF 파일들을 하나로 합치는게 필요한데 그 때 쓰는게 vcftools 입니다. 보통 하나의 VCF 파일들은 한 개체의 변이들에 대한 정보입니다. 이 과정들은 우분투 서버에서 진행했습니다. 1. vcftools 다운로드 터미널창에 vcftools라고 쳤을 때 깔려있는게 없다면 클릭할 수 있는 URL을 보여줍니다. 그걸 클릭하면 .deb형식의 파일을 받을 수 있습니다. 아마 설치가 자동으로 될 텐데..이렇게는 해본 적은 없습니다. 따로 .deb 형식의 파일을 받았다면 아래와 같이 진행하면 됩니다. sudo dpkg –i 패키..