생물정보학 9

Gloabal multiple alignment

앞의 글에서 보았듯이 gloabal alignment는 전체 서열을 얼라이먼트 하는 것이다. https://rosalind.info/problems/clus/ ROSALIND | Global Multiple AlignmentIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Global Multiple Alignment solved by 515 The Odd One Out Figure 1. Fish samples waiting for analysis in the lab of US Customs and Border Protectiorosalind.info  이 ..

Suboptimal local alignment

Alignment는 두 개의 서열을 나열하여 두 서열의 유사성같은 것들을 알아내는 것이다. Gloabl alignment는 서열의 전체부위를 서로 나열하여 서열의 전체 유사성을 확인하는 반면, Local alignment는 말 그대로 부분적으로 서로 나열하여 부분의 유사성을 확인한다.https://rosalind.info/problems/subo/ ROSALIND | Suboptimal Local AlignmentIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Suboptimal Local Alignment solved by 562 Jumping Genes..

Seq 객체 다루기

이번 포스팅에서는 간단하게 Seq 객체를 다루는 법을 살펴볼 것이다. Seq class는 BioPython의 class 중 하나로 말 그대로 서열의 속성같은 것을 가지고 있는 class이다. 서열답게 전사,번역,역상보적인 결합 등을 method로 손쉽게 구할 수 있다. 그리고 Seq 클래스는 파이썬의 기본적인 문자열의 속성까지 어느정도 계승했으므로 인덱스를 이용한 스플라이싱, len()함수 등을 그대로 쓸 수 있다. https://rosalind.info/problems/rvco/ ROSALIND | Complementing a Strand of DNAIt appears that your browser has JavaScript disabled. Rosalind requires your browser t..

FASTQ 파일 다루기

FASTQ 형식 소개에서 다뤘듯이 FASTQ 파일 형식은 서열id,서열,품질을 동시에 품고 있다. 이번 포스트에서는 ROSALIND 문제들을 통해 FASTQ 파일을 어떻게 다루는지 서술할 것이다. https://rosalind.info/problems/phre/ ROSALIND | Read Quality DistributionIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Read Quality Distribution solved by 1338 2013년 6월 25일 8:04:38 오후 by Rosalind Team Topics: Bioinformatics..

단백질 번역하기

https://rosalind.info/problems/ptra/ ROSALIND | Protein TranslationIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Protein Translation solved by 1294 The Genetic Code Figure 1. Schematic image of the translation process. Given a nucleotide sequence obtained frrosalind.info  생명체의 DNA는 단백질로 번역될 수 있다. 이 때 3개의 RNA가 단백질에 되응되는 코돈표를 이용하여 단백..

FASTQ 형식 소개

현대의 시퀸싱 기구들을 200base 이하의 서열 조각들로 시퀸싱을 하기에 때때로 오류를 일으키거나 신뢰성이 부족할 수 있다. 그렇기에 서열에 '품질' (Quality)을 정량적으로 따지는 것은 중요한 일이다.  이 품질은 Phred Quality scale로 따진다. 낮은 Phred quality scale은 base calld의 정확성에 덜 자신감이 있는 것이다. 이러한 scale은 아래와 같이 계산할 수 있다.Q = −10*log10(P) 이 때 P는 해당 base call이 부정확할 확률이다. Q=10이라면 해당 베이스가 맞지않을 확률이 1/10, 즉 정확성이 90%란 소리이다. Q=20이라면 정확성은 99%이다. 서열 자체에 이러한 아웃풋을 강력하게 저장하는 정석적인 형식이 FASTQ forma..

ID를 이용하여 global pairwise alignment 하기

https://rosalind.info/problems/need/ ROSALIND | Pairwise Global AlignmentIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. Pairwise Global Alignment solved by 1385 Comparing Strings Online Figure 1. An alignment of two human zinc finger proteins, identified by their Grosalind.info이 문제는 두 개의 아이디가 주어지고 두 아이디로 GenBank에서 DAN 서열을 찾고 그 두개로 P..

MEME으로 protein motif 찾기

https://rosalind.info/problems/meme/ ROSALIND | New Motif DiscoveryIt appears that your browser has JavaScript disabled. Rosalind requires your browser to be JavaScript enabled. New Motif Discovery solved by 1020 Know Your Meme Figure 1. A sample GLAM2 gapped motif. In “Finding a Protein Motif”, we used the ProSite darosalind.info이 문제에서는 id와 서열만 있는 여러 개의 펩타이드가 담긴 fasta 파일이 주어지고 이 중 가장 점수가 높은 공통 ..

Entrez 모듈로 GenBank에 접근하기

Biopython의 Entrez 모듈로는 NCBI같은 데이터베이스에 코드로 직접 연결할 수 있게 해준다.간단하게 설명하자면 먼저 우리는 NCBI에서 문제가 생겼을 때 연락받을 수 있는 email을 적어줘야한다. 그리고 handle을 통해 찾고 싶은 것을 적고 이 handle을 search에 넣으면 어느정도 찾아지는 그런 원리이다. 말로만 설명하면 어려우니 코드를 함께 봐보자from Bio import Entrezif __name__ == '__main__': with open(r"파일경로",'r') as f: Entrez.email = 'your_name@your_address.com' fs = [] for i in f.readlines(): ..