Open main menu

Opengenome.net β

복수서열정렬 프로그램

Revision as of 07:19, 28 February 2007 by WikiSysop (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
for alignment visualization/editing programs
 
생명정보학에서 서열의 정렬, 분석 등의 과정에서는 시각화(visualization) 도구 없이 데이터를 이해한다는 것은 쉬운 일이 아니다. 일단 접근하기 쉽고 유연성 있는 형태로 데이터를 저장해 두었다면 다음 단계는 필요한 정보만을 추출해 보여주는 것이다. 정렬된 서열의 가독성을 높이거나 특정 영역의 서열의 비교 등을 서열 관련 분석을 위해서는 시각화 도구가 필요하며, 다양한 형태의 생명정보 도구들이 개발되어 있다.
 
아래는 도구들은 대표적으로 사용되는 서열 정렬 시각화 도구들이며, 웹이나 다양한 플랫폼에서 사용할 수 있도록 제작되어 있다.
 
Multiple-alignment file에 대해 다양한 포멧으로 시각화 결과물을 보여준다. GCG’s MSF-format 또는 Clustals ALN-format 형태의 데이터를 지원한다.
 
CHAOS와 DIALIGH를 이용하여 Genomic sequences의 Pair-wise와 multiple alignment 웹서비스를 제공한다.
 
Multiple sequence, sequence alignment editor, analyser 그리고, shading utility를 기능이 있는 공개용 windowns용 툴을 제공한다
 
ClustalW global pairwise alignment와 Blast 검색에 대한 결과를 그래픽화 하여 웹환경에서 제공한다.
 
Multiple sequence alignment에서 3차원 구조 정보를 제공하는 것으로 웹서비스를 통해 이용할 수 있으며, UNIX용에서 사용할 수 있는 어플리케이션도 제공한다.
 
SeaView는 가시화된 multiple sequence alignment 에디터를 제공한다. NEXUS, MSF, CLUSTAL, FASTA, PHYLIP, MASE와 같은 다양한 포멧을 지원한다. MS windows, Linux 등의 다양한 플랫폼을 지원한다.
 
SequenceJuxtaposer는 ‘accordion drawing’ 정보 기사화 기술을 이용하여 서열의 검색, 비교를 위한 서열 가시화 기능을 제공한다. Java 어플리케이션으로 제공된다.
 
웹환경에서 서열의 가시화와 비교분석을 위한 Java 어플리케이션과 에플릿으로 웹 브라이저와 연동되어 GenBank Flat Files, GenBank HTML, FASTA files를 처리한다. 또한 RepeatMasker, PsiPred, Cister의 결과를 시각화 해주는 플러그인을 제공한다.
 
The Structural Alignment Program for Proteins (STRAP)는 Java 기반의 프로그램으로 Java Web Start 또는 어플리케이션으로 사용할 수 있는 단백질 서열과 구조를 이용한 상동성 분석도구이다.
 
2가지의 형태인 Bitmap alignment scheme, Vector similarity graphics를 제공하는 웹서비스이다.
 
원도우 환경에서 Sequence alignment editor 기능을 제공하는 응용프로그램으로, ClustalW alignment, Blast 검색, RNA comparative analysis, ABI trace view 등의 다양한 기능을 제공한다.
 
 
Sequence alignments는 gene의 특성이 파악된 gene과 새로이 발견된 gene을 비교하는 매우 강력한 방법이다. 잘 제작된 queries와 alignments로부터 functional information뿐만 아니라 evolutionary information도 추출할 수 있다. BLAST(Basic Local Alignment Search Tool)은 뉴클레오타이드 데이타베이스(nucleotide database)와 단백질 데이터베이스(protein database)의 신속한 검색 방법을 제공한다. BLAST에서 사용하는 알고리즘은 global alignment뿐만 아니라 local alignment도 탐지한다. 이들 모든 타입의 similarity는 미지의 단백질의 기능에 대한 중요한 단서를 제공할 수도 있다.
 
BLAST또는 PSI-BLAST search 알고리즘을 사용하여 관심있는 family를 대략 정의한 후, 관심있는 family에 속하는 sequence를 FASTA포맷의 non-redundant 파일로 모은다.
크기가 다른 member를 제거하거나 query와 관련이 없는 extra sequence를 trimming하여 family members의 리스트를 refine한다.
 
Multiple alignment 프로그램을 선택한다. Clustal W알고리즘은 널리 사용되면서도 맥킨토시, 윈도우즈 및 유닉스 플랫폼에서 무료로 사용할 수 있는 프로그램으로 제공된다. 세 개 이상의 sequence를 gap을 추가하여 common structural positionas또는 common ancestry를 가진 residue의 alignment로 최적화하는 과정을 multiple alignment라 한다.
 
Multiple alignment 프로그램은 각각의 sequence를 collection내에 있는 다른 sequence와 pairwise방식으로 비교하여 각각의 sequence pair의 relative relatedness에 기반하여 distance matrix와 phylogenetic tree를 구성한다. Phylogenetic tree를 사용하여 alignment를 만든다. 추가적인 less related sequence를 추가하면서 alignment가 조정되고, 예상되는 secondary structure의 유의하면서 필요한 경우 gap가 추가한다.
 
Dynamic Programming
 
전산에서 많이 이용되는 programming 기술로 한번 계산되어 얻어진 값을 이용해 전체로 확장 시켜 나가면서 마지막 해답을 얻는 경우에 이용되는 algorithm 이다. 일반적으로 Dynamic Programming 은 해결 가능한 방법이 많고, 그 중 최적의 것을 찾는 것이 필요한 경우에 사용된다. 이 algorithm 은 sequence comparison, sequence alignment 에 쓰인다.
 
1)    Needleman-Wunsch Algorithm (Global Alignment)
Dynamic Programming 을 이용한 algorithm으로 global alignment 에 쓰인다. 이 algorithm 에서 사용되는 scoring matrix 의 각 position 은 positive or negative score or 0 을 가진다. 이 algorithm 을 이용한 alignment 는 주변의 higher-scoring alignment 에 의해 broken pattern 이 생겨 놓치는 region 이 생길 수 있다. 그래서 Smith-Warterman algorithm 이 local alignment 에서 conserved region 을 찾아내기 위해 개발되었다.
 
2)    Smith-Warterman Algorithm (Local Alignmenmt)
Local alignment 는 conserved region 을 포함하기 때문에 global alignment 보다 훨씬 의미가 있다. 이 algorithm 이 Needleman-Wunsch algorithm 과 다른 점은 dynamic programming scoring matrix 에서 negative score(mismatched) 가 나오면 그 값을 0 으로 바꾼다. 이 algorithm 에서는 lower scoring alignment 도 가능하다. 그리고 같은 aligned amino acid pairs를 이용한 multiple local alignment 도 가능하다.
 
 
 
참고문헌
1.    Andreas D. Baxevanis, B. F. Francis Ouellette. Bioinformatics. Wiley-Interscience.2001.
2.    KOBIC Biocourse http://biocourse.org
4.    NCBI Education :http://www.ncbi.nlm.nih.gov/Education/
6.    Molecular Station: http://www.molecularstation.com/