구조생물학 Structural Biology
구조 생물학 (Structural Biology)
구조연구는 생정보학의 가장 오래된 분야의 하나로 아직까지도 가장 중심적인 역할을 한다고 해도 과언이 아니다. 이는 궁극적으로 분자구조가 생명의 기능을 조정하는데 가장 구체적인 역할을 가지고 있기 때문이다. 그래서 단백질의 구조를 예측하는데 아직도 많은 과학자들이 생정보학 자료를 이용하고 있다. 의약품을 개발하는데 있어서도, 궁극적으로 분자의 정밀한 구조를 알아야 하는 경우가 대부분이다.
1.단백질 구조 규명, 비교, 예측, 분류, 데이타베이스
단백질은 생명체내 가장 핵심적인 역할을 하며, 세포를 심지어 하나의 거대한 단백질덩어리라고도 볼 수 있다.단백질 구조를 저장하는 PDB 데이타베이스를 비롯해 많은 데이타베이스가 있으며, 잘 알려진 삼차원 구조 비교 알고리듬에는 DALI, SAP 등이 있다. DALI 는 다이내믹 프로그래밍 알고리듬을 써서 비교의 속도를 최적화한다.레빈쌀의(Levinthal) 모순이라고도 불리 우는 단백질 구조형성의 천문학적으로 많이 가능한 모양 중에서 어떻게 단지 하나의 독특한 구조가 하나의 서열에서 나오는 지는 아직도 밝혀지지 않았다. 이 단백질 구조형성을 푸는 방법에는
1)물리학적인 수식과 컴퓨터에 의한 완벽한 이해 (solving protein folding problem): 하나의 단백질이 서열에 맞추어서 어떻게 원자간의 여러 가지 역학들을 만족시키면서 세포내의 환경 속에 존재하는가? 이 문제는 현재 몇 가지 개발된 에너지 함수를 사용해서 20개의 아미노산 이하의 펩타이드를 컴퓨터를 통해서 구조를 예측할 수 있다. IBM 회사는 생정보학이 2003 년경에는 약 10조원 이상의 컴퓨터 장비를 필요할 것이라는 판단하에 블루진 (Blue Gene) 이라는 슈퍼컴퓨터를 사용해서 단백질 형성을 시뮬레이션할 것이라 한다. 이런 시도는 옛날에도 있었다 (Sheraga). 단순한 컴퓨터 성능보다는 정확한 단백질형성 과정을 아는 것이 더 중요하기때문에 IBM 이 얼마나 생정보학의 연구자들로부터 동감을 얻을 지는 미지수다. 이런 에너지함수를 연구하는 것도 생정보학의 한 분야다. (이와 관련된 또 다른 한가지 생정보학이 분야는 베이지안 이론 등을 사용해서 엑스레이를 통한 단백질구조규명의 작업을 컴퓨터화 해서 아주 빠르게 단백질의 삼차원 구조를 해석하는 것이다. 하지만 이것은 수정이 생성되는 단백질에 한하기 때문에 한계가 있다. 예를 들면 세포의 막에서 발견되는 단백질은 수정화가 잘 안 된다.)
2) 단백질구조 예측 (protein structure prediction): 물리적 함수를 사용한 완벽한 시뮬레이션을 벗어난 단백질구조예측방법으로는 단백질 구조 인식법이 (fold recognition) 있다. 쓰레딩 (threading) 이라는 방법은 그 중 가장 주목 받는 것의 하나로서 이미 알려진 단백질의 구조에 새로운 서열을 실을 꿰듯 꿰어서 그 새 서열과 알려진 구조가 얼마나 잘 맞아 떨어지는 가를 측정하는 방법이다. 이 방법은 단백질구조예측대회라고 알려진 캐습 (CASP) 회의에서 좋은 성과를 거두고 있다. 최근에 이루어진 4 번째 캐습에서 조그만 펩타이드 조각들을 모아서 단백질구조 모델을 조합한 후 그 구조의 에너지를 측정하여 주어진 서열과 그 조합된 모델이 얼마나 잘 일치하는가를 본 워싱턴대의 베이커 교수팀이 좋은 성과를 보였다. 현재의 단백질 구조규명 속도로 보면 5 년 이내에 인류는 자연에 존재하는 거의 모든 단백질조각 구조를 알게 될 것이고, 쓰레딩을 사용한 단백질 인식법이 매우 중요해 질것이다. 쓰레딩은 블라스트 (Blast) 같은 단순한 서열검색을 통한 구조예측보다는 훨씬 시간이 오래 걸리므로 보다 빠른 컴퓨터와 네트워크가 필요하다.
3) 단백질구조 분류: 단백질은 수가 많고 다양하지만 약 10,000 개 미만의 독특한 모양을 가진 조각들로 (Domain) 되어있다. 이 10,000 개의 조각을 잘 분류하면 단백질의 진화와, 구조 예측, 응용 개발에 중요한 단서를 제공할 수 있다. SCOP, CATH, FSSP 등은 가장 대표적인 분류 데이타베이스인데, 이 들은 앞으로도 아주 중요한 약품개발의 자료가 될 것이다.
4) 단백질 데이타베이스: 단백질의 구조 규명이 느리기 때문에, 아주 극소수의 단백질구조만이 알려져 있다. 그러므로, 단백질 서열의 기능을 잘 설명해 놓은 데이타베이스가 필요할 때가 많다. PIR, TREMBL 과 SWISSPROT 등이 이런 목적으로 만들어 진 것인데, 특히 Swissprot 은 수 십명의 생물학자가 직접 논문을 읽고 분석 정리하여 단백질의 기능들을 적어 놓은 것이다. 이 밖에도 많은 다른 단백질 데이타베이스가 있는데, 특히 단백질 조각(domain)들을 정리해놓은 것들이 많다 (prosite, Pfam, 등). 이 들중 앞으로 매우 중요한 것으로는 모든 단백질간의 비슷함을 정리해놓은 PairsDB 라는 것이 있다. 데이타베이스의 종류는 보통 단순한 ASCII 파일과 릴레이셔널 (relational) 데이타베시스가 많이 쓰이는데, 강력한 릴레이셔널 데이타베이스가 미래에는 아주 중요하 역할을 할 것이다. 불행히도, 아직 생정보학의 요구를 만족시키는 것이 없다. 현재 IBM, Oracle, HP, Sun, 등의 큰 컴퓨터 회사가 생정보학의 방대한 정보를 겨냥한 데이타 처리에 큰 관심을 나타내고 있다.
2.DNA 구조 와 서열의 관계규명 (DNA 의 구부러짐, DNA 의 2차적 구조 (secondary structures of DNA) 과 단백질 서열처리.
DNA 는 아주 긴 분자인데, 대체로 일정한 이중 나선구조를 가지고 있다. 그러나 서열의 차이에 따라서 여러 가지 기능을 가질 수 있고, 이는 미세한 구조적 변이에서 비롯된다. 예를 들면 promoter 등의 부분은 유전자가 발현하는데 필수적인 역할을 한다. 이러한 구조적 서열적 차이 분석하는 많은 알고리듬 들이 있는데, Hidden Markov Model (HMM) 을 통한 연구가 1990 년대 부터 활발하게 진행되고 있다. 이것은 DNA 내부의 구부러짐, 반복되는 서열, 숨겨진 주기성 등을 분석하는데 쓰인다. 또 일단 규명된 DNA 서열을 보고 그 속에서 단백질서열을 가려내는 대도 HMM 이 주로 쓰인다 (예를 들면, genscan ). 아직도 단백질 서열을 찾아내는 것은 매우 정확도가 낮고 더 낳은 알고리듬이 있다면 유전체 프로젝트에 크게 기여 할것이다. DNA 서열이 밝혀지고 단백질 서열들이 예측되고 나면 그 다음에 많이 쓰이는 기술이 이 단백질들의 연관간계를 생정보학적으로 추측하는 깃이다. 이를 위해서 Dynamic Programming 이 흔히 쓰이고 이것을 더 효율적으로 구성한 제 2 세대의 검색알고리듬이 많이 쓰인다. PSI-BLAST 나 HMM 중의 하나인 SAM-98,99,2000, ISS (Intermediate Sequence Search) 등의 방법들이 가장 앞선 개념들을 사용한 것들이다. 이런 알고리듬에 필수적으로 들어가는 것이 아미노산의 관계행렬이다. 좋은 행렬을 만들기 위해서는 단백질서열을 정확하게 정렬 (alignment) 하는 것이 필수적인데, 아직까지도 좋은 정렬방법이 없는 상황이다. (ClustalW 는 가장흔히 쓰인 프로그램중의 하나다). 일단 만족할 마난 정렬을 만들면, 그 것들을 통해서 ‘Profile’ 이나 ‘HMM model’ 을 만들 수 있는데, 이것들이 바로 새로운 서열들을 찾는데 큰 역할을한다. 그래서 미래에는 이런 Profile 데이타베이스들이 서열 데이타베이스보다 더 중요하게 될 것이다.
3.유전체 구조 연구
유전체도 하나의 언어체계처럼 문법을 가지고 있고 모든 단어(유전자와 여러 가지 변수들)들이 유기적으로 결합되어 있다. 그러므로 세균 하나를 이해하려면 이런 구조적 측면의 연구가 필요하다. 그래서 최초의 세균 유전체가 발표된 1995 년에 몇 개의 연구소에서 유전체 전체의 구조를 단백질의 분석을 통한 연구결과를 발표했다. 이는 현재 비교유전체학 (comparative genomics) 라고 불리어지는데 유전자들간의 상호작용을 수학적으로 모델링하여 그 네트워크를 분석하려는 것에서 부터, 모든 알려진 단백질을 일대일로 비교 검토하여 두 유전체를 비교하는 방법에 이르기 까지 매우 다양한 시도들이 있다. 여기에는 촘스키의 문법론을 사용하는 언어학적 방법들과 (Searls), 전자산업에 사용되는 여러 네트워크 기술들, 생명공학에 사용되어져 온 화학적 원리 등이 많이 쓰인다. 최근에는 베이지안 네트워크, 인공신경, 인공면역체계 같은 인공지능 분야의 기술들이 많이 도입됐다. 이미 1970 년대에 적혈구의 모든 대사를 모델링한 결과가 있었다. 하지만 유전체 자체의 구조적인 이해가 없기 때문에, 근본적으로 어떻게 유전자들이 서로 연락하며 생명체를 이루는가는 밝혀지지 않았다. 흔히 보이는 연구들은 왜 어떤 유전자들이 서로 모여있고 어떤 DNA 구조가 어떻에 유전자의 발현에 영향을 미치는가 등이다. 발디 (Baldi), 부르낙(Brunak) 등의 연구자들이 인공신경이나 HMM 등을 통해 세균의 유전체에 관애 연구하고 있다. 최근에는 전산학이 기본기술중의 하나인 그라프 이론 (graph theory)를 이용한 연구가 활발하다 (Kanehisa, Japan).
4.RNA 구조 규명 예측
RNA 의 구조형성은 너무나 어려운 문제라서 아직 많이 알려져 있지 않다. 이는 보통RNA 분자들이 단백질보다 훨씬 크기 때문이다. 쭈커 (Zuker) 와 에디 (Eddy) 같은 사람들이 RNA 가 어떻게 접혀지는가에 생정보학적인 알고리듬을 개발하고 있고, 최근에는 가짜묶임 (Psdudo-knot) 을 찾을 수있는 방법을 개발했다. 이것은 아직까지도 삼차원적인 RNA 구조의 예측이 얼마나 어려운 것인가를 말한다. 더 심각한것은 RNA 는 단백질보다 수정화가 (crystallization) 어렵기 때문에, 생정보학에 필요한 기본 구조적 데이타가 매우 부족한 상황이다. RNA 가 세포내에서 중요한 역할 들을 하기 때문에 언젠가는 강력한 컴퓨터와 정확한 알고리듬으로 구조예측을 해야만 한다. 예를 들면 인간 여성의 한 X 염색체를 완전히 마비 시킬 수 있는 유전자는 Xist 라는 RNA 이다. 그 크기가 18,000 염기나 되기 때문에그 구조를 전산적으로 예측한다는 것은 매우 어렵다. RNA 는 서로 짝을 알고 있는 염기들로 되어있기 때문에, 이 차원적 시각화가 단백질보다도 용이하다. 그래서, HIV 의 유전체 전체를 이차원적으로 표현할 수 있는 프로그램이 개발되어 있다 (한경숙, 인하공대). 여기에는 전산학의 Layout 알고리듬 등이 쓰이는데, 이 시각화 분야도 매우 중요한 미래의 생정보학이다. Layout algorithm 은 생물학적 네트워크와, 그라프 (graph), 자료의 시각화에 많이 쓰인다.
5.단백질, DNA, RNA, 와 다른 분자들관의 구조적 상호작용
생정보학의 가장 큰 미래 과제가 바로 여러 분자들이 유전체와 세포내에서 어떻게 유기적으로 상호 작용을 하는가를 연구하는 것이다. 이것은 바로 생명체의 본질이 무엇인가라는 질문과 직결된다. 현재 많은 새 생정보학자들이 이 문제에 뛰어들기 시작했는데 실험데이타가 너무 작아서 아직도 큰 성과가 없다. 최근에는 질량분석기(Mass Spectrometer), Yeast 2 Hybrid sytem 등을 사용한 단백질의 상호작용분석이 가능해지고 있다. 상호작용의 핵심은 삼차원 구조들간의 물리적 접촉과 유전자들 간의 진화적 접촉 두 가지이다. 구조연구를 통해 물리적 접촉을 연구하는 방법 (PSIMAP) 이 최근에 개발되었고, 이는 단백질의 진화적인 접촉의 이해에도 도움이 된다. 또 단순히 서열만을 연구함으로 해서 단백질이 상호 작용을 예측할 수 있는데, 이는 유전자 융합 (fusion) 을 응용한 것이다. 이 생각에 바탕을 두고 이미 생정보학 회사가 미국에 만들어졌는데, 문제는 서열상의 상호작용은 효소와 같은 특정한 단백질에 적용되고 실제의 물리적 상호작용의 검증이 필요하다. 진화적인 측면의 단백질 상호작용은 일본의 KEGG 같은 생물학적대사 데이타베이스에서 찾아 볼 수도 있다. 이는 두 단백질이 하나의 매개물(substrate) 을 사이에 두고 서로 간접적으로 어떻게 상호작용 하는가를 연구하는 것이다. 현재 약 5 개정도의 팀들이 단백질-단백질간의 상호작용을 연구하고 있고 이미 몇 개의 데이타베이스가 인터넷에 올려져있다 (MIPS Germany, DIP Eisenberg UCLA 등). 단순한 데이타베이스에서 그라프이론 등을 통한 분석연구가 최근 발표 되었는데, 생물학적 상호작용 네트워크가 인터넷과 비슷한 Scale-free 네트워크란 결과가 있다. 단백질과 DNA의 상호작용데이타베이스 (Dpinteract) 는 유전자 조작의 중요한 정보를 제공한다. DNA 는 단백질의 중요한 리건드(ligand) 인데 이 두 분자의 접촉을 통해 유전자의 제어가 이루어진다. 특정한 단백질은 특정한 DNA의 부분에 결합하는데 이 두 분자는 유기적으로 진화를 하기 때문에 어느 한쪽을 통해서 다른 분자의 기능을 알수 있을 때가 많다. 예를 들면 한 DNA 결합단백질 가족들을 연구 함으로써 어떤 DNA 서열이 어떠한 제어를 하는가 하는 것 등을 알 수가 있다. 그래서, DNA 결합단백질과 단백질결합 DNA 의 데이타베이스들이 만들어 지고 있는데, 이는 아주 중요한 상업적 가치를 지닐 수 있고, 이미 회사들이 존재하고 있다. RNA 와 단백질, RNA와 DNA 의 상호 작용은 특정한 규칙이 없어 생정보학의 방법개발이 매우 어려운 경우에 속한다. 이것은 생정보학이 항상 적정한 수준의 컴퓨터로 처리할 수 있는 자료에 기반을 두고 자동적 전산처리가 가능한 문제들에 장점을 가지고 있기 때문이다. 또 여러 가지 화학물질 들과 유기적 분자의 상호작용은 화학정보학의 (chemoinformatics) 분야이기도 하며 이미 그러한 데이타베이스 들이 있다