생정보학의 역사
생정보학의 역사 (Brief history of bioinformatics)
생정보학의 역사는 크게 두가지 관점에 따라 서술될수 있다. 하나는 생정보학이 추구하는 정보처리학적인 관점에서 멘델의 유전법칙과 다윈의 진화론이 정립되는 1850년대에서 부터 그 시초를 잡는 것이다. 다른 하나는 1995년 경이다. 이때 인터넷의 보급이 확산되면서 많은 개개의 연구자들이 컴퓨터를 통해 대량의 정보를 교환하고 연구하기 시작했기 때문이다.
생물학의 어원 (etiology of biology)
생 물학(Biology)란 말은 에스토니아 출신의 의사인 칼 프리드리히 부르닥이 1800년에 만든 말이다. 그리스의 βίος (bios, 삶), 과 λόγος (logos, 학문)을 합쳐서 만든 말이다. 2년뒤에 Gottfried Reinhold Treviranus (Biologie oder Philosophie der lebenden Natur, 1802) 와 Jean-Baptiste Lamarck (Hydrogéologie, 1802)도 같은 말을 썼다. 최초의 biology라는 말이 기록에 남은 것은 1766년의 Michael Christoph Hanov의 Philosophiae naturalis sive physicae dogmaticae: Geologia, biologia, phytologia generalis et dendrologia 이다.
생물학의 역사
흔 히들 영국 케임브리지의 키즈대학출신의 월리엄 하비의 연구를 현대생물학의 기원으로 많이 인용을 하는데, 이것은 그가 치밀하고 과학적인 접근법으로 혈액순환을 묘사했기 때문이다. 1650년대에 레벤후크의 현미경을 사용한 관찰이 시작되므로해서 미생물학이 탄생하게 된다. 1750년대에는 린네의 계통학이 등장하게 된다. 이것은 생물을 수집하고 그것들의 계통을 그리는 것이 생물학의 주류였다는 것을 뜻한다.
1800년대의 생물학의 의미는 동물의 내장, 기관등을 연구하는 기능적이고 물질적인 성격이 강한 것이었다. 그것이 현대에 와서는 분자수준의 정밀한 과학으로 발전을 했고, 최근에는 정보처리학의 개념이 들어가서 하나의 거대한 종합과학으로 자라게 되었다. 생물학은 분자나 세포간의 네트워크를 연구하게 되었고 그런 분야의 핵심이 생정보학이다.
생 정보학의 역사를 찰스 다윈(Charles Darwin)부터 생각한 이론 생물학에 근거를 두면, 중요한 연구들이 영국의 케임브리지에서 행해졌다. 1950년 1960년대에 케임브리지의 케븐디쉬 물리학 연구소의 막스퍼룻쯔(Max Perutz)라는 유태인과 존 켄드류(John Kendrew)라는 영국사람이 헤모글로빈과 마이오글로빈이라는 단백질들의 구조를 엑스선(X-ray)를 사용하여 밣혀내다. 그때 그들이 발견한 놀라운 사실은 위의 두 단백질의 서열은 매우 차이가 많이 나는데도 (대략 10% 정도의 동일한 아미노산 성분), 그 둘 사이의 구조가 너무나도 똑같았다는 것이다. 이것은 단백질의 구조는 몇천만년동안 거의 변하지 않았지만 그 단백질의 구조를 결정하는 서열은 그 동안 많은 변이를 일으킨다는 뜻이다. 이 사실은 아직도 생정보학에서 매우 중요한 사실 중의 하나이다. 이 사실 때문에 현재의 서열검색용 블라스트(Blast)알고리듬이나 파스타(Fasta)와 같은 컴퓨터 알고리듬을 써서 상동성(homology)이 많은 단백질 서열들을 찾는 작업을 하고 그로부터 많은 생물학적 정보를 뽑아낸다. 상동성은 단백질들이 서로 한 조상에서 왔다는 것을 뜻한다. 일단 서열상에서 상동성이 있다는 것이 확인 되면, 구조가 흡사할 것이라는 것이 거의 확정적이기 때문이고, 구조가 같으면, 기능이 같을 확률이 높기 때문이다.
상동성(Homology)
상동성은 생물학에서 매우 중요한 개념이다. 간단하게 말하면, 두개의 생물학적 객체가 서로 친족관계를 가지고 있다는 뜻이다. 이것의 거시적 예로, 아프리카인과 한국인이 서로 친족관계가 있기 때문에 생물학적으로 상동성이 있다고 말할수 있다. 또, 두개의 단백질이 수억년 전에 분화를 했지만, 하나의 조상에서 나왔다는 것이 증명이 되면, 두개는 서로 상동관계가 있다고 말할수 있다. 영어로는 서로 homologous하다고 한다. 상동성은 닮은꼴(analogy)와는 다른 것이다. 이것은 1843년에 리차드 오웬이라는 사람에 의해 확실히 구분되는 개념으로 정착되었다.
구조적 상동성(Structural homology)
막 스 퍼룻쯔와 켄드류는 이러한 상동성을 구조적으로 확인할 수 있었고, 구조가 비슷하면 아무리 서열이 달라보여도 똑같은 조상에서 나왔다는 것을 증명할 수 있다는 것을 확인했던 것이다. 생물학에서 단백질은 가장 중요한 분자이고, 생정보학의 역사는 단백질 구조와 서열의 분석분야에서 정립이 되었다. 막스 퍼룻쯔이후 많은 영국, 미국, 독일, 일본인들이 구조를 해석해 내었고, 그 구조들을 분석하기 위해 컴퓨터가 필요하게 되었다. 초기 단백질의 구조는 사람손으로 조그만 자동차만한 구조를 직접 만들기 까지 했다. 또, 케임브리지에 있던 아서 레스크라는 사람은 막스 퍼룻쯔의 단백질을 2차, 3차원적으로 그리기 위해 컴퓨터 프로그램을 만들었으며, 아마 그것이 최초의 전산시각화 작업이었을 것이다.
DNA 의 정보저장 복사 모델 (Information replication by DNA)
이 때쯤에, 같은 케임브리지에 있던 프란시스 크릭과 제임스 왓슨이 런던대학에서 윌킨스와 로잘린 프랭클린으로부터 훔친 DNA 엑스레이 사진정보를 바탕으로 DNA구조 모델링을 한다. 디엔에이구조 모델링은 생정보학의 한 좋은 예이다. 그 모델을 통해서 어떻게 정보가 지속적으로 저장되고 복사되는지에 대한 착상들이 확정적으로 나오게 된다. 1953년 크릭의 논문에서도 이점이 강조된다. 이 때부터, 크릭은 생명현상의 이론적 기틀을 잡기 시작했고, 많은 실험을 통해서 정보가 어떻게 흘러가는지에 대한 많은 기여를 하게 된다. 그 과정에서 생물학에서의 정보흐름의 도그마 (dogma)란 말을 쓰게된다. 그러나, 사실 이것은 크릭이 도그마란 말의 정의를 잘 모르고 실수로 붙인 말이다.
생물정보의 흐름 (BioInformation flow): 도그마인가 아닌가?
생 물학은 절대적인 종교와 같은 개념을 인정하지 않고, 또 그런 도그마는 과학에는 존재하지 않는다. 뒷날 크릭이 이것을 그의 책에서 실수를 인정하는데 그는 정보가 한 방향으로 흐른다는 것을 말하고 싶었던 것이다. 도그마란 말은 종교적인 말로 절대 바뀔수 없는 철칙을 말한다. 저자는 현대 생물학자로서, 생물학적 정보는 한 방향에서 흐르는 것이 아니라 서로 네트워크를 형성하면서 복잡한 회로를 형성한다고 생각한다. 이런 시각이 1990년대 말 이후부터의 생물계학(Systems biology)나 망생명학(Network biology)같은 말로 표현되고 있다.
구조생물학의 역할 (Structural Biology)
크 릭과 왓슨이 디엔에이 모텔링으로 노벨상을 받고, 퍼룻쯔와 켄드류가 단백질 구조로 노벨상을 받았으며, 이때 옥스포드에 방문연구자로 왔었던 미국인 라이너스 폴링은 막스 퍼룻쯔의 세미나를 케임브리지에서 듣고, 알파 헬릭스, 베타 판이라는 단백질 구조의 기본 구조에 관한 정보를 훔치게 된다. 훔쳤다고 말하는 이유는, 단백질 구조가 밝혀졌기 때문에, 알파나선이나, 비타편 구조는 막스퍼룻쯔랩에서 이미 알고 있었고 보고를 앞두고 있었는데, 폴링이 그들의 공을 전혀 인정하지 않고 독단적으로 발표했기 때문이다. 후에 폴링은 단백질 2차구조들에 관한 논문을 써서 노벨상을 받는다. 이로 인해, 단백질과 디엔에이의, 생물학의 가장 중요한, 구조들이 1960년 전후에서 확정된다. 이 시기가 구조 생물학의 태동이고, 생정보학의 핵심이 형성된 때이다. 구조 생물학은 그 이후 현대 생물학의 가장 중요한 위치를 차지하고 많은 노벨상을 배출한다. 이러한 구조생물학과 그에 따른 이론생물학(theoretical biology)이 정밀한 생물학의 하나로 자라고 있을때, 생화학 계열에서의 큰 도움이 프레드 생어(Sanger)라는 연구자에 의해 오게 된다. 현대 세계에서 가장 큰 생정보 데이타 생산기관이 영국 케임브리지의 생어센터이다 (http://sanger.ac.uk).
단백질과 DNA의 서열정보 해석법 발명
케임브리지는 1920년대에 최최의 생화학과를 만들었고 화학과 더불어 많은 원천기술개발의 배경을 가지고 있었다. 생어는 크릭과 왓슨과 비슷한 세대의 사람으로서 케임브리지에서 학부를 하고 막스퍼룻쯔가 만든 케임브리지의 MRC 센터에 일하게 된다. 그는 인슐린(Insulin)의 단백질 서열을 화학적인 방법으로 해독해냈다. 그로 인해 한개의 노벨상을 받았다. 그 뒤, DNA로 관심을 돌려, 지금도 그의 이름을 딴 생어센터에서 쓰는 생어의 DNA염기 해독법을 만들어서 2번째의 노벨상을 받았다. 그는 매우 겸손하고 진실한 과학자로 소문이 나 있고 외부사람들과 거의 접촉을 하지 않고 순수한 과학연구에만 몰두해서 그를 아는 사람으로부터 많은 존경을 받는 사람이다. 그가 최초로 DNA서열을 해독할수 있게 되자 생물학은 더 이상 물질적인 학문이 아니라 많은 서열을 다루어야 하는 정보처리학으로 진입하게 된다. 그는 컴퓨터 프로그래밍을 잘하는 사람을 고용하여 최초의 서열 분석 프로그램들을 만들게 된다. 어떻게 보면, 생어가 가장 실용적인 부분의 생정보학의 창시자라고 할수 있다. 로져 스트던 이라는 사람이 그와 함께 많을 일을 했고, Staden 패키지라는 것이 있을 정도였다.
생어에 의한 유전체학 (Genomics) 의 탄생
생 어가 DNA서열 해독방법을 찾아내고 최초로 한것이 유전체학(Genomics)이다. 그는 바이러스의 완전한 서열을 해독하고 그것을 1970년대에 MRC 센터의 저널이었던 Journal of Molecular Biology (JMB)에 발표한다. 이것은 파이 174라는 약 5000개의 염기를 가지는 바이러스였다. 이것이 최초의 유전체였으며, 최초의 유전체학자는 생어인 셈이다. 그 직후, 생어는 또다른 완전한 게놈을 해석하는데, 그것은 약 16,500여개의 염기를 가지는 마이토콘드리아(mitochondria) 유전체였다. 마이토콘드리아는 endosymbiosis를 통해 진핵생물의 세포에 있기 때문에, 생존에 필요한 모든 유전자를 가지고 있지 않다. 그러나, 몇개의 RNA서열과 13개의 단백질 서열을 가지고 있다. 생어가 유전체를 해석하고 나서 가지게 된 큰 질문이 하나 있다. 이것은 2006년 현재에도 생물학자들이 정확한 답을 가지고 있지 않은데, 바로, 몇개의 단백질이 세포내에 실제 존재하는가라는 질문이다.
생어에 의한 단백체학(Proteomics)의 탄생
유 전체내의 모든 유전자가 다 발현이 될지 조차도 1970년대 당시에는 확실치가 않았다. 그래서, 생어는 세포를 깨어서 모든 단백질을 찾는 작업을 본격적으로 시작한다. 이 과정에서 그는 단백질의 서열을 그의 방법으로 해독하고 그것을 X-ray를 통해서 삼차원 구조를 밝히는 작업을 평생하게 된다. 생어가 단백질의 발현여부를 모두 확인하기 위해서 세포내의 모든 단백질 동정을 하는 것을 한마디로 표현하면 단백체학(Proteomics)이다. 이때, 이 작업을 하기 위해 존워커라는 사람이 채용되었는데, 1997년에 ATP synthetase의 삼차원 구조를 밝혀내어서 노벨상을 받는다. 현제 존워커는 노벨상이후, MRC-DUNN이라는 연구소를 설립하고 생물 에너지관련 단백질들을 질량분석기를 가지고 연구하고 있다. 그가 현재 연구하고 있는 새로운 단백질은 Complex 1이라는 것으로 이세상에서 가장 중요한 단백질 덩어리라는 별명이 있을 정도로 생명체의 에너지 대사의 기본이다. 이것은 일종의 펌프인데, 전자를 세포막의 다른쪽으로 퍼내는 역할을 해서, 세포가 에너지를 바테리처럼 저장할수 있게 해준다.
존워커처럼 단백질을 하나씩 발견해나가면 궁극적으로는 세포내의 모든 단백질의 정체를 알수있게 된다. 그렇게 되면, 필요한 것이 그것들을 잘 정리해 놓은 파일 혹은 데이타베이스이다. 또, 염기나 단백질의 서열들이 대량으로 많이 생산되게 되면, 자연히 그것을 모아둘 큰 데이타베이스가 필요해진다. 커다란 데이타베이스들이 만들어지면, 그것을 검색할 검색알고리듬도 필요하게 된다.
생정보학의 대두: 1995년
이러한 데이타베이스구축 및 검색등을 할 필요성이 1995년에 크게 대두되었다. 이것은 이때에 와서야, 유전체해석과 단백체 해석이 어느정도 대용량화 되었기 때문이다. 1995년 Haemophilus influenzae라는 병원성 유전체가 발표되었는데, 이것은 최초의 독립적 세균의 유전체였다. 이런 유전체의 서열이 완전히 해석되고 나면, 그속에서, 다음과 같은 질문들을 할수가 있다.
1. 총유전자가 몇개인지 추정
2. 유전체내에서 몇 퍼센터가 단백질이고, 나머지는 다른 기능을 하는가?
3. 단백질이라고 추정되는 것중에서 서로 비슷한 것들이 얼마나 많은가?
4. 해석된 유전체와 비슷한 다른 유전체와 비교를 하면 어떤 재미있는 결과가 있는가?
5. 그 유전체내에 특이한 유전자를 발굴해 신약을 개발할 것이 있는가?
6. 그 유전체의 서열을 사용하여 바이오칩을 만들어서 의료적 진단과 치료에 쓰일수 있는가?
7. 유전체 전체를 시각화, 활용화 하는 프로그램을 개발할수 있는가?
생정보학은 위와 같은 질문들에 답을 하는 분야라고 할수 있다.
이 때, 한가지 중요한 사실은 위와 같은 생물학적 발전뿐만 아니라, 1990년대 부터 시작된 인터넷의 생물학 전파가 매우 큰 영향을 미쳤다. 이 당시, 몇몇 생정보연구기관과 연구가들이 인터넷을 사용하여, 웹서버를 운영하기 시작했고, 생명정보는 IT기술의 인프라를 통해 급속히 활용되어 나가기 시작했다. 이때, Linux, GNU, Perl, BioPerl 등과 같은 열린 방식의 정보및 프로그램 교류의 유행이 전파되었다. 그래서, 생정보학쪽은 IT보다도 더 정보의 교환이 자유롭고 많은 분야이다.
인간유전체사업완성과 생정보학 (Human genome project and Bioinformatics, 1990-2003)
2003 년 4월 11일, 영국의 생어센터와 미국의 DOE (department of energy)와 국립보건원(NIH)등이 13년간의 인간유전체프로젝트의 결과를 발표했다. 최초의 완성된 크로모좀22번이 생어센터에서 1999년에 완성된후 4년만의 일이었다. 2000년 6월 25일에는 최초의 인간유전체 초본 (working draft)가 미국의 빌클린튼 대통령과 영국의 토비블레어 수상에 의해 발표되었다. 인간유전체지도 및 모든 서열의 완성은(사실은 완벽한 완성은 2006년 현재 아직도 끝이 나지 않았다), 인간의 생물학연구에서 하나의 큰 이정표이다. 여기서, 실질적으로 생정보학의 기여는 막대하다. 생정보학이 없었거나, 컴퓨터가 없었으면, 인간유전체사업은 불가능했을 것이고, 앞으로도 불가능 할것이다.