Residue contact prediction을 통한 단백질 구조예측
Date 2017-04-01 16:17:08 페이스북으로 보내기 트위터로 보내기 hit 1,504
서주현
교수
선문대학교 BT융합제약공학과
jhseo@sunmoon.ac.kr

1. 왜 단백질 구조 예측이 필요한가?


예를 들어, 우리가 환경 샘플로부터 새로운 효소를 찾았고, 이를 만드는 유전자를 클로닝하였다고 가정하자. 혹은 BLAST search 등을 통해 데이터베이스로부터 연구할 만한 단백질 서열을 찾았다고 가정하자. 유전자 서열로부터 단백질 서열을 만들던 (translation using standard codon usage), 혹은 단백질 서열을 이미 가지고 있던지간에, 단백질 서열에는 단지 어떠한 아미노산들이 어떤 순서로 연결되어 있는지 이외에는 아무런 정보가 없다. 따라서, 단백질 서열만 가지고는 우리는 어떤 잔기가 반응에 참여하는 잔기인지(catalytic residue), 어떤 잔기가 활성부위를 구성하면서 기질인지나 조효소 인지에 참여하는지 혹은 활성부위의 전기화학적 환경을 구성하고 있는지 (active site residue) 등의 정보를 알 수 없다(그림 1). 어떤 잔기가 중요한 잔기인지 알기 위해서 사용할 수 있는 방법 중에 하나는, 단백질의 구조를 실험적인 방법을 통해서 알아내거나 혹은 이론적인 방법으로 예측한 다음, 각각의 잔기가 공간 상에서 어떤 위치에 존재하고 그 역할은 무엇인지 분석하는 것이다. 구조를 실험적으로 알아낼 때는 crystal을 만들어 X-ray diffraction pattern을 분석하거나 NMR을 찍어서 구조를 알아내거나 혹은 단백질 구조 예측법을 사용한다. 실험적으로 구조를 밝히는 작업은 때때로 막대한 시간과 노력(경우에 따라 운)등이 필요하다. 이론적으로 구조를 예측하는 것은 실험적인 방법보다 정확성은 떨어지지만 빠른 시간 안에 대략적인(혹은 연구 목적을 충족할 정도로 정확한) 구조를 볼 수 있다는 장점이 있다. 특히, 단백질 구조 예측법 중 Homology modeling의 경우, 목적 단백질의 구조를 예측함에 있어 매우 높은 정확성을 보여주기 때문에, 경우에 따라 쉽고 정확하게 단백질의 구조를 만들어 낼 수 있다. 따라서, 어떤 잔기가 중요한 역할을 할 것인지 등의 정보를 빠르게 알아낼 수 있다는 장점이 있다.

 

a5450f1b8c0eac32cbfbcfdd4991b117_1491030191_6325.jpg

 

그림 1. 단백질 서열을 계속 들여다 보면 동공이 풀리기 시작한다

 

2. 기존의 단백질 구조 예측의 방법들


2.1 De novo prediction


기존의 많은 연구들을 통해 단백질 구조를 예측을 위한 다양한 방법들이 개발되어 왔다. 첫번째 방법은 De novo prediction 법으로써, 물리학적인 법칙들(energy function)만 사용하여 계산을 통해 단백질의 3차원 구조를 예측하는 방법이다. 이 방법의 장점은 선험적인 지식(예를 들어, 유사 단백질의 X-ray 혹은 NMR 구조)이 없이도, 목적 단백질의 구조를 예측할 수 있다는 점이다. 그러나, 단백질을 구성하는 잔기의 수는 수백에서 수천까지도 될 수 있기 때문에, 많은 잔기로 이루어진 단백질의 구조를 예측하기 위해서는 막대한 계산량을 소화할 수 있어야 한다. 이를 위해 Folding@Home 이나 Rosetta@Home 등의 프로젝트도 수행되고 있지만, 아직도 de novo prediction 법은 그 정확성이 떨어진다. 필자가 예전에 개인적으로 전해들은 이야기에 따르면, 잔기 수 100개 미만인 단백질에 대해서는 어느 정도 정확하게(대략적인 resolution 값으로 8~10Å 일 것으로 생각된다) 구조예측을 할 수 있지만, 그 이상의 잔기수를 가지는 단백질에 대해서는 de novo prediction을 사용한 구조 예측은 부정확하다라고 들은 적이 있다. De novo prediction 법이 더욱 정확해지기 위해서는, 1) 더욱 정확한 energy function이 필요하고, 2) 막대한 양의 conformation의 경우의 수를 효율적으로 탐색할 수 있는 탐색 기법이 필요하며, 3) Decoy set(전체 모양은 유사하지만, 부분적으로 다른 구조들의 집합)에서 native-like structure를 골라낼 수 있는 기술 등 에 대해 큰 발전이 이루어져야 한다.

 

a5450f1b8c0eac32cbfbcfdd4991b117_1491030312_8347.jpg 

 

그림 2. Fold recognition (혹은 threading) 법의 대략적인 원리

 

2.2 Fold recognition(혹은 threading)


네모를 억지로 세모모양 틀에 억지로 끼워 넣으면 네모는 상당히 괴롭다. 그러나 네모를(크기가 다소 안맞더라도) 네모모양 틀에 끼워 넣으면 네모는 조금 불편할 뿐이지 괴롭지는 않다. 우리는 네모를 눈으로 볼 수 있기 때문에 네모인지 아는 것이지, 만약 어두운 곳에 있다면 우리는 네모를 순차적으로 여러 모양의 틀에 끼워 넣어보고 나서 네모에게 “불편하니?”라고 매번 물어봐야만, 네모가 네모모양 틀에 들어갔을 때 “뭐 그럭저럭 괜찮아”라고 대답하는 것을 듣고 네모가 네모모양으로 생겼을 것이라 유추할 수 있다. Fold recognition(혹은 threading)은 이와 비슷한 원리를 이용하여, 구조를 모르는 단백질 서열을 각각의 fold를 대표하는 단백질 구조에 그대로 입혀본 뒤, 어떤 구조에 입혔을 때 가장 낮은 에너지를 가지는가를 계산하여 단백질 서열의 fold 혹은 구조를 예측한다(그림 2). 여기서 얻어지는 가장 낮은 에너지를 갖는 구조는 우리의 단백질 서열과 같은 fold를 가질 것으로 예측된 구조이므로, 이를 추후에 homology modeling을 위한 template 구조로 사용할 수 있다.

 

2.3 Homology modeling(혹은 comparative modeling)


두 개의 단백질 A와 B가 있다고 가정하자. A는 구조가 알려져 있고, B는 구조를 모른다. A의 서열과 B의 서열간의 서열 동일도(sequence identity)는 95%라고 하자. B의 구조는 어떻게 생겼을까? 두 단백질의 서열이 95%가 같다고 하면, 이 두 개의 서열은 정렬해보았을 때 거의 모든 잔기가 정렬이 되고 몇 개만 다를 것이다. 따라서, 단백질을 조금이라도 공부해본 사람이라면, B의 구조가 어떻게 생겼을까라고 묻자마자 “A와 거의 같을 것”이라고 답할 것이다.
위와 같은 접근법이 가능한 것은 진화 상에서 서로 간에 갈라져 나온 지 얼마 되지 않은 단백질들은(서열 동일도가 이것을 말해줌), 구조가 아직 달라지지 않았고 매우 유사하다는 생물학적 관찰이 있기 때문이다. Homology modeling은 이러한 사실에 기반하여 단백질의 구조를 예측하는 방법이다. 위에서도 이야기 한 바와 같이, 구조가 알려져 있지 않은 단백질(query protein)의 구조를 homology modeling을 통해 예측하기 위해서는, 1)구조가 알려진 단백질 중 query protein의 서열과 매우 유사한 단백질을 먼저 찾아서 (template 찾기), 2) template와 query protein의 서열을 alignment 한 후, 3)alignment를 바탕으로 하여, query protein의 구조를 template과 매우 유사하도록 만드는 방법의 순서로 구조예측을 진행한다(그림 3).

 

a5450f1b8c0eac32cbfbcfdd4991b117_1491030685_4783.jpg

 

그림 3. Homology modeling의 대략적인 방법 (그림 출처: [1])

 

Template을 찾는 단계에서, 구조가 알려진 단백질 중에서 query protein과 서열이 유사한 단백질이 없을 경우(연구자들에게 경험적으로 받아들여지는 template 선정 기준은 서열 동일도 30% 이상이다), fold recognition 법을 사용하여 template을 선정할 수도 있다.

 

3. Contact prediction
최근 Science에 Contact prediction을 이용한 단백질 구조 예측에 관한 논문이 발표되었다. 논문을 발표한 그룹은 University of Washington의 David Baker 그룹(단백질 구조 예측과 단백질 설계에 있어서 세계적인 그룹이다)이고, 제목은 “Protein structure determination using metagenome sequence data”이다[2]. 왜 metagenome sequence data 일까? Metagenome이면 서열만 알려져 있고 구조는 알려져 있는 것이 없을텐데…무슨 의미일까? 이 논문에 실려 있는 참고문헌 중의 하나를 살펴보면 제목이 “Genomics-aided structure prediction”이라는 논문이 있다[3]. 단백질 서열을 많이 모으면 구조예측에 매우 도움이 된다는 이야기처럼 들린다.
단백질 구조를 예측하기 위해서는 사실 어마어마한 양의 계산이 필요하다. 위에서 설명한 기존의 단백질 구조 예측법 중 de novo prediction 같은 경우는 가장 많은 계산양을 필요로 한다. Backbone chain의 φ angle과 ψangle 뿐만 아니라 residue의 conformation까지, 정확한 fold를 예측하기 위해서는 어마어마한 양의 경우의 수를 계산하여야 한다. De novo prediction의 한 종류인 fragment library(secondary structure를 가지는 fragment를 먼저 예측하고 이들을 모아 fold를 예측한다)를 이용하는 방법 또한 성공적이지 못한 것은 마찬가지이다[4]. 따라서, 만약 이러한 경우의 수를 줄여줄 수 있는 constraint를 줄 수 있다면 그 계산양이 대폭 줄어들 수 있다. 그렇지만, homology modeling의 경우와 달리 de novo prediction의 경우에는 참고할만한 단백질 구조가 없는 경우가 대부분이기 때문에, backbone chain이나 residue conformation에 대해 주어지는 마땅한 constraint(혹은 spatial restraint)가 없다. 따라서, 유사한 구조로부터 주어지는 constraint가 아닌, 단백질 서열로부터 constraint를 추출하여 이를 사용하겠다는 것이 family sequence alignment를 기반으로 하는 residue contact  prediction이다(그림 4 참조).

 

 

a5450f1b8c0eac32cbfbcfdd4991b117_1491030800_5425.jpg 

 

그림 4. 단백질 구조 상에서 constraint로 작용할 수 있는 residue contact 정보 (그림 출처: [4])

 

한 연구에 의하면 서열 정렬을 위한 단백질 서열들(서열동일도가 90%이하인 서열들)의 개수가 하나의 단백질의 길이(즉, 하나의 단백질을 구성하는 residue의 개수)의 5배이면, residue-residue contact prediction이 구조 예측에 적용할만할 정도로 정확하다고 한다[5].

 

이 글에서는 기존의 단백질 구조 예측법을 간략하게 소개하고, 이들 방법 중 de novo prediction에 있어서의 최신 연구 방법을 소개하였다. Residue contact prediction을 이용한 de novo prediction법은, 1) family sequence set을 모아 이들 의 서열정렬로부터 residue의 co-variation을 탐색하고, 2) 이들로부터 residue-residue contact을 예측해낸 다음, 3) 이 정보를 이용하여 단백질 3차구조를 de novo prediction 방법으로 단백질 구조를 예측하는 방법으로 구성되어 있다(그림 5). 필자의 소견으로는 아직 de novo prediction법의 정확성에 대해 확신할 수 없으나, 최근의 결과를 보면 de novo prediction에서 장족의 발전이 이루어지고 있는 것은 분명해 보인다. 개인적인 의견으로는, residue-residue contact prediction이 가능하다면, 단백질 구조예측 외에도 단백질의 thermostability 증진과 같은 protein evolution에 적용해보는 것 또한 가능할 것으로 생각된다.

 

 

a5450f1b8c0eac32cbfbcfdd4991b117_1491030902_3043.jpg

 

 

그림 5. Contact prediction을 이용한 De novo protein structure prediction의 한 가지 예 (그림 출처: [3]).

 

 

참고문헌
1. E. D. Luccio and P. Koehl. A quality metric for homology modeling: the H-factor, BMC Bioinformatics 2011, 12:48.
2. Ovchinnikov et al., Protein structure determination using metagenome sequence data, Science 2017, 355:294-298.
3. Sułkowska et al., Genomics-aided structure prediction, PNAS 2012, 109(26):10340–10345.
4. Marks et al., Protein 3D structure computed from evolutionary sequence variation, PLoS One 2011, 6(12):e28766.
5. Kamisetty et al., Assessing the utility of coevolution-based residue–residue contact predictions in a sequence- and structure-rich era, PNAS 2013, 110(39):15674–15679.