| 인공지능 기반 드노보 단백질 설계 최신동향 | |
|---|---|
| Date 2025-03-31 17:51:38 |
|
1. 서론
드노보 단백질 (De novo protein) 은 자연계에 존재하지 않는 인공적으로 설계된 단백질을 의미한다. 이는 자연에서 발견되는 단백질을 일부분 개량하여 만든 개량 단백질과는 다른 의미로써, 자연에는 없는 완전히 새로운 구조를 갖는 단백질을 말한다. 20개의 아미노산으로 만들 수 있는 단백질의 종류는 무수히 많지만 자연에서 사용되어지는 단백질은 극히 일부에 불과하다. 따라서 연구자들은 수십년 동안 자연에 존재하지는 않지만, 우리가 원하는 기능을 갖는 인공단백질을 만들어 내기 위해 많은 노력을 기울여 왔다. 만약 이것이 가능하다면 혁신적인 치료 약물을 개발하거나, 질병을 예방하기 위한 백신개발, 그리고 지금까지는 이해하기 어려웠던 다양한 생명현상의 제어를 할 수 있을 것이다.
전통적으로 드노보 단백질의 설계는 단백질의 분자구조를 이해하고 이론화학적 지식을 토대로 에너지 계산을 통해 사용자가 원하는 형태의 구조를 설계하거나, 표적 구조를 안정화 시키는 시퀀스를 찾는 방식으로 진행되어 왔다. 대표적으로는 2024년 노벨 화학상을 수상한 워싱턴대학교의 데이비드 베이커 (David Baker) 교수가 개발한 로제타 (Rosetta) 프로그램이 있으며, 이를 활용하여 최초의 드노보 단백질 중 하나인 Top7 이 설계되었고 2003년에 Science 에 보고되었다. 이후 2020년대 초 까지는 로제타와 같은 이론화학 기반의 소프트웨어를 활용하여 단백질을 설계 하는 것이 주된 흐름이었다.
하지만 2021년 구글 딥마인드의 알파폴드 (AlphaFold)와 베이커그룹의 로제타폴드(RoseTTAFold) 가 발표되면서 상황은 급변하기 시작한다. 알파폴드는 단백질 서열로부터 구조를 예측하는 프로그램으로써, 얼핏보면 단백질 설계와는 관련이 없어보인다. 하지만 알파폴드 알고리즘을 반대로 생각 해 보면 표적 구조로부터 이를 안정화시키는 단백질 서열을 찾는 것이 가능할 것이라는 것을 상상 해 볼 수 있다. 이에 착안하여, 베이커그룹은 여러 필드에서 급속도로 발전하는 다양한 인공지능 모델들을 단백질 설계에 적용하기 시작한다. 대표적인 예로, 단백질의 백본구조(backbone)를 입력값으로 넣어주었을 때 이를 안정화 시키는 아미노산 서열 라이브러리를 생성해 주는 ProteinMPNN, 그리고 원하는 구조적 특성 (길이, 대칭성, 2차구조의 구성)을 입력해 주면 이를 만족하는 백본구조를 생성 해 주는 RFdiffusion 과 같은 프로그램이 있다. 이러한 인공지능 기반 소프트웨어를 활용한 드노보 단백질 설계 분야의 최근 동향을 살펴보고자 한다.
2. 본론
2.1. 드노보 단백질 설계 프로토콜
2003년 로제타 (Rosetta) 소프트웨어를 활용한 최초의 드노보 단백질 Top7 이 Science 에 발표된 이후 20여년 동안 드노보 단백질 설계는 대부분 몬테카를로 (Monte Carlo) 방식이나 분자동역학을 (Molecular Dynamics) 활용한 물리 기반의 에너지 최적화를 활용 해 왔었다. 하지만 이러한 방식은 계산량이 너무 방대하여 아미노산의 길이가 수십개만 되어도 그 정확도가 현저하게 떨어지는 문제가 있었다.
2021년 알파폴드의 출시 및 인공지능 기반 모델의 비약적인 발전으로 단백질 설계 분야도 마찬가지로 큰 변화를 겪게 된다. 특히 생성모델을 활용한 단백질 백본 디자인 방식들이 많은 주목을 받게된다. 2021년 12월 데이비드 베이커 그룹에서 발표한 할루시네이션 (Hallucination)을 활용한 단백질 생성모델에 관한 논문은1) 구글의 DeepDream2) 과 같은 할루시네이션 기반 이미지 생성모델에서 영감을 받아 개발되게 되었다. 생성되는 단백질의 다양성과 정확성에 다소 한계점이 있었지만, 이미지 생성에 활용되는 인공지능 기반 모델을 활용하여 단백질 생성모델로 적용할 수 있음을 보여준 중요한 마일스톤으로 평가받는다.
이후 OpenAI에서 발표한 DALL-E 라는 이미지생성 소프트웨어에 적용되는 diffusion 모델 (그림 1) 을 사용한 단백질 생성모델인 RFdiffusion3)이 2023년 Nature 에 발표되면서 단백질 설계분야에 큰 파장을 가져오게 된다. RFdiffusion 은 사용자가 원하는 다양한 구조적 조건을 제공하면 (아미노산의 개수, 2차구조의 구성, 대칭성 등등), 이를 만족시키는 다양한 옵션의 뼈대구조를 빠른 시간안에 생성을 해 낸다. 특히 새롭게 생성된 뼈대구조가, 적절한 아미노산 서열만 잘 설계가 되면 실제 시스템에서 잘 형성하게 될 확률이 높음을 확인시켜 줌으로써, 사용자가 원하는 맞춤형 단백질의 생성 시대가 본격적으로 열리게 되었다.

그림 1. Diffusion 모델을 활용한 이미지 생성 과정 (출처: NVIDIA)
RFdiffusion을 통해 생성된 단백질 뼈대구조는 이를 안정화 시키는 단백질 서열과 언제나 함께 설계가 되어져야 한다. 2022년 Science 에 발표된 ProteinMPNN4)이 이러한 역할을 잘 수행해 주는 프로그램으로 알려져 있다. 주어진 백본이 있을 때, 해당 백본을 안정화시킬 것으로 예측되는 아미노산 서열 라이브러리를 빠르게 생성 해 내는 프로그램이다. 이렇게 생성된 서열 라이브러리는, 단백질 접힘예측 프로그램 (알파폴드, 로제타폴드 등등)을 통해 전산적으로 스크리닝 되어지고, 전산 스크리닝 된 후보군을 실제 실험을 통해 확인하게 되면 인공지능을 활용한 드노보 단백질 생성 및 설계 프로토콜이 완성된다 (그림 2).

그림 2. 딥러닝 기반의 단백질 설계프로그램을 활용한 드노보 단백질 설계 프로토콜 (출처: 2024 Nobel Prize Lecture in Chemistry)
2.2. 드노보 바인더 단백질 설계
드노보 단백질 설계는 임의의 단백질과 상호작용 하는 바인더를 설계하는데에 유용하게 활용될 수 있다. RFdiffusion은 임의의 단백질의 지정된 아미노산들과 효과적으로 상호작용 할 수 있는 백본구조를 만들어 내도록 설정이 가능하다 (예: hotspot 설계). 이를 활용하여, 표적 세포 수용체와 상호작용하여 세포 신호를 증폭하는 미니 바인더 설계5), 표적 펩타이드에 강하게 바인딩 하는 드노보 단백질 설계6), 그리고 독성 단백질의 독성을 중화할 수 있는 치료용 단백질 설계7) 등 다양한 시스템에서 활용이 가능함이 최근에 보고되고 있다.
그림 3. 전산설계된 드노보 항체 (N. R. Bennett et al., bioRxiv 2024)
특히, 최근에 주목할만한 연구 성과로는 표적 epitope에 바인딩 하는 항체 (antibody) 를 전산적으로 드노보 설계 할 수 있음을 보여준 것이다8). 기존의 인공지능 기반 설계방식은 잘 정의된 구조를 형성하는 단백질을 주로 설계하는데 활용되었다. 따라서, 주로 루프 영역을 통해 바인딩을 하는 항체를 드노보 설계하는 것은 어려울 것으로 여겨졌었다. 하지만, 항체 구조 데이터를 집중적으로 훈련하고 모델을 고도화 함으로써, 항체 설계에 특화된 RFdiffusion 버전을 개발함으로써, 루프로 이루어진 항체의 바인딩 도메인 까지도 드노보로 설계할 수 있음을 보여주었다 (그림 3).
2.3. 드노보 단백질 자기조립을 통한 단백질 나노구조체 설계
자연계에서는 바이러스 캡시드 (나노케이지 구조), 박테리아의 표면 레이어 (2차원 격자구조) 등 단백질로 이루어진 나노구조체의 형성이 다양한 방식으로 일어난다. 따라서, 단백질의 자기조립을 설계하여 인공적인 단백질 나노구조체의 형성을 유도하고, 이를 다양한 방향으로 활용하고자 하는 연구는 오랬동안 연구자들의 관심사였다.

그림 4. 드노보 단백질 나노케이지 (S. Lee et al., Nature 2025)
단백질 자기조립은 단백질-단백질 계면 구조의 적절한 설계를 통해 이루어질 수 있다. 표적 나노구조체를 형성하기 위해 요구되어지는 단백질 계면의 구조적 특성을 이해하고 이를 설계에 적용하는 것이 필요하다. 대표적인 예로는, 점군 대칭을 활용한 단백질 나노케이지 (혹은 바이러스 캡시드 유사입자) 의 설계가 있다. 단백질-단백질 계면각이 특정한 점군 대칭과 (예: 4면체, 8면체 , 20면체 대칭) 일치하도록 설계 함으로써, 해당 단백질이 표적 점군대칭을 이루면서 자기조립 하도록 유도하는 방식이다9) 10).
인공지능 기반 설계방식이 개발되기 전에는, 주로 도킹 (docking) 방식을 활용하여 표적구조에 적합한 단백질-단백질 계면의 구조를 탐색하고 아미노산을 설계하는 방식을 활용하였다. 하지만 인공지능 설계방식이 개발된 이후로는 기존의 단백질 구조에 제한되지 않고, 표적 구조에 가장 적합한 단백질 빌딩블록 구조를 드노보 설계하여 자기조립 설계 하는 방식이 가능 해 졌으며, 성공률도 기존의 도킹방식에 비해 현저하게 개선되었다.
3. 결론
드노보 단백질 설계 분야는 인공지능 모델의 발전에 힘입어 눈부신 발전을 이루고 있으며, 향후 다양한 과학 및 산업 분야에 폭넓은 영향을 미칠 것으로 기대된다. 특히, 인공지능 기반의 구조 예측 및 설계 기법의 발전은 치료용 단백질, 약물 전달체, 고효율 촉매, 바이오 센서 등의 개발을 가속화할 것으로 예상된다. 또한, 이러한 기술은 신약 개발과 맞춤형 치료제 설계에서 중요한 역할을 수행하며, 기존의 실험 중심 접근 방식을 보완해 연구 효율성과 정확도를 크게 향상시킬 것으로 기대된다. 드노보 단백질 설계 기술이 다양한 학문 분야에 적용되어, 학문 간 융합과 협력이 강화되며 생명과학, 화학, 공학 등 다양한 분야에서의 발전이 가속화 되기를 희망한다.
참고문헌
1) https://www.nature.com/articles/s41586-021-04184-w
2) https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html
3) https://www.nature.com/articles/s41586-023-06415-8
4) https://www.science.org/doi/10.1126/science.add2187
5) B. Huang et al., “Designed endocytosis-inducing proteins degrade targets and amplify signals”, Nature 638, 796-804 (2025)
6) S. V. Torres et al., “De novo design of high-affinity binders of bioactive helical peptides”, Nature 626, 435-442 (2024)
7) S. V. Torres et al., “De novo designed proteins neutralize lethal snake venom toxins”, Nature 639, 225-231 (2025)
8) N. R. Bennett et al., “Atomically accurate de novo design of single-domain antibodies”, bioRxiv 2024
9) N. P. King et al., “Accurate design of co-assembling multi-component protein nanomaterials”, Nature 510, 103-108 (2014)
10) S. Lee et al., “Four-component protein nanocages designed by programmed symmetry breaking”, Nature 638, 546-552 (2025)