넘쳐나는 유전정보, AI에게 길을 묻다
Date 2020-07-29 18:22:58 페이스북으로 보내기 트위터로 보내기 hit 1,281
박대찬
교수
아주대학교 생명과학과
dpark@ajou.ac.kr

1. 서론
옛날 옛적 세상에서 가장 빠른 사람은 말을 잘 타는 사람이었다. 그런데, 말을 잘 타는 건 생각보다 만만치 않다. 하루 이틀 만에 터득할 수 있는 일이 아니다. 채찍질 솜씨뿐만 아니라, 말안장, 말발굽 손질도 좀 할 줄 알아야하고, 말의 생리를 잘 이해하여 비위도 잘 맞춰야 한다. 각고의 노력 끝에 이 모든 것을 다 터득했다면, 그는 세상에서 제일 빠른 인류로서 최고 전문가의 반열에 올라 칭송받는다. 그러던 어느 날 자동차가 등장했다. 말에 대해서는 1도 모르고, 빨리 달리는 것에 관심도 없던 사람들에게도 기회가 생겼다. 자동차 열쇠만 손에 쥐면, 역사와 전통을 자랑하던 전문가보다 빨리 달리는 것은 너무나 쉽고 당연한 일이 되었다.
그동안 너무나도 공고하고 난해해서 접근하기 어려웠던 기계 학습의 전문 영역이 인공지능의 유행으로 우리 곁에 다가왔다. 복잡한 수학을 프로그램 언어로 구현하고 슈퍼컴퓨터를 이용하여 분석하는 기계학습 기술은 최고 전문가들의 영역이었다. 하지만, 무료 배포되는 파이썬 코드로, 클라우드 컴퓨터를 저가에 대여하면 내 주변에 널려 있는 데이터를 인공지능 전문가처럼 분석할 수 있는 시대이다. 말을 잘 다루기 위한 노력은 한 적 없으나 빨리 달리기만 하면 된 것이고, 심오한 이론은 잘 모르겠으나 질문의 대한 답을 찾았으면 목적을 달성한 것이다. 대부분의 전문가들은 이러한 형태로 인공지능과 데이터를 활용하며 우리 삶과 연구에 인공지능이 만연하게 되었다. 데이터가 넘쳐나는 곳이라면, 인공지능의 사용은 이제 당연하다 못해 필수적이다.

 

119eeaaf0d6841f8e82dd9b9659616ce_1596014051_1874.jpg

그림 1. 유전체 데이터 성장속도 [1]


생명과학에서 가장 데이터가 많은 곳은 어디일까? 감히, DNA sequencing을 포함한 유전체 분야라 말할 수 있다. 그 성장에는 Next Generation Sequencing (차세대염기서열분석법)의 등장이 강한 촉매 역할을 하였다. 반도체는 2년마다 가격이 절반이 되고 성능은 2배 향상된다는 Moore의 법칙을 비웃는 듯, 차세대염기서열분석법 분야는 더 빠른 속도록 발전하였다. 싼 값의 고품질 유전체 데이터는 대규모 유전체 데이터 생산 컨소시움의 발전에 밑거름이 되었다. 예를 들어, 유전체의 비암호 지역까지 기능을 밝히고자 한 Encyclopedia of DNA Elements (ENCODE), 암유전체의 The Cancer Genome Atlas (TCGA)와 The International Cancer Genome Consortium (ICGC)이 대표적이다. TCGA만 보아도, 1만 1천명 환자의 33개 다른 암종으로부터 2.5 Petabyte가 생산되었으며, 이는 53만장의 DVD에 해당하는 양이다 [2]. 다양한 통계 분석으로 넘쳐나는 유전체 데이터를 분석하고 있지만, 천문학적 데이터양에 숨겨진 복잡성을 이해하기란 역부족이었다. 이에 인공지능과 유전체 데이터의 만남은 필연적이었다.
이 글을 통해, 인공지능을 통해 유전체 데이터가 분석되는 3가지 사례를 소개하고자 한다. 본론에 들어가기 전, 유전체 데이터로 무엇을 할 수 있는지 먼저 알 필요가 있다. 첫째, 우리 몸에 존재하는 유전 변이를 찾아주고, 둘째, 이렇게 유전적변이와 사람의 생체정보의 연관성을 찾는 연구가 가능하다. 또한, 생명공학자들이 공학적 목적으로 만든 DNA library의 서열도 얻을 수 있다. 인공지능은 이 모든 연구들이 나아가야 할 길을 보여주고 있다.

 

119eeaaf0d6841f8e82dd9b9659616ce_1596014169_4327.png

그림 2. 천문학적 크기의 TCGA 암유전체 데이터양 [2]

 

2. 유전자 변이를 찾아주는 인공지능
사람 유전체 연구에서 수 giga (109) base에서 수 백 giga base를 시퀀싱하는 일은 흔하다. 수많은 A, T, G, C 염기서열을 바탕으로 수행하는 가장 기본적인 분석은 우리 몸에 있는 Single-nucleotide polymorphism (SNP)와 mutation을 찾는 것이다. 접근법은 매우 단순하다. Reference genome이라고 불리는 표준 genome과 대량 시퀀싱한 데이터를 비교해서 차이점을 찾으면 된다. 그런데 정작 현실은 만만치 않다. 차세대염기서열분석법에서 나온 데이터 자체가 0.1%에서 많게는 10% 정도의 오류를 포함하고 있으며, DNA를 뽑고 NGS library를 만드는 과정에서 발생하는 bias가 문제 해결을 어렵게 만든다. 현재, 사람의 유전체에서 SNP와 암 돌연변이를 찾는 데 가장 널리 이용되는 생명정보 프로그램은 Genomic Analysis ToolKit (GATK)이다. GATK는 logistic regression, Hidden Markov model (HMM), naive Bayes classification 등 여러 단계의 알고리즘과 통계 분석법을 거친 후 멋진 결과를 제공해주기 때문에 독보적인 위치에 있다. 그런데, 그 아성에 인공지능 분석법이 도전하기 시작했다.
바둑 천재 이세돌을 이기며 세상을 떠들썩하게 한 구글 DeepMind는 바둑만 잘 두는 것이 아니라 유전체 분석도 잘 한다. 이미 소스코드까지 모두 공개하며 Nature Biotechnology를 통하여 화려하게 등장한 DeepVariants [3]가 그 주인공이다. 기존의 유전자 돌연변이 찾기는, 위에서 언급한 것처럼, 각종 통계적 모델과 regression 분석 결과로 도출된다. 하지만, Deep learning (딥러닝)기반 variant calling 알고리즘의 전개 과정은 매우 단순하다. Reference genome에 차세대 염기서열분석법 데이터를 alignment하여, DNA base가 쌓여 있는 형태를 구성한다 (그림 3). 이를 Pileup이라고 부른다. 이 단계 후, 기존의 방법들은 여러 통계적 방법을 적용했다면 DeepVariant는 이를 하나의 image로 간주하고 기계학습에 돌입한다. 이때 모든 pileup이 딥러닝 학습에 사용되는 것은 아니며 True genotype으로 label된 데이터에 대해서만 학습을 하게 된다.

 

119eeaaf0d6841f8e82dd9b9659616ce_1596014307_8395.jpg

그림 3. DeepVariant에서 딥러닝을 기반으로 유전자 돌연변이를 찾는 과정


이러한 접근 방식은 DeepVariant를 활용하고자 하는 연구자에게 장점과 단점을 동시에 제공한다. True genotype에 대한 정의가 다른 여러 데이터들 별로 각각 딥러닝 모델을 만들고자 한다면, 상당한 GPU power를 가진 computing resource를 요구하게 된다. 기존의 방법은 대규모 인프라를 요구하지 않고도 상당히 좋은 결과를 주기 때문에, 굳이 딥러닝까지 하면서 힘들게 답을 찾아야 하는가에 대한 의문을 품게 된다. 한편, pileup에 대한 이미지로 만들어진 딥러닝 모델은, 여러 차세대염기서열분석법 플랫폼 종류에 구애를 받지 않고 사용할 수 있다는 장점이 있다. 아직, 딥러닝 기반 유전적 돌연변이 찾기가 기존의 분석 패러다임을 바꿀 정도의 파급력을 가져오지는 못한 것이 사실이다. 하지만, 기하급수적으로 늘어나는 데이터의 양과 computing power의 추세를 보았을 때 30억 human DNA position에 대해 학습을 마친 딥러닝 모델이 등장할 것으로 기대된다.

 

3. 암 종을 분류하고 항암 반응성을 예측하는 인공지능
DNA 서열을 분석하는 여러 분야 중 가장 폭발적으로 DNA 정보 생산 속도가 빠른 곳은 암 유전체 분야이다. 이 DNA 서열 정보에 딥러닝을 적용한다고 하였을 때, 우리는 DNA 정보를 학습하여 이루고자 하는 목적이 무엇인가? DNA 서열 기계 학습 모델을 기반으로 하여 암 종을 분류하고, 항암 반응성을 예측한 두 사례를 소개하고자 한다.
Pan-Cancer Analysis of Whole Genomes (PCAWG)은 whole genome sequencing (WGS)를 통해 여러 암에 대한 유전체 정보를 생산 및 분석하는 컨소시움이다. 2020년 2월, 그동안 진행된 연구를 정리하여 Nature지에 일련의 논문들을 발표하였다. 그 논문들 시리즈 중 하나가 딥러닝을 이용하여 암을 분류한 내용이다 [4]. 24개의 다른 암의 2606 샘플에서 얻은 데이터로 학습을 하였다. 학습한 WGS의 feature는 크게 3개이다: 돌연변이의 분포, 돌연변이의 종류 (SNP or INDEL), Driver gene. Deep Learning/Neural Network (DNN)을 이용하여 모델링을 수행하였고, held-out tumor에 대해서는 91% 정확도를 보였다. 또한, 독립적으로 얻어진 암에 대해서도 83~88%의 정확도를 보였다. 이 연구에서 매우 흥미로운 점은, 암을 일으키는 원인이 될 수 있는 driver gene의 돌연변이 정보를 딥러닝 모델에 넣었을 때 암 종을 구분할 수 있는 예측력은 더 감소하였다는 사실이다. 기능적으로 중요한 돌연변이는 오히려 암 종 예측 딥러닝 모델을 만드는 데는 해가 되는 것이다. Driver gene은 일반적으로 그 개수가 작고 여러 암들이 공유하고 있는 pathway에서 발생했을 가능성이 높기 때문에, 오히려 암 종 예측에 도움이 안 되는 것이다. 여러 DNA feature 중에서도 딥러닝 목적에 맞는 feature selection의 중요성을 잘 보여준 사례이다.
둘째, DNA 서열을 아미노산 서열로 번역하여 단백질 결합을 예측한 사례가 있다 [5]. 단백질 간 상호작용을 예측하기 위해 단백질의 공간적 구조 정보를 이용할 수도 있지만 이 연구에서는 아미노산 서열만으로 딥러닝을 수행하였다. MHC와 그 binding 파트너인 펩타이드 서열을 the immune epitope database (IEDB)에서 획득한 이후 convolutional neural networks (CNN)으로 딥러닝 모델을 만들었다. MHC와 MHC에 붙은 펩타이드는 T cell receptor (TCR)에 인지되어 항원으로 인지된다. 즉, 이 두 단백질의 결합을 예측할 수 있다면, 특정 펩타이드의 항원성을 예측할 수 있는 것이다. Receiver operating characteristic (ROC)의 Area Under the Curve (AUC)값으로 이 모델의 성능을 평가하였을 때 HLA-A와 HLA-B에 대해 각각 0.89와 0.86을 보였다. 이 모델이 암 연구에 적용되었을 때 neo-antigen을 발굴하는 데 기여할 수 있으며, T 세포를 이용한 면역 치료의 반응성을 예측할 수 있을 것이다. 궁극적으로 이 딥러닝 모델은 항암 백신으로 사용될 수 있는 펩타이드 발굴에 기여하여 암 정복에 도움이 될 것이다. 이처럼 유용한 DNA 서열 기반 딥러닝 모델이 공학 분야에 적용될 수 있는 다른 사례를 보자.


4. 숨은 Clone까지 찾아주는 인공지능
생물공학 중 단백질 공학은 화학물질의 생합성, 단백질 생약, 식품공학, 물질 분해, 바이오센서 등 우리 실생활과 산업현장에서 활용도가 매우 높은 분야이다. 가장 널리 사용되는 단백질 개량법으로 rational design과 directed evolution이 대표적이다. 단백질 구조에 기초하여 단백질 활성을 높일 수 있는 아미노산을 찾는 rational design 방법과 대비되어, directed evolution은 random mutagenesis 이후에 스크리닝을 통해서 최적의 클론을 찾는다.

전통적 directed evolution 접근법은 2018년 노벨상을 수상했을 정도로 널리 쓰이지만, sequence space가 천문학적으로 넓기 때문에 모든 서열을 분석할 수 없는 한계가 있다. 예를 들어, 5개 아미노산 위치만 saturation mutagenesis를 하여도, 아미노산 수준에서 205 = 3.2 X 106, DNA 수준에서 415 ~ 1.1 X 109 의 다양성을 가지며, 이처럼 다양성이 높은 라이브러리 서열 분석에 Sanger sequencing을 이용하면 시간과 비용 측면에서 현실적으로 불가능하다.
현 시점에서 directed evolution 접근법에서 새로운 클론을 가장 빠르고 포괄적으로 (comprehensive) 찾는 방법은 차세대염기서열분석법이다. 하지만 차세대염기서열분석법을 directed evolution에 적용하더라도, 1) 천문학적인 sequence space를 여전히 다 관찰할 수 없는 단점, 2) 전통적인 screening 방법을 적용했을 때 local optimal 클론을 찾게 되는 단점이 있다. Directed evolution에서 전통적인 접근법은 mutant library를 스크리닝하여 얻은 클론을 반복적으로 engineering하는 것이다. 만약, 첫 번째 스크리닝에서 강한 selection pressure를 주어 극소수의 클론만 남게 된다면, 실제 가장 fitness가 좋은 지점에는 도달할 기회조차도 잃게 된다. 즉, local optima에 갇히는 문제가 발생한다. Local optima에 갇히는 일을 막기 위해서는, 다수 클론들의 fitness를 정량적으로 측정해야 한다. 그 측정값을 바탕으로 sequence-function model을 만들어서, global optima, 즉 highest fitness로 진화가 가능한 클론을 발굴해야 한다. 따라서, 많은 클론에 대한 정량값과 그 값을 이용한 모델을 만들기 위해서는 차세대염기서열분석법과 기계학습의 융합이 반드시 필요한 것이다.

 

119eeaaf0d6841f8e82dd9b9659616ce_1596014491_6829.jpg

그림 4. NGS와 딥러닝을 단백질 공학에 적용하는 흐름도


단백질 공학에서 사용할 수 있는 딥러닝 전략의 예는 그림 4와 같다. 효소 기능의 활성을 조절하는 아미노산 위치에 random mutation을 일으켜 다양한 종류의 클론을 생성한다. Random mutagenesis가 발생한 클론의 라이브러리를 세포에 넣어 selective media에서 키우고, Genomic DNA추출 후 mutation 위치를 PCR로 증폭시키면서 NGS library를 제작한다. 차세대염기서열분석법을 통해 각 클론 또는 아미노산 위치 별로 enrichment된 비율을 정량한 후, 클론의 서열과 fitness 값을 딥러닝의 input으로 사용하여 실험적으로 찾지 못했던 고효율의 클론을 발굴할 수 있다.
딥러닝에서 사용되는 알고리즘은 다양하지만, 가장 널리 쓰이는 것 중 하나가 Convolution neural network (CNN) 이다. CNN은 뇌가 이미지를 인지하는 방식에서 착안된 알고리즘으로, 단백질 서열의 directed evolution을 적용하기 위해 DNA input 서열들이 one-hot encoding법을 통해 벡터로 변환된다. 예를 들어, categorical data인 A,T,C,G 중 A는 (1,0,0,0)으로 binary vector표현되어 딥러닝의 input으로 사용된다. 또 다른 input 값으로, selection 전후의 NGS read count를 바탕으로 fitness enrichment score를 계산하여 DNA 서열과 paired 된 상태로 이용된다. 이처럼, 벡터로 변환된 layer는 filtering과 pooling 과정을 통해 여러 activated convolution layer를 형성하게 되고, 이 과정을 반복함으로써 하나의 뉴런이 이전의 layer의 모든 뉴런들과 연결되는 fully connected layer를 구성하게 되는 것이다. Fully connected layer 를 통해 딥러닝 예측 결과를 얻고 loss값도 계산할 수 있기 때문에, CNN 모델은 DNA 서열에 대한 fitness enrichment score를 예측할 수 있다. 이는 곧, 차세대염기서열분석법 데이터에서 볼 수 없었던 Unseen clone에 대한 기능을 예측할 수 있다는 의미로, directed evolution의 혁신을 가져올 것으로 기대된다.


5. 결론
유전정보 생산 비용은 기하급수적으로 떨어지고 있다. 이미 수백만 명에 이르는 사람이 유전체 시퀀싱을 하였으며, 머지않아 사람 유전체 시퀀싱 가격은 100만 원 이하로 떨어질 것이다. 데이터 생산 비용보다 저장 비용이 더 들기 시작하였으며, 분석한 데이터보다 쌓아두고 있는 데이터가 더 많아졌다. 유전체 연구를 적용할 수 있는 분야도 급격히 늘어나고 있다. 최근 전 세계적으로 coronavirus disease 2019 (COVID-19)질병을 일으킨 Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2)의 서열을 밝히는 것도 유전체 연구이다. 암 진단에 적용되는 유전체 접근법은 이미 건강 보험 혜택을 받을 수 있을 정도로 대중화되었으며, 각종 단백체 공학에서 최적의 클론을 찾는 데도 사용되고 있다.
최신 유전체 데이터들의 특징은 단일 데이터도 그 크기가 매우 크고, 수백만에서 수천만이 넘는 DNA 염기서열 속에 사람이 이해할 수 없는 복잡성이 내재되어 있다는 점이다. 데이터는 크고 복잡하며, 데이터의 종류마저 다양해졌기 때문에 하나의 통계적인 방법이나 분석 pipeline으로 분석이 불가능해졌다. 사람의 인식의 한계를 넘어서는 DNA 서열 데이터에서 해석 가능한 패턴과 정보를 가능한 한 최대로 뽑을 수 있는 방법은 딥러닝에 기반한 인공지능 밖에 없을 것이다. 영상, 이미지 등을 분석하는 인공지능이 우리 실생활에서 보편화 된 것처럼, 머지 않아 DNA 서열을 분석하는 인공지능은 더욱 더 우리 실험실의 일상이 될 것이다.


참고문헌
[1] https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost
[2] https://portal.gdc.cancer.gov/
[3] Poplin et al., A universal SNP and small-indel variant caller using deep neural networks (2018) Nat Biotechnol 36(10):983-987.
[4] Jiao et al., A deep learning system accurately classifies primary and metastatic cancers using passenger mutation patterns (2020) Nat Commun. 11(1):728.
[5] Kim et al., Predicting clinical benefit of immunotherapy by antigenic or functional mutations affecting tumour immunogenicity (2020) Nat Commun. 11(1):951.