네트워크 과학으로 살펴보는 사회적 거리두기와 접촉자 추적의 원리
Date 2021-04-21 15:21:47 페이스북으로 보내기 트위터로 보내기 hit 1,278
이병휘 / 정하웅
박사 후 연구원 / 교수
KAIST 자연과학연구소 / KAIST 물리학과
apolloneu@kaist.ac.kr / hjeong@kaist.edu

 지난 수십 년 동안 세상은 더 촘촘히 연결되었고 사람들은 더욱 가까워졌다. 각국을 잇는 항공편은 날로 발전하여 해외여행은 이제 생활의 일부가 되었고, 인터넷과 정보 통신의 발전으로 세계 각지의 일상과 풍경을 SNS를 통해 접하는 것은 흔한 일이 되었다. 유럽과 북미는 물론, 페루의 마추픽추와 볼리비아의 우유니 사막의 장관까지 관광 상품이 생겨났고, TV 속 다큐멘터리에서나 보던 장소들은 이젠 대단한 탐험가가 아닌 평범한 사람들도 찾아갈 수 있는 시대가 오는 듯했다. 바로 지난해 초까지의 이야기이다.

 안타깝게도 동시에 우리는 전 세계가 가까워진 것이 마냥 즐거운 일만은 아님을 함께 목도했다. 누구도 뜻하지 않았지만 촘촘해진 도시 연결망과 나날이 증가하는 유동 인구는 바이러스에게까지 기쁜 소식이었던 것이다. 코로나19 (COVID-19) 이전에도 한 장소의 바이러스가 대규모 유행을 가져온 사례는 많았다. 13-14세기 중세 유럽의 막을 내리게 한 흑사병(페스트)은 쥐에 기생하던 벼룩을 통해 전파되어 최소 7천 5백만 명의 사망자를 유발했으며, 1918년 스페인독감은 적게는 2천만에서 많게는 1억여명의 사망을 초래했다. 2002년의 사스코로나바이러스 (SARS-CoV), 2009년 H1N1 인플루엔자에 이어 2019년 신종코로나바이러스까지 근래에 들며 인구가 증가하고 교통이 발전하면서 세계적인 대유행이 자주 나타날 가능성은 더욱 높아진 것이다.

 감염병의 대유행이 있을 때마다 자주 들리는 단어가 있다. 바로 슈퍼전파자 이야기이다. 슈퍼전파자는 생물학적으로 체액 속 바이러스가 높은 농도로 존재하거나 또 물리적으로 많은 사람들을 자주 접촉하여 주변 사람들에게 쉽게 바이러스를 전파하며 감염을 급격하게 확산시키는 사람들을 의미한다. 사람을 통해 전염되는 바이러스의 전파도 유명한 ‘80/20 규칙’을 따르는 것으로 알려져 있는데 감염자의 20%가 전체 전파의 80%에 관여한다는 의미이다. 2003년 중국에서부터 홍콩을 방문하여 한 호텔에 투숙했던 내과 의사가 갑작스런 고통으로 며칠 뒤 사망한 사건이 있었다. 같은 층에 머물던 투숙객들과 방문객들이 이후 하노이, 싱가포르, 토론토 등으로 돌아갔는데 이들을 통해 사스 코로나 바이러스가 전 세계로 전파된 이야기는 대표적인 슈퍼전파의사례이다. 훗날 역학자들이 8,100명의 사스 환자들을 추적한 결과 절반에 가까운 감염자가 내과 의사가 머물렀던 홍콩의 호텔에서 비롯되었음이 밝혀졌다. 비록 사스는 비교적 쉽게 잡힌 코로나 바이러스였지만, 이 사건은 오늘날 작은 지역 사회에서 발생한 감염병이 전 세계에 얼마나 빠르고 널리 확산될 수 있는지 보여주는 계기가 되었다. 코로나19 초기 우리나라에서도 신천지 교회의 31번 확진자와 관련된 대규모 확산으로 5,000명 이상의 확진자가 발생하기도 하였다. 이는 당시 우리나라의 전체 감염자의 절반을 넘는 수치였다. 이처럼 슈퍼전파 현상은 놀랄만한 특별한 사건이 아니라 전염 현장의 곳곳에 산재한다.

 여기서 한 가지 의문이 든다. 나를 포함한 우리 사회의 대다수의 사람들은 평범하게 집과 직장에서 조심스럽게 생활하고 있고 딱히 많은 친구들을 가진 것 같지도 않은데, 왜 하필이면 여러 사람을 만나고 다니는 극소수의 슈퍼전파자가 유독 감염되어 바이러스를 확산하며 우리사회를 공포에 몰아넣는 것일까? 또 한 사람으로부터 시작된 바이러스가 어떻게 이토록 빠른 시간에 한 도시, 한 국가를 넘어 전 세계적으로 퍼져나갈 수 있는 것일까? 이러한 확산을 저지할 수 있는 방법엔 무엇이 있을까?

 전염현상에 대한 수리적 모델링이 발전하면서 과학자들은 감염병이 확산되는 과정 배경에는 사람들을 연결하는 네트워크가 존재하고, 네트워크의 구조를 이해하는 것이 앞서 제시한 질문들의 해답을 찾는 실마리를 제공한다는 사실을 발견했다. 전 세계의 사람들을 직간접적으로 연결하는 사회 네트워크는 한편으로 전염이 순식간에 퍼져나갈 기회를 제공하는 무서운 존재이기도 하며, 다른 한편으로 우리 사회가 이를 활용하여 감염병의 확산을 효율적으로 대처해 나갈 이정표를 제공해 주기도 한다. 지금부터 전염 현상 뒤에 숨겨진 네트워크의 구조와 이를 활용할 수 있는 과학적인 원리, 그리고 주의점을 함께 살펴보도록 하자.

 

전염의 수리적 모형 


​ 네트워크를 고려하기에 앞서 전염현상에 대한 수리적 모형에 대한 약간의 이해가 필요하다. 현대적인 감염병 확산에 대한 수학적 연구는 20세기 후반에 들어 본격적으로 시작되었다. 스코틀랜드 수학자 윌리엄 컬맥과 역학 연구자인 앤더슨 맥켄드릭 [1]은 질병의 감염 여부에 따라 인구 집단을 구획화하여 감염병이 유행하기 위한 초기 조건과 확산 정도를 예측하는 기본적인 모형을 제시했다. 그들이 제시한 모형들은 오늘날까지 전염 확산 모형의 뼈대가 되고 있는데, 대표적인 모형으로는 인구 집단을 감염 가능성이 있는 사람들의 모임 S (Susceptible), 감염된 사람들의 모임 I (Infectious), 회복되거나 사망하여 더 이상 확산에 참여하지 않는 모임인 R (Removed)로 구분지어 감염병의 확산을 기술하는 SIR 모형이 있다. SIR 모형에서는 한번 회복된 사람은 다시 감염되지 않기 때문에 홍역, 볼거리, 풍진처럼 어릴 때 한 번 앓으면 면역력을 갖는 질병에 대해 잘 맞는 것으로 알려져 있다. 비슷하게 자주 연구되는 모형으로는 SIS 모형이 있다. SIS 모형은 SIR 모형과 유사하게 S 집단의 사람들이 특정 비율 β로 감염되어 I 집단에 포함되는 한편 감염된 사람이 시간당 μ의 비율로 다시 회복되어 감염 가능성이 있는 상태 S로 돌아올 수 있다. 따라서 이 모형은 감기에 한 번 걸린 사람이 치료된 후 다시 감기에 걸릴 수 있는 것과 같이 재발할 수 있는 질병에 유용하다. 보다 현실적인 모형으로는 감염병에 노출되어 감염이 되었지만 아직 전염시키지 못하는 노출군 E (Exposed)를 포함한 SEIR 모형도 있다. 소개한 수리 모형들은 구성원을 단지 감염 상태에 따라서만 단순히 구획화한 모형이지만 감염병 확산의 핵심적인 양상을 이해하고 대규모 유행이 일어나는 조건을 파악하는 데 통찰을 제공한다는 의의를 가진다.

 예를 들어 감염병이 유행할 때 사회는 과거 천연두 유행이 종식된 것과 같이 더 이상 확산이 없이 종식되는 무병 상태 (Disease-free state)로 향할 수도 있고, 인플루엔자처럼 주기적 유행 상태 (Endemic state)에 도달할 수도 있다. SIS 모형의 언어로 이를 해석하면 다음과 같다. 단순 구획화된 SIS 모형에서는 모든 사람이 균일하게 k명의 이웃을 가진다고 가정한다. 감염된 I 상태의 사람은 k명의 사람에게 단위 시간당 β의 비율로 감염을 시키기 때문에 매시간 βk명의 사람을 감염시킨다. 한편 감염된 사람은 매시간 μ의 비율로 회복되는데, 즉 평균적으로 1/μ 시간 후에 회복된다고 볼 수 있다. 따라서 한 명의 감염자는 그가 감염되어있는 기간 동안 βk × 1/μ 명의 사람을 감염시킬 수 있다. 이처럼 감염된 한 사람이 감염시킬 수 있는 사람의 수를 ‘기본 감염 재생산 수 (Basic reproductive number)’ 혹은 R0 라고 부른다. R0가 1보다 큰 감염병은 다른 조치가 없을 때 단계를 거칠수록 감염자가 늘어나 이론적으로 집단 전체에 퍼질 수 있다. 만약 어떤 질병의 R0가 10이라면 한 사람이 감염되어 있는 동안 10명의 이웃에게 감염을 시킬 수 있으므로 두 단계만 거치면 100 명의 사람이 감염될 수 있는 것이다. 반대로 R0가 1보다 작다면 이 질병들은 시간이 흐르면 감염자 숫자가 줄어들어 결국 소멸하게 될 것이다. 대표적인 몇 가지 질병들을 살펴보면 코로나19의 경우 약 2.5, H1N1은 3, 사스는 3.5, 천연두는 6.5, 홍역은 15 정도의 R0를 갖는다고 알려져 있다 [2].

 

집단 면역과 사회적 거리두기 


​ 그런데 여기서 한 가지 질문이 생긴다. 홍역이나 천연두의 R0가 1보다 큰 걸 보면 우리 모두가 벌써 감염되고도 남아야 하는데, 대다수의 사람들이 여전히 건강하게 지내는 이유가 무엇일까? 그 열쇠는 우리에게 이미 익숙한 예방접종에 있다. 일반적으로 한 집단에서 p의 비율로 백신접종을 받는다면 한 감염자가 감염시키는 사람의 수는 (1-p)R0가 되어 그 감염병은 실질적으로 더 작은 값의 R0를 갖는 효과가 생긴다. 코로나19의 경우 R0를 2.5 정도로 본다면, 집단면역이 작동하기 위해서는 산술적으로 (1-p)2.5 < 1, 즉 60% 이상이 면역성을 가져야 한다는 계산이 나온다. 이렇게 유효한 R0를 1보다 낮게 만들 수 있는 최소의 p를 인구 임계 면역치라고 부른다. 이처럼 백신 접종은 개인을 감염병으로부터 직접 보호해줄 뿐 아니라 감염병이 사회 전체로 전파되는 것을 저지하는 역할까지 하는 셈이다. 물론 소개한 R0 수치들은 평균치일 뿐 바이러스의 고유한 값이 아니며, 도시나 시골과 같이 인구 밀도나 환경에 따라 변할 수 있는 값임을 주의해야 한다. 집단면역 이외에도 직접적으로 R0를 줄일 수 있는 방법이 있다. R0에 영향을 주는 전파율 β는 사회 구성원 모두가 힘을 합쳐 낮출 수 있는데, 생활 속 마스크 착용, 손씻기, 사회적 거리두기 등의 방역수칙을 준수하는 것이 이에 해당한다. 뿐만 아니라 R0는 접촉자 수 k에도 비례하기 때문에 많은 접촉을 피하는 것으로도 유효 R0를 줄일 수 있다. 정부가 다수가 모이는 행사나 5인 이상의 집합을 규제하는 이유 역시 R0를 낮추기 위함으로 이해할 수 있다.

 

불균일한 사회 연결 구조와 네트워크 


 앞서 살펴본 SIR 혹은 SIS 모형에서는 인구집단을 단순히 감염 여부에 따라서만 나누어 구획화 했기 때문에 모형 속의 사람들은 모두 동일한 환경에서 동일한 방식으로 살아가는 것으로 간주하였다. 이러한 가정은 실제 복잡한 현실을 충분히 반영하지 않기 때문에 질병 확산 예측을 종종 어긋나게 하곤 한다. 2008년 미국 캘리포니아 샌디에이고의 한 초등학교에 새롭게 39,132명의 학생이 입학하였다. 당시 학교에 진학한 97%의 학생들은 최소 한 번의 MMR (홍역-이하선염-풍진) 백신을 맞았고, 2.5%에 해당하는 학생들은 개인 신뢰 면제로 백신을 맞지 않았다. 단순 구획화 모형처럼 모든 사람이 균일하게 섞여 있는 (homogeneous) 사회에서 계산한 인구 면역 임계치는 홍역의 경우 91%였고, 당시 샌디에이고의 인구 면역률은 92%였기에 사람들은 홍역이 크게 발생할 수 있을 것이라고 예상하지 못했다. 그러나 그 해 면역이 되지 않은 7살 소년이 스위스를 방문하고 돌아와 홍역 판정을 받았고, 미국 질병통제예방센터 (CDC)의 보고서에 따르면 이후 11명의 추가적인 감염이 뒤이었다. 접촉자 추적 결과 이들 중 5명은 소년과 같은 학교의 친구들이었고, 4명은 소년이 다녀간 소아청소년과의 진료실에 같은 시간에 있었던 사람들로 밝혀졌다 [3]. 지역 사회의 인구 면역 임계치가 높았지만 면역이 약한 사람이 밀집된 지역이었기 때문에 더 쉽게 바이러스가 확산된 것이다. 이처럼 불균등하게 인구 집단이 섞여 있는 경우 예상보다 더 많이, 더 빠르게 질병이 퍼질 수 있다. 샌디에이고 홍역 사례에서 이러한 불균등성을 고려할 경우 실제 기본 감염 재생산 수 R0는 1.7배로 더 증가한다고 한다 [4].

 샌디에이고의 홍역 사례에서 알 수 있듯 실제 세상의 사람들은 동일한 생활 패턴을 갖지 않으며, 고도로 분리된 생활 반경과 인간관계를 맺으며 살아간다. 특히 한 사람이 얼마나 많은 이웃을 접촉하는지는 감염병의 확산 과정에서 큰 영향을 미치는데, 사회 구성원들의 이웃 수가 다양하고 불균일할수록 그 효과는 더욱더 극대화 된다. 그렇다면 구체적으로 내가 가진 이웃들의 수와 여러 이웃들을 잇는 네트워크의 구조는 감염병이 확산하는 데 어떤 영향을 미칠까?

 네트워크는 복잡한 세상을 단순화하여 구성 요소들 간의 연결구조로서 바라보는 한 가지 관점이다. 네트워크란 기본적으로 점(노드)과 두 점을 잇는 선(링크)으로 구성된다. 우리 주변에서 볼 수 있는 대부분의 현상 속에 네트워크가 들어있다고 해도 과언이 아닌데 가장 쉽게 볼 수 있는 예로 도로 네트워크가 있다. 도로 네트워크에서 각 지역은 노드이고, 각 지역을 연결하는 도로들은 링크가 된다. 지구촌의 여러 나라를 하나로 연결하는 인터넷(링크) 역시 각각의 IP(노드)를 지닌 컴퓨터들을 연결하는 네트워크이다. 뇌 속의 860억 개의 뉴런들은 시냅스를 통해 복잡하게 연결되어 있으며, 우리 몸의 단백질들은 대사과정을 통해 서로 연결되어 있다. 전염 현상도 마찬가지다. 질병에 감염된 사람은 그 사람이 만나는 이웃들에게 질병을 전파하고, 감염된 이웃들은 다시 그들의 이웃에게 질병을 전파한다. 따라서 사람들이 연결된 네트워크의 구조를 아는 것은 질병이 어떠한 경로로 전파되는지를 알 수 있는 중요한 단서가 된다.

 네트워크의 구조를 살펴보는 첫 번째 방법은 노드들의 이웃 수 분포를 보는 것이다. 모든 사람이 비슷한 수의 이웃을 가지고 있는 세상에서는 사람들의 이웃 수의 분포가 종 모양으로 생겼다. 종 모양의 정규 분포를 따르는 다른 예들은 일상생활 속에서 쉽게 발견할 수 있는데 대표적으로 사람들의 키, 몸무게, IQ, 대학 수능능력시험 성적 등이 있다. 우리가 키가 3m인 사람을 볼 수 없는 것과 몸무게가 1톤인 사람을 찾아볼 수 없는 이유도 바로 이러한 값들이 종 모양의 분포를 따르기 때문이다.

 

 

cf901ef8c41906728c8531b261df7f28_1618985049_9882.png

 

그림 1. 네트워크의 이웃 수 분포

 

 

 흥미로운 사실은 실제 세상의 많은 네트워크의 이웃 수 분포는 종 모양으로 생기지 않고, 멱함수와 같이 두터운 꼬리를 갖는 형태를 보인다는 점이다. 대표적인 예로 항공 네트워크가 있는데, 고속도로와 비교해보면 그 이유를 쉽게 알 수 있다. 고속도로 네트워크는 도시와 이웃한 주변의 도시를 잇는 네트워크로 대부분 비슷한 수의 갈림길을 갖기 때문에 종 모양의 이웃 수 분포를 갖는다. 한 도시에서 멀리 떨어진 다른 도시로 가기 위해서는 여러 도시를 거쳐야만 하는 것도 그 이유이다. 그러나 항공망 네트워크에서는 고속도로 네트워크와 달리 멀리 떨어진 도시도 단번에 도달할 수 있는데, 여러 공항을 연결하는 ‘허브’ 공항들이 있기 때문이다. 많은 국제공항들은 허브 공항들을 통해 대규모로 연결되어 있으며, 작은 도시들은 이러한 허브 공항을 거쳐 손쉽게 도달할 수 있다. 따라서 항공망의 이웃 수 분포에서는 대부분의 공항은 소수의 공항과 연결된 작은 이웃 수를 갖지만, 상대적으로 많은 이웃 수를 지닌 허브 공항도 적지만 존재한다. 따라서 이웃 수의 분포가 종 모양이 아닌 두터운 꼬리를 갖는 형태를 띤다. 두터운 꼬리를 갖는 여러 분포 중에서도 특히 멱함수 형태를 따르는 분포를 척도 없는 네트워크 (scale-free network)라고도 부른다. 거칠게 말하자면 멱함수를 따르는 분포에서는 분산이 너무 크기 때문에 평균 체중, 평균 키와 같이 전체 분포를 대표할 척도 (scale)를 찾는 것이 어렵기 때문에 붙여진 이름이다.

 

척도 없는 네트워크에서의 전염 현상 


​ 척도 없는 네트워크는 항공망 뿐 아니라 인터넷, 신진대사 네트워크, SNS의 친구 네트워크에서도 발견된다. 2001년 네이처지에는 ‘인간의 성적 접촉 연결망 (the web of human sexual contacts)’이라는 다소 자극적인 제목의 논문이 소개 되었다 [5]. 프레드릭 릴예로스 스웨덴 스톡홀름대학교 사회학과 교수는 스웨덴 성인 4,781명을 대상으로 성관계를 맺은 파트너 수를 조사했는데 놀랍게도 멱함수 형태의 두터운 꼬리 분포를 따르는 것으로 확인된 것이다. 이 결과는 인간 사회의 가장 직접적인 신체적 접촉과 관련된 연결에서도 소위 카사노바라고 불리는 허브가 존재한다는 것을 보여준다. 사실 성관계 네트워크의 구조를 이해하는 것은 AIDS (후천성면역결핍증)와 같이 밀접한 접촉을 통해 전염되는 감염병의 확산을 예방하는 데 필수적인 중요한 연구 주제이다.

 2001년 파스토르-사토라스와 베스피냐니 연구팀은 당시 컴퓨터 바이러스의 전염 패턴을 공부하고 있었는데, 비교적 낮은 전염율과 백신 프로그램의 설치에도 불구하고 바이러스의 수명이 상당히 긴 것을 확인했다 [6]. 그들은 인터넷과 같은 척도 없는 네트워크 구조에서는 놀랍게도 R0 < 1로 만드는 전염률의 임계값이 사라진다는 사실을 수학적으로 확인하였는데 이는 아무리 전염률이 약한 바이러스라도 결국 네트워크 전체에 매우 빠른 시간동안 확산하고 살아남을 수 있다는 것을 의미한다. 다시 말해 인터넷과 같이 척도 없는 네트워크에서는 매우 많은 컴퓨터와 연결되어 있는 허브가 존재하기 때문에 우연히 감염된 컴퓨터로부터 허브는 쉽게 감염이 될 수 있고 역으로 허브가 한번 감염되면 순식간에 많은 컴퓨터를 감염시킬 수 있는 것이다. 이 같은 현상은 균일하게 연결된 네트워크 위에서는 예측할 수 없는 결과였다. 앞서 우리는 성관계 네트워크의 연결선 수 역시 불균일성이 강하고 허브가 존재한다는 것을 보았는데, 이는 에이즈와 같은 질병들도 컴퓨터 바이러스처럼 퇴치하기가 쉽지 않음을 보여준다. 에이즈가 잘 퍼지는 이유는 많은 친구를 가진 허브, 카사노바가 있기 때문이다. 카사노바는 친구가 많아서 친구 중에 누가 하나 걸리면 쉽게 감염되고 또 그 카사노바는 연이어 주변에 에이즈를 넓게 퍼트리게 되는 것이다. 감염병 측면에서 보면 항공망 구조는 확산하기에 상당히 좋은 매개체가 되는 것이다.

 

대책은 없을까? 친구 수의 역설과 전염 예방 


​ 사실 이러한 문제점을 거꾸로 생각해보면 좋은 해결법이 있다. 이제 허브를 잘 관리하고 치료하기만 하면 되는 것이다. 그런데 허브를 치료하자니 또 다른 문제점이 생긴다. 컴퓨터는 뒤를 보면 선이 몇 개 꽂혀 있는지를 셀 수 있으니, 연결선이 많은 ‘허브’ 컴퓨터를 찾아 방화벽을 깔고 백신을 업데이트해서 열심히 지킬 수가 있는데 문제는 카사노바이다. 카사노바는 외형적으로 티가 나지 않는다. 실제 사회에서는 누가 몇 명과 성관계를 맺었는지 알 길이 없기 때문이다. 슈퍼전파자 역할을 하는 허브를 잘 가려내 먼저 백신이나 치료제를 제공하거나 돌아다니지 못하게 주의를 주면 감염병이 확산하는 것을 막을 수 있을 텐데 더 큰 문제는 그 허브를 찾을 수가 없다는 것이다.

 난감한 상황에 봉착해 연구가 중단되는 듯했지만, 사람들은 똑똑하게도 이 문제를 해결해냈다. 카사노바한테 백신이 전달되어야 하는데 카사노바가 정체를 감추고 있으니 이렇게 생각해보자. 에이즈 백신 100개를 들고 서울역 앞에 가는 것이다. 그리고 지나가는 사람을 아무나 붙잡고 그 사람한테 주사기를 뜯지 않고 준다. 그 다음에 이렇게 말한다. “집에 가다가 본인의 친구 중 한 분을 푹 찌르세요.” 잘 생각해보면 서울역 앞에서 붙잡은 사람은 ‘아무나’인데 카사노바는 친구가 많으므로 그 ‘아무나’의 친구일 확률이 높아지고 자연히 주사를 맞을 확률이 높아진다. 이것을 일명 ‘친구 치료’라고 한다. 단순하게 아무에게나 주사를 놓는 게 아니라 한 단계를 넘어서 놓게 되면 자연스럽게 두 번째 단계에서는 카사노바가 높은 확률로 걸리게 되는 것이다.

 이 기발한 방법의 배경에는 ‘프렌드십 패러독스 (Friendship Paradox)’의 수학적 원리가 숨어있다. 우리말로 표현하자면 ‘친구 수의 역설’ 정도로 번역 되는데 무슨 뜻이냐면 “내 주변의 친구들은 왠지 나보다 더 잘나가는 것처럼 느껴진다.”는 것이다. 구체적으로는 “내 친구들은 나보다 더 친구 수가 많은 것 같다.”는 것이다. 아니시면 다행이다. 당신은 특별한 신분이시다. 사실 친구 수의 역설은 통계적인 관점에서 집단으로부터 표본을 추출하는 방식에서 나타난 편향 (bias)으로 인해 생기는 자연스러운 결과이다. 약간의 수학을 함께 따라가 보면 쉽게 이해할 수 있다. 노드들의 이웃 수가 분포 p(k)를 따르는 네트워크 하나를 생각해보자. 이 네트워크에서 눈을 감고 노드 하나를 무작위로 고를 때 그 노드의 이웃 수가 k일 확률은 p(k)라는 함수 값을 따른다는 뜻이다. 이번엔 조금 다른 방식으로 노드를 골라내보자. 링크를 무작위로 하나 선택한 다음 그중 한쪽 끝에 연결된 노드를 선택하는 것이다. 내게 연결된 친구들의 친구 수를 보는 셈이다. 후자의 방법으로 선택된 노드들의 이웃 수 분포는 처음 방법대로 고른 노드들의 이웃 수 분포와 과연 같을까? 언뜻 보기에는 어찌됐건 무작위로 뽑힌 노드들인데 무슨 차이가 있나 싶지만 사실 두 방법의 결과에는 큰 차이가 있다.

 링크를 따라가 노드를 고른 후자의 경우, 이웃 수가 k인 노드가 선택될 확률은 전체 노드 중에서 이웃 수 k인 노드가 차지하는 비율인 p(k)에 비례할 뿐 아니라 이 노드들이 각각 k개의 링크를 가지고 있기 때문에 누군가의 이웃으로 선택될 확률이 k배로 더 높아지게 된다. 따라서 링크를 따라가서 노드를 선택하는 후자의 경우 선택되는 노드들의 이웃 수분포는 k × p(k)에 비례하게 된다. 이런 선택 방법을 지인 추출법 (acquaintance sampling)이라고 부른다. 예를 들어, 전체 인구 가운데 1000명의 이웃을 가진 카사노바의 비율 p(k = 1000) 이, 한 명의 이웃을 가진 사람의 비율 p(k = 1)에 비해 1000배 드물다 해도, 누군가의 친구가 카사노바일 확률은 한 명의 친구를 가진 사람일 확률과 같다. 따라서 내 친구들이 항상 나보다 더 친구 수가 많은 것처럼 느껴지는 것도 같은 원리로써 단지 통계적으로 편향된 추출의 자연스러운 결과인 것이다. 이 효과는 이웃 수가 분포가 불균등할수록 더욱 크게 나타난다. 그러니 나의 친구 수가 적다고 좌절하지 말자!

 재미있는 사실은 하버드 대학의 연구자들이 좌절을 넘어 친구 수 역설을 감염병 확산을 조기진단 하는 데 사용하였다는 점이다 [7]. H1N1 독감이 퍼졌을 때 했던 실험인데 우선 두 집단 A, B를 만든다. 하버드 재학생들 20명을 뽑아서 표본 집단 A를 구성하고 또 A 집단에 속한 20명 학생의 친구 중에서 20명을 새로 뽑아서 비교집단 B를 구성한다. 그 후 이 두 집단 A, B가 독감에 걸리는 추이를 비교 분석하였다. 그랬더니 신기하게도 B 집단이 훨씬 더 독감에 빨리 걸리는 것으로 나타났다. 무려 2주나 빨랐는데 어떤 이유에서일까? 앞서 살펴본 친구 수의 역설에 따르면 친구의 친구들은 친구 수가 더 많다고 했다. 따라서 B 집단은, 친구의 친구들로 구성된, 친구 수가 A 집단보다 많은 집단이기 때문에 독감 환자들과 훨씬 더 접촉 확률이 높을 것이고 빨리 독감에 걸린다는 것이다. 이렇게 한 집단과 그 집단의 친구를 뽑아서 만든 집단을 감시하고 있으면 친구 수의 역설을 교묘하게 이용하여 독감뿐 아니라 여러 가지 질병의 확산을 예측하고 트렌드를 먼저 읽어내는 데 사용할 수도 있다.

 

네트워크 위에서의 접촉자 추적 


​ 친구 수의 역설은 예측 뿐 아니라 접촉자 추적 조사 (contact tracing)에도 사용될 수 있다. 접촉자 추적 조사는 보건 당국이 감염병의 추가적인 확산을 막기 위해 코로나19 감염자의 밀접 접촉자 혹은 감염 위험이 있는 사람들을 발견하여 외부 접촉 활동을 멈추도록 권고하는 조사이다. 최근에는 스마트폰 앱 사용자의 동선 데이터와 정부에서 공개하는 코로나19 확진자 동선 데이터를 인공지능과 빅데이터로 분석해 고위험군을 효과적으로 선별하고 추가 확산을 방지하는 디지털 추적 연구도 활발히 진행되고 있다. 모든 사람의 일거수일투족을 알면 좋겠지만 개인정보의 보호에 대한 우려가 높기에 국가는 개인정보 침해를 최소화하며 효율적인 추적 조사를 시행할 수 있는 알고리즘을 고민해야 할 것이다.

 최근 인디아나 대학의 안용열 교수와 연구팀은 친구 수의 역설보다 한 단계 더 높은 통계적 편향을 일으키는 노드 선택법을 활용해 슈퍼전파자인 허브를 추적하는 효율적인 방법을 제시했다 [8]. 아이디어의 핵심은 바로 감염경로를 역으로 추적해 나가는 데 있는데 그 이유를 함께 살펴보자. 초기 감염자로부터 후속 감염자들로 이어지는 전염 현상은 부모 노드로부터 자녀 노드들을 향하는 일종의 전파트리 (transmission tree)로 표현할 수 있다. 사실 이러한 전파트리에서 감염자들을 격리하는 것은 기본적으로 높은 이웃 수를 갖는 잠재적인 허브를 찾는 데 도움을 준다. 왜냐하면 전염 현상 자체가 링크를 따라 전파되는 것이기 때문에 감염자들은 친구 치료를 통해 추출되는 것과 동일한 이웃 수 분포를 따르기 때문이다. 전파트리의 순방향을 따라 도달한 자녀 노드들의 집단을 선별한다면 이는 친구수의 역설을 따라 노드들을 추출하는 것이기에 각 노드가 이웃 수 k를 가질 확률은 kp(k)가 된다.

 

 

cf901ef8c41906728c8531b261df7f28_1618985799_6424.png

그림 2. 전파트리를 이용한 접촉자 추적. (좌) 감염병의 확산 경로를 나타내는 전파 트리. (우) 역방향 접촉자 추적의 원리. 노드 B는 A에 비해 더 많은 감염을 유발하였으므로 역방향 접촉자 추적을 통해 더 자주 발견된다.

 

 

 그런데 반대로 전파트리에서 감염자들이 감염된 경로를 역추적하여 부모노드를 선택한다면 어떻게 될까? 자연스럽게 더 많은 자녀 노드(감염자)를 가진 부모노드일수록 역추적 과정에서 더 자주 발견될 것이다. 이처럼 전파트리의 역방향으로 올라가 노드를 추출하는 경우 친구수의 역설 효과와 더불어 많은 이웃을 감염시킨 부모 노드가 선택되는 편향까지 발생하여 수학적으로 이웃 수 k를 갖는 노드가 선택될 확률은 k(k-1)p(k)에 비례하게 된다. 이웃 수 1000명을 가진 카사노바를 찾을 수 있는 확률은 이웃 수 1명을 지닌 사람들에 비해 약 백만 배 (1000 × 999)로 가중치가 높아지는 것이다.

 여기서 한 가지 문제가 있다. 이론적으론 부모노드를 추적하는 것이 허브를 찾는 흥미로운 결과이지만 현실적으로 전염과정에서 누가 부모노드 역할을 하는지 알기란 쉽지 않다. 감염경로가 명백한 부모노드라면 이미 알려져 격리가 되었을 것이기 때문이다. 문제는 부모 노드이지만 아직 발견되지 않은 감염자들이다. 다행히도 연구진은 역방향 전파의 편향을 살려 슈퍼전파자를 찾을 수 있는 방법을 제안했다. 슈퍼전파자는 많은 사람들을 감염시킨 사람을 의미하기 때문에 이들은 필연적으로 많은 감염자들을 접촉하거나 감염자가 많은 장소를 방문했을 것이다. 따라서 전파트리에서 역방향으로 접촉자를 추적하는 대안으로 여러 감염자들이 동시에 높은 빈도로 접촉한 사람을 추출해내는 빈도-기반 접촉자 추적을 하면 역방향 추적과 유사한 편향으로 허브를 추출해 낼 수 있다. 실제 대학생들의 접촉 네트워크 데이터에서 전염현상을 시뮬레이션 한 결과 감염자들을 5% 격리시킬 때 시간별 최대 감염자 수(피크 값)은 15%이상 줄어든 반면, 접촉자 추적을 시행했을 때에는 최대 감염자 수가 50% 정도 줄어드는 것으로 나타나 그 효과가 확인되었다. 현실적으로 스마트폰을 통해 수집된 사용자들의 동선 정보를 활용하는 디지털 추적 방법과 빈도-기반 접촉자 추적을 함께 활용한다면 확진자의 동선과 개인 정보가 공개되는 것을 최소화하면서 다른 확진자들과 높은 빈도로 함께 머물렀던 감염 위험군을 효율적으로 선별하고 격리 조치를 취할 수 있을 것으로 기대한다.

 

글을 마치며 


​ 감염병의 확산 뒤에는 네트워크라는 거대한 구조가 숨어있다. 데이터를 통해 살펴본 네트워크는 우리가 사는 세상이 생각했던 것보다 더 가깝게 그리고 더 불균일하게 섞여 있다는 사실을 알려주었다. 이러한 세상에는 막대한 영향력을 가지는 슈퍼전파자들이 있고, 전염에 취약한 집단들이 함께 존재한다. 불균일한 네트워크 구조는 한편으로 바이러스가 허브를 통해 순식간에 퍼져갈 수 있는 무서운 존재이지만, 다른 한편으로 사회가 이를 활용하여 효율적으로 위험에 대처할 기회를 제공해 주기도 한다. 네트워크의 특징을 잘 활용하면 감염병 확산을 조기에 진단할 수 있으며, 또 잠재적인 슈퍼전파자를 찾는 데 도움을 얻을 수 있다.

 학자들의 노력을 통해 네트워크 과학을 이용한 모형들이 날로 발전하고 있지만 이처럼 단순한 수학적 모형을 실제 세계에 적용할 때는 많은 주의점이 요구된다. 세상은 생각보다 더욱 복잡하고 얘기치 못한 새로운 변수는 언제나 예상치 못한 결과를 가져오기 마련이다. 얼마 전 미국의 일리노이 대학교에서는 학생들의 다양한 상호작용을 고려하여 고안한 통계적 모형에 기반하여 학교를 다시 개강하기로 결정하였으나 학기를 시작한지 한 주 만에 800명 이상의 확진자가 발생한 사태를 맞이하기도 하였다 [9]. 그 중에서는 코로나19 양성 판정을 받았음에도 불구하고 주의를 무시하고 파티를 참석한 학생들도 있었다. 모든 학생이 합리적으로 규칙을 따를 것으로 생각한 것이 오산이었다. 전염에 대한 수리적 모형은 감염병의 확산 과정을 이해하고 이를 대비하는 데 도움을 주지만, 팬데믹의 종식을 위해서는 결국 모든 구성원의 이성적인 협력이 필요하다는 교훈을 잊지 말아야 할 것이다.

 

참고문헌

 

1. Kermack, W. O., McKendrick, A. G. A contribution to the mathematical theory of epidemics. Proceedings of the royal society of

london. Series A, Containing papers of a mathematical and physical character, 115(772), 700-721 (1927).

2. 안광석 ≪팬데믹 시대를 위한 바이러스+면역 특강≫ (2020).

3. Centers for Disease Control and Prevention (CDC. “Outbreak of measles--San Diego, California, January-February

2008.” MMWR. Morbidity and mortality weekly report 57.8: 203-206 (2008).

4. Glasser, J. W. et al. The effect of heterogeneity in uptake of the measles, mumps, and rubella vaccine on the potential for outbreaks

of measles: a modelling study. The Lancet Infectious Diseases 16.5: 599-605 (2016).

5. Liljeros, F. et al. The web of human sexual contacts. Nature 411.6840: 907-908 (2001).

6. Pastor-Satorras, R., and Vespignani, A. Epidemic spreading in scale-free networks. Physical review letters 86.14: 3200 (2001).

7. Christakis, N. A., and Fowler, J. H. Social network sensors for early detection of contagious outbreaks. PloS one 5.9: e12948 (2010).

8. Kojaku, S., et al. The effectiveness of contact tracing in heterogeneous networks. arXiv preprint arXiv:2005.02362 (2020).

9. Jordana Cepelewicz, https://www.quantamagazine.org/the-hard-lessons-of-modeling-the-coronavirus-pandemic-20210128/#,

(2021).