[EBM] 주요우울장애의 영상학적 진단 - 머신 러닝

인공지능과 머신 러닝   

주요우울장애는 기능 손상이 매우 심한 정신과 질환들 중의 하나이다. 현재까지 주요우울장애의 임상적 평가는 일정 기간 이상 기능 손상을 가져오는 핵심 증상들의 최소 숫자를 만족하는가 여부에 의존해 왔다.

그러나 이러한 증상 기반의 접근법은 결과적으로 진단 불일치를 가져올 수 있어서 추가적인 여러 연구(유전학적 연구, 신경영상연구, 사후 조직 연구 등등) 결과들을 해석하는데 장애가 될 수 있다. 게다가, 미세한 임상적 징후를 조기에 찾아내어 진단하는 것은 아주 고도로 분화된 정신 건강 서비스 기관에 근무하는 숙련된 전문가를 필요로 한다. 따라서, 좀 더 객관적이고 신뢰성이 있는 기법들(뇌영상 기법)을 사용하는 것이 이러한 질환을 조기에 감지해는데 도움이 될 수 있다. 흔히 이루어지는 환자군과 정상대조군 사이의 비교분석 방법을 넘어서서 임상적으로 정확한 진단을 내리고, 치료에 대한 반응을 예측하기 위해 머신 러닝을 사용하는 것이 점차 관심을 끄는 연구 분야가 되고 있다.

인공지능이라는 개념은 1956년 미국 다트머스 대학의 존 매카시 교수가 개최한 다트머스 회의에서 처음 등장한 것으로, 처음에는 인간의 감각, 사고력을 지닌 채 인간처럼 생각하는 일반 인공지능(general AI)을 떠올렸지만, 현재의 기술 수준에서는 특정 작업을 인간 이상의 능력으로 해낼 수 있는 좁은 인공지능(naarrow AI)을 의미한다. 이러한 인공 지능을 구현하는 구체적인 접근 방식을 머신 러닝이라고 할 수 있다. 머신 러닝은 의사 판단 기준에 대한 구체적인 기준을 직접 컴퓨터에 일일이 입력하는 것이 아니라, 알고리즘을 통해서 컴퓨터를 학습시켜 컴퓨터가 작업을 수행하는 방법을 익히도록 하는 것을 말한다. 머신 러닝에서는 기계가 학습할 수 있도록 주어지는 데이터에서 특징(feature)을 추출하는 과정에는 여전히 사람이 개입한다. 이 과정에서 적절한 특징을 잘 정의하는 것이 머신 러닝의 핵심으로 머신 러닝을 위해서 사용하는 알고리즘 기법들도 다양하다. 제일 인기있는 알고리즘은 서포트 벡터 머신 기법이지만 그 이외에도 가우시안 과정 분류(gaussian process classifier), 선형 판별 분석(linear discriminant analysis), 의사결정 나무(decision tree) 등의 알고리즘이 다양하게 사용되고 있다.

그러나, 머신 러닝의 한 갈래인 딥 러닝은 이에서 더 나아가 주어진 데이터를 그대로 입력 데이터로 활용한다는 특징이 있다. 즉, 사람이 생각한 특징을 훈련하는 것이 아니라 데이터 자체에서 중요한 특징을 기계 스스로 찾아내어 학습하는 것으로 end-to-end machine learning이라고도 한다. 처음부터 끝까지 기계가 스스로 학습함으로써 사람의 개입으로 인해 발생할 수 있는 오류를 줄일 수 있으나, 그만큼 학습을 위해 제공되는 데이터의 양적, 질적 수준이 중요해진다. 따라서 알고리즘보다도 어떻게 양질의 인공지능 학습 데이터를 구할 수 있는가 하는 것이 더더욱 중요해지고 있다.

뇌영상 분야에서 머신 러닝의 발전 

뇌영상 연구들은 우선 구조적인 연구와 기능적인 연구로 나누어 볼 수 있다. 또한 머신 러닝기법을 활용하여 우울증의 발병을 예측하기 위한 다양한 연구들이 보고되어 왔다. 주요우울장애가 있는 환자들과 건강 대조군들을 비교하는 통상적인 구조적 뇌영상 연구들은 흔히 T1-강조 영상을 사용하는데, 이는 백질-회백질 사이의 대조가 크기 때문에 피질을 구성하는 회백질 영역을 더 정확하게 보는 것이 가능해서 주로 피질영역을 연구하는데 사용한다. 일차적으로 기존에는 국소 부위의 변화, 예를 들면 피질 두께 등에 초점을 맞추었다. 그러나, 다른 몇몇 신경정신과적인 질환들, 예를 들면 조현병, 자폐증, 알츠하이머 치매 등등에서는 단순히 일부 국소 부위에만 국한된 부피 변화만이 일어나는 것이 아니라, 뇌의 형태에 따른 기하학적 특성, 예를 들면 고랑의 깊이 등까지 변화되는 것으로 연구결과들이 보고되고 있다. 유사하게 주요 우울증의 증상들이 각기 다양하고 또 그 원인들도 복잡하다는 점을 감안하면, 주요우울증에서 나타나는 신경해부학적인 이상은 단일 국소부위의 형태적인 이상에 그치기 보다는 여러 부위의 부피 및 형태적 변화가 함께 동반될 가능성이 크다.1 구조를 보는 다른 뇌영상 기법인 T2-강조 영상은 백질 고신호(white matter hyperintensity)를 보는 데에 초점을 맞추는데, 이는 허혈 또는 허혈 전기의 백질 변화들을 보여주기 때문에 특히 노년기의 우울증(late life depression)의 평가에 많이 사용된다. 그리고 구조를 보는 방법으로 확산 텐서 영상들도 사용하고 있다. 한편 기능적인 측면들은 fMRI(functional MRI)를 이용하여 연구가 이루어질 수 있다. fMRI 연구는 과제를 주고 그에 따른 반응을 보는 task-relate fMRI를 이용하는 방법과 휴지기 fMRI를 찍어서 휴지기의 기능적 연결성을 보는 방법 등 다양한 방법들이 우울증의 진단 예측을 위해 사용되어 왔다. 2018년 현재까지 주요 우울증에서의 머신 러닝을 활용한 논문들을 분류해 보면 대략적으로 구조적 뇌영상이 20여편, task-related fMRI가 20여편, 휴지기 fMRI가 20여편 정도 되고 기타 DTI(Diffusion Tensor Images)를 본 연구가 10여편 정도로 추산된다.2

진단 분야에서 머신 러닝의 한계  

이러한 연구들이 보고되어 온 지는 벌써 10여년이 넘는 생각보다 긴 역사를 가지고 있다. 이러한 모델들을 평가하기 위한 지표로 사용하는 것이 통상적으로 정확도, 민감도 및 특이도인데, 정확도는 60% 후반에서 90% 중반대까지 이미 보고되었고, 또한 민감도 및 특이도 역시 각기 70-80% 후반대로 보고되고 있어서 모델들의 정확도가 아주 우수함을 알 수 있다.3 하지만 실제 임상에서의 특성들 때문에 아직 학습되지 않은 데이터에 잘 일반화를 할 수 있는, 즉 정확한 예측을 가능하게 하는 모델을 추정하기(만들기) 위하여 이러한 머신 러닝 이론을 실제로 적용할 때에는 몇 가지 문제들에 부딪히게 마련이어서 아직까지는 진단 분야에서의 머신 러닝이 임상적 활용으로까지 연결되지는 못하고 있다. 주된 이유는 역시 자료 수집, MRI 취득 변수 및 후처리 방법 등등에서 발생하는 다양한 영상 데이터들의 이질성(heterogeneity)이다. 결과적으로 이러한 이질적인 데이터 들에서 나온 결과들을 다른 데이터들로 일반화하는 데에서 문제가 생기고, 결과에 기초한 상호 비교를 어렵게 하고 있다.

보통 실생활의 자료들은 고차원적이지만(즉, 각 표본이 아주 많은 수의 특징들을 갖고 있으면서), 역설적으로 각 특징에 대한 표본 수의 크기는 제한적이기 때문에, 일반화가 가능한 학습 모델을 추정하는 데에 문제가 생긴다. 표본 수의 부족은 현재까지 보고된 대부분의 머신 러닝을 활용한 우울증 연구들에서 직면해 온 공통된 문제다. 하나의 단일한 데이터 집합으로 만든 예측 모델에서는 우수한 결과를 내도, 둘 이상의 각기 다른 데이터 집합으로 만든 예측 모델에서는 그 예측 정확성이 유의하게 떨어지는 것을 볼 수 있다. 최근에는 데이터들을 공유하기 위한 움직임들이 있지만, 공통된 표준이 있지 않는 한 이러한 문제는 계속될 것이다. 따라서 향후에는 표본의 수를 늘리기 위해 다양한 곳에서의 데이터를 얻는 움직임이 더욱 활성화될 것으로 예상된다.

 

 

본 자료는 이문수 교수가 직접 작성한 기고문으로, 한국룬드벡의 의견과 다를 수 있습니다.

참고문헌

  1. Patel MJ, et al. Studying depression using imaging and machine learning methods. NeuroImage: Clinical. 2016; 10:115-123
  2. Gao S, et al. Machine learning in major depression: From classification to treatment outcome prediction. CNS Neurosci Ther. 2018;1–16.
  3. Wu MJ, et al. Prediction of pediatric unipolar depression using multiple neuromorphometric measurements: A pattern classification approach. J Psychiatr Res. 2015;62: 84–91