미가공 데이터를 실질적 지식으로 전환하는 머신러닝

We are in the age of big data. The number of biomedical variables that can be measured has exploded as technology advances. It is easy for clinicians to be overwhelmed, so tools are needed to help interpretation. At the World Congress of Neurology 2019, Professor Sergio Baranzini (UCSF Weill Institute for Neurosciences, San Francisco, USA) and Professor Dina Katabi (MIT, Cambridge, USA) showed how machine learning approaches can turn raw data into useful knowledge.

우리는 빅데이터의 시대에 살고 있습니다. 기술 발전에 따라 측정 가능한 생체의학적 변수가 폭발적으로 증가하고 있습니다. 임상의들은 이러한 상황에서 쉽게 압도될 수 있으므로 해석을 도울 장비가 필요합니다. 2019년 세계신경과학회(WCN)에서 세르지오 바란지니(Sergio Baranzini, 미국 샌프란시스코 웨일신경과학연구소) 교수와 디나 카타비(Dina Katabi, 미국 케임브리지 MIT) 교수는 머신러닝 방식이 어떻게 원자료(raw data)를 유용한 지식으로 재탄생시킬 수 있는지를 보여주었습니다.

More data were generated in 2017 than in the rest of human history combined. The total stored digital data worldwide in 2018 was estimated at 33 zettabytes (1 zettabyte = 109 terabytes = 1021 bytes).1

But data on its own is useless. Adding context, such as categories, turns data into usable information. The interaction and relationship between sets of information then becomes knowledge.

2017년에 생성된 데이터의 양은 인류 역사를 모두 합친 기간의 데이터보다 많았습니다. 2018년 전 세계에서 저장된 디지털 데이터의 총량은 33 제타바이트(1 제타바이트 = 109 테라바이트 = 1021 바이트)인 것으로 추정됩니다.1

하지만 데이터 자체만으로는 무용합니다. 범주와 같은 상황 정보(context)가 데이터에 더해질 때 비로소 사용 가능한 정보가 됩니다. 그리고 정보 집합들 간의 상호작용 및 관계가 지식이 됩니다.

Complex issue

복잡한 문제

Biomedicine has arguably the biggest data problem of any sector. Data can be collected from the genome, transcriptome, proteome, biochemical pathways, cellular processes, and physiological processes.

생체의학은 모든 영역에서 분명히 가장 큰 데이터 문제를 가지고 있습니다. 데이터는 게놈, 전사체, 단백체, 생화학적 대사 경로, 세포 과정, 생리 과정으로부터 수집될 수 있습니다.

Research has been successful at understanding each of these aspects individually. But they interact in a highly complex and non-linear way, which makes it difficult to make predictions for the complete system.

이러한 각 분야의 개별적 이해에 대한 연구는 성공적으로 이루어져왔습니다. 그러나 이 분야들은 매우 복잡하고 비선형적인 방식으로 상호작용하고 있기 때문에 완전한 체계로 예측하는 것이 어렵습니다.

Biomedicine has the biggest data problem of any sector

생체의학은 모든 영역에서 가장 큰 데이터 문제가 있습니다

Both speakers are developing approaches to help clinicians use data to track and predict the course of disease in each patient using real-time monitoring.

두 발표자는 현재 임상의들이 실시간 모니터링을 통해 환자별 질병 경과를 추적 및 예측하기 위해 데이터를 사용할 수 있도록 지원하는 방식을 개발 중입니다.

Harnessing AI

AI 활용

Professor Baranzini presented a “database of databases” called Scalable Precision medicine Oriented Knowledge Engine (SPOKE) that uses publicly-available population-level biomedical data.

바란지니 교수는 ‘데이터베이스의 데이터베이스’로서 인구 수준의 생체의학 공개 데이터를 활용한 확장 가능 정밀의학 기반 지식 엔진(SPOKE: Scalable Precision medicine Oriented Knowledge Engine)을 선보였습니다.

Artificial intelligence computes the probability that any two concepts in the data are related. The whole dataset is then mapped into a network of connected nodes to show new relationships. For example, the network path between a disease and a medication normally used for a different disease could open up new treatment possibilities.

AI는 데이터의 두 가지 콘셉트가 서로 연관되어 있을 확률을 계산합니다. 이후 연결된 노드 네트워크로 전체 데이터세트가 매핑 처리되어 새로운 상관 관계를 보여줍니다. 예컨대, 일반적으로 각기 다른 질병에 사용되는 약물과 질병 간의 네트워크 경로는 새로운 치료 가능성을 열 수 있습니다.

Characteristic heat maps

특징적인 히트맵

The capabilities of SPOKE have expanded with the addition of 1 million anonymized electronic health records from the UCSF Information Commons.2

UCSF 정보 공유 공간에서 수집하여 익명 처리된 전자건강기록 100만 개를 추가하면서 SPOKE의 역량은 더욱 확대되었습니다.2

An algorithm embeds each patient in the network and maps all their available data, such as genotyping, lab tests, and diagnoses. The timing of each observation is taken into account. Machine learning approaches create a 2D heat map for each patient containing about 130,000 pixels, where every pixel contains defined information.

알고리즘은 개별 환자를 네트워크에 입력하여 유전형 분석, 랩 시험, 진단 등 모든 가용 데이터를 매핑 처리합니다. 각 관찰사항의 시점도 고려합니다. 머신러닝 방식은 각 픽셀에 정의된 정보를 갖고 있는 약 13만여 개의 픽셀이 담긴 개별 환자의 2D 히트맵을 생성합니다.

Data can define a unique heat map for each disease

데이터를 이용하여 각 질병 고유의 히트맵 정립할 수 있습니다

Heat maps are also created for diseases. This allows vast amounts of data to be compared easily to identify trends. For example, the heat map for post-traumatic stress disorder (PTSD) was most similar to bipolar disorder, nicotine dependence, and intracranial aneurysm.

질병에 대한 히트맵도 생성됩니다. 히트맵을 이용해 방대한 양의 데이터를 쉽게 비교하여 경향성을 확인할 수 있습니다. 예를 들어 외상후 스트레스장애(PTSD)에 관한 히트맵은 조울증, 니코틴 의존, 뇌동맥류의 히트맵과 가장 유사했습니다.

Adding value

부가가치

The power of this approach is demonstrated with multiple sclerosis (MS), a condition with complicated interactions between genetics and environment.

이러한 접근법이 보유한 힘은 유전과 환경 간의 복잡한 상호작용이 나타나는 질환인 다발성 경화증(MS)에서 드러납니다.

The relationship between the gut microbiome and the host immune system may be a key factor in MS. The SPOKE database included this information for 5000 patients with MS, which was used to create heat maps for subtypes of the disease.

장내 미생물총과 숙주 면역체계 간의 관계는 MS의 주요 인자가 될 수 있습니다. SPOKE 데이터베이스에 MS 환자 5,000명에 관한 이 같은 정보를 입력하여 MS의 하위 유형에 관한 히트맵을 생성하는데 사용하였습니다.

The resulting heat maps were able to distinguish between MS subtypes. For example, patients with primary progressive MS (PPMS) had more genetic nodes. This aligns with studies showing that genetics has a stronger influence in PPMS than other subtypes.

이렇게 만들어진 히트맵은 MS의 하위 유형들을 구별해낼 수 있었습니다. 예컨대, 일차진행형 MS(PPMS) 환자들은 유전적 노드를 더 많이 가지고 있었습니다. 이는 유전학이 다른 하위 유형보다 PPMS에서 더욱 강력한 영향을 미친다는 연구 결과들과 궤를 같이합니다.

Passive monitoring

수동적 모니터링

Some conditions, such as Alzheimer’s disease, may require continuous patient monitoring. Wearable devices exist, but these may not be convenient or could cause distress to patients with dementia.

알츠하이머병과 같은 일부 질환들은 지속적인 환자 모니터링이 필요할 수 있습니다. 웨어러블 디바이스가 있기는 하지만, 치매 환자들에게 불편함이나 고충을 유발할 수 있습니다.

Professor Katabi introduced the concept of ‘invisibles’ – technology that enables passive monitoring of vulnerable patients without the same personal impact as wearables.

카타비 교수는 ‘인비저블스(invisibles)’의 개념에 대해 소개했습니다. 이는 웨어러블과 같은 개인적 영향은 미치지 않으면서 취약한 환자에 대한 수동적 모니터링을 가능하게 하는 기술을 의미합니다.

In this case, an electromagnetic (EM) signal of about a thousandth of the power of WiFi is emitted by a small device installed in the patient’s living space. Importantly, the signal does not interact with other EM fields, such as cellphone signals, or medical devices, such as pacemakers.

이 경우, 환자의 생활 공간에 설치된 소형 기기에서 와이파이 세기의 1/1000에 해당하는 전자기식(EM) 신호가 방출됩니다. 여기서 중요한 점은 이러한 신호가 심박조율기와 같은 의료기기나 휴대폰 신호 등 다른 전자기장과 상호작용하지 않는다는 사실입니다.

‘Invisibles’ monitor behavior without disturbing the patient

'인비저블스'는 환자를 방해하지 않으면서 행동을 모니터링합니다

Almost everything a person does changes the shape of the returned signal detected by the box. As EM partially passes through the body, this includes internal processes such as the heartbeat. Machine learning was used to connect the signal characteristics with corresponding patient actions and physiology.

사람이 취하는 대부분의 행동은 박스에서 감지되는 리턴 신호의 형태를 변화시킵니다. 전자기장이 부분적으로는 신체를 통과하기 때문에 심장 박동과 같은 체내 과정도 포함됩니다. 머신러닝은 신호 특성을 그에 상응하는 환자의 행동 및 생리학과 연결하는 데 사용되었습니다.

 

Help for carers

간병인 지원

Patients with the same disease can have very different symptoms. Invisibles can act as “digital biomarkers” to help carers to address individual needs more effectively.

동일한 질환을 가진 환자라도 증상은 다를 수 있습니다. 인비저블스는 ‘디지털 바이오마커’처럼 작동하여 간병인이 환자별 니즈를 좀 더 효과적으로 처리할 수 있도록 도와줍니다.

The directionality of the signal can be combined with a map of the living space. This context is important. For example, if the patient is lying in bed, they are likely asleep. But if they are lying on the floor in the kitchen, they may have fallen. The system can then alert carers.

신호 방향성은 생활 공간의 지도와 결합될 수 있습니다. 이러한 상황 정보는 매우 중요합니다. 예를 들어, 환자가 침대에 누워 있으면 잠든 상황일 가능성이 높습니다. 반면, 환자가 주방 바닥에 누워 있다면 넘어진 경우일 수 있습니다. 이러한 경우, 시스템이 간병인에게 상황을 알립니다.

Digital biomarkers improve the care of vulnerable patients

디지털 바이오마커는 취약한 환자의 돌봄을 개선합니다

Long-term trends also inform care. For example, cumulative data could show that a patient spends most of their day sitting. This patient could then be encouraged to exercise more often.

장기적인 양상은 환자 돌봄에 영향을 미치기도 합니다. 예컨대, 누적된 데이터를 통해 환자가 하루 중 대부분의 시간을 앉아서 생활한다는 사실을 알 수 있습니다. 이 경우, 환자에게 운동을 좀 더 자주할 것을 권할 수 있습니다.

Assessment without distress

고충 없는 평가

Sleep is often disrupted in neurodegenerative disease. Sleep monitoring is normally performed in a sleep lab by covering the patient’s head in electroencephalogram (EEG) sensors. This may cause anxiety and the results might not reflect the patient’s normal sleep. Professor Katabi’s device can distinguish sleep stages with 80% accuracy.

신경퇴행성 질환은 수면을 방해하는 경우가 많습니다. 수면 모니터링은 주로 수면 실험실에서 환자의 머리에 뇌파(EEG) 센서를 부착하는 방식으로 이루어집니다. 이는 환자의 불안을 유발할 수 있으며, 결과가 환자의 평소 수면을 반영하지 못할 수 있습니다. 카타비 교수가 개발한 기기는 80%의 정확도로 수면 단계를 구별할 수 있습니다.

More data were generated in 2017 than in the rest of human history combined

2017년에 생성된 데이터의 양은 인류 역사를 모두 합친 기간의 데이터보다 많았습니다

Disease severity scales could also be applied accurately. Professor Katabi conducted a pilot study with 7 Parkinson’s disease patients with a focus on gait, home activity and time in bed.3 The walking trajectory of control subjects was smooth, but Parkinson’s disease patients were slower with a “wiggly” trajectory. This could indicate how severe a patient’s balance issues are, and whether they improve with medication. Additional studies in a larger cohort will be key to validate these assessments.

질병 중증도 척도 또한 정확하게 적용될 수 있습니다. 카타비 교수는 파킨슨병 환자 7명을 대상으로 걸음걸이, 집안에서의 활동, 침대에서의 시간에 초점을 맞춘 예비 연구를 진행했습니다.3 대조군의 보행 궤적은 자연스럽게 이어진 반면, 파킨슨병 환자들은 ‘구불구불한’ 궤적을 형성하며 느리게 움직였습니다. 이는 환자의 균형 문제가 얼마나 심각한지, 그리고 약물을 이용한 개선 가능 여부를 보여줍니다. 규모가 더 큰 코호트를 대상으로 하는 추가 연구는 이러한 평가법을 검증하는데 중요할 것입니다.

Our correspondent’s highlights from the symposium are meant as a fair representation of the scientific content presented. The views and opinions expressed on this page do not necessarily reflect those of Lundbeck.

본 기사는 토론회에서 발표된 과학 지식 내용을 공정하게 전달하였습니다. 본 기사에서 제시된 의견은 룬드벡의 의견과 다를 수 있습니다.

References

1. Reinsel D, et al. IDC White Paper 2018.

2. Nelson C, et al. Nat Commun 2019;10(1):3045.

3. Kabelac Z, et al. Digit Biomark 2019;3(1):22-30.