ETRI

VOL. 172 april 2021

TOP
Focus on ICT

시계열 집중지능
딥러닝 엔진으로

미래에 숨겨진 의미를
예측하다

생활 속 ICT 이야기

딱히 병원에 가지 않아도 바이오 데이터는 일상 속에서 끊임없이 생성되고 있다.
타고 나는 유전체 데이터를 포함하여 병원 진료 및 외부 활동으로
한 사람이 평생 만들어내는 데이터만 해도 평균 1,100테라바이트(TB)1).
이는 책 3억 권, 영화 56만 3,200편에 달하는 양이다.
그러나 구슬이 서 말이어도 꿰어야 보배라는 말처럼 헬스 데이터 역시 통합되고 분석될 때 진정한 의미를 갖게 된다.

Focus on ICT 관련 이미지1

개인 건강 데이터 수집 기반을 마련하다Data collection

제4차 산업혁명의 핵심은 데이터를 확보해 정제하고 활용하는 것이다. 그렇다면 제4차 산업혁명의 첫걸음은 데이터 수집이라고 할 수 있다. 헬스케어 분야도 오래전부터 개인 건강 데이터 수집을 위한 디지털화를 차근차근 진행해왔다. 특히 가장 직접적이고 정확한 의료 데이터가 생성되는 병원은 일찍이 EMR(Electronic Medical Record, 전자의무기록시스템) 등을 활용한 병원정보시스템(HIS: hospital information system)을 구축하며 흐름에 발을 맞췄다.

환자의 의료기록을 디지털 형식으로 기록하여 보관하는 EMR은 중요한 헬스케어 데이터로 꼽힌다. EMR의 역사는 1999년으로 거슬러 간다. 1999년, 계명대학교 동산의료원이 국내 최초로 외래진료에 EMR 방식을 도입하고 점차 EMR을 전체 진료 부서로 확대하며 차트 없는 병원 시대를 열었다. 2003년을 기점으로 삼성서울병원, 서울아산병원, 분당 서울대병원 등 주요 대형 병원들도 EMR을 도입하며 병원 디지털화는 급물살을 탔다. 덕분에 현재 국내 EMR 품질은 세계적으로 매우 우수한 것으로 알려져 있다.

이후 몇십 년이 채 안 되어 각종 개인용 웨어러블 의료기기가 개발되었다. 일상생활을 하면서도 개인이 관리할 수 있는 헬스 데이터를 수집 할 수 있는 시대가 열린 것이다. 심박 수나 운동량 같은 단순 정보를 수집하는 스마트워치에서 눈물 속 포도당 농도를 측정하는 스마트 콘택트렌즈, 몸속 바이오마커2)를 확인하여 암을 진단하는 피트니스 밴드까지 일상에서 수집할 수 있는 바이오 데이터의 범위는 꾸준히 확대되고 있다.

1)
2014 IBM Health and Social Programs Summit 발표 내용

2) 바이오마커
단백질이나 DNA, RNA(리복핵산), 대사 물질 등을 이용해 몸 안의 변화를 알아낼 수 있는 지표

Focus on ICT 관련 이미지2

불규칙 시계열 트렌드로
미래를 예측하는 기술Discovery

병원의 디지털화, 웨어러블 의료기기의 등장으로 데이터 수집 및 보관이 쉬워지며 개개인의 헬스 빅데이터를 구축할 수 있게 되었다. 그러나 헬스 빅데이터에서 단순 정보가 아닌 진단, 예측 등 유의미한 결과를 얻기 위해선 재가공 과정이 필요하다. 흩어져있는 정보들을 취합하고 정제해야 그 이면에 숨어있는 의미를 발견할 수 있기 때문이다.

ETRI는 불규칙한 시계열로 표현되는 EMR 특징 및 방문 집중도를 반영하여 미래의 수치를 예측하는 시계열3) 집중지능 딥러닝 엔진 기술을 개발했다. 본 기술은 검사 간격의 불규칙성에 따른 각 방문 별 집중도와 방문 시 받게 되는 다양한 검사 항목의 집중도를 고려하여 정확도 높은 의료지능 학습 및 예측이 가능하다.

기존 기술은 질환, 투약 등 코드 데이터를 기반으로 하여 검사 시 도출되는 수치 항목을 개별적으로 예측할 수 없고 현재 상태에서 질병 유무만 판별할 수 있었다. 그러나 본 기술은 수치 데이터의 트렌드까지 이용하기 때문에 EMR 항목 수치로 미래 건강 상태를 예측할 수 있다. 또한, 기존 기술은 규칙적인 측정 데이터에 최적화되어있어 불규칙한 측정 간격을 보정하는 기술이 따로 필요했다. ETRI 기술은 환자의 불규칙한 방문 시점을 자체적으로 보정 할 수 있으며, 기존 LSTM 기술보다 7.4% 더 높은 정확도를 자랑한다.

바이오 데이터 플랫폼을 구축하는데 가장 큰 장애물 중 하나는 병원마다 각기 다른 양식의 EMR 데이터를 사용한다는 점이다. 주요 병원이 평균 500만~600만 명 환자의 임상 정보를 보유하고 있지만, 병원별로 각기 다른 프로그램을 사용해 병원 간 EMR 데이터 공유에 한계가 있었다.

3) 시계열
어떤 관측치 또는 통계량의 변화를 시간의 움직임에 따라서 포착하고 계열화한 통계계열

Focus on ICT 관련 이미지3

이를 보완하기 위해 병원 단위로 의료 데이터를 공유하는 EHR(Electronic Health Record, 전자건강기록), 환자에게 의료 데이터를 공유하는 PHR(Personal Health Record, 개인건강기록)등과 관련된 표준화 개념이 등장했으나 보안과 변질에 대한 우려로 실행에 어려움을 겪고 있다.

그러나 ETRI가 개발한 기술은 다른 형식의 EMR 데이터를 자체적으로 보정 할 수 있어 별도 시스템이나 후공정이 필요 없다. 연구진은 서울아산병원 EMR 및 공개 데이터를 이용해 본 기술의 성능 평가를 실시했다. 평가에는 2000년에서 2017년 사이에 불규칙적으로 생성된 12만 명의 EMR 데이터, 27개의 혈액 검사 데이터가 사용되었다. 6개월, 12개월, 18개월, 24개월, 30개월 등 다양한 미래 시점을 기준으로 예측 성능을 평가한 결과, 최고 97%에서 최저 80%의 정확도를 얻었다. 연구진은 이 같은 검증 결과를 바탕으로 향후 시작품 신뢰성 평가와 인증을 거쳐 본격적인 양산에 돌입할 예정이다.

지금껏 바이오 데이터를 활용한 기존 의료 산업은 진단과 치료 중심에 불과했다. 그러나 ETRI 기술은 진단과 치료뿐만 아니라 데이터를 이용한 예측과 예방, 사후관리까지 가능하여 디지털 헬스케어의 새 지평을 열 것으로 기대된다.

Focus on ICT 관련 이미지4

공공의료부터 인슈어테크까지
application

기술이 점차 발전하면서 공공부문에서도 이를 활용한 서비스를 만들기 위한 관심이 높아지고 있다. 정부 역시 바이오헬스 산업을 3대 신산업으로 선정하며 바이오 빅데이터 플랫폼 구축에 나섰다. 2029년까지 총 100만 명 규모의 국가 바이오 빅데이터 플랫폼을 구축할 예정인 해당 사업은 한국인이 특히 취약한 질병을 사전에 예측하고 진단하는 것을 목표로 한다. 특히 치매는 정부에서 ‘치매 국가책임제’를 실시할 정도로 공공의료의 중요한 부분을 차지하고 있다.

ETRI 기술은 고령화로 인한 주요 질병인 치매 예방을 위한 솔루션이 될 것으로 기대하고 있다. 치매는 증상이 발현된 상태에서만 발견할 수 있으며 기존 기술로 신뢰도 높은 치매 조기예측은 불가능하다. 근본적인 치매 치료제도 없는 상황에서 최선은 치매 가능성 진단을 통한 조기 예방이다. ETRI 기술로 EMR 데이터를 활용해 치매를 조기에 진단하고 진행을 늦추기 위한 개인 맞춤형 생활 관리 솔루션을 제공할 수 있다. 장기적으로는 일반인들의 건강관리를 위한 특화 진단 및 생활 관리 솔루션으로 이어질 수 있다.

ETRI 시계열 집중지능 딥러닝 엔진 기술은 의료 분야 외에도 학습, 유통·물류 흐름, 부동산·증시 시세 예측 등 다양한 분야에서 불규칙한 시계열 데이터 기반 예측 시스템으로 응용할 수 있다. 특히, 각종 규제가 풀리며 새롭게 부상하고 있는 인슈어테크와의 만남이 기대된다. 이미 많은 보험사가 인슈어테크를 활용해 고객이 운동량 목표치를 달성하면 혜택을 주거나 보험료를 환급하는 등 다양한 서비스를 제공하고 있다. 여기에 ETRI 기술을 접목하여 고객의 EMR 빅데이터를 활용하면 개인 맞춤 건강증진형 보험 서비스 제공이 가능해질 것으로 보인다. ETRI 연구진이 개발한 시계열 집중지능 딥러닝 엔진으로 수많은 정보 뒤에 숨겨진 의미와 미래를 탐색하게 될 날을 기대해본다.

Focus on ICT 관련 이미지5

본 내용은 ETRI 기술사업화플랫폼에 등재된
'미래 건강 예측을 위한 시계열 집중지능 딥러닝 엔진 기술 2.0'을 인용해 구성하였으며,
저자인 ETRI 의료정보연구실 최재훈 책임연구원의 검수를 거쳤습니다.

자세한 기술 문의 바로가기
  • 페이스북 공유하기
  • 네이버 공유하기
  • 카카오톡 공유하기