ICT Trend

VOL.132
June 2019

ICT Trend ____ 빅데이터 분석 및 솔루션

빅데이터가
세상에 던지는 메시지

빅데이터 분석 및 솔루션

세상은 데이터를 모으는 자가 승리하는 공식으로 변해가고 있다. 그만큼 양질의 데이터는 이제 화폐와 같다. 누가 데이터 정보를 효과적으로 축적하고 이를 활용하는가 또는 서비스로 연결하는지가 관건인 세상이다. 데이터가 경제요 돈인 세상이 된 것이다. 빅데이터가 세상에 던지는 메시지에는 어떤 솔루션이 담겨있을까?

페이스북 공유하기

트위터 공유하기

카카오톡 공유하기

새로운 시대에 떠오르는 자본

작가이자 저널리스트인 찰스 두히그(Charles Duhigg)가 〈뉴욕타임스〉에 기고한 한 이야기는 데이터의 중요성을 일깨우고 있다. 이 글에서 10대 딸을 둔 한 남성은 대형마트인 타깃(Target)에 항의를 한다. 그 이유는 자신의 딸이 왜 아기용품 할인쿠폰을 받아야 하느냐는 것이었다. 그는 자신의 딸이 임신이라도 했다는 얘기냐며 크게 따졌다. 하지만 며칠 후 그는 마트 매니저를 찾아가 사과를 했다. 딸이 정말 임신을 했기 때문이다. 그렇다면 어떻게 대형마트는 10대 딸이 임신한 것을 알았을까? 그것은 마트가 운영하는 고객 행동 분석 시스템을 통해 딸이 코코아버터 로션, 기저귀를 넣을 만한 가방, 아연과 마그네슘 영양제, 밝은 파란색의 깔개를 구입한 것으로부터 알게 되었다. 마트의 시스템으로 고객 행동을 분석하니 임신 확률이 83%로 계산되었다는 것이다.
서울대학교 산업공학과 이정동 교수는 공과대학 교수 26명과 함께 2015년에 《축적의 시간》이라는 저서를 출간했다. 이 책에서 저자들은 한국 산업의 미래를 위해 통찰력 있는 분석으로 여러 가지 제언을 했다. 특히 저자들은 우리나라에 “창의적이면서 근본적으로 신개념 제시가 가능한 ‘개념 설계’ 역량의 부족성”을 역설했다. 2년 뒤 저자들은 《축적의 시간》에 대한 두 번째 이야기로 《축적의 길》을 펴냈다. 이 책을 통해 ‘어떻게 축적할 것인가’에 관한 대안을 제시했다. 무언가를 축적한다는 의미는 데이터 또는 정보를 차곡차곡 모으는 일이다. 과거의 경험, 실패의 쓴맛, 성공의 단맛, 선배의 노하우 등을 쌓아가는 것이 중요한 의미를 지닌다. 하지만 우리나라는 과거 50여 년간 세계적으로 전례 없는 압축 성장을 경험하면서 이 같은 것들을 간과해왔다.
위 저자들이 설명하는 축적은 여기서 말하고자 하는 ‘빅데이터’와도 관련이 있다. 오늘날 데이터는 대선에 출마하는 후보들 가운데 누가 대통령이 될지도 미리 알아낼 수 있는 세상이 될 정도로 축적을 통해 새로운 정보를 알아내는 것이 가능해졌다. 필자가 근무 중인 ETRI는 설립된 지 43년이 되었는데 연구에 노력을 기울이느라 그동안 연구원들이 거둔 연구 성과에 대한 보다 체계적인 R&D 축적이 부족했다는 의견이 제기되었다. 이에 연구 성과물의 내용을 차곡차곡 축적하여 역량을 높이고 나아가 협업한 내용을 공유 및 융합함으로써 새로운 가치를 창출하자는 의미로 ‘공유협업추진단’을 발족했다. 데이터와 관련하여 정부 차원에서 아쉬운 점이 있다면 이렇게 소중한 데이터의 적극적인 공유가 부처 간 높은 장벽 때문에 어렵다는 점이다. 국민의 세금으로 만든 모든 결과를 정부가 소유하고 있다. 하지만, 궁극적으로는 국민에게 정보 공개는 사생활 보호 등 여러 가지 이유에서 쉽지 않다. 앞서 언급했듯이 새로운 시대에 데이터는 정보이고 서비스이며 돈이다. 정부가 보유하고 있는 데이터는 정부 간, 기관 간 공유 협업을 위해서도 공개되어야 한다. 그리고 향후에는 민간 기업에도 철저한 정보공개 인증 절차를 거쳐 개방되어야 할 것이다. 따라서 빅데이터와 관련해 정부가 자료제공을 통해 국민이 피부로 느끼는 서비스를 받기 위해서는 시간이 필요할 것이다. 하지만 데이터를 국민에게 돌려주기 위해 적극적인 행정 노력을 기울이는 것은 의미 있는 일이라 하겠다.

미래 도시를 전망하는 빅데이터

각종 통계에 관한 일을 다루는 중앙행정 기관인 통계청은 ‘센서스(Census)’라는 이름으로 국가 통계 조사를 매년 시행한다. 즉 인구 주택 총조사로, 국가가 인구와 가구 수를 총집계하는 전수조사다. 흥미로운 이야기를 덧붙이자면 이런 조사는 삼국시대에도 있었다고 한다. 당시에는 3년에 한 번씩 인구조사를 했다는 민정 문서가 발견되기도 했다. 지난 2015년에 실시한 센서스의 표어는 “달라진 당신을 말씀해주세요. 대한민국이 달라질 수 있도록, 대한민국의 내일에 국민의 말씀만큼 귀한 건 없습니다” 였다. 당시 조사 내용을 살펴보면 출생지부터 교육 정도, 전공 계열, 추가 자녀계획 수까지 있었다. 가족 구성원 정보 입력을 포함해 표본 항목이 52개나 되었다. 그렇다 보니 설문하는 데 1시간 이상 걸렸다. 우리나라 센서스 정보는 상당히 고품질의 데이터 정보다. 이런 정보를 바탕으로 미래를 설계할 수 있을 정도로 중요하다는 뜻이다. 물론 많은 서비스도 만들어낼 수 있다.
그러면 국민건강보험공단, 건강보험심사평가원, 국민연금관리공단, 공무원연금관리공단 등이 가진 정보는 어떤가? 이 기관들의 정보는 국민 삶의 질, 건강, 삶의 패턴까지 알 수 있는 유용한 정보로 가득하다. 50대 고혈압 환자가 언제 많이 쓰러지고 위험한지, 회사원이나 공무원 생활을 별다른 질병 없이 퇴직한 사람들은 노후를 어떻게 보내고 질병유형은 어떤지, 국민들이 쉽게 잘 걸리는 질병은 무엇인지, 어떤 질병에 어떤 약이 가장 많이 쓰였는지 등을 알 수 있는 고급 정보다. 병무청은 어떤가? 병무청은 우리나라 병력 자원에 대한 모든 정보를 갖고 있다. 인구절벽에 처한 우리나라의 경우 병무청의 정보를 기반으로 미래 인구 감소에 따른 병력 자원에 대해 효율적인 관리 방안을 어떻게 제시해야 할지 고민해볼 수 있을 것이다.
이와 같은 맥락에서 여러 지방자치단체로부터 ETRI 연구진에게 제의가 들어오고 있다. 빅데이터를 기반으로 자신들의 도(道), 자치시의 미래를 전망해달라는 것이다. 예를 들면 인구절벽으로 출산장려금의 인센티브를 수백만 원씩 책정하여 지급해도 인구가 늘어나지를 않으니 해결해달라는 것이다. 실제로 전남 해남군의 경우 2008년에 전국에서 처음으로 출산 정책 전담팀을 만들었다. 해남군의 정책하에 첫째 아이를 출산하면 300만 원을, 둘째 아이는 350만 원, 셋째 아이는 600만 원, 넷째 이상은 720만 원에 해당하는 출산장려금을 지급한다. 전국 지방자치단체 중에는 아이 세 명 이상을 출산했을 경우 수천만 원의 장려금을 지급한다고 방안을 내놓은 곳도 있다. 이렇듯 2006년부터 최근까지 정부가 저출산 탈출을 위해 쏟아 부은 돈은 150조 원이 넘는다. 이러한 문제에 대해 연구진은 어떻게 해결할 수 있을까? 사실 그 패턴의 양상이나 분석은 제시할 수 있겠지만 해답을 제시하기는 어렵다. 다만 빅데이터를 통해 정선된 데이터를 기반으로 해당 지방자치단체에 맞게 분석해본다면 좀 더 가시적인 인구-복지 시뮬레이션을 도출해낼 수 있을 것이다.

공공 데이터 활용을 넘어 개방으로 향하는 길

실제로 2017년 출생아 수가 역대 최저인 30만 명대에 그쳤다고 한다. 이런 추세라면 이 아이들이 대학에 들어갈 즈음이 되었을 때 우리나라 대학의 절반은 문을 닫게 될 수도 있다. 인구 감소로 인한 존폐 위기에 대학들이 구조조정을 하고 있다지만 이 같은 조치만으로 경쟁력을 강화하고 살아남을 수 있을지는 의문이다. 2020년이 되면 고등학교 3학년 수험생 중 대학 수학능력시험을 보는 학생들의 숫자가 대학교 입학 정원과 같아진다고 한다. 그러면 2021년부터는 실제 문을 닫는 대학이 속출할 것이다. 실제 최근 교육부는 향후 2~3년 후 약 38개 대학교가 문을 닫을 수 있게 될 것이라고 내다봤지만, 현재로선 70개교 이상이 폐교위기를 맞을 것으로 보인다. 2021년 대입정원은 5만 6천명이 미달이 될 것이란 것이다. 물론, 이와같은 수치는 전국 대학 333개교를 대상으로 한 예상이다.
이렇게 될 경우 사립학교 교직원, 교수, 관련자의 퇴직이 이뤄질 테고, 이는 결국 연금을 불건전하게 만드는 요인이 될 것이다. 이와 같은 예측은 보다 일찍 출생률을 검토하고 대안을 마련하여 실행했다면 지금 같은 위기를 맞게 되지는 않았을 것이다. 미래에 대해 너무 안일한 대처를 하다 보니 이제는 감당하기 어려운 수준에 이른 것이다.
우리나라 인구 중 1972년생, 즉 2018년 올해로 47세인 사람이 120만 명으로 가장 많이 태어났다고 한다. 그런데 지금 태어나는 아이들이 30만 명이라면 그에 비해 4분의 1밖에 안 되는 수준이다. 40대 중반 이상의 연령층은 초등학교 시절 대부분 60여 명 안팎의 콩나물시루 같은 교실에서 공부했다. 도시의 일부 초등학교에서는 2부제 수업을 운영하여 오전, 오후로 나누어 등교하기도 했다. 당시에는 전문가들이 선진국은 한 반에 20여 명 내외인데, 우리나라는 60명이 넘어서 교사 1인당 지도 학생 수가 많아 힘들다고 말했다. 오늘날 우리나라는 과거 선진국 학생들보다 적은 숫자의 학급이 되었다. 앞으로 2년 후가 지나면 우리나라는 또 하나의 OECD(경제협력개발기구) 1위 기록을 차지하게 될 것이라고 한다. 바로 ‘학생 대 교사 비율’이다. 인구학자인 서울대학교 조영태 교수는 “앞으로 8년 뒤인 2025년이 되면 교사 7만 명이 남는다.”라고 했다. 빅데이터는 데이터의 품질이 우수할 경우 유용한 정책 방향을 제시할 수 있다. 순도 높은 데이터가 쓸 수 있는 돈과 같은 존재가 되는 셈이다. 따라서 데이터를 많이 모으는 것도 중요하겠지만 데이터의 순도가 높아야 한다. 다행히도 우리나라 정부나 정부 기관이 보유한 데이터는 순도가 아주 높다. 이를 기초로 정책을 수립한다면 다양한 비즈니스 서비스가 파생될 수 있고, 더 효과적인 행정 집행도 가능할 것이다.
이번에는 빅데이터와 의료분야에 대해 살펴보자. 예를 들어 50대 고혈압 환자 중 뇌출혈, 뇌졸중, 뇌경색 등 뇌·심혈관계 관련 질환이 12월 겨울에 제일 많이 발생한다고 가정해보자. 이 경우 정부는 지방자치단체나 보건진료소 등과 손잡고 환자에게 경고(alarm)를 해야 할 것이다. 10월부터 수시로 문자메시지를 보내고 때에 따라 방문 간호도 필요하다. 위험군 환자들에게는 음식을 짜게 먹지 말라, 콜레스테롤을 높이는 음식을 피해라, 충분히 자라, 스트레스를 조심하라, 담배나 술을 끊어라 등의 메시지를 보내 건강관리를 위한 선제적인 노력을 기울일 수도 있다. 이렇듯 빅데이터를 이용하여 국민건강 증진과 복지 정책에 효율적으로 활용해야 할 것이다. 정부가 국민에게 관심을 가지고 적극적으로 나서서 관리해주니 잘 먹지 않던 고혈압약도 챙겨 먹고 식사도 신경 쓰고 운동도 하며 본인의 건강에 좀 더 신경 쓰게 되지는 않을까? 정부에서도 국가 차원에서 데이터를 공유하고 활용할 수 있는 다양한 방안을 마련하고 있다. 이를테면 공공 데이터를 개방하고 공공·민간 데이터가 유통될 수 있는 플랫폼을 개발하여 단계적으로 개방할 예정이다. 물론 정부나 기관이 보유한 데이터는 국민의 사생활(프라이버시)과 관련된 자료이므로 인증이나 보안에 신중을 기해 특정한 사람에게만 공개해야 할 것이다. 그렇게 된다면 벤처 창업이나 기술 창업도 활발해질 것이다.

본 글은 ETRI가 2018년 발행한 Easy IT시리즈 “세상을 바꿀 테크놀로지,『디지털이 꿈꾸는 미래』”에서 발췌한 글입니다.

디지털이 꿈꾸는 미래

저자 ETRI 성과홍보실·정길호 출판사 콘텐츠 하다

ETRI가 펴낸 『디지털이 꿈꾸는 미래』는 우리에게 제4차 산업혁명의 의미를 알려주고, 다양한 ICT 트렌드를 소개하여 가까운 미래에 일어날 수 있는 일들을 흥미롭게 조망해 보는 책입니다. 본 도서는 예측 불가능하고 더 빨라진 기술 세상에서 우리가 앞으로 어떻게 적응하고 미래의 위험에 유연하게 대응하는 데 좋은 지침이 되어줄 것입니다.

구독신청