ETRI Webzine VOL.149 People

VOL.149 March 2020

People

인류 난치병,
암 슈퍼컴으로 유전자 지도 완성

IDX원천기술연구실 최완 책임연구원

ETRI 슈퍼컴
‘마하(MAHA)’란?
유전체 데이터 분석은 환자의 샘플을 처리하는 시퀀싱 장비로부터 얻은 빅데이터를 여러 응용 SW로 이루어진 파이프라인으로 처리한다. 이 과정에서 계산 성능 혹은 입출력 성능을 많이 필요로 하기 때문에 유전체 분석에 특화된 시스템 소프트웨어, 유전체 데이터 스토리지를 요구한다. 이에 연구진은 고성능컴퓨팅 기술개발을 통해 인간의 암 유전체를 분석하기 위해 전 세계 연구진들에게 직접적으로 지원해 유전체 지도 완성에 공헌할 수 있었다.

‘마하(MAHA) 유전체 분석용 슈퍼컴퓨팅 시스템 개발 과제(2011년~2015년)’는 향후 인류 건강 증진의 핵심적인 서비스인 유전체 분석을 위한 고성능 컴퓨팅 기술을 개발하는 과제로서 TICOM 컴퓨터 개발 과제 이후 20년만에 재개된 대규모 고성능 컴퓨팅 서버 사업이었습니다.

연구성과로 미래창조과학부(현재 과학기술정보통신부)로부터 2016년 연구개발 과제 5만여 개 중 100대 우수성과 과제에 선정되었고, 그중에서도 정보전자 분야에서 최우수성과 과제에 뽑힌 바 있습니다. 본 과제는 그동안 많은 수상을 했는데 2013년, ETRI 10대 대표성과 수상을 비롯, 2014년부터 3년 동안 연구한 결과에 대해 미래창조과학부 100대 우수성과 과제로도 포함되어 장관상을 받은 바 있습니다. 아울러 2014년 연구결과로는 ETRI 연구사업 품질우수대상, 2017년 ETRI 우수상을 수상한 바 있습니다.
CPU

(Central Processing Unit)

제어장치, 연산장치, 레지스터들로 구성된
명령어를 해독하고 실행하는 중앙처리장치

01

‘마하(MAHA) 유전체 분석용 슈퍼컴퓨팅
시스템 개발 과제(2011년~2015년)’를 맡아온
IDX원천기술연구실 최완 책임연구원

특히 국제 암유전체 컨소시엄(ICGC)에 유전체 분석을 위해 마하 고성능 클라우드 컴퓨팅 서비스를 제공한 결과, 인간 암 유전자 지도 완성 공로자로 지난 2월초, 네이처(Nature ‘Cancer Catalogued(색인화된 암)’란 제목과 38개 종류의 종양의 완전한 유전체를 분석했다는 내용으로) 특집호에 실렸습니다. 본 성과는 논문에 ETRI 이름과 함께 마하 슈퍼컴 개발에 참여한 최완, 우영춘, 전승협, 김형환 연구원이 참여 공로자로 등재되었습니다. 당시 마하 시스템은 독자 개발한 1.3 페타바이트(PB) 스토리지 시스템과 800코어 규모의 CPU 컴퓨팅 자원을 제공했습니다.

본 사업의
취지는?
우리의 유전체는 굉장히 동글동글하게 응집된 덩어리 23개가 쌍으로 이루어져 있습니다. 이 30억 염기쌍을 다 밝혀낸 것을 전장유전체(whole genome)이라고 합니다. 이 30억 개의 염기쌍을 분석하면, 데이터 양이 대량으로 쏟아져 나오는데요. 그 양이 적어도 200~250GB입니다. 한 명의 전장 유전체의 크기가 200GB가 넘는 셈이죠. 그런데 전 국민이 앞으로 유전체 분석을 한다면, 어마어마한 스토리지가 요구되는 것입니다. 전 세계에서 엄청난 비디오가 쏟아져 나오는 유튜브가 엑사(Exa, E) 스토리지를 지원한다고 합니다. 엑사는 10의 18제곱으로 백경을 뜻합니다. 이처럼 유전체 분석은 컴퓨터팅 분야에서 보면, 필수적으로 대용량 스토리지가 필요합니다. 연구진의 기술은 대용량 스토리지를 아주 저렴하게 만드는 연구개발을 중심으로 진행해 왔습니다.

이를 위해 연구진이 손수 슈퍼컴을 만들었는데 이름이 바로 마하(MAHA)입니다. 마하는 우리나라 전 국민 유전체 서비스를 대비해 기존 고성능컴퓨팅(HPC) 기술 기반 위에 저가의 대규모 스토리지 기술 개발에 중점을 둔 프로젝트였습니다. 그리고 지난 2013년 11월부터 2017년 말까지 4년 넘게 국제 암유전체 컨소시엄(ICGC)에 유전체 분석을 위해 고성능 클라우드 컴퓨팅 서비스를 제공했습니다. 세계적 연구기관들과 함께 인간의 암 유전체 분석을 위해 과학자들에게 직접적으로 컴퓨팅 서비스를 지원한 것입니다.

전 세계 연구진은 ETRI의 마하를 활용해 38개 종양의 종류에서 2,658개 유형의 암유전체를 계산했습니다. 물론, ICGC에 슈퍼컴퓨터를 제공한 기관은 ETRI 외에도 포함한 총 8개 기관이 더 있었습니다. 우리나라 의사, 과학자들도 유방암 샘플 등을 제공키도 했습니다.

ETRI의 유전체 데이터 분석용 슈퍼컴퓨팅 시스템

최고 성능을 위한
경쟁은?
연구분야는 Develop & Operation이라는 DevOps 방식으로 개발해야하는 것이 더 맞을 것입니다. 어떤 기술이든 한 번에 개발되긴 좀 어렵습니다. 기술을 개발했으면, 사용해봐야 어떤 문제가 있는지 알 수 있어요. 문제가 발생하면 다시 개선하는 방법을 사용해야 합니다.

슈퍼컴퓨터의 경우 항상 속도 경쟁을 합니다. ‘Top 500’이라고 해서 전 세계 HPC(High Performance Computing) 중에 500등까지 순위를 매겨서 6개월에 한 번씩 업데이트하고 있습니다. 이 순위에 들어가면 일반적으로 슈퍼컴퓨팅이라는 명칭을 사용합니다. 개선하지 않고 있으면 자연히 순위에서 밀려나기 때문에 세계 각국에서 최고 성능을 내기 위한 무한경쟁을 하고 있습니다.

중국의 슈퍼컴퓨터가 몇 년 동안 1위를 차지하다가, 현재는 미국에서 치고 올라와 수위를 차지하고 있어요. 이처럼 최고 기술을 내기 위해선 끊임없는 연구와 노력이 필요합니다. 또 슈퍼컴퓨팅 관련 기술개발은 CPU(Central Processing Unit), 인터커넥트(Interconnect), 스토리지(Storage)의 성능이 추가로 뒷받침되어야 합니다.
스토리지

(Storage)

컴퓨터 프로세서가 접근할 수 있도록
데이터를 전자기 형태로 저장하는 장소를 말하며,
1차 스토리지와 2차 스토리지로 나뉨

03

ETRI의 슈퍼컴퓨터 마하를
설명하고 있는 최완 책임연구원

04

ETRI의 유전체 분석용
슈퍼컴퓨팅 시스템 마하

향후 ETRI의 슈퍼컴
연구 방향은?
현재 ETRI에서는 인공지능 CPU를 슈퍼컴퓨터에 활용하는 프로젝트를 기획 중입니다. 인공지능 CPU란 딥 러닝이나 인공지능 알고리즘이 들어있는 칩을 말합니다. 가령 구글의 텐서플로(Tensor Flow)와 같은 오픈소스 소프트웨어와 비슷합니다. 이런 소프트웨어가 CPU 칩에 들어가 있는 것입니다. 인공지능을 응용해서 좀 더 빨라지는 것이라고 보시면 됩니다.

Editor epilogue

한국이 슈퍼컴퓨팅 경쟁력을 갖기 위해 어떤 노력이 필요할까요? 라는 질문에 최완 책임연구원은 “슈퍼컴퓨팅과 같은 사업은 장기적인 안목에서 국가적으로 키워야 한다.”라고 대답했다. 그의 말처럼 ICGC에 슈퍼컴퓨터를 지원할 수 있었던 것은 꾸준한 연구개발이 뒷받침되었기 때문이다. 더불어 국내 슈퍼컴퓨터는 실용적으로 사용 가능한 규모의 시스템을 국가적으로 개발하는 것이 필요하다고 했다. HW는 기존의 상용 제품을 사용하고 핵심 시스템 SW를 확보하면 가격대비 경쟁력 있는 시스템을 개발할 수 있다고 설명했다. “암유전체 분석 서비스와 같은 세계적 바이오 사업은 장기적 안목으로 10년 이상 지원이 필요한 분야이다. 따라서 장기적으로 슈퍼컴 개발과 운영 서비스를 동시에 할 수 있는 환경이 지속적으로 제공되어야 한다. 그래야 대한민국도 세계 최고 기술을 선도적으로 확보할 수 있는 근간이 될 것이다.”

People

인류 난치병, 암 슈퍼컴으로 유전자 지도 완성

IDX원천기술연구실 최완 책임연구원

인류 난치병,
암 슈퍼컴으로 유전자 지도 완성