HWP문서[ETRI 보도자료] ETRI, 유전체 분석 시간 단축할 컴퓨팅 시스템 개발 - 1223(홈페이지).hwp

닫기

Embargo

배포 이후 즉시

배포일자 : 2021.12.23.(목)

배포번호 : 2021-87호

데이터중심컴퓨팅시스템연구실

실장

김강호(042-860-6226)

E-mail : khk@etri.re.kr

데이터중심컴퓨팅시스템연구실

책임연구원

석성우(042-860-1359)

E-mail : swsok@etri.re.kr

홍보부

홍보실장

정길호(042-860-0670)

E-mail : khchong@etri.re.kr

홍보실

행정원

정이찬(042-860-0812)

E-mail : echanzug@etri.re.kr

매수 : 보도자료 3매(사진 5매, 참고자료 5매)

배포처 : ETRI 홍보실

ETRI, 유전체 분석 시간 단축할 컴퓨팅 시스템 개발

- 기존 프로세서 중심 시스템 대비 분석 성능 28% 향상

- 코로나 진단, 태아 장애, 질병 위험 시스템 등에 활용 가능

국내 연구진이 유전체 분석을 더욱더 빠르게 할 수 있는 컴퓨팅 시스템 기술을 개발했다. 이로써 개인별 건강정보를 예측하거나 전염병 진단, 치료제 등을 개발하는 데 많은 활용이 될 전망이다.

한국전자통신연구원(ETRI) 유전체 분석에 특화된 메모리 중심 컴퓨팅 시스템개발했다고 밝혔다. 본 기술은 기존 대비 28% 성능 향상을 이뤘다. 기존에 서비스 소요 시간이 10개월가량 걸렸다면 이를 약 7개월로 단축할 수 있는 셈이다.

본 연구는 과학기술정보통신부메모리 중심 차세대 컴퓨팅 시스템 구조 연구과제의 일환으로 진행되었다. 공동연구기관으로 KTNF, 테라텍, 컴퓨팅산업협회가 참여하였으며 서강대학교와 클래스액트가 위탁연구로 도움을 주었다.

사람의 유전 정보를 해독하는 유전체 분석을 활용하면 개인별 질병 위험도, 영양/운동 상호작용 등을 알 수 있다. 하지만 아직 분석 서비스를 대중화하기에는 검사 단가가 비싸고 처리하기 위한 데이터 양도 커서 분석, 저장에도 많은 비용이 필요하다.

ETRI는 유전체를 분석하는 차세대 염기서열분석(NGS)에 특화된 메모리 중심 컴퓨팅 HW SW 기술을 개발했다.

인간의 DNA는 30억 개 염기들의 서열로 이뤄져 있다. 차세대 염기서열분석을 사용하면 인간 DNA를 수십~수백 배수로 읽어 들여 분석하기 때문에 이동하고 저장해야 하는 데이터양이 매우 크다.

그간 유전체 분석은 주로 메모리를 제한적으로 사용하되 연산을 많이 하는 프로세서 중심 컴퓨팅 기술을 주로 쓴다. 하지만, 유전체 분석처럼 대용량 데이터를 처리할 때는 구조적으로 병목 현상이 일어나는 경우가 많아, 데이터 처리에 시간과 노력이 많이 든다.

반면, ETRI 메모리 중심 컴퓨팅 기술은 대규모 메모리를 활용하여 병목 현상을 극복했다. 먼저, 연구진이 자체 개발한 MOCA라는 HW장치로 대규모 메모리를 시스템에 장착할 수 있게 만들었다. 데이터 처리 중간 과정에서 하드디스크나 SSD 등을 활용할 필요가 없게 만든 것이 핵심이다.

또한, 연구진은 유전체 분석 과정 중 가장 오랜 시간이 걸리는 염기 서열 정렬 단계를 대규모 메모리를 활용해 2배 이상 빠르게 처리할 수 있는 SW도 개발해 분석 효율을 높였다.

ETRIGC녹십자지놈과 협력하여 기술 성능도 검증했다. 그 결과, 기존 시스템에 연구진이 개발한 HW를 적용하면 전체 분석 성능을 16% 높일 수 있고 HWSW를 동시에 적용하면 28%까지 성능을 향상할 수 있음을 보였다.

본 기술은 암 발병률, 태아의 장애 유무 등을 미리 알아보거나 전염병의 변이 파악, 치료제 개발 등을 하기 위한 시스템에 적용할 수 있다. 덕분에 분석 기관이나 제약회사 등에서는 서비스 개발비, 진단 시간을 낮추고 병원 등에서는 환자 맞춤형 협진 체계를 구축하며 국민 건강 증진과 사회적 부담을 줄이는 데 많은 도움이 될 것으로 전망된다.

연구진의 기술이 적용된 제품은 작년과 올해 미국에서 개최된 SC(Supercomputing Conference) 전시회에서도 서버업체와 표준 솔루션 그룹들에게도 많은 관심을 받았다.

ETRI는 수년간 국내외 학계, 제약사와 함께 협력하면서 풍부한 유전체 분석 기술과 경험을 보유해오고 대용량 메모리를 활용할 수 있는 효율적인 컴퓨팅 기술을 축적하면서 본 성과를 낼 수 있었다고 밝혔다.

ETRI 데이터중심컴퓨팅시스템연구실 김강호 실장은본 기술이 국내 제약 분석 시장 및 산업에 새로운 촉진제가 되어 다양한 바이오 응용 시장 활성화 및 고용 효과가 매우 클 것으로 예상된다.고 말했다.

향후 연구진은 내년부터 2단계로 시작되는메모리 중심 차세대 컴퓨팅 시스템 구조 연구과제에서 시스템을 고도화하고 의료기관을 확대하여 유전체 분석 정확도를 더욱 높이는 한편, 암이나 당뇨병 등 다른 질병에도 적용 범위를 확대할 계획이다.

연구진은 본 성과와 관련하여 국제전기전자공학회(IEEE)가 발간하는 세계적 학술지를 비롯해 논문 26편, 국내외 특허 12건 출원, 기술이전 2건을 진행한 바 있다. <보도자료 본문 끝>

참고1

메모리 중심 컴퓨팅 기술 개요 및 특성 비교

특성

프로세서 중심 컴퓨팅

메모리 중심 컴퓨팅

노드간 데이터 공유

범용 네트워크를 통해 데이터를 주고 받음

공유 메모리에 쓰고 읽음으로써 노드 간 데이터 교환

데이터셋 분할 제거

개별 노드의 로컬 메모리에 데이터를 나눠서 저장해야 함

공유된 메모리에 데이터를 연속적으로 저장하여 사용할 수 있음

인메모리 처리

메모리 내 데이터를 처리하기 위해서는 프로세서 개입이 필요함

공유 메모리 장치 내부에서 간단한 프로세싱 능력을 제공하여 프로세서 개입 없이 처리 지원

연산 사전

분석

연산 사전 데이터의 크기가 매우 크기 때문에 메모리에 적재하기 어려워 적용이 어려움

복잡한 계산이 필요한 경우, 미리 계산된 결과(연산 사전)를 공유 메모리에 올려 놓고 검색을 통해 결과를 알아낼 수 있음(처리 성능 향상)

스토리지 오버헤드

메모리의 데이터를 저장하기 위해서는 디스크 저장장치에 파일 형태로 저장을 하여야함 오버헤드 발생

대규모 비휘발성 메모리를 사용함으로써 디스크에 저장할 필요없음

재계산

이전 상태로 메모리를 재계산하기 위해서는 프로세서의 개입이 필요함

공유 메모리에 항상 데이터를 유지하기 때문에 재계산 과정이 필요없음

체크

포인팅

디스크에 데이터를 저장하는 과정이 필요함

비휘발성 공유 메모리를 사용하여 디스크를 사용하는 체크포인팅보다 빠른 성능 제공 가능

* 체크 포인팅 : 오류발생시 이전으로 복구하기 위해 현재 상태를 저장하는 기능

참고2

MOCA 기술 추가 설명 자료