mecㆍviewer v1.4 :: [ETRI 보도자료] ETRI, 초당 5천 조 연산하는 인공지능 시스템 개발

Embargo		없음
배포일자 : 2021.12.2.(목)			배포번호 : 2021-77호
문의	인공지능연구소	지능형반도체연구본부장		권영수(042-860-6033)	E-mail : yskwon@etri.re.kr
	인공지능연구소	인공지능프로세서연구실장		한진호(042-860-6558)	E-mail : soc@etri.re.kr
	홍보부	홍보실장		정길호(042-860-0670)	E-mail : khchong@etri.re.kr
	홍보실	행정원		백지헌(042-860-0823)	E-mail : ctabk@etri.re.kr
매수 : 보도자료 3매(사진 6매, 참고자료 3매)					배포처 : ETRI 홍보실

ETRI, 초당 5천 조 연산하는 인공지능 시스템 개발

- 고성능·저전력 AI 반도체 탑재, 연산성능 4배·전력효율 7배↑

- 자율차, 클라우드, 데이터 센터 등 대규모 AI 서비스에 활용

국내 연구진이 인공지능(AI) 학습과 추론을 가속할 수 있는 시스템을 개발했다. 자체 개발한 세계 최고 성능을 지닌 AI 반도체를 활용한 결과이기에 더욱더 뜻깊다.

한국전자통신연구원(ETRI)은 고성능 AI 반도체 칩을 활용하여 낮은 전력으로 초당 약 5천조 회 연산이 가능한 인공지능 시스템을 개발했다.

사회 전반에 AI가 빠르게 도입됨에 따라 복잡하고 정교한 대규모 연산 처리의 필요성이 높아지고 있다. 하지만 기존 컴퓨터와 모바일에서 주로 활용된 중앙처리장치(CPU, AP 등)는 단순 계산에 최적화되어 있다는 한계가 있다.

이에 그래픽스처리장치(GPU)가 널리 활용되고 있으나 구조적으로 인공지능 연산 처리에 최적화되어 있지 않아 데이터 지연 및 전력 낭비가 발생한다. 신경망처리장치(NPU) 기반 AI 반도체가 차세대 AI 두뇌로 떠오르는 이유다.

ETRI는 작년 NPU 기반 AI 반도체 칩, AB9(알데바란9)을 공개한 데 이어 올해 AB9 기반 보드와 인공지능 시스템을 개발하는 데 성공했다. 자율주행차, 클라우드, 데이터센터, 사람·사물·음성 인식 등 AI 응용 서비스를 제공하는 고성능 서버에 본격적으로 활용하기 위함이다. [참고 1]

연구진이 개발한 NPU 보드‘ABrain-S’는 AB9을 기반으로 독자적인 설계를 이뤄 부피가 작으면서도 전력 소모가 낮다. 인공지능 알고리즘 처리를 위해 입출력 데이터를 16GB까지 저장할 수 있는 메모리와 데이터 이동 속도를 빠르게 하기 위한 인터페이스도 적용 했다. [참고 2]

고성능·고효율 서버를 구현하기 위해서는 NPU 보드를 최대치로 고집적화하는 것이 핵심이라고 연구진은 전했다.

현재 AI 알고리즘 처리 가속기로 많이 활용되는 GPU 보드는 부피가 커서 1개 서버 노드에 6~7대밖에 장착할 수 없고 전력 소모도 높다. GPU의 구조적 한계 때문이다.

AB9이 내장된 NPU 보드는 한 서버 노드에 최대 20개씩 장착 가능하다. 기존 시스템 대비 공간·전력효율을 개선하면서 가격도 낮췄다. AB9이 동전 크기의 작은 면적에 초당 40조 회 연산 성능을 내면서도 전력 소모가 15W 수준으로 매우 낮기 때문이다.

이를 바탕으로 ETRI는 서버 노드 8개를 쌓아 랙 서버(Rack Server) 형태로 구성된 인공지능 시스템, 아트브레인(ArtBrain-K)을 만들었다. 개발된 시스템은 최대 5페타플롭스(PetaFLOPS) 성능을 발휘한다. [참고 3]

서버 1개당 1초에 약 5천조 회 연산이 가능한 셈이다. 기존 GPU 기반 인공지능 서버 대비 약 4배의 연산 성능과 7배의 전력효율이다.

아트브레인이 데이터센터 등에 적용되면 처리 용량과 속도가 대폭 개선된다. 따라서 트랜스포머 계열 인공지능 알고리즘 등 초거대 인공신경망(Huge Neural Network)과 같이 데이터 처리와 학습에 엄청난 컴퓨팅 자원이 필요한 곳에 활용될 전망이다.

이 밖에도 ETRI는 AI 알고리즘을 쉽게 개발할 수 있도록 SW 개발환경도구‘AIwareRT’를 깃허브(Github)에 공개했다. 프로그래밍에 필요한 기본적인 구조와 알고리즘, 시뮬레이터, 최적화 도구 등을 라이브러리 형태로 제공해 프로그래밍 언어에 생소한 사람들도 쉽게 사용해볼 수 있게 구성했다.

ETRI 한진호 인공지능프로세서연구실장은“AI 반도체 자체 개발로 비메모리 반도체 분야 원천기술을 보유하고 있다. AI 반도체를 탑재한 NPU 보드와 NPU 서버시스템 및 관련 SW까지 개발하여 우리가 개발한 기술의 경쟁력을 높이는 데 성공했다.”고 말했다.

현재 본 기술은 반도체 기업 및 AI 하드웨어 기업 등에 이전되었다. 얼굴인식 및 객체인식 AI 등을 이용한 각종 보안 등에 활용될 예정이다.

향후 연구진은 본 기술을 더욱 고도화해 더 높은 성능을 지닌 서버·시스템을 구축할 예정이며, 딥러닝이 적용되는 AI 분야 부품의 국산화를 위한 지원도 진행할 계획이다.

본 연구는 과학기술정보통신부‘인공지능프로세서 전문연구실’과제의 일환으로 수행되었다. 연구진은 낮은 전력에서 높은 성능을 내는 기술, 메모리 지연을 낮추는 기술 등 특허 출원 및 등록 32건, 관련 논문 5건, 기술이전 4건의 성과를 얻었다. <보도자료 본문 끝>

참고1

인공지능 반도체, AB9 스펙 설명

◎ NPU 기반 인공지능(AI) 반도체 칩 ※ 인공지능 알고리즘 처리를 위한 설계구조로 인공지능의 두뇌 역할을 함 인공지능을 활용하는 기술이 고도화될수록 더 높은 성능의 AI 반도체 필요

◎ 최대 1.25GHz 동작 주파수에서 동작

◎ 40테라플롭스(TFLOPS) 성능 ※ 초당 40조 회 연산 능력

◎ 32,768 NPU Core 탑재 ※ 단일 칩에 연산기를 32,768개 고집적화함으로써 성능 확보

◎ NPU 캐시(Cache) ※ NPU와 메모리 간 연결장치로 NPU 성능에 기여

◎ 15W 전력 ※ 전구 켜는 전력 수준에 불과

◎ PCI Express Gen3 16 lane 인터페이스 ※ 입출력 표준 채널, 기능 확장용 슬롯이 16개 존재

참고2

인공지능 보드, 시스템(서버) 노드 설명

[1] NPU 보드 <ABrain-S>

(1) AB9 내장 (2) 16GB LPDDR4 메모리 (3) PCIE Gen3 16lane 인터페이스 등 구성

[2] 인공지능 시스템(서버) 노드

- NPU 보드 20개로 구성

- 부피 축소 및 고집적화로 전력효율·공간효율·가격 개선 효과 ※ 기존 GPU 기반 시스템은 1개 노드에 7-8개 보드밖에 장착시킬 수 없어서 동일 성능을 내기 위해 더 많은 노드가 필요했음. 즉, GPU의 구조적 한계 때문에 발생하는 공간의 비효율, 전력 소모의 비효율을 해소할 수 있게 됨.

참고3

인공지능 시스템 성능

■ 인공지능 시스템 <ArtBrain-K> - 서버랙(rack) 형태, AI 반도체 160개 집적 - 1개 랙에 서버 노드 8개 집적 ※(사진) 7개가 집적된 형태 - 1개 서버노드에 NPU 보드 20개 집적 - 1개 NPU 보드에 1개 AI 반도체(NPU칩) 내장

※ GPU 기반 인공지능 서버, AB9 기반 인공지능 서버 성능 비교

성능지표	기존 서버 (NVIDIA V100 기반)	ArtBrain-K (AB9 기반)
성능지표	기술수준(세계최고 수준)	기술수준	세계최고 대비(%)
연산성능	1507.2 TFLOPS/RACK (랙당 V100 32대)	6400 TFLOPS/RACK (랙당 AB9 160대)	425%
전력효율	0.1256 TFLOPS/W (랙당 V100 32대)	0.893 TFLOPS/Watt (랙당 AB9 160대)	710%

※ GPU 칩, NPU 칩 성능 비교

성능지표	NVIDIA V100 (서버급 기준)	ETRI AB9 (Artificial Brain 9)
성능지표	기술수준(세계최고 수준)	기술수준	세계최고 대비(%)
연산성능	31.4 TFlops	40 TFlops	127%
전력효율	0.1 TFlops/W	1.0 TFlops/W	1,000%