HWP문서[ETRI 보도자료] ETRI, 세계 최고 성능 저전력 AI 반도체 기술 개발 - 200401.hwp

닫기

Embargo

TV방송 4.7(화) 14:00이후

배포일자 : 2020.4.7.(화)

배포번호 : 2020-22호

인공지능연구소

지능형반도체연구본부장

권영수(042-860-5244)

E-mail : yskwon@etri.re.kr

지능형반도체연구본부

인공지능프로세서연구실장

한진호(042-860-6558)

E-mail : soc@etri.re.kr

홍보부

홍보실장

정길호(042-860-0670)

E-mail : khchong@etri.re.kr

홍보실

행정원

정이찬(042-860-0812)

E-mail : echanzug@etri.re.kr

매수 : 보도자료 3매(사진 5매, 참고자료 3매, 동영상 1매)

배포처 : ETRI 홍보실

ETRI, 세계 최고 성능 AI반도체 개발

전구 켜는 15W 전력만으로 초당 40조회 연산능력(40TF)

5백원 동전 크기, 딥러닝 연산에 특화된 반도체 칩 개발

연산능력 25배↑, 전력소모 20배↓, 상용칩 대비 가격 50배

무인차, 데이터센터 등 적용, 비메모리 반도체 혁신성장 견인

국내 연구진이 세계 최고 성능의 인공지능(AI) 반도체를 개발했다. 기존 상용 제품에 비해 연산 능력이 뛰어나면서 전력 소모량은 대폭 낮췄다. 이동통신, 자율주행자동차, 지능형 로봇, 드론 등에 적용이 예상되고 우리나라 비메모리 반도체 산업의 발전에 획기적 전기가 될 전망이다.

한국전자통신연구원(ETRI)은 지난 2월 말, 고성능 프로세서인알데바란새 버전AB9’(알데바란 9)을 칩으로 개발하고, 현재 국내 이동통신사를 통해 음성인식 서비스를 위한 최종 성능검증 단계에 있다고 밝혔다.

제4차산업혁명의 핵심 키워드로 AI가 대두되면서 핵심 두뇌 역할을 하는 기술에 경쟁이 심화되고 있다. 기존 컴퓨터와 모바일의 두뇌 역할로 중앙처리장치(CPU, AP 등) 등이 사용되어 왔지만, 이러한 반도체는 단순 계산에 적합하고 딥러닝처럼 복잡한 연산 처리에는 뚜렷한 한계가 존재했다.

연구진은 신경망처리장치(NPU)라 불리는 딥러닝 계산에 최적화한 칩 개발에 성공했다. NPU는 구글 딥마인드의알파고처럼 사람의 학습 및 추론 과정을 재현 및 가속하는 반도체 기술이다. 그동안 전력 효율을 낮춰 칩으로 만들기는 어려웠다.

ETRI는 고성능의 연산 능력과 전력 소모량 두 마리 토끼를 다 잡은 NPU개발했다. 연구진이 개발한 반도체 칩은 40테라플롭스(TFLOPS)수준의 연산 능력을 보여주면서도 전력은 15와트(W)만 든다. 기존 상용 제품보다 전력당 연산능력도 최대 25배로 높이고 전력소모량은 20배 낮췄다.

아울러 가격 경쟁력도 우수하다. 기존 상용제품인 GPU 칩 하나의 경우 800만 ~1,000만 원대로 고가였으나 연구진의 칩은 수십만 원대 가격 책정이 예상되어 최대 50배나 저렴한 경쟁력도 있다.

28나노 공정을 적용해 칩 소형화도 이뤘다. 5백원 동전크기 정도(17mm x 23mm)로 높은 연산 능력을 구현할 수 있고 딥러닝 연산에 특화하여 개발, 응용 분야도 다양해 상용화도 쉽다.

연구진은 그동안 알데바란 프로세서 코어 연구로 10년 넘게 축적한 노하우를 바탕으로 이번에 새롭게 NPU를 개발했다. 칩 내부는 크게 메모리, 행렬 연산기, 데이터이동기(DMA), 명령어 디코더 등으로 구성된다.

전력 효율 극대화를 위한 시뮬레이션을 통해 메모리의 크기와 행렬 연산기 개수를 결정했고 모듈 별 작동 시간 등을 병렬적으로 분배하는 등 연구 핵심 역량을 최적화 설계에 집중했다.

향후 본 칩은 보드에 다양한 형태로 올려져 데이터센터 등에서 AI 관련 서비스 서버 등에 활용케 될 계획이다. 특히 ETRI는 본 칩 하나를 무인자율차에 내장하면 카메라 영상을 받아 보행자, 차선, 신호등 인식 등 무인 이동과 안전 관련 제어가 동시에 가능한 성능 수준이라고 말했다.

아울러, 연구진은 인공지능 알고리즘의 기본 단위인행렬 연산최적화를 위해, 칩과 사용자 사이에서 칩의 구동을 위한 컴파일러 기술(STC)도 자체 기술로 개발했다고 밝혔다.

ETRI는 본 기술의 차별성으로 딥러닝 최적화 구조와 전력 최적화 구조들었다. 고속 동작에 필요한 다수의 연산구조 데이터 복사를 최소화했고 내장된 고용량 온칩 메모리 및 16,384개의 연산기 전원을 유기적으로 동작 중 차단 및 활성화할 수 있다고 설명했다.

특히 연구진이 개발한 칩 하나는 10억 개의 트랜지스터(TR), 40MB의 메모리로 구성되며 부동소수점 연산을 위한 연산기 개수도 32,768개에 달한다고 말했다.

연구진은 상용 NPU 제품 중 반도체 칩과 컴파일러가 통합 구조를 이룬 제품이 없어 이번 AI 반도체 원천기술의 의미가 더욱 크다고 말했다.

ETRI 권영수 지능형반도체연구본부장은비메모리 반도체 영역에서 원천기술 확보에 난항을 겪어온 국내 반도체 업계에 찾아온 절호의 기회다. 토종 인공지능 프로세서인 본 칩이 우리나라 반도체 산업 경쟁력을 한 단계 끌어올리는 기회가 되기를 바란다고 밝혔다.

연구진의 AI 반도체 칩은 AI 스피커, 무인자율차를 비롯, 고성능 서버, 원격 진료, 금융 서비스, 안면/행동 인식 등에 활용, 딥러닝이 적용된 분야에서 부품을 국산화하고 부가가치를 창출하는데 큰 도움이 될 전망이다.

현재 본 기술은 이동통신사, 시스템반도체 기업 등에 기술이전 되었고 서버에 탑재, 성능을 검증 중이다. 향후 포털사, 자동차회사, 로봇제조 회사 등에 추가 기술이전을 계획 중이다. 핵심특허는 NPU의 구조설계와 관련된 부분으로, ETRI 연구진이 개발 및 보유한 순수 국내 기술이다.

연구진은 향후 추론과 학습을 동시에 가능한 칩을 만드는 게 최종목표라고 밝혔다. 이를 위해 3년 내 현재보다 10배 연산능력이 뛰어난 120TF 수준의 칩을 만들 계획이다.

본 연구는 과학기술정보통신부초절전 하이퍼바이저 기반 지능정보 매니 코어 프로세서 SW기술 개발과제로 진행되어 국내·외 특허출원 31건, SCI 논문 6건 등을 발표해 우수성을 인정받았다. <보도자료 본문 끝>

참고1

인공지능 반도체 AB9 개념도

참고2

AB9 성능 비교표 및 설명자료

N사 칩 대비 ETRI 칩 성능비교

N사 칩

ETRI

비고

성능 (TFLOPS)

130.5

40

FP16 기준

최대 성능

전력효율 (TFLOPS/W)

0.50

2.7

FP16 기준

최대 성능/전력

연산기 갯수

576

16,384

N사의 경우 GPUTensorCore 개수

Tech. node (nm)

12

28

제작 공정

CPU, GPU, NPU 비교설명

CPU

GPU

NPU

사용 목적

다양한 명령어의

빠른 처리

여러 명령어의

병렬 처리

고용량 데이터 간

행렬 연산

장점

높은 범용성

병렬 연산

행렬 연산,

높은 데이터 재사용률

사용 분야

주처리장치

그래픽 처리장치

딥러닝 연산 처리

참고3

부동소수점 연산 VS. 고정 소수점 연산

컴퓨터가 실수를 표현하는 방법은 크게 부동소수점 방식과 고정소수점 방식으로 구별된다.

부동소수점 방식은 실수를 부호, 지수, 가수로 표현하는 것으로 정해진 유효숫자 이상의 정보값은 반올림(상황에 따라 올림 또는 버림)하여 표현한다.

고정소수점은 실수를 부호화 가수로 표현하는 것으로, 지수가 없기 때문에 유효숫자 이상의 정보값은 무한대로 처리한다.

부동소수점 방식은 분산도가 큰 실수 집합을 표현할 수 있다는 장점이 있지만, 덧셈, 곱셈 등의 연산이 복잡하다는 단점이 있다.

고정소수점 방식은 표현 가능한 수의 범위는 좁지만, 덧셈, 곱셈 등의 연산이 간편하다.

인공지능 프로세서에서는 학습에는 주로 부동소수점을 이용하고, 추론에는 고정소수점 혹은 정밀도가 낮은 부동소수점 표현 방식을 이용한다.

참고4

용어설명

1. 28나노 공정 : 반도체 제작은 웨이퍼에 미세 회로를 그리는 과정이며, 이 회로를 얼마나 더 미세하게 그릴 수 있는가?를 숫자로 표현한 것이 반도체 공정 기술력(tech. node)이다. 공정 단위의 감소는 웨이퍼 당 생산 가능한 반도체 개수를 증가시키며, 성능과 전력 효율을 동시에 달성할 수 있는 방법이다.

2. 40TFLOPS(테라플롭스) : FLOPS(FLoating point Operations Per Second)초당 부동소수점 연산 가능 횟수를 표현한 것이며, 접두사 Tera-는 10의 12승을 뜻하므로, AB9의 성능 지표인 40TFLOPSAB9가 1초당 40*1012회의 부동소수점 연산이 가능함을 뜻한다.

3. 인공지능 반도체AB9’: AB9의 하위 모듈은 크게 부동소수점 연산기, 내부 메모리, 데이터 이동기, 명령어 디코더로 구성된다. 명령어 디코더는 컴파일러에서 생성한 명령어 세트를 해석하여 하위 모듈 전체의 동작 순서를 결정하는 역할을 한다. 데이터 이동기는 외부 메모리와 내부 메모리 사이에서 데이터를 운반하는 역할을 한다. 내부 메모리는 외부 메모리에서 전달 받은 데이터 혹은 부동소수점 연산기에서 연산한 결과를 잠시 저장하는 역할을 한다. 부동소수점 연산기는 내부 메모리에서 전달받은 행렬 데이터의 곱셈과 덧셈을 수행한다.

4. 컴파일러STC’: 컴파일러 STC는 사용자가 작성한 고차원 프로그래밍 언어를 AB9 하드웨어가 이해 가능한 수준으로 번역 및 최적화하는 역할을 수행한다.

5. AB9와 컴파일러 STC 상호 연계 동작 기능 : 컴파일러 STC는 기존 컴파일러의 역할인 명령어 번역 수준에서 그치지 않고, 다차원 행렬 연산을 통한 부동소수점 연산기의 사용률 최적화, 행렬 데이터를 인접 연산기 사이에만 송수신하여 데이터 재사용률 극대화, AB9 내 온도 센서 정보를 이용한 온도 감지 동작 등을 수행한다.

참고5

ETRI 인공지능프로세서연구실

ETRI는 2016년 무인차 전용 프로세서(AB3), 2017년 자율주행차 칩(AB5)을 개발한 바 있다. 연구진이 스스로 응용칩(AP)을 만들 수 있기에 이번 개발도 가능했다고 설명했다.

연구진은 그동안 프로세서 연구로 특허청 주관, 대한민국 반도체설계대전에서 2016년 대통령상(대상, 무인자율주행차를 위한 핵심 프로세서 기술), 2013년 금상(완성도 높은 1GHz급 저전력 고효율 CPU 코어를 개발)을 수상키도 했다.

ETRI 권영수 지능형반도체연구본부장은 지난 1월, 원내에서 개최된 과학기술정보통신부 업무보고자리에서 문재인 대통령께 개발한 본 칩을 보여드리기도 했다.