mecㆍviewer v1.4 :: [ETRI 보도자료] ETRI, 한장의 사진으로 초실사 AI아바타 만들어

Embargo		-
배포일자 : 2025.4.15.(화)				배포번호 : 2025-33호
문의	인공지능창의연구소		AI로봇연구본부장		최정단(042-860-5884)	E-mail : jdchoi@etri.re.kr
	AI로봇연구본부		모빌리티UX연구실장		윤대섭(042-860-1257)	E-mail : eyetracker@etri.re.kr
	모빌리티UX연구실		선임연구원		최대웅(042-860-5585)	E-mail : dwchoi92@etri.re.kr
	대외협력본부		홍보실장		정길호(042-860-0670)	E-mail : khchong@etri.re.kr
	홍보실		선임행정원		김민규(042-860-0681)	E-mail : kakapow@etri.re.kr
매수 : 보도자료 2매(참고자료 2매, 사진자료 6매)						배포처 : ETRI 홍보실

ETRI, 한 장의 사진으로 초실사 AI 아바타 만들어

- 자율주행차·디지털휴먼 겨냥해 차세대 인터랙션 기술 선봬

- 실사 기반 AI 아바타, 키오스크·은행·뉴스·광고 등 적용기대

한국전자통신연구원(ETRI)이 단 한 장의 인물 사진만으로 실제 사람처럼 자연스럽게 말하는 초실사 AI 아바타 생성 기술을 개발했다고 밝혔다.

이번 기술은 완전 자율주행 시대를 대비해 차량과 사람 간의 직관적인 상호작용을 가능하게 하는 차세대 인터페이스로 주목받고 있으며, 향후 디지털 휴먼 산업 전반으로의 확산도 기대된다.

기존 음성 기반의 AI 비서나 내비게이션 시스템이 단순한 명령 수행에 그쳤다면, ETRI의 초실사 AI 아바타는 정교한 표정과 입 모양 표현을 통해 실제 사람과 같은 자연스러운 대화가 가능하다.

이를 통해 차량 내 AI 운전기사가 운전자와 대화하거나 보행자와 소통하는 등, 보다 인간 친화적인 사용자 경험(Human-Machine Interaction)을 제공할 수 있다.

이번 기술의 핵심은 기존 생성형 AI와 달리, 입술, 턱 등 발화와 직접 연관된 부위를 선별적으로 학습·합성하는 독자 알고리즘이다. 이 방식을 통해 불필요한 정보 학습을 줄이는 한편, 입 모양, 치아, 피부 주름 등 세밀한 얼굴 표현을 더욱 정교하게 구현할 수 있게 됐다.

ETRI는 이 기술이 CVPR, AAAI 등 국제 주요 학술대회 발표 기술들보다도 합성 화질(Visual Quality)과 입술 동기화 성능(Lip Synchronization) 면에서 우수한 성능을 입증했다고 설명했다.

이 기술은 자율주행차 외에도 ▲키오스크 ▲은행 창구 ▲뉴스 진행 ▲광고 모델 등 다양한 산업 분야에서 활용될 수 있으며, 인공지능 기반 디지털 휴먼 산업의 혁신을 견인할 것으로 기대된다.

ETRI 모빌리티UX연구실은 현재 사람-기계 간 상호작용(HMI) 기술을 중점적으로 연구하고 있으며, 운전자와 보행자의 감정, 피로도, 집중 상태 등을 분석하는 AI 기반 운전자 인터페이스 기술도 함께 개발하고 있다.

윤대섭 모빌리티UX연구실장은 “모빌리티 기술이 고도화될수록 노인이나 사회적 약자들이 소외될 수 있다. 이번 AI 아바타 기술이 디지털 리터러시 향상에 기여하고, 모두가 쉽게 이용할 수 있는 스마트 모빌리티 서비스로 발전하길 기대한다”고 밝혔다.

또한, 연구책임자인 최대웅 선임연구원도“AI 아바타가 실제 사람처럼 자연스럽게 대화하고 움직이는 생성형 AI 기술을 한층 고도화할 계획이다. 향후 주문, 상담 등 일부 인력을 대체할 수 있을 정도의 상호작용 구현을 목표로 하고 있다”고 말했다.

본 기술은 현재 ETRI 기술이전 사이트에‘실사 인물 발화 영상 생성 프레임워크 기술’로 등록되어 있다. 연구진은 다양한 산업 분야에서의 상용화를 위한 기술이전 및 사업화 전략도 적극 추진할 계획이다.

이번 연구는 한국전자통신연구원이 수행한 ‘차세대주역 신진연구사업’의 일환으로, 「초실사 영상 생성 AI 제어 프레임워크 요소기술 개발」 과제를 통해 이루어졌다. <보도자료 본문 끝>

용어설명

1) 디지털 휴먼 산업 : 인공지능, 그래픽 기술 등을 활용해 현실과 유사한 가상의 인간(디지털 휴먼)을 구현하고, 이를 방송, 교육, 의료, 엔터테인먼트 등 다양한 분야에 적용하는 산업

2) 인간 친화적인 사용자 경험(Human-Machine Interaction) : 사람이 기계나 시스템과 상호작용할 때 직관적이고 자연스럽게 사용할 수 있도록 설계된 기술과 인터페이스를 의미

3) CVPR(Computer Vision and Pattern Recognition) : 컴퓨터 비전 및 패턴 인식 분야에서 세계적으로 권위 있는 학술대회로, 최신 연구 성과가 발표되는 국제 행사

4) AAAI(Association for the Advancement of Artificial Intelligence) : 인공지능 분야의 대표적인 국제 학술 대회이자 학회로, AI 관련 기술 발전과 연구 교류를 촉진하는 역할 수행

5) 합성 화질(Visual Quality) : 인공지능이나 그래픽 기술을 이용해 생성된 이미지나 영상의 시각적 선명도와 자연스러움을 평가하는 기준

6) 입술 동기화 성능(Lip Synchronization) : 영상 속 인물의 입술 움직임이 음성과 얼마나 정확히 일치하는지를 나타내는 지표로, 디지털 휴먼 및 영상 합성 기술의 핵심 요소 중 하나

7) 디지털 리터러시 : 디지털 기술과 정보를 효과적으로 이해하고 활용하는 능력

참고1

기술개요 및 개념도

□ 실사 인물 발화 영상 생성AI 프레임워크 기술

ㅇ 기술개요 및 개념도

그림. (기술개념도) 본 기술을 활용하여 영상 창작자(크리에이터)는 목표 인물의 사진 한 장 만으로 그 사람이 실제로 말하는 것 같은 합성 영상을 만들 수 있을 뿐만 아니라 특정 음성, 자세, 문장 입력에 맞춰 합성 인물을 제어가능함

ㅇ 시스템 구조 및 영상 합성 파이프라인

그림. (시스템 구조도) 생성형 인공지능을 활용하여, 합성 인물의 사진이나 동영상을 입력하고, 추가로 그 인물이 재연해야하는 발화 음성, 자세 영상, 발화 문장(스크립트) 등의 데이터를 입력받아 합성 인물 영상을 생성함.

참고2

기술 응용 및 향후 활용처

□ 기술 결과물 및 활용안

ㅇ 기술 응용 및 향후 활용처

그림. (기대효과 및 활용 방안) 대표활용처로는 자율차량과 운전자 혹은 보행자간 개선된 상호작용을 위한 AI 운전기사를 포함하여 방송/전시/교육/수어 등의 맞춤형 인물 콘텐츠 생성에서 활용가능할 것으로 기대됨