ETRI Webzine

bt_menu

한 장의 사진으로
살아 숨 쉬는 아바타를 만들다
모빌리티UX연구실 최대웅 선임연구원

Vol.254 August

영화 ‘해리포터’에서는 주인공들이 기숙사에 들어가기 전 초상화 속 인물과 대화를 나누는 장면이나 신문 속 인물들이 살아 움직이는 장면을 볼 수 있다.
최대웅 선임연구원은 이 장면들을 보며 언젠가 현실에서도 이를 가능케 할 기술을 만들 수 있지 않을까 생각하며 설렜다고 한다.
그때의 기억이 초실사 AI 아바타 생성 기술이 개발될 수 있는 중요한 계기였다고.
이제는 AI 아바타와 교감할 수 있는 마법 같은 세상을 꿈꾸며
연구에 매진 중인 그를 만나보았다.

img3

개발하신 초실사 AI 아바타 생성 기술을 소개해주세요.

초실사 AI 아바타 생성 기술은 한 장의 인물 사진과 음성만으로 실제 사람처럼 자연스럽게 말하는 고품질 영상을 만드는 기술이에요. 엄청 저화질의 사진만 아니면 되고, 10초 이내의 음성파일로도 제작할 수 있어요. 저해상도부터 풀HD급의 영상으로 제공할 수 있죠.

기존 유사 기술들도 인물 이미지 한 장이나 짧은 영상만으로 합성을 시도할 수는 있어요. 하지만 합성된 인물의 생김새가 실제 인물과 다르게 변형되거나, 가상의 게임 캐릭터처럼 보이는 품질 한계가 있죠. 표정이 음성과 잘 맞지 않아 이질감을 주는 경우도 많고요.

이에 반해, 저희 기술은 인물의 고유한 외형을 세밀하게 유지하면서도, 음성과 조화를 이루는 표정을 정밀하게 합성할 수 있다는 점이 가장 큰 차별점이자 강점이에요. 영상을 보시면 실제 사람이 말하는 듯한 생생한 느낌을 경험할 수 있죠.

img3실사인물 발화영상 생성AI 제어프레임워크 시스템 구조도

해당 기술이 완전 자율주행 시대를 대비하는 차세대 인터페이스 기술로 주목받고 있습니다. 해당 기술이 차 안에서 어떻게 활용되나요?

완전 자율주행 시대가 도래하면, 차량은 단순한 이동 수단을 넘어 사람과 소통하는 공간이 될 거예요. 이 기술은 차량 내 AI 운전자가 실제 사람처럼 말하며 운전자에게 주행 정보를 전달하거나, 피드백을 주는 역할을 할 수 있어요.

예를 들어 고령 운전자에게는 동승자처럼 친근하게 도로 상황을 알려주거나 주의 사항을 안내할 수 있고, 보행자에게는 차량이 인식했다는 것을 사람의 얼굴로 피드백해 줌으로써 자율주행차에 대한 신뢰를 높이는 데 이바지할 수 있죠.

기존의 기술과 차별화되는 핵심 기술은 무엇인가요?

최근에는 AI 은행원이나 AI 앵커처럼 사람 얼굴을 합성해 영상을 생성하는 형태의 AI 서비스들도 등장하고 있어요. 하지만 미리 학습된 특정 인물에 대해서만 합성할 수 있거나, 합성된 얼굴 부위가 기존 영상 위에 덧붙여지는 방식이라 시각적 품질이 떨어지거나, 입 모양이 음성과 맞지 않아 단순히 입만 뻐끔거리는 듯한 부자연스러운 표현에 머무르는 등 기술적으로 여러 한계가 있어요.

그런데 저희가 개발한 기술은 이런 한계를 해결해 줘요. 추가적인 학습 없이도 다양한 인물의 실사 아바타를 자동으로 생성할 수 있거든요. 특히, 사람의 고유한 외형을 정밀하게 재현하면서도, 음성과 정합성이 높은 자연스러운 표정을 합성해 낼 수 있도록 설계됐어요.

img3핵심 보유기술인 인물 발화 영상 생성AI모델 학습 구조

기존에는 이런 영상을 만드는 데 필요한 AI 학습 시간이 오래 걸렸어요. 길게는 10시간, 많이 짧아졌다 해도 5분~10분 정도는 한 사람의 촬영물을 가지고 AI 학습을 돌려야 하는 거죠. 이런 학습 시간이 다 소요되고 나서야 하나의 모델이 나와요. 하지만 저희 기술은 처음부터 몇십만 명이 될 수 있는 다양한 사람의 영상을 짧게 짧게 활용해서 학습시켰어요. 그래서 어떤 사진이 들어와도 자동으로 재현할 수 있는 거예요.

실제로 최신 발화 얼굴 합성(Talking Face Generation) 분야의 대표적인 국제 학회인 CVPR, AAAI 등에서 발표된 기존 기술들과 비교 실험을 수행했고, 그 결과로 시각적 품질(Visual Quality)과 음성-표정간 정합성(Lip Synchronization) 측면 모두 우수한 성능을 입증했어요.

딥페이크 기술과는 어떤 차이가 있나요?

딥페이크 기술은 특정 인물의 얼굴이나 음성을 흉내 내어 합성 영상을 생성하는 데 초점을 둬요. 정치나 연예계처럼 공적 영역에서의 이미지 조작, 허위 정보 유포 등으로 악용 가능성이 높아 사회적 신뢰를 해칠 수 있다는 우려도 있죠.

반면, 저희는 AI 아바타 기술을 단순한 영상 합성을 넘어, 공공성과 신뢰성을 갖춘 상호작용형 서비스 인터페이스로 확장하는 것을 목표로 하고 있어요.

현재 보유한 기술만으로도 실제 사람 같은 외형을 자연스럽게 말하는 형태로 합성하는 것이 가능해요. 이를 기반으로 앞으로는 사람의 말을 듣고, 표정이나 행동을 파악해 응답할 수 있는 AI 아바타로 발전시키고자 해요.

지금까지의 AI 아바타가 ‘사람처럼’ 보이고 움직였다면, 앞으로는 실제 사람이 하듯 자연스럽게 소통하고 반응할 수 있는 기술로 확장하려는 점에서 딥페이크와는 지향점 자체가 달라요.

초실사 AI 아바타 생성 기술이 상용화된다면 구체적으로 어떻게 사용될 수 있을까요?

기존의 정적인 화면이나 음성 안내만으로는 충분하지 않았던 다양한 비대면 서비스 환경에서 사람을 대신해 자연스럽게 소통하는 역할을 수행할 수 있어요.

예를 들어, 무인 민원 창구나 공공기관 키오스크에서 실제 사람처럼 응대하며, 민원인의 말에 반응하고 설명을 제공하는 디지털 창구 직원으로 활용할 수 있어요. 또 식당·카페·호텔 등의 무인 주문 시스템에서는 고객의 말에 맞춰 자연스럽게 안내하고 주문을 받는 화면 속 점원 역할을 할 수 있고요. 자율주행차 내부에서는 운전자나 탑승자에게 주행 상황을 설명하거나 피드백을 주는 AI 운전 보조자, 또는 차량 외부에서는 보행자에게 차량의 의도를 전달하는 AI 교통 신호자 역할도 가능해요.

특히, 고령자나 디지털 취약계층이 어려움을 겪는 환경에서도, 실제 사람처럼 보이고 반응하는 아바타는 디지털 서비스에 대한 심리적 장벽을 줄이는 역할을 할 수 있을 것으로 기대하고 있어요. 초실사 AI 아바타 생성 기술은 단순한 안내 기능을 넘어, 사람 중심의 상호작용 인터페이스로 확장될 수 있는 핵심기술이 될 수 있다고 봐요.

img3

초실사 AI 아바타 생성 기술의 상용화를 위해 남은 주요 과제는 무엇인가요?

우선 실시간 합성 성능 확보가 핵심이에요. 현재는 고성능 GPU 서버를 통해 학습과 추론이 이루어지고 있는데요, 상용 환경에서는 비용 효율적인 경량화 모델로도 안정적인 합성이 가능해야 해요. 키오스크나 차량 내 시스템과 같은 실제 현장에서는 로컬 장비나 제한된 연산 자원에서도 원활히 작동할 수 있어야 하죠. 이를 위한 추론 최적화와 시스템 경량화 기술 개발이 필요해요.

합성된 영상이 실제 사람과 구분이 어려운 만큼, 향후 신뢰 기반의 인증 체계, 악용 방지를 위한 워터마킹 또는 디지털 서명 기술 등 사회적·제도적 기반 마련도 함께 논의되어야 해요. 이 기술이 공공 서비스, 금융, 언론 등 민감한 분야에 적용된다면, 기술의 투명성과 책임성을 제도적으로 보장하는 장치가 반드시 함께 마련되어야 하죠.

이러한 기술적 과제와 사회적 과제를 함께 해결해 나가면서, 누구나 신뢰할 수 있는 실사 AI 아바타 기술을 일상에 구현할 수 있도록 그 기반을 마련하는 것이 저희의 다음 목표예요.

앞으로의 연구계획이 궁금합니다.

사람같이 생긴 AI 아바타를 진짜 사람처럼 만드는 것에 집중할 계획이에요. 앞으로는 사람과 실시간으로 대화를 나눌 수 있는 대화형 AI 아바타, 더 나아가 사람을 자연스럽게 바라보고, 표정이나 행동 같은 비언어적 표현까지 이해할 수 있는 상호작용형 아바타를 구현하고자 해요. 이건 단순히 외형을 합성하는 기술을 넘어서, 상대방의 감정과 상황을 파악하고 맥락에 맞는 응대를 할 수 있는 차세대 인터페이스로 확장하는 과정이라고 생각해요. 특히 고령자나 장애인 등 디지털 취약계층에도 접근성 높은 인터페이스를 제공할 수 있게 되겠죠.

단순한 자동화가 아니라, 기술이 사람 곁에 머물며 배려하고 반응하는 방식으로 진화할 수 있다는 가능성을 열고자 해요. 그런 세상을 실현하기 위해, 앞으로도 사람을 위한 기술을 설계하고, 누구 하나 소외되지 않도록 돕는 따뜻한 AI 기술을 만드는 연구자가 되고 싶어요.

arrow_l
이전 기사
arrow_r
다음 기사
NAVER KaKao Facebook top
지난 웹진 보기 SUBSCRIBE