ETRI Webzine

bt_menu

과거의 인물도
살아 숨 쉬게 되는 미래

Vol.254 August

사진 한 장으로도 생생하게 살아 움직이는 아바타를 만들 수 있다면?
여기, ETRI에서 개발한 초실사 AI 아바타 생성 기술을 통해 가능하다.
특히, 입술과 턱 등 말하는 데 필요한 발화부위를
선별적으로 학습해 세밀한 얼굴 표현이 가능하다.
사람처럼 생생하게 말하는 아바타를 통해 추후 자율주행차, 키오스크, 광고 등
다양한 곳에 활용될 것으로 기대한다.

IMAGINE

한 장의 사진으로 펼쳐지는 마법

* 아래의 글은 초실사 AI 아바타 생성 기술이 상용화된 미래를 상상해 본 글입니다.

2035년의 어느 주말. 가족들과 함께 박물관에서 시간을 보내기로 했다.
한글을 주제로 한 박물관이 있어서 아이들과 함께 방문했다. 전시관에 들어가자마자 커다란 화면 속에서 인자한 미소를 띠며 우리에게 인사를 건네는 세종대왕이 나타났다.
“글을 모른다는 이유로 불편을 겪는 사람이 없도록, 훈민정음을 만들었지요.”
곤룡포를 단정하게 차려입은 세종대왕은 마치 정말 살아있는 사람처럼 우리와 눈을 마주치며 생생하게 말하고 있었다.
“엄마! 진짜 세종대왕님이에요!”
“그러게~ 정말 살아있는 것 같네!”
전시관 곳곳에 설치된 스크린에서는 세종대왕이 나타나 전시된 내용들을 하나하나 설명해주고 있었다. 훈민정음해례본, 훈민정음 언해본, 세종 어보 등 한글과 관련된 전시품을 세종이 직접 설명해 주니 기분이 오묘했다. 궁금한 내용을 추가로 물어보면 화면 속 세종은 고개를 끄덕이며 듣다가 이내 답을 해줬다.
한글이 나오기까지의 과정을 예상해 만든 영상도 상영되고 있었다. 집현전에서 둘러앉아 회의하는 학자들과 세종의 모습이 기억에 남았다. 실제로 살아 움직이는 듯한 모습이 방금 촬영한 것만 같았다.
전시실 내에 있는 작은 체험관에서는 세종이 직접 한글을 가르치고 있었다.
“‘ㄱ’은 ‘기차’의 ‘ㄱ’입니다. 이렇게 쓰는 것이지요.”
몇몇 아이들이 신기하게 보며 글씨를 쓰고 있었다.
전시관 구석구석에서 사람들과 소통하는 세종대왕의 모습을 보니, 세종대왕이 실제로 이 광경을 본다면 얼마나 흐뭇해할까 생각해 본다. 얼마 지나지 않아 홀로그램으로 제작된 세종대왕이 전시관 곳곳을 돌아다닐 수 있지 않을까 기대해 보는 하루다.

  • img1
  • img2
  • TECHNOLOGY

    콘텐츠 제작을 도울 초실사 AI 아바타 생성 기술

    img3

    ETRI가 한 장의 인물 사진으로도 실제 사람처럼 자연스럽게 말하는 초실사 AI 아바타 생성 기술을 개발했다. 이 기술은 추후 자율주행차, 키오스크, 은행 창구, 뉴스 진행, 광고 모델 등 다양한 산업 분야에서 활용될 수 있을 것으로 기대한다. 특히 해당 기술은 완전 자율주행 시대를 대비한 차세대 인터페이스 기술로 주목받고 있다. 초실사 AI 아바타는 정교한 표정과 입 모양으로 자연스러운 대화가 가능하다. 차량 내 AI 운전기사가 운전자와 대화하거나 보행자와 소통하며 인간 친화적인 사용자 경험을 제공할 수 있을 것으로 기대한다.

    기술의 핵심은 입술, 턱 등 발화와 직접 연관된 부위를 선별적으로 학습하고 합성하는 독자 알고리즘이다. 이 방식은 불필요한 정보 학습을 줄이고, 입 모양, 치아와 피부 주름 등 세밀한 얼굴 표현을 더욱 정교하게 구현하도록 돕는다. 연구진은 이 기술이 CVPR1), AAAI2) 등 국제 주요 학술대회 발표 기술들보다도 합성 화질(Visual Quality)3)과 입술 동기화 성능(Lip Synchronization)4) 면에서 우수한 성능을 입증했다고 설명했다.

    윤대섭 모빌리티UX연구실장은 “모빌리티 기술이 고도화될수록 노인이나 사회적 약자들이 소외될 수 있다. 이번 AI 아바타 기술이 디지털 리터러시 향상에 기여하고, 모두가 쉽게 이용할 수 있는 스마트 모빌리티 서비스로 발전하길 기대한다”라고 밝혔다.

    또한, 연구책임자인 최대웅 선임연구원도 “AI 아바타가 실제 사람처럼 자연스럽게 대화하고 움직이는 생성형 AI 기술을 한층 고도화할 계획이다. 향후 주문, 상담 등 일부 인력을 대체할 수 있을 정도의 상호작용 구현을 목표로 하고 있다”라고 말했다.
    1) CVPR(Computer Vision and Pattern Recognition): 컴퓨터 비전 및 패턴 인식 분야에서 세계적으로 권위 있는 학술대회로, 최신 연구 성과가 발표되는 국제 행사다.
    2) AAAI(Association for the Advancement of Artificial Intelligence): 인공지능 분야의 대표적인 국제 학술 대회이자 학회로, AI 관련 기술 발전과 연구 교류를 촉진하는 역할을 수행한다.
    3) 합성 화질(Visual Quality): 인공지능이나 그래픽 기술을 이용해 생성된 이미지나 영상의 시각적 선명도와 자연스러움을 평가하는 기준이다.
    4) 입술 동기화 성능(Lip Synchronization): 영상 속 인물의 입술 움직임이 음성과 얼마나 정확히 일치하는지를 나타내는 지표로, 디지털 휴먼 및 영상 합성 기술의 핵심 요소 중 하나다.

    arrow_l
    이전 기사
    arrow_r
    다음 기사
    NAVER KaKao Facebook top
    지난 웹진 보기 SUBSCRIBE