sub contents

2초, 문장이 이미지가 되는 시간

초지능창의연구소 이용주 시각지능연구실장

ETRI가 작지만 똑똑한 생성형 인공지능(AI) 모델을 공개했다.
바로 코알라(KOALA)와 코라바(Ko-LLaVA) 모델이다.
초거대 인공지능 모델이 주를 이루는 흐름 속에서 코알라와 코라바는 상대적으로 작은 모델에 속한다.
하지만 그 기능은 생성형 인공지능 시장에 새로운 생태계를 조성해 낼 만큼 탁월하다.

생성형 인공지능 모델인 코알라와 코라바 모델을 소개해 주세요.

이번에 공개한 생성형 인공지능 모델은 크게 2가지입니다. 먼저, 코알라라는 모델은 문장, 즉 텍스트를 입력하면 빠르게 이미지를 생성하는 Text-to-Image 모델입니다. 코라바는 이미지나 비디오를 통해 질의응답이 가능한 대화형 인공지능 모델입니다. 흔히 Image-to-Text, Video-To-Text 모델이라고도 합니다.

모두 생성형 인공지능 기술의 핵심 모델들이며, 크게 크로스모달 모델이라고도 볼 수 있는데요. 모달리티라고 하면 텍스트, 음성, 이미지, 비디오와 같은 것들이고, 이것이 다른 모달리티로 변환된다고 해서 크로스모달이라고 합니다. 이러한 크로스 모달리티를 구현한 2개의 모델이라고 보시면 됩니다.

코알라(KOALA)(왼)와 코라바(Ko-LLaVA)(오) 모델의 시연 화면

카카오톡을 통한 코알라·코라바 시연(AI 코알라톡(KoalaTalk))

코알라 모델이 이미지를 생성하는 속도가 기존 모델보다 훨씬 빠르고, 모델의 크기도 작습니다. 이를 가능하게 하는 원리는 무엇인가요?

인공지능 기술이 발전하는 흐름을 살펴보면 새로운 기술이 만들어지고, 시장에 적용되기 위해 다양한 테크닉들이 접목되며, 이후 여러 산업 현장에 깊숙이 활용되는 단계를 거치게 됩니다. 저희 코알라 모델은 텍스트에서 이미지를 생성하는 기존 모델을 보다 빠르고 효율적으로 구현한 작은 모델이라고 할 수 있습니다.

특히, 코알라 모델은 인공지능 모델 경량화 기술 중에 지식증류(Knowledge Distillation) 기법이 적용되었어요. 이 기술은 흔히 Teacher/Student 모델 방식인데요. 큰 모델인 Teacher(선생님) 모델을 두고 Student(학생) 모델에게 마치 공부를 가르치듯이, 지식을 전이하는 방식으로 학습을 수행합니다. 이렇게 하면 향후에 Student(학생) 모델만 가지고 이미지를 생성하는 모델로 활용할 수 있게 됩니다.

저희는 지식증류기법을 통해 크기를 기존 모델의 1/3 수준으로 작게 만들 수 있었어요. 또한 오픈 AI 모델 대비 5배 빠른 속도로 대략 1초에서 2초 내로 이미지를 생성하는 모델을 만들 수 있게 되었죠.

코라바의 원리도 궁금합니다.

코라바 모델은 텍스트의 질문과 답변을 생성하는 대화형 인공지능에서 시각적 정보를 통해 보다 직관적인 질의응답이 가능하게 하는 모델입니다.

코라바는 텍스트 모델에 이미지나 비디오를 결합할 수 있는 방식을 붙인 거예요. 이를 통해 그림을 설명하는 질문과 답변하는 지시어 셋을 학습하는 방식으로 진행하는 거죠. 이때 학습은 기존의 오픈소스 모델인 라마라는 모델을 활용해서 진행했어요. 이미 만들어진 대형언어모델을 가지고 이미지, 비디오를 덧붙여서 학습하는 방식을 수행했다고 보시면 됩니다.

현재 여러 글로벌 기업인 오픈AI, 구글의 모델들은 이미지 기반의 질의응답이 잘 실행되고 있고, 비디오 기반의 질의응답은 많은 연구가 진행되고 있습니다. 향후 많이 각광받는 기술이 될 것 같습니다.

Video-to-Text 학습 구조

Image-to-Text 학습 구조

코알라와 코라바 모델이 어떤 산업 분야에서 활용될 수 있을까요?

생성형 인공지능 기술은 거의 모든 산업 분야에 활용도가 매우 높을 것으로 예측됩니다. 코알라같이 이미지를 생성하는 모델은 교육, 문화, 방송 및 콘텐츠 분야와 같은 다양한 시각적 이미지를 토대로 한 분야에 기반 기술로써 활용도가 높을 것으로 예상됩니다. 광고 콘티를 제작하거나, 자신만의 창작 만화를 그리는 데 사용될 수 있겠죠. 그 외에도 유아 그림일기, 스토리북 만들기 등 무궁무진한 비즈니스가 가능해질 것으로 봅니다.

코라바와 같은 대화형 인공지능은 현재 ChatGPT, Gemini처럼 다양한 외산 소프트웨어가 개발되고 있는데요. 이 또한 금융, 보험, 법률 등 다양한 챗봇 서비스가 적용된 분야를 빠르게 인공지능이 대체할 것으로 생각합니다.

두 모델을 개발하시면서 어려웠던 점이 있을까요?

국내의 대학, 연구소, 기업 모두 생성형 인공지능 시장에 뛰어든 형국인데요. 저희도 자체 모델을 개발하기 위해 작년부터 많은 노력을 기울였습니다. 하지만 제한된 컴퓨팅, 데이터 환경에서 연구하기란 쉽지 않았어요. 모델은 하나의 큰 용량을 가진 파일이라고 생각하면 되는데요. 이 용량을 감당할 메모리가 부족한 거죠. 큰 용량을 감당할 수 있는 서버를 구축하려면 수천억 단위의 예산이 필요하고요.

그래서 연구의 방향을 새로 잡았어요. 개발 속도가 빠르고 큰 모델이 우수한 성능을 담보하는 현재의 추세에서, 작지만 강력한 모델을 만드는 쪽으로 말이죠. 그 결과, 지식증류기법을 기반으로 한 연구개발을 통해 작지만 똑똑한 모델인 코알라, 코라바를 만들 수 있게 되었습니다.

박사님과 연구소의 추후 연구 계획과 포부를 듣고 싶습니다.

최근 오픈AI에서 공개한 문장을 주고 비디오를 생성하는 SORA라는 모델이 큰 반향을 일으키고 있어요. 하루가 다르게 발전하는 인공지능 기술을 체감하니 현장에서 일하는 연구원 입장에서도 놀라울 따름입니다. 저희 연구진도 비디오 생성에 대한 여러 기반 연구를 진행하고 있습니다. 무엇보다도 가장 바탕이 되는 핵심 알고리즘 개발이 중요하다고 생각됩니다. 비록 초거대 AI 모델 개발은 쉽지 않은 상황이지만, 상황에 맞게 기술을 선도할 수 있는 틈새를 찾는 연구를 진행할 계획입니다.

또한 이제는 창작을 다루는 영역에서도 인공지능이 제 몫을 하는 시대가 될 것으로 보입니다. 향후에는 이러한 모델 연구에 더 집중해서 많은 분이 활용할 수 있는 기술을 만들고 싶습니다.