sub contents

ETRI,
2초 만에 이미지 만드는 시각지능 모델 공개

ETRI가 생성형 인공지능과 시각지능 기술을 결합해 이미지를 만드는 기술을 공개했다.
문장을 입력하면 2초 만에 이미지를 만들어주는 기술이다.
이로써 초고속 생성형 시각지능 연구에 탄력이 붙을 것으로 기대한다.

기존 대비 5배 빠른 이미지 생성 모델

ETRI가 문장을 입력해 이미지를 만드는데 기존* 대비 5배 빠른 ‘코알라(KOALA)’ 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등 총 5종 모델을 공개했다.
* 오픈AI에서 공개한 달리(DALL-E) 3

코알라(KOALA)는 공개 SW 모델의 2.56B(25억 개) 파라미터에 지식 증류 기법*을 적용해 700M(7억 개)로 줄였다. 파라미터 수는 크면 클수록 연산량이 많아 시간이 오래 걸린다. 더불어 서비스 운영 비용도 증가한다. 이에 ETRI는 모델을 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배가량 빠르게 개선했다. 모델 생성 속도는 2초 내외다.

코알라는 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다. 작고 빠르다는 경쟁력으로 국내·외 이미지 생성 프로그램 시장에서도 두각을 나타낼 것으로 보인다. ETRI는 코알라 3종 모델을 허깅페이스(HuggingFace)** 환경에 공개했다.*** 해당 홈페이지에 들어가면 공개 SW인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리(DALL-E) 3의 4종을 포함한 총 9개 모델을 직접 비교 체험해 볼 수 있다.
* 지식 증류(Knowledge Distillation) 기법: 큰 모델의 정보를 작은 모델로 전달하는 모델 경량화 기법
** 허깅페이스(HuggingFace): 머신러닝 기술, 특히 딥러닝 모델의 손쉬운 공유 및 배포, 사용, 훈련을 가능하게 하는 생태계
*** https://huggingface.co/spaces/etri-vilab/KOALA

한국어가 가능한 대화형 시각언어모델

ETRI는 GPT와 같은 대화형 인공지능에 시각지능 기술을 더한 ‘코라바(Ko-LLaVA)’모델도 함께 공개했다. 코라바는 한국어로 이미지나 비디오에 대해 질의응답을 할 수 있는 대화형 시각언어모델이다.

연구진은 이미지를 포함한 멀티모달 모델의 대안으로 떠오르고 있는 라바(LLaVA) 모델을 사용했다. 한글을 더욱 잘 이해할 수 있고 기존에 없는 비디오를 해석할 수 있도록 연구를 진행했다. 해당 모델은 허깅페이스를 통해 공개*되어 직접 사용해 볼 수 있다.

더불어 ETRI는 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다. 공개한 모델(330M(Small), 580M(Base), 1.23B(Large) 급)은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화됐다.
* https://huggingface.co/spaces/etri-vilab/Ko-LLaVA

ETRI, 스테이블 디퓨전 기술을 선도하다

ETRI는 수천 대의 서버가 필요한 대형모델을 대체하는 ETRI의 모델을 통해 중소기업 이용을 활성화할 뿐 아니라 관련 시장 생태계를 조성하고자 한다. 연구진은 본 기술의 핵심 특허가 지식 증류 기반 경량화된 스테이블 디퓨전 기술이라고 설명했다. 인공지능을 활용, 지식을 쌓아 작은 모델로 대형모델의 역할을 수행할 수 있는 기술이다.

ETRI는 본 기술을 일반에 공개한 뒤 이미지 생성 서비스, 창작 교육 서비스, 콘텐츠 제작 및 사업자 등에 기술 이전 할 계획이다.

ETRI 이용주 시각지능연구실장은 “향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획이다. 글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정이다”라고 말했다.

미국 위스콘신대학교 매디슨의 이용재 교수도 “라바(LLaVA) 프로젝트를 총괄하며 GPT-4에 맞서 오픈소스 기반의 시각언어모델 연구를 통해 더 많은 사람이 활용할 수 있는 연구를 진행했다. 향후 ETRI와 국제공동연구를 통해 멀티모달 생성모델에 관한 연구도 지속할 예정이다”라고 밝혔다.

코알라(KOALA) 화면 시연 영상

코라바(Ko-LLaVA) 화면 시연 영상