국내 연구진이 생성형 인공지능과 시각지능 기술을 결합해 문장 입력 시 순식간에 이미지로 전환해주는 기술을 개발, 일반에 공개했다.
한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 ‘코알라(KOALA)’ 모델 3종과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등 총 5종의 모델을 일반에 공개했다고 25일 밝혔다.
코알라(KOALA) 모델은 공개SW 모델(스테이블 디퓨전 XL)의 2.56B(25억 개) 파라미터를 지식증류 기법(큰 모델의 정보를 작은 모델로 전달하는 모델 경량화 기법)을 적용해 700M(7억 개)으로 대폭 줄였다.
뇌의 ‘시냅스’에 해당하는 역할을 하는 파라미터는 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다.
연구진은 모델 크기를 1/3로 축소했고 고해상도 이미지 속도를 기존 대비 2배, 달리(DALL-E) 3 대비 5배 가량 빠르게 개선했다. 2초면 이미지를 생성할 수 있다.
이 기술은는 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동이 가능하다.
실제로 연구진이 ‘달 아래 화성에서 책을 읽고 있는 우주비행사의 사진’이란 문장을 입력하자 코알라 700M(7억 개)는 1.6초 만에 이미지를 만들어 냈다. 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.
이번에 ETRI는 자체 개발한 파라미터별 ‘코알라(KOALA)’ 3종 모델을 허깅페이스(HuggingFace) 환경에서 공개했다.
또 ETRI는 기존 공개S/W인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리 3 등 4종을 포함, 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트(https://huggingface.co/spaces/etri-vilab/KOALA) 및 모델 제공 사이트(https://huggingface.co/etri-vilab)를 만들어 공개했다.
이와 함께 연구진은 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 ‘코라바(Ko-LLaVA)’ 모델도 공개했다.
라바(LLaVA) 모델은 미국 위스콘신대학교 매디슨과 ETRI 연구진의 국제공동연구로 개발했다. 인공지능 분야 최우수학회인 뉴립스에 발표했고 GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다.
자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다. 공개한 모델(330M(Small), 580M(Base), 1.23B(Large) 급)은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.
ETRI는 모델 공개 이유에 대해 중소기업 이용을 활성화해 관련 시장 생태계를 조성하려는 의도라고 설명했다. 연구진은 생성형 AI의 대표적인 공개 언어모델에 시각지능 기술이 더해진 한글 크로스모달 모델에 대한 수요가 지속 증가할 것으로 예측하고 있다.
ETRI는 기술 공개에 이어 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전 할 계획이다.
ETRI 이용주 시각지능연구실장은 “향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만 성능이 뛰어난 다양한 모델을 공개할 계획”이라며 “글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업에 인공지능 기술을 효과적으로 활용할 기회를 제공해 나가겠다”고 말했다.