컨텐츠 바로가기

05.01 (수)

허깅페이스, 매개변수 8B짜리 멀티모달모델 '아이드픽스2' 출시

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


허깅페이스가 텍스트 및 이미지 프롬프트에 응답할 수 있는 초경량 멀티모달언어모델(LMM)을 출시했다. 매개변수 크기가 80억개로 가장 작은 규모의 LMM 중 하나이지만, 동급 LMM 가운데 최고 성능을 기록했다는 주장이다.

벤처비트는 16일(현지시간) 허깅페이스가 텍스트 및 이미지 프롬프트에 응답할 수 있는 80억 매개변수의 LMM '아이드픽스2(Idefics2)'를 출시했다고 보도했다.

이에 따르면 아이드픽스2는 딥마인드가 개발한 기술을 사용해 2023년 출시한 800억 매개변수의 '아이드픽스'를 기반으로 한다. 이번에는 더 작은 매개변수 크기, 오픈 라이선스, 향상된 OCR(광학 문자 인식) 등으로 업그레이드했다.

최대 980x980 픽셀의 기본 해상도와 기본 종횡비 조작 기능을 추가했고, OCR 기능과 차트, 그림 및 문서에 대한 답변 능력을 향상했다는 설명이다.

허깅페이스는 공개적으로 사용 가능한 데이터셋, 특히 미스트랄-7B-v0.1 및 siglip-so400m-patch14-384를 혼합해 아이드픽스2를 훈련했다. 이 외에도 웹 문서, 이미지- 캡션 쌍, OCR 데이터, 렌더링된 텍스트 및 이미지-코드 데이터를 활용했다.

그 결과 라바-넥스트-미스트랄-7B, MM1-챗-7B, 딥시크-VL-7B 등 동급 LMM과의 벤치마크에서 가장 뛰어난 성능을 기록했다고 밝혔다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


한편 이번 출시는 경쟁업체들이 최근 최신 LMM을 공개한 가운데 이뤄졌다.

스타트업 레카는 전날 이미지, 오디오, 비디오 등 다양한 양식을 이해할 수 있는 LMM '레카 코어(Reka Core)'를 출시했다. 이틀 전에는 일론 머스크의 xAI가 문서, 다이어그램, 차트, 스크린샷 및 사진을 포함한 다양한 시각적 정보를 처리하는 LMM '그록-1.5V'을 공개했다.

또 지난주에는 구글이 '이마젠 2(Imagen 2)'에 텍스트 프롬프트를 애니메이션 이미지로 변환하는 '텍스트-투-라이브(text-to-live)' 기능을 공개했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.