<이미지를 클릭하시면 크게 보실 수 있습니다> |
이번 공개를 통해 네이버클라우드는 네이티브 옴니모달 구조를 적용한 파운데이션 모델 ‘하이퍼클로바 X 시드 8B 옴니(HyperCLOVA X SEED 8B Omni)’와 추론형 AI에 시각·음성·도구 활용 역량을 결합한 ‘하이퍼클로바 X 시드 32B 싱크(HyperCLOVA X SEED 32B Think)’를 오픈소스로 공개했다.
하이퍼클로바 X 시드 8B 옴니는 텍스트·이미지·오디오 등 서로 다른 유형의 데이터를 하나의 모델 구조에서 동시에 학습하는 네이티브 옴니모달 방식을 적용한 것이 특징이다. 글로벌 AI 기업들 역시 이러한 구조를 차세대 파운데이션 모델 개발 흐름 중 하나로 검토하고 있다.
네이버클라우드는 옴니모달 AI 학습 과정에서 기존 텍스트·이미지 중심 데이터 구성에서 벗어나 현실 환경의 맥락을 반영한 데이터 확보에 주력하고 있다는 입장이다.
성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “모델을 대규모로 키워도 데이터 다양성이 한정되어 있다면 AI 문제 해결 능력도 특정 영역 또는 특정 과목에만 집중돼 나타날 수밖에 없다”며 “디지털화되지 않은 생활 맥락 데이터나 지역 지리적 특성이 반영된 공간 데이터 등 차별화된 현실 세계 데이터를 확보하고 정제하는 과정이 선행돼야 한다”고 설명했다.
네이버클라우드는 이번 모델 공개를 통해 네이티브 옴니모달 구조의 개발 가능성을 확인했으며 향후 추가 데이터 학습과 단계적인 모델 규모 확장을 검토하고 있다고 밝혔다. 텍스트·이미지·음성 모델을 결합하는 기존 멀티모달 방식과 달리, 단일 모델 구조를 사용하는 옴니모달 방식은 구조적 확장이 비교적 용이하다는 점이 특징으로 언급됐다. 이를 기반으로 다양한 활용 환경에 맞춘 크기의 특화 모델을 순차적으로 개발할 계획이다.
해당 모델은 텍스트 지시를 기반으로 이미지 생성과 편집을 수행하는 기능도 포함하고 있다. 텍스트와 이미지의 맥락을 함께 이해해 결과물을 생성하는 방식으로, 단일 모델에서 텍스트 이해와 이미지 생성·편집을 처리하도록 설계됐다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
영역별 평가에서는 한국어 기반 종합 지식, 시각 이해, 도구 활용을 포함한 에이전트 수행 항목에서 상대적으로 높은 점수를 기록했다. 네이버클라우드는 이를 통해 복합 입력 기반 문제 해결 가능성을 확인했다고 설명했다.
해당 모델을 활용해 올해 대학수학능력시험 문제를 풀이한 결과 국어·수학·영어·한국사 주요 과목에서 모두 1등급 수준의 결과를 보였으며 영어와 한국사에서는 만점을 기록했다고 회사 측은 밝혔다. 네이버클라우드는 해당 모델이 문제를 이미지 형태로 직접 입력받아 처리했다는 점에서 기존 텍스트 변환 방식과 차이가 있다고 설명했다.
성 총괄은 “텍스트·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다”며 “이러한 기본기를 갖춘 구조 위에서 점진적으로 규모를 확장해야 단순히 크기만 큰 모델이 아닌, 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 이를 토대로 스케일업을 이어갈 계획”이라고 말했다.
네이버클라우드는 이번에 공개한 옴니모달 하이퍼클로바X를 기반으로 검색, 커머스, 콘텐츠, 공공, 산업 현장 등 다양한 영역에서의 활용 가능성을 검토하며, 관련 기술 생태계 조성을 추진할 계획이라고 밝혔다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
