<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 알리바바가 시각언어 인공지능(AI) 모델 '큐웬3-VL'(Qwen3-VL)의 기술 보고서를 공개하며 AI 경쟁에 본격적으로 가세했다.
1일(현지시간) 온라인 매체 기가진은 큐웬3-VL이 2시간짜리 영상에서도 특정 프레임을 99.5% 정확도로 식별할 수 있는 강력한 성능을 갖췄다고 전했다.
특히 2350억개의 파라미터를 갖춘 큐웬3-VL-235B-A22B 모델은 25만6000개 토큰에 해당하는 30분짜리 영상에서 100% 정확도로 특정 프레임을 찾아내는 성과를 보였다. 이는 기존 시각언어 모델들이 장시간 영상을 일관되게 분석하기 어려웠던 점을 극복한 기술적 진전으로 평가된다.
또한 수학적 추론 능력을 평가하는 매스비스타(MathVista) 벤치마크에서 85.5% 점수를 기록하며 GPT-5(81.3%)를 능가했다. 문서 이해력 측정에서도 DocVQA 96.5%, OCR벤치(OCRBench) 875점으로 높은 성능을 보였다. 광학문자인식(OCR) 지원 언어도 39개로 확장되며, 전작 대비 4배 향상된 다국어 처리 능력을 갖췄다.
그러나 모든 분야에서 큐웬3-VL이 우위를 점한 것은 아니다. 다중모드 대규모언어모델(LLM) 테스트에서는 69.3%를 기록해 GPT-5(78.4%)에 밀렸고, 영상 질문응답에서도 경쟁 모델 대비 낮은 점수를 받았다. 전문가들은 큐웬3-VL이 범용 AI가 아니라, 특정 시각적 연산과 문서 분석에 최적화된 모델임을 시사한다고 분석했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
