<이미지를 클릭하시면 크게 보실 수 있습니다> |
알리바바는 Qwen3-Max-Thinking이 총 19개 주요 벤치마크 평가에서 Claude Opus 4.5, Gemini 3 Pro, GPT-5.2-Thinking-xhigh 등 최신 고성능 모델과 비교해 경쟁력 있는 성능을 입증했다고 밝혔다. 특히 과학·수학·코딩 문제 해결과 검색 도구를 활용한 전문가급 질의 응답 평가에서도 높은 점수를 받았다.
모델의 핵심 혁신은 ‘적응형 도구 활용(Adaptive Tool-use)’과 ‘테스트 단계 확장(Test-time Scaling)’ 기술이다. Qwen3-Max-Thinking은 사용자가 직접 도구를 선택하지 않아도 대화 중 검색, 메모리, 코드 인터프리터를 자동으로 호출해 문제를 해결한다. 이러한 기능은 규칙 기반 및 모델 기반 피드백을 결합한 과제 학습을 통해 구현됐다.
검색과 메모리 기능은 모델의 환각(Hallucination)을 줄이고 실시간 정보 접근성과 개인화 응답 능력을 높인다. 코드 인터프리터는 복잡한 계산이나 프로그래밍 관련 문제를 효율적으로 처리하도록 지원한다.
또한 알리바바는 ‘경험 누적형 다회차 테스트 단계 확장(experience-cumulative multi-round test-time scaling)’ 전략을 도입했다. 이 방식은 이전 상호작용에서 얻은 핵심 정보를 재활용해 불확실성만 추가 추론하도록 설계됐으며, 문맥 효율을 높여 표준 병렬 샘플링 대비 높은 성능을 유지했다.
Qwen3-Max-Thinking은 현재 알리바바의 대화형 서비스 ‘Qwen Chat’에서 사용 가능하며, 개발자용 API는 생성형 AI 개발 플랫폼 ‘모델 스튜디오(Model Studio)’를 통해 제공된다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
