컨텐츠 바로가기

    12.13 (토)

    xAI, '그록-4.1' 출시로 벤치마크 1위 기록...몇시간 뒤 '제미나이 3'에 밀려

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [박찬 기자]
    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    일론 머스크 CEO의 xAI가 구글의 '제미나이 3' 공개 직전, 차세대 대형언어모델(LLM) '그록(Grok)-4.1'을 전격 공개했다. 그러나 제미나이에 밀려, 출시 사실조차 제대로 전해지지 않았다.

    xAI는 17일(현지시간) 그록-4.1을 선보이며 모델 카드와 평가 지표를 함께 공개, 성능과 투명성을 강조했다.

    공개 직후 그록-4.1은 여러 벤치마크에서 앤트로픽과 오픈AI, 구글 등 경쟁 모델들을 제치고 상위권에 올랐다.

    지난 9월 발표된 '그록-4 패스트(Fast)'보다 향상된 성능을 보였으며, 이전 모델과의 선호도 경쟁에서는 64.78%의 선호도(win rate)로 앞섰다.

    특히, LM아레나의 '텍스트 아레나 리더보드'에서는 싱킹(Thinking) 모드가 1483점을 달성하며 1위에 올랐다. 그러나, 몇시간 뒤 구글의 제미나이 3가 1501점을 기록하자 빠르게 밀려 났다.

    그록-4.1은 두가지 모드로 제공된다. 빠른 응답과 낮은 지연 시간을 제공하는 패스트 모드와, 단계적 추론 기반으로 고난도 문제 해결이 가능한 싱킹 모드다. 두 모드 모두 블라인드 테스트에서 경쟁 모델에 비해 높은 선호도를 보였다.

    기술적 개선도 두드러진다. 비전 기능이 강화돼 이미지·동영상 해석, 차트 분석, OCR 수준의 텍스트 추출이 가능해졌으며, 추론 지연 시간은 28% 감소했다. 장문 맥락 처리 능력도 기존 30만 토큰에서 100만 토큰으로 대폭 확대됐다.

    또 멀티툴 오케스트레이션 기능이 추가돼 외부 도구 병렬 실행이 가능해졌으며, 복잡한 작업 단계를 기존 4단계에서 1~2단계로 단축할 수 있게 되었다. 이를 통해 현실 환경에서 활용도가 크게 향상했다는 설명이다.

    안전성과 사실성도 개선이 이뤄졌다. 환각률은 12.09%에서 4.22%로 약 65% 감소했으며, '팩트스코어(FactScore)'는 9.89%에서 2.97%로 높아졌다.

    제한 정보 질문에 대한 오탐률은 거의 0%였고, 공격형 벤치마크 '메이크미세이(MakeMeSay)'에서도 성공률 0%를 기록했다.

    머스크 CEO는 "위대한 모델"이라며, 팀에게 축하 메시지를 전했다.

    그러나, 이날 그록-4.1 출시를 다룬 미국 매체는 많지 않다. 대부분은 제미나이 3 출시에 집중됐다.

    또, 기업 사용자는 당분간 그록-4.1을 업무에 적용하기 어렵다. 아직 개발자 API에 모델이 추가되지 않았으며, 공개 시점도 안내되지 않았다.

    현재는 플랫폼인 X(트위터)와 홈페이지, 모바일 앱에서 이용 가능하다.

    박찬 기자 cpark@aitimes.com

    <저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.