(사진=셔터스톡) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
일론 머스크 CEO의 인공지능(AI) 스타트업 xAI가 차세대 AI 모델 '그록 4(Grok 4)'를 전격 공개했다. 이번에도 오픈AI와 구글, 앤트로픽 등 주요 경쟁사를 제치고 벤치마크 성능 1위에 올랐다.
xAI는 9일(현지시간) X 라이브 스트리밍 이벤트를 통해, 최신 모델 '그록 4'를 공개했다. 멀티모달 기능, 향상된 추론 능력, 새로운 인터페이스, 개선된 음성 대화 기능 등을 갖춘 xAI의 가장 진보된 모델로 평가된다.
머스크 CEO는 "그록 4는 모든 과목에서 박사 수준 이상의 지능을 갖췄다"라며 "거의 모든 대학원생보다 똑똑하다"라고 강조했다. 또 "아직 새로운 기술을 발명하거나 물리학을 새로 발견하지는 않았지만, 그 또한 시간 문제"라고 말했다.
Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck
— xAI (@xai) July 10, 2025
주요 AI 벤치마크에서 오픈AI의 'o3', 구글의 '제미나이 2.5 프로', 앤트로픽의 '클로드 오퍼스 4'를 모두 제쳤다고 밝혔다. 독립 평가기관 아티피셜 애널리시스에 따르면, 그록 4는 AI 지능지수(Intelligence Index) 73점을 기록해 o3(70), 제미나이 2.5 프로(70), 클로드 오퍼스 4(64)를 능가했다.
또 수학·코딩·지식 평가에서 최고 성능을 보였다. 특히, GPQA 다이아몬드(88%), AIME 2024(94%), MMLU-프로(87%) 등 여러 분야에서 역대 최고점을 달성했으며, '인류의 마지막 시험(Humanity's Last Exam)'에서는 24%로 기존 최고였던 제미나이 2.5 프로(21%)를 넘어섰다.
아티피셜 애널리시스 AI 지능지수 (사진=아티피셜 애널리시스) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
xAI는 그록 4의 고급 버전인 '그록 4 헤비(Grok 4 Heavy)'도 선보였다. 이는 월 300달러짜리 유료 요금제에 가입해야 사용할 수 있다.
이 모델은 다중 에이전트를 생성해 복잡한 문제를 동시에 해결할 수 있으며, 테스트 시간 계산(test-time compute) 리소스를 10배로 확장해 고난도 문제에서 강점을 보였다.
이번 출시 발표는 그록 3 버전이 나치 찬양과 반유대주의적 응답으로 물의를 일으킨 직후 이뤄졌다. xAI는 "부적절한 게시물 발견 이후 혐오 발언 차단 조치를 취했다"라고 밝혔으며, 머스크 CEO는 논란을 직접 언급하지는 않았지만 "우리는 AI가 좋은 AI가 되도록 해야 한다"라고 말했다.
그록 4는 이전 모델과 동일한 가격으로 제공되며, 입력/출력 토큰 100만개당 3달러/15달러 수준이다. 텍스트·이미지 입력, 함수 호출, 구조화된 출력 등을 지원한다.
또 최대 25만6000 토큰의 컨텍스트 창을 지원한다. 이는 제미나이 2.5 프로(100만 토큰)보다는 짧지만, o3나 클로드 오퍼스 4(각 20만 토큰)보다는 길다.
그록 4는 현재 xAI API, X의 챗봇, 마이크로소프트 애저 기반의 AI 파운드리 등을 통해 이용 가능하며, 이후 소비자용 애플리케이션으로도 확대될 예정이다.
이어 xAI는 AI 코딩 모델은 8월에, 멀티모달 에이전트는 9월에, 비디오 생성 모델은 10월에 출시될 예정이라고 밝혔다.
한편, xAI는 지난 2월 '그록 3' 출시 당시에도 오픈AI와 구글, 앤트로픽 등의 주요 모델을 벤치마크에서도 앞섰다고 발표하며 "세계에서 가장 똑똑한 모델"이라고 자찬한 바 있다.
그러나 전문가들은 벤치마크 결과는 별 의미가 없으며, 세계 최고라는 '와우' 포인트가 전혀 보이지 않는다는 점을 지적했다. 이번에도 벤치마크 결과 외에는 별다른 내용을 공개하지 않았다.
그록 4는 어떤 평가를 받을지 주목된다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
