<이미지를 클릭하시면 크게 보실 수 있습니다> |
AI 모델 경쟁에서 오픈AI와 앤트로픽에 잠시 선두를 내줬던 구글이 반격 카드를 꺼냈다. 구글은 19일(현지시간) 플래그십 AI 모델 '제미나이 3.1 프로(Gemini 3.1 Pro)'를 공개했다. 제3자 평가 기관 아티피셜 애널리시스(Artificial Analysis)는 자사 인텔리전스 인덱스(v4.0) 기준 제미나이 3.1 프로가 57점으로 1위에 올랐다고 밝혔다. 2위 클로드 오퍼스 4.6(53점)보다 4점 앞선 수치이면서도, 운용 비용은 오퍼스 4.6의 절반 이하다.
이번 출시에서 눈여겨볼 첫 번째 변화는 버전 명명 방식이다. 구글은 그동안 중간 업데이트 시 .5 단위를 사용해왔지만, 이번에는 처음으로 .1 단위 업데이트를 채택했다. 외형적 기능 추가가 아니라 핵심 추론 엔진 자체를 교체했다는 의미다. 지난주 공개한 제미나이 3 딥씽크(Deep Think) 업데이트의 추론 아키텍처를 소비자·개발자·기업 전 채널로 확장한 것이 이번 3.1 프로의 실질적 내용이다.
10개 평가 항목 중 6개 1위…할루시네이션은 38%p 감소
아티피셜 애널리시스 인텔리전스 인덱스를 구성하는 10개 평가 항목 중 6개에서 1위를 기록했다. 에이전틱 코딩(Terminal-Bench Hard), 지식·환각 감소(AA-Omniscience), 추론·지식(Humanity's Last Exam), 과학적 추론(GPQA-Diamond), 코딩(SciCode), 연구급 물리 추론(CritPt)이 해당 항목이다. 특히 CritPt에서는 공개되지 않은 연구급 물리 문제를 18% 정확도로 풀어내 2위 모델보다 5%p 이상 앞섰다.
신뢰성 측면의 개선도 주목할 만하다. 모르는 질문에 틀린 답을 내놓는 환각(hallucination) 오류율이 전작 제미나이 3 프로 대비 38%p 감소했다. 단순 성능 향상을 넘어 기업 환경에서 실질적으로 요구되는 안정성이 높아진 것이다. 멀티모달 이해·추론 벤치마크 MMMU-Pro에서는 제미나이 3.1 프로, 3 프로, 3 플래시가 1·2·3위를 모두 차지하며 구글의 멀티모달 우위가 재확인됐다.
AI 추론 능력 평가의 기준으로 꼽히는 ARC-AGI-2 벤치마크에서도 77.1%를 기록해 제미나이 3 프로(31.1%)와 제미나이 3 딥씽크(45.1%)를 크게 앞질렀다.
다만 실제 업무 기반 에이전틱 평가인 GDPval-AA에서는 전작 대비 ELO 점수가 100점 이상 올랐음에도 클로드 소넷 4.6, 오퍼스 4.6, GPT-5.2, GLM-5보다 낮은 순위에 머물렀다. 실세계 에이전틱 작업에서는 아직 격차를 좁히는 중이다.
오퍼스 4.6의 절반 비용…오픈소스 대비는 여전히 2배
비용 효율성은 이번 출시의 또 다른 차별점이다. 아티피셜 애널리시스 인텔리전스 인덱스 전체를 실행하는 데 드는 비용은 892달러로, 오퍼스 4.6(max)·GPT-5.2(xhigh) 등 경쟁 프론티어 모델의 절반 이하 수준이다. API 가격은 입력 토큰 100만 개당 약 2,900원(2달러), 출력 토큰 100만 개당 약 1만 7,400원(12달러)으로 이전 제미나이 3 프로와 동일하게 유지된다(환율 약 1,450원 기준). 검색 그라운딩은 월 5,000건까지 무료이며, 초과 시 1,000건당 약 2만 원(14달러)이 부과된다.
다만 오픈소스 진영의 강자인 GLM-5(547달러) 대비로는 여전히 약 2배 수준이다. 폐쇄형 프론티어 모델 대비 비용 우위는 분명하지만, 오픈소스 대안과의 격차는 여전히 존재한다.
기업 파트너들의 반응도 긍정적이다. 젯브레인스(JetBrains) AI 디렉터 블라디슬라프 탄코프는 구글 공식 블로그를 통해 이전 버전 대비 품질이 15% 향상됐고, 더 빠르고 효율적이며 출력 토큰 수도 줄었다고 평가했다. 데이터브릭스(Databricks)는 테이블 형식 및 비정형 데이터 기반 추론 벤치마크 OfficeQA에서 최고 수준의 결과를 보였다고 밝혔다.
소비자·개발자·기업 전방위 배포…마이크로소프트 생태계도 포함
구글은 제미나이 3.1 프로를 동시에 여러 채널로 배포하고 있다. 소비자는 제미나이 앱과 노트북LM을 통해 이용할 수 있으며, 구글 AI 프로·울트라 구독자에게는 상위 사용 한도가 적용된다. 개발자는 제미나이 API(AI 스튜디오, 제미나이 CLI, 안드로이드 스튜디오)와 에이전틱 개발 플랫폼 구글 안티그래비티(Antigravity)를 통해 프리뷰로 접근 가능하다. 기업 고객은 버텍스 AI(Vertex AI)와 제미나이 엔터프라이즈를 활용할 수 있으며, 마이크로소프트의 깃허브 코파일럿, 비주얼 스튜디오, VS코드에서도 이용 가능하다.
순다르 피차이 구글 CEO는 소셜미디어를 통해 개념 시각화, 데이터 통합, 창의적 프로젝트 실현 등 초복잡 작업에 최적화된 모델이라며, 소비자와 개발자 제품 전반에 배포해 이번 지능 도약의 성과를 일상적인 애플리케이션으로 가져갈 것이라고 밝혔다.
현재는 프리뷰 단계로, 정식 출시(GA)는 추가 검증을 거쳐 조만간 이뤄질 예정이다. AI 모델 왕좌가 수개월 단위로 빠르게 교체되는 상황에서, 정식 출시 이후에도 이 순위가 유지될지 업계의 시선이 집중되고 있다.
글 : 손요한(russia@platum.kr)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
