컨텐츠 바로가기

    12.11 (목)

    '인류의 마지막 시험'서 압도적 1위한 AI 모델은?…"차원이 다른 추론"

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다

    구글 제미나이3, LMArena·GPQA 등 주요 벤치마크 최고점 경신

    디지털데일리

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [디지털데일리 이건한 기자] 구글이 18일(현지시각) 차세대 AI 모델 '제미나이3(Gemini3)'를 공개했다. 모델의 기본적인 성능 향상 외에도 맥락과 의도를 깊이 있게 파악하는 '추론(reasoning)' 능력 개선에 방점이 찍혀있다. 구글은 제미나이3가 사용자의 진정한 '생각 파트너'가 될 것임을 강조했다.

    순다르 피차이 구글 CEO는 제미나이3에 대해 "단 2년 만에 텍스트와 이미지를 읽는 단계에서 '분위기를 파악하는 단계'로 진화했다"고 평가했다.

    이에 따라 제미나이 3는 사용자의 요청 뒤에 숨겨진 의도와 맥락을 훨씬 더 정교하게 파악하도록 설계됐다는 설명이다. 이는 곧 사용자가 구구절절 복잡한 설명을 줄이고 짧은 프롬프트만으로도 원하는 결과를 얻는 변화로 이어진다. 제미나이의 응답 스타일 또한 실용적으로 변화했다. 상투적인 아첨이나 불필요한 미사여구는 지양한다. 사용자가 '듣고 싶은 말'이 아닌 '필요한 말'을 직관적이고 간결하게 전달하도록 개선됐다.

    전반적인 성능 개선도 눈에 띈다. 특히 추론형 모델인 '제미나이 3 Pro'는 LMArena 리더보드에서 1501 Elo 점수를 획득해 1위를 차지했다. LMArena는 블라인드 테스트 방식으로 진행되는 사용자 경험 중심의 벤치마크다. 실제 사용자 그룹의 모델 만족도를 알 수 있는 유의미한 벤치마크다.

    디지털데일리

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    제미나이3 Pro는 가장 고난이도 학술 문제로 구성된 '인류의 마지막 시험(Humanity's Last Exam)' 벤치마크에서도 37.5%의 정확도를 기록했다. 기존 1위는 xAI의 그록4(25.4%)였으며 오픈AI의 GPT-5가 2위(25.3%), 제미나이 2 pro는 3위(21.6%)였다. 기존 자사 모델은 물론이고 유력한 경쟁사들을 압도한 셈이다.

    또한 제미나이는 고급 과학 지식을 테스트하는 'GPQA Diamond' 벤치마크 또한 91.9%의 정확도를 기록해 박사급(PhD-level) 추론 능력을 입증했다. 현재까지 공개된 AI 모델들 중 최상위 수준이다. 이밖에 AI의 장기 계획과 실행 능력 평가 벤치마크인 'Vending-Bench 2'에서도 1위를 차지했다.

    월 200달러 요금제 사용자에게 제공되는 '제미나이 3 Deep Think' 모드는 이보다 더 나은 성능을 보인다. 인류의 마지막 시험에서 41%, GPQA에서 93.8%의 정확도를 기록했다. 또한 'ARC-AGI-2' 벤치마크에서 45.1%라는 전례가 없는 수준의 점수를 기록해 눈길을 끈다. ARC-AGI-2는 AGI(인공범용지능) 달성 수준을 체크하는 벤치마크다. 인간에게는 비교적 쉽지만 최첨단 AI 모델에게는 매우 어려운 문제들로 구성돼 있다. 인간은 보통 60% 수준의 정확도를 달성하는 것으로 알려져 있다.

    제미나이3는 구글의 핵심 시스템과도 깊게 연동된다. 가장 눈에 띄는 점은 구글이 제미나이 출시 역사상 처음으로 출시 첫날부터 검색 내 'AI 모드'에 제미나이3를 적용한 점이다. AI 검색은 정확도와 신뢰성이 최우선인 서비스인만큼 이번 모델에 대한 구글의 자신감이 잘 드러나는 대목이다.

    개발자를 위한 AI 플랫폼인 '구글 안티그래비티(Google Antigravity)'도 공개됐다. 구글에 따르면 이는 에이전트 우선 개발 환경을 제공한다. AI는 적극적인 파트너로 기능하며 편집기, 터미널, 브라우저에 직접 액세스하여 코드를 작성하고 검증할 수 있다. 또한 이전보다 복잡한 엔드투엔드 작업을 자율적으로 수행할 수 있다.

    구글은 제미나이3가 최고의 '바이브 코딩(vibe coding)' 모델이라며 웹 개발 능력 평가 벤치마크인 'WebDev Arena' 리더보드 1위(1487 Elo) 기록을 강조했다.

    구글은 제미나이 3가 역대 가장 안전한 모델임을 강조했다. 정확성보다 사용자의 기분과 반응을 중시하는 아첨은 줄고 AI 모델 대상의 악성 프롬프트 공격인 프롬프트 인젝션 저항력을 높였다는 설명이다. 또한 '프런티어 안전 프레임워크(Frontier Safety Framework)'의 주요 도메인에 대한 자체 테스트, 영국 AISI(인공지능안전연구소)와도 미리 협업했다고 밝혔다.

    제미나이 3는 오늘부터 사용할 수 있다. 다만 심층 추론 모델인 'Deep Think' 모드는 안전성 평가를 거쳐 향후 몇 주 내에 구글 AI 울트라 요금제 가입자에게 제공될 예정이다. 제미나이3 기반 파생 모델과 서비스 개선도 예고됐다. 데미스 허사비스 구글 딥마인드 CEO는 "우리는 사용자들이 제미나이 3로 더 많은 일을 할 수 있도록 곧 추가 모델을 출시할 계획"이라고 말했다.

    - Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.