오픈AI 로고 / 연합뉴스 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
챗GPT 개발사인 오픈AI가 코딩 성능을 끌어올리고 비용은 낮춘 새로운 인공지능(AI) 모델 ‘GPT-4.1’을 14일(현지시각) 공개했다. 지난해 출시한 ‘GPT-4o’의 후속작으로, 이전 모델보다 지시를 잘 이행하고 긴 문맥을 이해하는 능력을 갖췄다. 구글, 앤트로픽 등 경쟁사들이 코딩에 주력한 AI로 개발자를 공략하자, 오픈AI도 GPT 4.1로 반격에 나서는 모습이다.
이날 오픈AI는 새 모델이 “GPT-4o 모델보다 거의 모든 면에서 성능이 뛰어나다”고 밝혔다. 회사 측에 따르면 GPT-4.1의 코딩 성능은 코딩 작업을 평가하는 벤치마크인 SWE벤치 테스트 기준으로 GPT-4o보다 21.4%포인트(p), GPT‑4.5보다 26.6%p 향상됐다.
사용자의 요청 사항이나 명령을 정확하게 이해하고 원하는 답변을 내놓는 능력인 지시 이행(instruction following) 성능이 GPT-4o 대비 10.5%p 개선됐다.
오픈AI는 이날 소형 모델인 GPT-4.1 미니와 GPT-4.1 나노도 함께 선보였다. 오픈AI는 “GPT-4.1 미니는 GPT-4o에 비해 지연 시간(latency)은 거의 절반으로 줄였고, 비용은 83%로 절감해 개발자들이 실험하기에 적합한 저렴한 모델이고 GPT-4.1 나노는 지금까지 공개된 오픈AI 모델 중 가장 빠르고 저렴한 모델”이라고 했다.
샘 올트먼 오픈AI 최고경영자(CEO)는 엑스(X·옛 트위터)에 "GPT-4.1은 벤치마크 결과도 좋지만, 우리는 실제 사용성에 집중했다"며 "개발자들의 반응도 긍정적이다"라고 썼다./ X |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
업계에서는 오픈AI가 코딩 전문 AI 에이전트 출시를 앞두고 GPT-4.1의 코딩 성능을 대폭 개선했다고 보고 있다. IT매체 테크크런치는 “오픈AI를 비롯한 주요 테크 기업들의 목표는 복잡한 소프트웨어 엔지니어링 작업을 수행할 수 있는 AI 코딩 모델을 개발하는 것”이라고 했다.
앞서 경쟁사들도 코딩 성능을 강화한 AI 모델을 잇따라 선보였다. 앤트로픽은 지난 2월 ‘클로드 3.7 소넷’을 출시해 개발자들의 주목을 받았고, 구글도 지난달 ‘제미나이 2.5 프로’를 공개했다. 중국 딥시크의 ‘V3’도 코딩 성능을 강조한 AI 모델이다.
GPT-4.1의 코딩 성능 비교 표./오픈AI 홈페이지 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
SWE벤치 테스트 기준으로 GPT-4.1은 54.6%의 작업을 성공적으로 완료해 GPT-4o의 33.2%를 능가했다. 코드 저장소를 탐색하고, 주어진 작업을 끝까지 수행하며, 실제 실행 가능하고 테스트를 통과하는 코드를 생성하는 능력이 전반적으로 향상됐다는 의미다.
사라 프라이어 오픈AI의 최고재무책임자(CFO)는 지난달 한 행사에서 회사의 궁극적인 목표는 “에이전트형 소프트웨어 엔지니어를 만드는 것”이라고 밝혔다. 오픈AI는 향후 자사 AI 모델이 품질 보증, 버그 테스트, 기술 문서 작성 등까지 포함해 앱 전체를 처음부터 끝까지 스스로 프로그래밍할 수 있을 것이라고 내다봤다.
이재은 기자(jaeeunlee@chosunbiz.com)
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.