<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI가 성능이 크게 개선된 실시간 음성 애플리케이션용 최신 모델 'gpt-리얼타임-1.5(gpt-realtime-1.5)'를 공개했다. 초기 사용자들은 "차원이 다르다"라는 반응을 내놓았다.
오픈AI는 23일(현지시간) gpt-리얼타임-1.5를 리얼타임(Realtime) API를 통해 제공한다고 발표했다.
지시문 이행 능력과 도구 호출, 다국어 정확도에서 향상된 성능을 보인다고 강조했다.
추론 능력을 측정하는 '빅 벤치 오디오(Big Bench Audio)'에서 기존 대비 5%의 지능 향상을 기록했다. 내부 평가에서도 영숫자 전사 정확도가 10.23% 개선됐고, 지시문 따라가기 능력은 7% 향상됐다.
이는 단순 음성 인식을 넘어, 복잡한 대화 흐름과 작업 수행 능력이 전반적으로 강화됐음을 의미한다.
gpt-리얼타임은 기존 음성 AI처럼 음성 인식(STT), 텍스트 기반 언어 처리, 음성 합성(TTS)로 이어지는 다단계 파이프라인을 거치지 않는다. 대신 음성 신호를 곧바로 이해하고 생성하는 통합형 단일 구조를 채택했다. 이 덕분에 응답 지연이 크게 줄어들고, 억양·호흡·웃음 등 말 속에 담긴 비언어적 표현까지 더 정교하게 파악할 수 있다.
Voice workflows just got stronger with gpt-realtime-1.5 in the Realtime API.
The model offers more reliable instruction following, tool calling, and multilingual accuracy.
Demo with @charlierguo pic.twitter.com/gGV57Wv91V
— OpenAI Developers (@OpenAIDevs) February 23, 2026
AI 전화 통화 서비스에 이 모델을 알파 테스트 중인 파트너 젠스파크는 성능 개선 효과가 뚜렷하다고 평했다.
젠스파크에 따르면 사람과 실제 대화로 이어지는 '인간 연결률(human connection rate)'이 43.7%에서 66%로 크게 상승했다. 이는 초기 인사 단계에서 통화가 끊기는 비율이 줄고, 실질적인 대화로 이어지는 경우가 크게 늘었음을 의미한다.
또 95건의 채점 대상 통화 가운데 97.9%가 만점 평가를 받았으며, 대화 완료율은 33%에서 38%로 상승했다. 문제 발생률은 4.2%에서 2.1%로 절반 수준으로 감소했다.
젠스파크는 "음성이 자연스러워 식당 직원들이 일반 고객과 통화하는 것처럼 응대한다"라며 "특히 초기 인사를 넘어 실질적인 대화로 진입하는 능력이 크게 개선됐다"라고 밝혔다.
기업용 음성 플랫폼 전문 센드버드(Sendbird)도 "음성 AI의 상용화 가능성을 혁신적으로 변화시킨다"라며 "빠른 음성 처리, 빠른 음성 인식, 그리고 전문 용어 인식 정확도가 탁월했다"라고 평했다.
이번 업그레이드는 단순 음성 합성이나 인식을 넘어, 실제 업무를 수행하는 '음성 기반 AI 에이전트'의 완성도를 끌어올리는 데 초점이 맞춰져 있다.
이처럼 안정적인 지시 이행과 도구 호출 능력은 예약, 고객 응대, 주문 처리 등 실시간 업무 자동화 영역에서 활용도를 높일 것으로 보인다는 평이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
