구글 제미나이가 음성 파일 분석 기능을 제공한다 [사진: Reve AI] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 구글 제미나이(Gemini)가 음성 파일 분석 기능을 추가하며, 인공지능(AI) 비서 경쟁에서 새로운 국면을 맞이했다.
11일(현지시간) IT매체 테크레이더에 따르면, 사용자는 웹이나 모바일 앱을 통해 오디오 파일을 업로드해 AI가 이를 텍스트로 변환하고 요약해 주는 기능을 활용할 수 있다.
다만, 현재 최대 10분 길이의 오디오만 처리할 수 있어 긴 회의나 강의 녹음에는 한계가 있다. 하지만 구글은 사용자들이 가장 많이 요청했던 기능 중 하나인 점을 강조하며, 기존 제미나이 라이브 기능이 실시간 음성 명령을 처리하는 것과 달리, 이번 업데이트는 AI가 오디오 데이터를 분석하고 핵심 정보를 추출하는 데 중점을 두고 있다고 설명했다.
실제 테스트에서는 코미디 앨범과 전화 녹음을 업로드한 결과, AI가 대부분의 내용을 정확히 텍스트로 변환했으며, 할 일 목록까지 자동으로 생성했다. 이는 기존 외부 전사 소프트웨어가 필요했던 작업을 단일 단계로 축소한 것으로, 사용자 편의성을 크게 향상시킬 전망이다.
AI 비서 시장에서는 챗GPT의 위스퍼(Whisper) 모델이 음성 인식을 지원하며, 앤트로픽의 클로드(Claude)와 퍼플렉시티(Perplexity)도 오디오 데이터를 처리하는 기능을 강화하고 있다.
오디오 파일 업로드 기능은 아직 무료 사용자에게 일일 사용 제한이 있지만, 유료 사용자에게는 더 많은 기능이 제공될 가능성이 크다. AI 비서가 음성 데이터를 보다 효율적으로 처리하게 되면서, 구글 제미나이의 실용성은 더욱 확대될 전망이다.
✅ Papercut fixed: You can now upload any file to @GeminiApp. Including the #1 request: audio files are now supported! pic.twitter.com/4Te3xwLC6W
— Josh Woodward (@joshwoodward) September 8, 2025<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
