컨텐츠 바로가기

    12.28 (일)

    진짜보다 더 진짜 같은 목소리… 보이스 AI, 규제 넘어 ‘공존’의 시대로

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    AI 음성 기술, 엔터·의료·메타버스로 전방위 확산
    2032년까지 연평균 20% 이상 성장 전망


    매일경제

    챗GPT로 만든 이미지. 챗GPT

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    불과 몇 년 전까지만 해도 인공적인 억양이 한계로 지적되던 AI 음성(TTS) 서비스는 이제 사람의 감정과 호흡을 흉내 내는 수준까지 발전했다. 2025년은 보이스 AI가 ‘초실감(Hyper-realism)’ 단계에 진입한 분기점으로 평가되는 이유다. 단순한 발화를 넘어 대화의 맥락을 이해하고 반응하는 서비스까지 등장하면서, 음성 기술의 활용 외연도 빠르게 넓어지고 있다.

    시장조사기관 얼라이드 마켓 리서치에 따르면 글로벌 음성 복제(Voice Cloning) 시장은 올해 15억 달러(2조2000억원)에서 2032년 162억 달러(23조8000억원)로 성장할 전망이다. 마켓앤마켓 역시 글로벌 음성 합성(Text-to-Speech) 시장이 2024년 40억 달러(5조9000억원)에서 연평균 20%에 가까운 성장세를 이어가며, 2030년에는 125억 달러(18조4000억원)를 넘어설 것으로 내다봤다. 메타버스와 오디오북, 가상 비서 등 다양한 서비스 영역에서 보다 자연스럽고 정교한 음성에 대한 수요가 빠르게 늘고 있기 때문이다.

    산업 현장에서도 변화는 이미 감지되고 있다. 세계 최대 음원 플랫폼 스포티파이는 팟캐스트 진행자의 목소리를 유지한 채 다국어 자동 번역 송출 기능을 상용화했고, 유비소프트 등 글로벌 게임사들은 NPC(Non-Player Character·컴퓨터가 조종하는 캐릭터)가 정해진 대본 없이 이용자와 자유롭게 대화하는 ‘네오 NPC’ 프로젝트를 가속화하고 있다. 애플은 ‘퍼스널 보이스’ 기능을 통해 루게릭병 환자 등 언어 능력을 잃을 위험에 처한 이들에게 자신의 목소리를 보존할 수 있는 대안을 제시했다.

    엔터테인먼트와 단순 안내 방송에 머물던 음성 기술은 이제 금융·의료·교육·메타버스 등 전 산업으로 확장되고 있다. 특히 2025년의 핵심 키워드는 ‘초개인화(Hyper-Personalization)’다. 기업은 브랜드 정체성을 담은 고유의 목소리를, 크리에이터는 자신의 음성으로 글로벌 팬과 소통하기를 원한다. 이 과정에서 음성 합성은 단순한 ‘텍스트 읽기’를 넘어 ‘감정을 전달하는 인터페이스’로 진화하고 있다.

    문제는 감정이다. 진짜 사람의 음성을 구현하려면 AI가 단어가 아닌 대화의 흐름과 맥락을 이해하고, 상황에 맞게 발화를 조절해야 한다. 국내 AI 보이스 스타트업 휴멜로는 이 영역에서 글로벌 경쟁력을 확보한 기업으로 평가받는다. 휴멜로는 올해 차세대 대화형 TTS 엔진 ‘DIVE(Deep-context Interactive Voice Engine)’를 개발하고, 이를 적용한 전문가용 보이스 AI 플랫폼 ‘프로소디(Prosody)’를 선보이며 업계의 주목을 받았다.

    기존 음성 합성이 정확한 발음을 구현하는 발화에 초점을 맞췄다면, 휴멜로의 DIVE 엔진은 ‘대화’에 방점을 찍는다. 음성의 높낮이와 강세, 쉼의 길이뿐 아니라 문맥에 따라 달라지는 미묘한 감정선까지 파악해 ‘제로샷(Zero-shot)’으로 즉시 음성을 생성한다. 사용자가 텍스트를 입력하면, AI가 앞선 대화를 스스로 이해해 가장 적절한 연기 톤과 감정으로 말하는 수준에 도달했다는 평가를 받고 있다.

    한편 기술 고도화와 함께 ‘오디오 딥페이크’에 대한 우려도 커졌다. 미국과 유럽연합(EU)은 워터마크 의무화 등 규제 장치를 도입했고, 오픈AI 등 빅테크 기업들도 음성 기술 공개에 신중한 행보를 보이고 있다. 다만 규제가 산업 성장을 제약하기보다는, 기술의 순기능을 강화하고 신뢰 기반의 생태계를 구축하는 방향으로 작동하고 있다는 점은 긍정적이다.

    올해가 보이스 AI의 기술적 완성도를 증명한 해라면, 내년부터는 ‘보이스 퍼스트(Voice First)’ 인터페이스가 일상으로 자리 잡는 단계로 접어들 전망이다. 키보드나 터치보다 음성이 더 자연스러운 입력 수단으로 받아들여지면서, ‘가장 인간다운 목소리’를 구현하는 기술의 중요성도 한층 부각될 것으로 보인다.

    권용석 휴멜로 대표는 “음성은 인간이 가진 가장 원초적이고 자연스러운 소통 수단”이라며 “휴멜로는 대화의 맥락과 감정을 반영한 음성 기술을 통해, 사람과 대화하듯 자연스러운 AI 경험을 제공해 나갈 것”이라고 말했다.

    [ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.