컨텐츠 바로가기

    03.28 (토)

    미스트랄, 기업 시장 겨냥한 3B 텍스트-음성 변환 모델 오픈 공개

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [박찬 기자]

    미스트랄 AI가 저용량·고성능의 텍스트-음성 변환 모델을 공개하며 기업용 음성 AI 시장 공략에 나섰다.

    미스트랄은 26일(현지시간) 텍스트를 자연스러운 음성으로 변환하는 오픈소스 모델 '복스트랄 TTS(Voxtral TTS)'를 공개했다.

    40억 매개변수 규모의 경량 모델로, 스마트폰이나 노트북 등 일반적인 디바이스에서도 구동할 수 있도록 설계됐다. 기존 고성능 음성 생성 모델들이 대규모 인프라를 요구했던 것과 달리, 비용과 지연을 크게 낮추면서도 자연스러운 음성 품질을 구현한다.

    특히 이 모델은 단순한 텍스트 낭독을 넘어 문맥과 감정을 이해하고 표현하는 데 초점을 맞췄다. 사용자의 감정 상태나 문장의 뉘앙스를 반영해 억양, 리듬, 휴지 등을 조절하며, 특정 화자의 말투와 개성까지 따라할 수 있다.

    또 몇초 분량의 음성 샘플만으로도 음성을 재현할 수 있어, 기업 맞춤형 음성 에이전트 구축에 적합하다는 평가다.

    다국어 지원도 강점이다. 영어, 프랑스어, 독일어, 스페인어 등 9개 언어를 지원하며, 한 언어의 음성을 기반으로 다른 언어를 자연스럽게 생성하는 '크로스 언어 음성 적응' 기능도 제공한다.

    예를 들어, 프랑스 억양을 가진 영어 음성을 생성하는 것이 가능하다. 이는 실시간 번역이나 글로벌 고객 응대 등 다양한 산업 분야에서 활용될 수 있다. 한국어는 아직 지원하지 않는다.

    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    성능 측면에서도 경쟁력을 강조했다. 인간의 선호도 평가에서는 자연스러움과 음성 유사도 측면에서 일레븐랩스의 '플래시 2.5(Flash v2.5)'보다 우수하다는 평가를 받았다.

    또 고급 모델과 유사한 감정 표현 능력을 유지하면서도 더 빠른 응답 속도를 구현했다. 입력 후 음성이 출력되기까지 걸리는 시간은 70~90밀리초 수준으로, 실시간 대화형 서비스에 적합하다.

    이번 모델을 오픈 웨이트로 공개한 점도 차별화 요소다. 기업이 외부 API에 의존하지 않고 자체 서버나 온디바이스 환경에서 직접 모델을 운영할 수 있도록 해, 데이터 통제권과 보안성을 강화했다는 설명이다.

    이는 음성 데이터의 민감성이 높은 금융, 의료, 공공 분야에서 특히 중요한 요소로 작용할 수 있다. 모델 가중치는 허깅페이스에서 다운로드할 수 있다.

    복스트랄 TTS는 미스트랄이 구축 중인 '엔드투엔드 음성 AI 스택'의 핵심 축이기도 하다. 앞서 공개된 음성 인식 모델과 결합하면 음성 입력부터 이해, 응답 생성까지 전 과정을 하나의 시스템으로 처리할 수 있다.

    이를 통해 고객 상담, 세일즈, 실시간 번역, 인터랙티브 콘텐츠 등 다양한 영역에서 음성 기반 AI 에이전트를 구현할 수 있다는 설명이다.

    박찬 기자 cpark@aitimes.com

    <저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.