<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI가 음성 인공지능(AI)을 대폭 업데이트한 가운데, 소프트웨어를 무료로 배포하는 '오픈소스' 진영이 맞불을 놓고 있다.
음성 AI는 대규모언어모델(LLM)처럼 아직 주목받는 시장은 아니다. 하지만 문장·이미지·음성을 포함한 다양한 AI를 연동해 사용하는 '멀티모달' 시대가 펼쳐질 경우 반드시 필요한 AI로 꼽힌다.
정보기술(IT) 업계에 따르면 프랑스에 본사를 둔 비영리 AI 연구소인 '큐타이'는 최근 자체 개발한 음성 AI 모델인 '모시(Moshi)'를 무료 버전으로 코드까지 전격 공개했다. 큐타이의 모시는 인간 두뇌 시냅스에 해당하는 파라미터가 70억개에 달하는 '헬리움'이라는 언어 모델을 근간으로 한다.
특히 인터넷이 연결돼 있지 않더라도 사용 가능한 것이 특징이다. 이 덕분에 스마트폰이나 태블릿PC에 넣어두고 사용할 수 있다. 이는 오픈AI의 음성 AI가 클라우드 기반인 것과 대조된다. 또한 음성 생성시간이 0.2초에 불과하다. 오픈AI GPT-4가 0.23~0.32초인 것에 비해 더 빠르다는 설명이다.
파트리크 페레 큐타이 최고경영자(CEO)는 최근 매일경제와의 인터뷰에서 "모든 사람이 AI를 쉽게 사용할 수 있도록 하겠다"면서 "모시와 다른 멀티모달 파운데이션 모델에 대한 연구를 지속하겠다"고 강조했다.
큐타이는 현재 프랑스판 오픈AI로 꼽힌다. 프랑스의 일리아드그룹과 CMA CGM그룹, 전 구글 CEO인 에릭 슈밋이 이끄는 슈밋퓨처스가 작년 11월 공동 설립한 비영리 연구소다. 당시 이들은 총 3억유로(약 4485억원)를 투자했다. 8명의 핵심 인력이 반년 만에 오픈AI에 버금가는 음성 AI를 개발해 주목받았다. 오픈AI의 음성 AI처럼 매우 자연스러운 대화를 주고받을 수 있으며, 온라인에서 체험할 수 있도록 했다.
음성 AI를 오픈소스로 배포한 기업은 또 있다. 메타, 코키, 모질라, 칼디가 대표적이다. 앞서 메타는 4000개 이상의 언어를 인식하고 생성할 수 있는 'MMS'를 공개했다. 특히 MMS는 학습용 꼬리표인 '라벨'이 없더라도 데이터를 학습할 수 있는 것이 강점으로 꼽힌다.
또한 모질라의 딥스피치는 그래픽처리장치(GPU) 효율을 한층 높인 음성 AI를 내놓았으며, 코키는 실시간 음성인식과 텍스트와 음성 간 변환이 빠른 음성 AI를 내놓았다. 둘 다 오픈소스 기반이다.
AI를 오픈소스로 배포하는 까닭은 선점 효과 때문이다. 오픈소스는 오픈AI의 GPT나 앤스로픽의 클로드 같은 폐쇄형 모델과 달리 누구나 무료로 소스 코드에 접근하고 활용할 수 있는 것이 특징이다. 보다 방대한 사용자에 대해 기술 접근성을 높일 수 있으며, 일부 폐쇄형 모델에 대한 종속을 피할 수 있다는 것도 장점이다.
개발 기업은 오픈소스로 생태계를 구축하고, 많은 개발자가 해당 기술을 사용하게 만들어 기술 표준화를 주도할 수 있다.
한 업계 관계자는 "AI시장이 오픈AI나 앤스로픽처럼 폐쇄형 모델 중심으로만 움직이지 않고 있으며, 오픈소스 모델도 충분히 좋은 성능을 구현하고 있다"고 말했다.
폐쇄형 진영 역시 음성 AI 개발에 열을 올리고 있다.
오픈AI는 최근 한국어와 일본어를 포함한 50개 언어의 사용을 개선한 챗GPT '음성 모드'를 출시했다. 한국에서도 유료 사용자를 대상으로 공개된 상태다. 특히 오픈AI의 음성 모드는 AI 음성 발화 속도를 조절할 수 있으며 화자의 감정까지 인식한다.
오픈AI는 한국어 음성을 보다 자연스럽게 개편했으며, 총 9가지 음성 버전을 지원한다. 또한 구글은 AI 음성 비서인 '제미나이(Gemini)'를 지난달 공개했다. 스마트폰을 비롯한 모바일 환경에 최적화됐고, 10가지 목소리를 제공해 톤과 스타일을 선택할 수 있다.
시장 조사 업체인 모도인텔리전스에 따르면, 음성인식시장 규모는 2024년 149억5000만달러(약 20조원)에서 2029년 420억8000만달러(약 56조원)로 성장할 전망이다.
특히 AI가 발전하면서 △스마트 홈 및 IoT(사물인터넷) △고객 서비스 및 콜센터 △의료 및 헬스케어 △자동차 및 내비게이션 △교육 및 학습 도구 △게임 및 엔터테인먼트 △은행 및 금융 △법률 및 행정 서비스 △접근성 지원 △통·번역 서비스 등에 전방위적으로 도입될 것으로 보인다.
[정호준 기자 / 이상덕 기자]
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.