컨텐츠 바로가기

09.09 (월)

ai올라, 오픈AI '위스퍼'보다 50% 빠른 음성인식 모델 출시

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


이스라엘 인공지능(AI) 스타트업 ai올라(aiOla)가 오픈AI '위스퍼(Whisper)'보다 50% 빠른 음성인식 모델 출시했다. 이를 통해 사용자의 질문을 거의 실시간으로 이해하고 답변할 수 있는 AI 시스템 구축이 가능해졌다.

벤처비트는 1일(현지시간) ai올라가 위스퍼 아키텍처를 수정해 속도를 2배 높인 오픈 소스 음성인식 모델 '위스퍼-메두사(Whisper-Medusa)'를 출시했다고 보도했다.

위스퍼는 사용자 오디오를 텍스트로 변환해 대형언어모델(LLM)에 쿼리를 제공하고, LLM 답변을 다시 텍스트에서 오디오로 변환한다.

다양한 언어와 엑센트로 이뤄진 복잡한 음성을 거의 실시간으로 처리하는 기능 덕분에 음성인식 분야의 표준으로 자리잡았다. 매달 500만건 이상 다운로드되고 수만 개의 앱에 구동될 정도다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


ai올라의 위스퍼-메두사는 위스퍼 아키텍처를 수정해 '멀티헤드 어텐션(multi-head attention)' 메커니즘을 추가했다.

멀티헤드 어텐션은 입력 시퀀스의 각 요소가 시퀀스 내 다른 요소들과 어떻게 관련돼 있는지를 알아보는 '셀프-어텐션(self-attention)'을 여러개 헤드로 분할해 병렬로 수행한다. 입력 토큰 간의 더 복잡한 관계를 다룰 수 있어, 모델이 입력 토큰 간의 다양한 유형의 종속성을 포착하고 동시에 모델이 다양한 소스의 정보를 결합할 수 있다.

입력 토큰 간의 더 복잡한 관계를 다룰 수 있어 표현력이 향상될 수 있으며, 여러 부분에 동시에 어텐션을 가할 수 있어 처리 속도가 빨라진다는 설명이다.

아키텍처 변경을 통해 위스퍼-메두사는 한번에 토큰 1개가 아닌 토큰 10개를 예측할 수 있으며, 성능 저하없이 음성 예측 속도와 생성 런타임이 50% 빨라졌다. ai올라는 위스퍼-메두사를 한번에 20개 토큰을 예측할 수 있는 20개 헤드 버전으로 확장할 계획이다.

현재 위스퍼-메두사는 허깅페이스에서 연구 및 상업적 용도로 사용가능하다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.