컨텐츠 바로가기

12.14 (토)

'트랜스포머 대안' 맘바 아키텍처, 음성 복제 AI 모델 구축에도 활용

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


현재 대형언어모델(LLM)의 근간을 이루는 '트랜스포머'의 한계를 극복하기 위해 개발된 '맘바(Mamba) ' 아키텍처를 채택, 음성 복제 모델을 구축한 사례가 등장했다. 맘바가 활용폭을 넓히고 있다는 증거다.

스탠포드대학교 출신으로 구성된 스타트업 카르테시아는 12일(현지시간) 사람의 목소리를 복제하거나 새로운 목소리를 생성하고 음성의 톤과 리듬을 조정할 수 있는 인공지능(AI) 모델 '소닉(Sonic)'을 출시했다고 발표했다.

소닉은 트랜스포머 아키텍처의 비효율성을 극복하기 위해 맘바 SSM 아키텍처를 활용하고 있다.

트랜스포머는 데이터를 처리할 때 이를 기억하기 위해 '히든 스테이트(hidden state)'에 추가하는 방식으로 작동한다. 예를 들어, 모델이 책을 읽을 때 히든 스테이트는 책 속의 단어들을 나타내는 표현을 담게 된다.

이는 트랜스포머가 강력한 이유지만 동시에 비효율성을 초래하는 원인이기도 하다. 책에서 단어 하나를 처리하려면 전체 히든 스테이트를 다시 스캔해야 하기 때문에 계산 부담이 급격하게 늘어난다. 그 결과, 긴 컨텍스트를 처리할 때 트랜스포머의 속도가 급격히 느려지며 많은 메모리 자원을 소모하게 된다.

이 문제를 해결하기 위해 등장한 것이 '맘바(Mamba) SSM' 아키텍처다. 맘바 SSM은 이전의 모든 데이터 포인트를 요약한 형태로 압축하고, 새로운 데이터가 들어오면 모델의 히든 스테이트를 업데이트하며 이전 데이터를 대부분 버린다. 이를 통해 모델은 중요한 정보에 집중하고, 관련 없는 정보는 걸러낼 수 있다. 또 추가적인 메모리나 컴퓨팅 자원 없이도 긴 텍스트 시퀀스를 처리할 수 있는 능력을 지닌다.

카르테시아는 소닉이 90밀리초 이하의 지연 시간을 기록, 음성 생성 모델 중 가장 빠르다고 주장했다. 오디오와 같은 긴 문맥 데이터를 처리하는 데 SSM이 뛰어나다는 것을 보여주는 사례로 주목받고 있다.

소닉은 API와 웹 사이트를 통해 사용이 가능하며, 최대 10만자의 음성 입력까지는 무료로 사용할 수 있다. 가장 비싼 요금제는 월 299달러(800만자 이상)다.

한편, 2023년 말 카네기멜론대학교와 프린스턴대학교 연구자들이 개발한 맘바는 점차 활용 폭이 넓어지고 있다.

프랑스의 미스트랄 AI는 지난 7월 코딩 모델 '코데스트랄 맘바 7B'를 출시했으며, 8월에는 UAE에서 맘바 기반 모델인 '팰컨 맘바 7B'가 등장했다. 또 이스라엘 대표 스타트업 AI21은 이를 통해 에이전트 모델을 구축 중이라고 밝혔다.

불과 등장 1년 만에 오픈 소스 중요 기업들이 잇달아 채택한 데 이어 다양한 애플리케이션 분야에 활용됨에 따라, 맘바의 확장 가능성에 관심이 모인다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.