컨텐츠 바로가기

11.30 (토)

엔비디아, 텍스트만으로 오디오 생성하는 AI 모델 ‘푸가토’ 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Foundational Generative Audio Transformer Opus 1, Fugatto)’를 개발했다고 밝혔다.
ITWorld

ⓒ Nvidia

<이미지를 클릭하시면 크게 보실 수 있습니다>



엔비디아 생성형 AI 연구팀이 개발한 푸가토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다고 업체 측은 설명했다. 푸가토는 연구팀이 음성 모델링, 오디오 보코딩(VoCoding), 오디오 이해와 같은 분야에서 쌓아온 이전 작업을 기반으로 하는 파운데이션 생성형 트랜스포머 모델이다.

푸가토는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

라파엘 발레(Rafael Valle)는 엔비디아의 응용 오디오 연구 관리자이자 푸가토를 공동 개발한 라파엘 발레는 “사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”라고 말했다.

엔비디아는 다양한 오디오 생성과 변형 작업을 지원하는 푸가토가 여러 훈련된 능력의 상호 작용에서 나타나는 창발성(emergent property)을 보여준다며, 자유 형식의 지시를 결합할 수 있는 능력을 가지고 있다고 설명했다.

라파엘 발레는 “푸가토는 데이터와 모델 규모에 따라 오디오 합성과 변형에서 비지도 멀티태스크 학습이 가능한 미래를 향한 첫걸음”이라고 덧붙였다.

다양한 푸가토 사용례

음악 프로듀서는 푸가토를 사용해 노래에 대한 아이디어를 빠르게 프로토타입으로 만들거나 편집할 수 있다. 이 과정에서 다양한 스타일, 목소리, 악기를 시도할 수 있다. 효과를 추가하고 기존 트랙의 전체 오디오 품질을 향상시킬 수도 있다. 광고 대행사는 푸가토를 적용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용하는 것이 가능하다.

발레는 하나의 모델이 다양한 방식으로 언어를 사용할 수 있는 사례를 보여주는 “아보카도 의자”를 언급하며 푸가토 역시 트럼펫에서 강아지 소리를 내게 하거나, 색소폰에서 고양이 소리를 내는 등 사용자가 묘사하는 것은 무엇이든 생성할 수 있다고 말했다. 노출된 훈련 데이터만 재현할 수 있는 다른 대부분 모델과 달리, 푸가토를 사용하면 새소리와 함께 새벽녘으로 잦아드는 뇌우와 같이 이전에 들어본 적 없는 사운드스케이프를 만들 수 있다는 설명이다.

정밀한 사운드 제어 기능

푸가토는 컴포저블아트(ComposableART)라는 기술을 사용해 개별적으로만 학습했던 명령어를 결합한다. 예를 들면 ‘슬픈 감정’과 ‘프랑스어 억양’이라는 2가지 명령어를 결합해 ‘슬픈 감정의 프랑스어 억양으로’ 말하는 사운드 생성을 요청할 수 있다. 모델의 명령어 간 보간 기능을 통해 사용자는 억양의 강약이나 슬픔의 정도 등과 같은 텍스트 명령어를 세밀하게 제어할 수 있다.

푸가토의 이런 측면을 설계한 엔비디아의 AI 연구원 로한 바들라니는 “사용자가 주관적이거나 예술적인 방식으로 속성을 조합할 수 있도록 하고, 각 속성을 얼마나 강조할지 선택할 수 있게 하고 싶었다”라고 설명했다.

또한 아울러 푸가토는 시간이 지남에 따라 변화하는 소리를 생성하는 ‘시간적 보간(temporal interpolation)’ 기능을 제공한다. 예를 들어, 천둥소리가 점점 크게 들리다가 점차 멀어지며 지역을 통과하는 폭풍우 소리를 만들 수 있다. 사용자는 사운드스케이프의 진행 방식을 세밀하게 제어할 수 있다.

푸가토 정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어(Tensor Core) GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다. 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 다양한 사람 참여해 다중 억양과 다국어 기능이 더욱 강화됐다고 업체 측은 설명했다.
editor@itworld.co.kr

편집부 editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.