<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 애플과 중국 인민대 연구진이 무음 영상에서 음성과 사운드를 동시에 생성하는 인공지능(AI) 모델 'VSS플로우'(VSSFlow)를 발표했다.
9일(현지시간) IT매체 나인투파이브맥은 VSS플로우가 영상 속 움직임을 분석해 자연스러운 소리와 음성을 생성하는 혁신적 기술이라고 전했다. 기존 모델은 음성과 소리를 별도로 처리해야 했지만, VSS플로우는 이를 통합해 학습 성능을 극대화했다.
해당 모델은 영상 속 움직임을 분석해 소리를 생성하고, 텍스트 데이터를 활용해 음성을 합성하는 구조로 설계됐다. 연구진은 무음 영상과 환경음, 대화 영상과 자막, 텍스트 음성 변환 데이터를 결합해 모델을 학습시켰다. 이 과정에서 음성과 소리 생성이 서로를 방해하지 않고 오히려 성능을 향상시키는 결과를 얻었다.
실험 결과, VSS플로우는 기존 음성 전용 모델과 소리 생성 모델을 능가하는 성능을 보였으며, 하나의 시스템에서 두 가지 작업을 동시에 처리할 수 있는 유일한 모델로 평가됐다. 연구진은 VSS플로우 소스코드를 오픈소스로 공개했으며, 모델 가중치와 추론 데모도 제공할 계획이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
