MS, 사진 한장으로 말하고 노래하는 영상 만드는 '바사-1' 공개

AI타임스 원문
박찬
입력

2024.04.20 17:02

최종수정

2024.04.22 11:43

주소복사가 완료되었습니다

[박찬 기자]

바사-1 (사진=유튜브)마이크로소프트(MS)가 스틸 사진 한장으로 사람들이 말하고, 몸짓을 하고, 움직이는 실감나는 동영상을 생성할 수 있는 새로운 인공지능(AI) 시스템을 선보였다.

벤처비트는 18일(현지시간) 구글이 '바사-1(VASA-1)'라는 새 AI 프레임워크를 공개했다고 보도했다.

이에 따르면 바사-1은 얼굴 스틸 이미지와 음성 오디오 파일을 제공하면 주어진 음성에 맞춰 정확한 입 모양을 생성한다.

특히 감정 스펙트럼, 즉 얼굴의 미묘한 표정과 자연스러운 머리 움직임까지 생성할 수 있다는 것이 강점이라고 설명했다.

MS는 "핵심적인 혁신 부분은 얼굴의 여러 부분에서 작동하는 다이내믹스를 종합, 풍부하고 실제적인 표현을 가능하게 만드는 것"이라고 말했다.

더 중요한 것은 사용자가 생성을 직접 제어할 수 있도록 허용한다는 점이다.

사용자는 슬라이더 바를 위아래로 움직여 모션 순서, 눈을 응시하는 방향, 머리 거리 및 감정 표현 등을 조절할 수 있다.

또 학습 데이터셋에 포함되지 않은 콘텐츠, 예를 들어 예술 사진이나 노래, 비영어 음성과 같은 것들을 생성해 낼 수 있다.

물론 바사-1으로 생성한 동영상은 일부 아티팩트를 완벽하게 재현할 수는 없지만, 정지 이미지를 애니메이션화하는 기존의 사진-영상 변환 기술을 한단계 끌어올렸다는 평가를 받는다.

MS는 이 방법이 오프라인 배치 처리 모드에서 512x512 해상도의 비디오를 초당 45 프레임 속도로 생성하고, 온라인 스트리밍 모드에서는 최대 초당 40 프레임을 지원한다고 설명했다.

그러나 딥페이크 생성 위험을 고려할 때, 이 기술을 당장 공개할 계획은 없다고 밝혔다.

한편 구글과 일리바바도 최근 이와 비슷하게 사진 한잔으로 동영상을 생성하는 기술을 공개한 바 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

05.03 (금)

MS, 사진 한장으로 말하고 노래하는 영상 만드는 '바사-1' 공개

AI타임스 주요 뉴스