컨텐츠 바로가기

    03.24 (화)

    물리적 세계 이해하는 '월드 모델'의 세가지 방식은

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [박찬 기자]
    AI타임스

    (사진=셔터스톡)

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    벤처비트는 20일(현지시간) 차세대 AI 핵심 인프라로 꼽히는 월드 모델을 크게 3가지 방식으로 구분해 소개했다.

    첫번째 방식은 픽셀 수준에서 세계의 동역학을 직접 예측하려 하기보다, '잠재 표현(latent representation)'을 학습하는 데 초점을 맞춘다. 얀 르쿤이 설립한 AMI 랩스의 'JEPA'가 대표적이다.

    JEPA 모델은 사람이 세상을 이해하는 방식을 모방하려는 기술이다. 사람은 장면을 볼 때 모든 픽셀이나 세세한 요소를 다 기억하지 않고, 중요한 부분만 파악한다. 도로를 달리는 자동차를 보면 나뭇잎에 비친 빛까지 계산하는 게 아니라, 차가 어디로 가는지와 얼마나 빠른지 같은 핵심 정보에 집중한다.

    이런 인간의 '효율적인 이해 방식'을 그대로 따라 하는 방식이다. 다음 장면을 픽셀 하나하나까지 맞추려 하기보다, 더 간단하고 핵심적인 특징(잠재 표현)만 학습한다.

    이 과정에서 불필요한 디테일은 버리고, 사물들이 어떻게 움직이고 상호작용하는지 같은 중요한 규칙에 집중한다. 그래서 배경이 조금 바뀌거나 입력이 살짝 달라져도 쉽게 흔들리지 않고, 더 안정적으로 작동하는 것이 특징이다.

    이 아키텍처는 연산과 메모리 측면에서도 매우 효율적이다. 불필요한 정보를 무시하기 때문에 훨씬 적은 학습 데이터로도 동작하며, 지연 시간도 크게 줄일 수 있다. 이러한 특성 덕분에 로보틱스, 자율주행, 고위험 기업용 워크플로우처럼 효율성과 실시간 추론이 필수적인 분야에 적합하다.

    르쿤 창립자는 "JEPA 월드 모델은 목표를 부여하면 그 목표를 달성하는 것만 가능하도록 설계된, 제어 가능한 시스템"이라고 설명했다.

    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    두번째 방식은 생성 AI를 이용해 3D 공간을 처음부터 만들어내는 데 초점을 둔다. 페이페이 리 스탠포드대학교 교수가 월드 랩스가 이 방식을 쓴다.

    이미지나 글로 된 설명을 입력하면 AI가 '3D 가우시안 스플랫(3D Gaussian splat)'이라는 방식으로 입체적인 공간을 생성한다.

    가우시안 스플랫은 아주 작은 점(입자)들을 수백만 개 모아 3D 공간을 만드는 기술이다. 이 점들이 모여 물체의 모양과 빛까지 표현해 준다. 그래서 단순한 영상처럼 한 방향에서만 보는 게 아니라, 언리얼 엔진(Unreal Engine) 같은 3D 엔진에 넣으면 원하는 각도에서 자유롭게 둘러보고, 사람이나 AI가 직접 움직이며 상호작용할 수 있다.

    이 방식의 가장 큰 장점은 복잡한 3D 공간을 훨씬 빠르고 저렴하게 만들 수 있다는 점이다. 이는 리 교수가 말한 것처럼, 기존 LLM이 언어는 잘하지만 공간을 이해하지 못하는 한계를 해결하려는 시도다. 월드 랩스의 '마블(Marble)' 모델은 이런 약점을 보완해 AI가 공간을 더 잘 이해하도록 돕는다.

    이 방식은 초저지연 실시간 실행에는 최적화되어 있지 않지만, 공간 컴퓨팅과 인터랙티브 엔터테인먼트, 산업 설계, 그리고 로보틱스용 정적 학습 환경 구축 등 다양한 분야에서 큰 잠재력을 지닌다.


    세번째 방식은 하나의 AI 모델이 모든 것을 동시에 처리하는 엔드투엔드 방식이다. 사용자의 입력과 행동을 받아서, 장면과 물리 움직임, 반응을 실시간으로 계속 만들어낸다. 기존처럼 3D 파일을 따로 만들어 다른 엔진에 넘기는 게 아니라, 모델 자체가 '게임 엔진'처럼 직접 작동한다. 처음 입력과 사용자의 행동을 계속 받아들이면서, 빛·물리·사물의 움직임을 스스로 계산해 다음 프레임을 실시간으로 생성한다.

    이 방식에는 구글 딥마인드의 '지니(Genie) 3'와 엔비디아의 '코스모스(Cosmos)'가 대표적이다. 이 모델들은 간단한 입력만으로도 끝없이 이어지는 인터랙티브 환경과 대규모 합성 데이터를 만들어낼 수 있다. 특히 딥마인드는 지니 3를 통해 별도의 메모리 없이도 초당 24프레임으로 장면을 유지하면서, 물체가 계속 존재하는 것처럼 보이고 물리 법칙도 일관되게 적용되는 모습을 보여줬다.


    이 방식은 곧바로 대규모 합성 데이터를 만들어내는 기반으로 이어진다. 코스모스는 이를 활용해 물리 기반 AI 학습과 데이터 생성을 크게 확장하고 있다. 덕분에 자율주행이나 로봇 개발자들은 실제로 테스트하기 위험하거나 드문 상황도, 비용과 위험 없이 가상 환경에서 시뮬레이션할 수 있다.

    다만 이 방식은 물리 계산과 화면 생성(픽셀 렌더링)을 동시에 해야 해서, 컴퓨팅 비용이 매우 크다는 단점이 있다.

    그럼에도 데미스 허사비스 CEO가 강조하듯, AI가 현실 세계에서 안전하게 작동하려면 물리 법칙과 원인을 깊이 이해해야 한다. 이런 점에서 보면, 높은 비용이 들더라도 이 방식은 필요한 투자라는 평가가 나온다.

    박찬 기자 cpark@aitimes.com

    <저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.