그래픽=정서희 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
인공지능(AI) 석학 얀 르쿤 뉴욕대 교수는 “앞으로 3~5년 안에 우리가 사용하는 AI의 기반이 되는 거대언어모델(LLM)이 구식이 되고 물리적 세계를 이해하는 ‘월드 모델’이 주류로 자리잡을 것”이라고 말했다. 르쿤 교수는 지난달 12년간 몸담았던 메타를 떠나 LLM 기반 AI 모델의 한계를 극복할 월드 모델을 개발하는 스타트업을 설립한다고 밝혔다.
르쿤 교수가 강조한 월드 모델은 현실 세계의 물리적 법칙을 이해하고 예측하는 AI 모델로, 차세대 AI 격전지로 주목받고 있다. 현재 대중적으로 사용되는 챗GPT·제미나이 등 AI 챗봇은 LLM 기반으로, 텍스트를 대량으로 학습해 다음에 올 단어를 예측하는 방식으로 논리적인 답변을 생성한다. LLM은 보고서 작성, 정보 검색 등 지식 업무에서는 유용하지만, 현실 세계에서 일어나는 복잡한 상황을 인식하거나 예측할 수 없다는 한계를 드러낸다.
인공지능(AI) 석학 얀 르쿤 뉴욕대 교수./연합뉴스 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
르쿤 교수는 LLM은 인간처럼 추론하고 계획하는 능력을 갖출 수 없기 때문에 AI가 사람처럼 세상을 직접 관찰하며 학습하는 월드 모델이 필요하다고 강조해왔다. 그는 “네 살배기 아이가 반나절 동안 놀면서 자연스럽게 받아들이는 정보의 양은 현재 가장 강력한 LLM이 인터넷 전체에서 학습한 텍스트를 기반으로 추론할 수 있는 정보의 양보다 많다”고 했다. 아이는 지시 없이도 ‘공을 언덕에서 놓치면 굴러떨어진다’는 물리적인 상식과 인과관계를 익히지만, LLM은 그 움직임을 설명하는 언어적 패턴만을 학습한다는 것이다.
그는 빅테크 기업들이 AI가 인간 수준의 지능에 맞먹는 범용인공지능(AGI)과 이를 넘어서는 초지능을 목표로 삼고 있지만, LLM만으로는 고양이나 강아지 수준의 지능도 달성할 수 없다고 지적했다. 르쿤 교수는 “현재 AI는 물리적 세계를 이해하는 측면에서 아직 고양이보다 멍청하다”라며 “AI가 영상과 공간 데이터를 스스로 학습해 세상이 작동하는 원리를 내제화해야 인간 수준의 사고에 접근할 수 있다”고 했다.
월드 모델이 중요한 이유는 로봇, 자율주행과 같은 피지컬 AI 영역 확장에 필수적이기 때문이다. 일례로 미래의 가정용 로봇이 빨래를 접거나 장난감으로 어질러진 아이 방을 치우는 등의 작업을 수행해야 한다고 가정할 때, 로봇은 가정집이라는 환경의 상태 변화를 이해하도록 설계된 월드 모델을 기반으로 작동하게 된다. 월드 모델은 텍스트·이미지·영상 등의 정보를 기반으로 가상의 3D 세계를 생성한 뒤 시간이 지남에 따라 진화하는 시공간적 인과관계를 예측할 수 있도록 설계된다. LLM이 다음에 올 단어를 확률 기반으로 추론해 낸다면, 월드 모델은 ‘다음에 올 상황’을 예측하고 이에 걸맞는 판단을 내릴 수 있도록 도와준다.
그래픽=정서희 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
빅테크와 주요 AI 기업은 월드 모델이 향후 배달 로봇과 자율주행차 등 다양한 분야에서 적용 가능하다고 보고, 관련 기술 개발과 상용화에 돌입했다. ‘AI 대모’로 불리는 페이페이 리 스탠퍼드대 컴퓨터공학과 교수가 설립한 AI 스타트업 월드랩스는 지난달 첫 상용 월드 모델 ‘마블(Marble)’을 선보였다. 마블은 텍스트나 이미지, 동영상을 입력하면 편집과 시뮬레이션이 가능한 3D 세계를 생성해낸다. 리 교수는 “마블은 ‘공간 지능’을 향한 첫 걸음”이라며 “LLM이 기계에 읽고 쓰는 능력을 가르쳤다면, 월드 모델은 공간을 보고 이해하고 나아가 구축하는 능력을 가르칠 것”이라고 말했다.
구글 딥마인드는 3D 가상 세계를 실시간으로 만들어 시뮬레이션하는 차세대 월드 모델 ‘지니3’를 올해 8월 공개했다. 구글은 지니3가 사물의 움직임과 상호작용을 실시간으로 학습해 3D 세계에서 재현하는데, 이때 가상 세계 속 물건이나 빛, 물의 흐름 등 물리 현상을 실제처럼 자연스럽게 표현하는 능력을 강점으로 꼽았다.
메타도 올해 6월 월드 모델 ‘V-JEPA 2’를 출시했다. 해당 모델은 100만 시간 이상의 영상 학습을 토대로 특정 행동을 예측하도록 설계됐다. ‘피지컬 AI’를 미래 먹거리로 삼은 엔비디아는 올해 초 월드 모델 ‘코스모스’를 공개했다. 엔비디아는 코스모스가 로봇과 자율주행차 훈련에 활용될 것이라고 설명했다. 일론 머스크 테슬라 최고경영자(CEO)가 이끄는 xAI는 최근 엔비디아 출신 AI 연구원을 다수 영입해 게임과 로봇에 적용할 월드 모델을 개발 중인 것으로 알려졌다.
LLM과 마찬가지로 월드 모델도 학습에 활용할 고품질 자료를 확보하는 게 도전 과제다. 월드 모델은 각종 영상, 3D 공간 데이터, 사물의 무게와 질감에 대한 정보 등 다양한 데이터를 필요로 하기 때문에 상대적으로 텍스트보다 구하기가 어렵다. 르쿤 교수도 이런 한계를 지목하며 고도화된 상용 모델을 개발하기까지 10년이 걸릴 수 있다고 전망했다.
피지컬 AI 분야 전문가인 켄 골드버그 UC버클리 산업공학과 교수는 “제미나이, 챗GPT 등 LLM의 경우 지금까지 출판된 모든 책, 기사, 웹사이트 등 10만년치 데이터를 기반으로 학습을 하고 있는 반면, 로봇 훈련에 필요한 데이터는 1만시간치에 불과하다”며 ’10만년의 데이터 격차(100,000-year data gap)’가 존재한다고 말했다.
이재은 기자(jaeeunlee@chosunbiz.com)
<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
