루마 AI가 새로운 접근법을 내세운 이미지 생성 모델을 공개하며, 그동안 구글의 '나노 바나나(Nano Banana)'가 주도해온 시장 구도에 도전했다.
루마 AI는 23일(현지시간) 새로운 추론형 이미지 생성 모델 '유니-1(Uni-1)'을 공개했다.
기존 AI 이미지 생성 모델들은 대부분 확산(diffusion) 방식에 기반한다. 이는 무작위 노이즈에서 시작해 점진적으로 이미지를 완성하는 구조로, 시각적 품질은 뛰어나지만 논리적 추론 능력은 부족하다는 한계가 있었다.
이를 보완하기 위해 오픈AI의 '달리(DALL-E)'나 구글의 '이매진(Imagen)' 시리즈는 별도의 언어 모델을 활용해 프롬프트를 해석한 뒤 이미지를 생성하는 '이중 구조'를 사용해 왔다. 그러나 이 방식은 이해와 생성 사이의 단절로 인해 정보 손실이 발생할 수 있다는 문제가 지적됐다.
유니-1은 이러한 구조를 근본적으로 바꿨다. 텍스트와 이미지를 하나의 시퀀스로 처리하는 자기회귀(autoregressive) 트랜스포머 기반 모델을 채택해, 이해와 생성이 하나의 과정에서 동시에 이뤄지도록 설계됐다. 즉, 모델이 이미지를 '그리면서 동시에 생각하는' 구조다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
이 같은 구조적 변화는 성능에서도 드러났다.
추론 기반 이미지 편집 벤치마크인 '라이즈벤치(RISEBench)'에서 0.51 점수를 기록하며 '나노 바나나 2(0.50)'와 'GPT 이미지 1.5(0.46)'를 앞섰다.
특히 공간 추론과 논리적 일관성 영역에서 큰 격차를 보였다. 객체 인식 성능 벤치마크 'ODinW'에서도 46.2 점을 기록, 구글의 '제미나이 3 프로(46.3)'에 근접했으며 '큐원3-VL-싱킹(43.2)'을 크게 앞섰다.
복잡한 장면 구성이나 시간 흐름을 유지하는 이미지 생성, 여러 참조 이미지를 결합하는 작업 등에 강점을 보였다.
하나의 사진을 기반으로 인물의 어린 시절부터 노년까지를 동일한 구도에서 자연스럽게 생성하거나, 서로 다른 반려동물 사진을 하나의 장면으로 통합하는 작업이 가능하다. 이는 기존에는 반복적인 프롬프트 수정이나 후처리가 필요했던 영역이다.
흥미로운 점은 이미지 생성 능력이 이해 능력까지 향상시킨다는 것이다. 생성 기능이 포함된 모델이 그렇지 않은 모델보다 객체 인식 성능이 더 높은 것으로 나타났다. 이는 '생성과 이해의 통합'이 단순한 구조적 변화가 아니라 성능 향상으로 이어진다는 점을 보여준다.
루마 AI는 이를 "시간·공간·논리를 하나의 아키텍처에서 함께 모델링하는 접근"이라고 설명하며, 기존 분리형 시스템으로는 불가능했던 문제 해결 능력을 구현했다고 강조했다.
비용 경쟁력도 강점이다. 고해상도(2K) 기준 이미지 생성 비용은 약 0.09달러로, 나노 바나나 2(0.101달러)와 나노 바나나 프로(0.134달러)보다 10~30% 저렴하다. 이는 광고, 디자인, 콘텐츠 제작 등 대규모 이미지를 생성하는 기업 고객을 겨냥한 전략이다.
실제로 루마 AI는 퍼블리시스 그룹, 서비스 계획 등 글로벌 광고사와 협업을 시작했으며, 일부 프로젝트에서는 1년/500만달러 규모 캠페인을 40시간/2만달러 이하로 축소한 사례도 제시했다.
유니-1은 단독 모델이 아니라 3월 초 출시된 루마 에이전트(Luma Agents)'라는 에이전트형 크리에이티브 플랫폼의 핵심 엔진으로 작동한다.
루마 에이전트는 텍스트, 이미지, 영상, 오디오를 아우르는 전반적인 창작 작업을 처음부터 끝까지 수행하도록 설계됐으며, 구글의 '비오 3'와 나노 바나나 프로, 바이트댄스의 '시드림', 일레븐랩스의 음성 모델 등 다른 AI 모델들과 연동해 작업을 처리한다.
시장 반응도 긍정적이다. 사용자들은 '프롬프트를 던지고 결과만 기다리는' 방식을 넘는, 정밀한 제어와 반복 개선이 가능한 능동적 창작 도구로 평가하고 있다.
다만 생성 속도, 비라틴 계열의 문자 처리, 극단적 상황 대응 등은 개선이 필요하다는 지적도 나온다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
