컨텐츠 바로가기

03.29 (토)

오픈AI, GPT-4o '네이티브' 이미지 생성 기능 출시...'멀티모달 강자' 구글과 대결

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자] 오픈AI가 '달리(DALL-E)'와 같은 외부 이미지 생성 도구 없이, '챗GPT'에 직접 내장된 이미지 생성 기능을 출시했다. 최근 '제미나이 2.0 플래시'에 네이티브 이미지 생성 기능을 추가한 구글과 본격적인 경쟁이 예상된다.

오픈AI는 26일(현지시간) 'GPT-4o'에 네이티브 이미지 생성 기능을 추가했다고 발표했다.

이는 지난해 5월 그렉 브록먼 오픈AI 사장이 X(트위터)에 GPT-4o를 사용해 생성한 이미지를 최초 공개한 지 10개월 만이다. 그동안 이미지 모델 출시는 추론이나 음성 모드 등에 비해 개발 우선순위가 밀렸다.

이번에 등장한 네이티브 이미지 생성은 달리 3보다 더 길게 '생각'해 더 정확하고 세부적인 이미지를 생성한다. 따라서 달리 3를 통해 생성한 기존 이미지에 비해 월등하게 사실적이라는 평가다.

현실성이 압도적으로 뛰어난 것은 물론, 이미지 중 포함된 글자 즉 '타이포그래피'도 기존과 달리 정확하게 반영했다.

기술적으로는 텍스트와 이미지, 음성 부분을 따로 담당하는 모델을 연결한 기존 방식과 달리, 모델 3개를 하나로 통합했다.

즉, 기존에는 오디오나 이미지 같은 다른 매체를 텍스트로 변환한 뒤 다시 멀티모달로 변환하는 방식이었다. 그러나 새로운 GPT-4o는 단일 모델에서 처음부터 멀티미디어 토큰으로 훈련, 텍스트로 변환하지 않고도 비전과 오디오를 직접 분석하고 해석할 수 있다.

이로 인해 GPT-4o가 생성한 이미지는 달리 3를 통해 생성한 이미지보다 품질, 사실성, 텍스트 생성의 정확성 등이 크게 향상됐다.

기존 이미지 편집 기능도 지원한다. 사진 속 인물이나 배경을 자유롭게 변형하거나 삭제할 수 있으며, 추가적인 디테일을 더하는 '인페인팅(inpainting)' 기능이 포함됐다.


오픈AI는 새로운 이미지 생성 기능을 위해 공개적으로 사용 가능한 데이터와 셔터스톡과 같은 회사와 파트너십에서 얻은 독점 데이터로 훈련했다고 밝혔다. 또 크리에이터들이 자신의 작품이 학습 데이터셋에서 제거되도록 요청할 수 있는 '옵트아웃(opt-out)' 양식도 제공한다.

오픈AI는 현재 200달러의 월 구독료를 내는 프로 사용자에게 이 기능을 우선 제공하며, 추후 플러스 및 무료 사용자, 개발자용 API에도 적용할 예정이다. 한국어로도 이미지 생성이 가능하다.

한편, 샘 알트먼 CEO가 새로운 이미지 생성 기능으로 만들어 올린 X(트위터) 게시물에 손가락 숫자가 틀려 빈축을 사기도 했다.

https://twitter.com/sama/status/1904599358756315341

또 이번 발표는 구글이 최근 제미나이2.0 플래시에 네이티브 이미지 생성 기능을 추가한 직후 이뤄졌다는 점에서 주목된다. 이 모델 역시 네이티브 기능으로 인해 이미지 사실성이 향상됐으며 특히 이미지의 일관성이 대폭 개선, 사용자들로부터 "미쳤다"라는 반응을 얻었다.

오픈AI의 새 모델로 커뮤니티에서 같은 평가를 받았다. AI 컨설턴트인 앨리 K. 밀러는 X에 "이는 텍스트 생성의 거대한 도약"이라며 "내가 본 최고의 AI 이미지 생성 모델"이라고 밝혔다.

https://twitter.com/alliekmiller/status/1904604335272870114

특히 오픈AI는 이 기능을 통해 정확한 텍스트 배치로 로고나 포스터, 광고를 제작하는 '디자인 및 브랜딩' 학습을 위한 과학적 다이어그램, 인포그래픽, 역사적 이미지를 제작하는 '교육 및 시각화' 디자인 반복을 통해 캐릭터의 일관성을 유지하는 '게임 개발' 브랜드 요구 사항에 맞춰 소셜 미디어 자산, 이벤트 초대장, 디지털 일러스트레이션을 제작하는 '마케팅 및 콘텐츠 제작' 등에 유용하다고 강조했다.

즉, 기업이나 전문 크리에이터를 위한 B2B 용도로 유용하다는 점을 강조한 것이다.

이는 그동안 구글에 떨어졌다고 평가받는 멀티모달 기능을 강조함과 동시에, 딥시크나 오픈 소스 모델이 갖추지 못한 다양한 기능을 챗GPT에 추가하려는 것이다. 이를 통해 챗봇의 부가가치를 확대하고 기업 채택을 높이려는 의도다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.