오픈AI는 26일(현지시간) 'GPT-4o'에 네이티브 이미지 생성 기능을 추가했다고 발표했다.
이는 지난해 5월 그렉 브록먼 오픈AI 사장이 X(트위터)에 GPT-4o를 사용해 생성한 이미지를 최초 공개한 지 10개월 만이다. 그동안 이미지 모델 출시는 추론이나 음성 모드 등에 비해 개발 우선순위가 밀렸다.
이번에 등장한 네이티브 이미지 생성은 달리 3보다 더 길게 '생각'해 더 정확하고 세부적인 이미지를 생성한다. 따라서 달리 3를 통해 생성한 기존 이미지에 비해 월등하게 사실적이라는 평가다.
현실성이 압도적으로 뛰어난 것은 물론, 이미지 중 포함된 글자 즉 '타이포그래피'도 기존과 달리 정확하게 반영했다.
기술적으로는 텍스트와 이미지, 음성 부분을 따로 담당하는 모델을 연결한 기존 방식과 달리, 모델 3개를 하나로 통합했다.
이로 인해 GPT-4o가 생성한 이미지는 달리 3를 통해 생성한 이미지보다 품질, 사실성, 텍스트 생성의 정확성 등이 크게 향상됐다.
기존 이미지 편집 기능도 지원한다. 사진 속 인물이나 배경을 자유롭게 변형하거나 삭제할 수 있으며, 추가적인 디테일을 더하는 '인페인팅(inpainting)' 기능이 포함됐다.
오픈AI는 새로운 이미지 생성 기능을 위해 공개적으로 사용 가능한 데이터와 셔터스톡과 같은 회사와 파트너십에서 얻은 독점 데이터로 훈련했다고 밝혔다. 또 크리에이터들이 자신의 작품이 학습 데이터셋에서 제거되도록 요청할 수 있는 '옵트아웃(opt-out)' 양식도 제공한다.
한편, 샘 알트먼 CEO가 새로운 이미지 생성 기능으로 만들어 올린 X(트위터) 게시물에 손가락 숫자가 틀려 빈축을 사기도 했다.
https://twitter.com/sama/status/1904599358756315341
또 이번 발표는 구글이 최근 제미나이2.0 플래시에 네이티브 이미지 생성 기능을 추가한 직후 이뤄졌다는 점에서 주목된다. 이 모델 역시 네이티브 기능으로 인해 이미지 사실성이 향상됐으며 특히 이미지의 일관성이 대폭 개선, 사용자들로부터 "미쳤다"라는 반응을 얻었다.
https://twitter.com/alliekmiller/status/1904604335272870114
특히 오픈AI는 이 기능을 통해 정확한 텍스트 배치로 로고나 포스터, 광고를 제작하는 '디자인 및 브랜딩' 학습을 위한 과학적 다이어그램, 인포그래픽, 역사적 이미지를 제작하는 '교육 및 시각화' 디자인 반복을 통해 캐릭터의 일관성을 유지하는 '게임 개발' 브랜드 요구 사항에 맞춰 소셜 미디어 자산, 이벤트 초대장, 디지털 일러스트레이션을 제작하는 '마케팅 및 콘텐츠 제작' 등에 유용하다고 강조했다.
즉, 기업이나 전문 크리에이터를 위한 B2B 용도로 유용하다는 점을 강조한 것이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.