컨텐츠 바로가기

11.02 (토)

MS의 AI 에이전트 도구 '옴니파서', 허깅페이스서 다운로드 1위 올라

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


마이크로소프트(MS)의 인공지능(AI) 에이전트 도구 '옴니파서(OmniParser)'가 출시된지 한달 만에 허깅페이스에서 가장 인기 있는 모델에 오르며 주목을 받고 있다.

벤처비트는 31일(현지시간) MS가 지난달 초 출시한 오픈 소스 모델 옴니파서가 허깅페이스에서 다운로드 1위에 올랐다고 전했다.

옴니파서는 스크린샷을 AI 에이전트가 이해하기 쉬운 형식으로 변환하는 생성 AI 모델이다. 'GPT-4V'와 같은 비전언어모델(VLM)이 그래픽 사용자 인터페이스(GUI)를 더 잘 이해해 상호작용할 수 있도록 설계됐다.

클렘 델랑게 허깅페이스 CEO는 X(트위터)에 "옴니파서는 에이전트 관련 모델 중 최초로 해당 기능을 수행하는 모델"이라고 소개했다.

https://twitter.com/ClementDelangue/status/1851743527035666613

이는 스크린샷을 VLM이 이해하고 활용할 수 있는 구조화된 요소로 변환하는 도구다. AI 에이전트가 화면 레이아웃을 보고 이해할 수 있도록 텍스트, 버튼, 아이콘과 같은 중요한 정보를 추출하고 이를 구조화된 데이터로 변환한다.

이를 통해 GPT-4V와 같은 모델은 GUI를 이해하고 사용자를 대신해 자율적으로 작업을 수행할 수 있다. 여기에는 온라인 양식 작성부터 화면의 특정 부분 클릭에 이르기까지 다양한 작업이 포함된다.

옴니파서의 강점은 각기 다른 역할을 하는 여러 AI 모델을 활용하는 데 있다.

'욜로v8(YOLOv8)'은 버튼과 링크 등 상호작용이 가능한 요소를 감지, 좌표를 제공한다. 이는 화면의 어떤 부분을 눌러서 작업을 처리할 수 있는지를 식별하게 만든다.

'블립-2(BLIP-2)'는 감지된 요소를 분석해 목적을 결정한다. 예를 들어, 아이콘이 '제출(submit)' 버튼인지 '탐색(navigation)' 링크인지를 식별해 맥락을 제공한다.

GPT-4V는 욜로v8과 블립-2에서 제공한 데이터를 사용, 버튼 클릭이나 양식 작성과 같은 작업을 수행하고 결정을 내린다. 상호작용에 필요한 추론과 의사 결정을 처리한다.

또 OCR 모듈은 화면에서 텍스트를 추출하여 GUI 요소 주변의 레이블 및 기타 맥락을 이해하는 데 도움을 준다.

특히 옴니파서는 GPT-4V, '파이-3.5-V', '라마-3.2-V' 등 다양한 오픈 소스 VLM과 작동, 개발자들에게 접근성과 유연성을 확장하도록 돕는다.

이 기능은 앤트로픽이 클로드 3.5 소네트에 적용한 AI 에이전트 기능 '컴퓨터 유즈(Computer Use)'와 흡사하다. 컴퓨터 유즈는 AI가 화면 내용을 해석해 컴퓨터를 제어할 수 있게 해준다.

애플 역시 모바일 UI를 겨냥한 '페럿-UI(Ferret-UI)'를 도입, AI가 위젯 및 아이콘과 같은 요소를 이해하고 상호작용할 수 있도록 하고 있다.

반면, 옴니버스는 다양한 플랫폼과 GUI에 대한 범용성과 적응성으로 차별화한다.

웹 브라우저나 모바일 앱 등 특정 환경에 국한되지 않고, 데스크톱부터 임베디드 화면에 이르기까지 광범위한 디지털 인터페이스와 상호작용할 수 있는 VLM을 위한 도구가 되는 것을 목표로 하고 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.