[MOVIEW] 30억 파라미터 규모 ‘실행형 AI’ 개발
<이미지를 클릭하시면 크게 보실 수 있습니다> |
24일(현지시간) 애플 머신러닝 리서치에 따르면 애플 연구팀은 모바일 UI 요소를 정교하게 이해하고 상호작용하는 소형 멀티모달 언어 모델(MLLM)인 '페럿-UI 라이트(Ferret-UI Lite)' 연구 결과를 발표했다. 이 기술은 사용자의 음성 명령을 받으면 AI가 기기 화면의 아이콘, 텍스트, 위젯 등을 인식하여 직접 앱 간을 넘나들며 업무를 완수하는 것이 핵심이다.
페럿-UI 라이트는 약 30억(3B) 개의 매개변수를 가진 소형 모델임에도 불구하고, '동적 해상도 인식' 기술을 통해 세밀한 UI 요소를 정밀하게 파악한다. 모델은 화면을 여러 영역으로 나누어 분석한 뒤 필요한 부분에 '확대(Zoom-in)' 기법을 적용해 세부 정보를 읽어낸다.
이를 통해 사용자가 "어제 찍은 사진을 선명하게 보정해서 메일로 보내줘"라고 명령하면, AI가 직접 사진 앱을 열고 보정 도구를 조작한 뒤 메일 앱으로 전달하는 전 과정을 스스로 수행할 수 있다.
연구진은 이 모델이 실제 및 합성 데이터를 활용한 지도 학습과 강화 학습을 통해 훈련되었으며, 화면 내 위치를 파악하는 '그라운딩(Grounding)' 성능에서 91.6%의 높은 정확도를 기록했다고 밝혔다. 특히 안드로이드월드(AndroidWorld) 및 OS월드(OSWorld) 등 벤치마크 테스트에서 기존 서버급 대형 모델과 대등한 수준의 UI 탐색 성공률을 보였다는 설명이다.
애플은 이 모델을 온디바이스 형태로 최적화하여 개인정보 유출 우려를 차단하고 실시간에 가까운 반응 속도를 확보할 방침이다. 해당 기술은 향후 시리(Siri)에 통합되어 단순 답변을 넘어 실제 앱 사용을 대행하는 '지능형 에이전트'로 진화할 것으로 보인다.
이는 애플이 추구하는 온디바이스 AI 비전의 핵심으로, 사용자가 복잡한 앱 메뉴를 찾을 필요 없이 자연어 명령만으로 모든 기기 기능을 제어할 수 있는 환경을 예고하고 있다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
