컨텐츠 바로가기

    02.25 (수)

    이슈 IT기업 이모저모

    "시리가 직접 앱 제어한다"…애플, 온디바이스 AI 에이전트 상용화 성큼

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다

    [MOVIEW] 30억 파라미터 규모 ‘실행형 AI’ 개발

    디지털데일리

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [디지털데일리 김문기 기자] 애플 연구진이 화면 속 사용자 인터페이스(UI)를 직접 시각적으로 인식하고 사용자의 조작 없이도 앱 내 복합 업무를 수행할 수 있는 온디바이스 AI 에이전트 기술을 선보였다.

    24일(현지시간) 애플 머신러닝 리서치에 따르면 애플 연구팀은 모바일 UI 요소를 정교하게 이해하고 상호작용하는 소형 멀티모달 언어 모델(MLLM)인 '페럿-UI 라이트(Ferret-UI Lite)' 연구 결과를 발표했다. 이 기술은 사용자의 음성 명령을 받으면 AI가 기기 화면의 아이콘, 텍스트, 위젯 등을 인식하여 직접 앱 간을 넘나들며 업무를 완수하는 것이 핵심이다.

    페럿-UI 라이트는 약 30억(3B) 개의 매개변수를 가진 소형 모델임에도 불구하고, '동적 해상도 인식' 기술을 통해 세밀한 UI 요소를 정밀하게 파악한다. 모델은 화면을 여러 영역으로 나누어 분석한 뒤 필요한 부분에 '확대(Zoom-in)' 기법을 적용해 세부 정보를 읽어낸다.

    이를 통해 사용자가 "어제 찍은 사진을 선명하게 보정해서 메일로 보내줘"라고 명령하면, AI가 직접 사진 앱을 열고 보정 도구를 조작한 뒤 메일 앱으로 전달하는 전 과정을 스스로 수행할 수 있다.

    연구진은 이 모델이 실제 및 합성 데이터를 활용한 지도 학습과 강화 학습을 통해 훈련되었으며, 화면 내 위치를 파악하는 '그라운딩(Grounding)' 성능에서 91.6%의 높은 정확도를 기록했다고 밝혔다. 특히 안드로이드월드(AndroidWorld) 및 OS월드(OSWorld) 등 벤치마크 테스트에서 기존 서버급 대형 모델과 대등한 수준의 UI 탐색 성공률을 보였다는 설명이다.

    애플은 이 모델을 온디바이스 형태로 최적화하여 개인정보 유출 우려를 차단하고 실시간에 가까운 반응 속도를 확보할 방침이다. 해당 기술은 향후 시리(Siri)에 통합되어 단순 답변을 넘어 실제 앱 사용을 대행하는 '지능형 에이전트'로 진화할 것으로 보인다.

    이는 애플이 추구하는 온디바이스 AI 비전의 핵심으로, 사용자가 복잡한 앱 메뉴를 찾을 필요 없이 자연어 명령만으로 모든 기기 기능을 제어할 수 있는 환경을 예고하고 있다.

    - Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.