컨텐츠 바로가기

    03.06 (금)

    MS, 작고 빠른 멀티모달 추론 모델 '파이-4-리즈닝-비전-15B' 공개

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [박찬 기자]
    AI타임스

    (사진=MS)

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    마이크로소프트(MS)가 이미지와 텍스트를 동시에 이해하고 수학·과학 문제를 추론할 수 있는 새로운 멀티모달 AI 모델을 공개했다. 비교적 작은 규모의 모델이지만 대형 모델과 경쟁 가능한 성능을 제공하면서도 훨씬 적은 연산 자원과 학습 데이터로 구축됐다는 점이 특징이다.

    MS는 4일(현지시간) 150억(15B) 매개변수 규모의 오픈 웨이트 멀티모달 AI 모델 '파이-4-리즈닝-비전-15B(Phi-4-reasoning-vision-15B)'를 공개했다.

    이 모델은 이미지와 텍스트를 동시에 처리하며, 수학·과학 문제 풀이, 차트·문서 해석, UI 탐색, 사진 캡션 생성, 영수증 읽기 등 다양한 작업을 수행한다. MS 파운드리와 허깅페이스를 통해 즉시 사용할 수 있다.

    이번 모델의 가장 큰 특징 중 하나는 학습 효율성이다. 파이-4-리즈닝-비전-15B는 약 2000억 토큰의 멀티모달 데이터로 학습됐다. 이는 경쟁 모델 대비 크게 적은 규모다. 예를 들어 중국 기업들의 멀티모달 모델인 '큐원 2.5-VL' '큐원 3-VL', '키미-VL' '젬마 3' 등은 학습에 1조 토큰 이상을 사용한 것으로 알려져 있다.

    MS는 데이터 규모를 무작정 확대하기보다 데이터 품질 개선과 정교한 모델 설계를 통해 효율성을 높였다고 밝혔다. 연구진은 오픈소스 데이터셋을 직접 검토해 오류를 수정하거나 품질이 낮은 데이터를 제거했으며, 잘못된 답변은 'GPT-4o'와 'o4-미니'로 재생성해 품질을 높였다.

    이 모델의 또 다른 특징은 혼합 추론(mixed reasoning) 구조다. AI가 항상 긴 추론 과정을 거치는 대신, 필요할 때만 단계적 추론을 수행하도록 설계됐다. 이미지 설명이나 OCR 같은 작업에서는 빠르게 직접 답을 생성하고, 수학이나 과학 문제처럼 복잡한 경우에만 단계적 사고 과정을 활용한다. 사용자가 필요할 경우 명시적으로 추론 모드를 강제할 수도 있다.

    이를 위해 학습 데이터의 약 20%는 추론 과정이 포함된 데이터, 80%는 즉시 응답 데이터로 구성됐다. 이러한 접근 방식은 지연 시간과 연산 비용을 줄이면서도 추론 능력을 유지하기 위한 설계다.

    모델은 SigLIP-2 비전 인코더와 파이-4-리즈닝 언어 모델을 결합한 '미드 퓨전(mid-fusion)' 구조를 채택했다. 최대 3600개 토큰(약 720p 해상도 상당)을 지원하는 동적 해상도 방식을 적용해, 작은 UI 요소나 복잡한 스크린샷도 정밀하게 인식할 수 있다.

    이는 데스크톱·웹·모바일 환경을 탐색하는 '컴퓨터 사용 에이전트' 구현에 중요한 요소다. 버튼, 메뉴, 텍스트 필드 등 인터랙티브 요소를 정확히 식별·위치 지정할 수 있어야 하기 때문이다. MS는 낮은 추론 지연과 소형 모델 특성이 상호작용형 환경에 적합하다고 설명했다.

    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    자체 평가 결과, 파이-4-리즈닝-비전-15B는 과학 다이어그램(AI2D) 84.8점, '차트QA' 83.3점, '매스비스타' 75.2점, '스크린스팟 v2' 88.2점, 'MMMU' 54.3점을 기록했다.

    이는 320억 매개변수급 큐원3-VL 모델보다는 낮지만, 동급 소형 모델 대비로는 경쟁력 있는 수준이다. 특히 정확도 대비 연산 시간 그래프에서 '빠르면서 정확한' 파레토 최적 지점에 위치한다고 강조했다.

    AI타임스

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    하지만 수학 추론(MathVerse)이나 범용 멀티모달 이해(MMMU) 등 최고난도 영역에서는 여전히 대형 모델이 우위를 보인다.

    또 20대 80 추론 비율이 모든 환경에 최적이라는 보장은 없으며, 모델이 언제 추론을 활성화해야 하는지를 완벽히 판단하는 문제도 남아 있다.

    박찬 기자 cpark@aitimes.com

    <저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.