[사진: 셔터스톡] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 황치규 기자]마이크로소프트(MS)가 150억 파라미터 규모 멀티모달 AI 모델 파이-4-리즈닝-비전-15B(Phi-4-reasoning-vision-15B)를 오픈소스로 공개했다고 실리콘앵글이 5일(현지시간) 보도했다.
이 모델은 기존 알고리즘인 SigLIP-2와 Phi-4 Reasoning을 결합한 형태로, 과학·수학 그래프 등 멀티모달 데이터를 처리하는 데 최적화됐다.
일반적으로 AI 모델은 모든 레이어에서 멀티모달 데이터를 처리하지만, 마이크로소프트는 '미드퓨전' 방식을 적용해 일부 레이어만 멀티모달 처리를 지원한다. 이를 통해 출력 품질을 일부 희생하는 대신 하드웨어 부담을 크게 줄였다. 특정 프롬프트를 통해 추론 기능을 끄고 켜는 것도 가능하다.
마이크로소프트는 주로 오픈소스 데이터를 활용해 모델을 학습했고 이미지와 텍스트 설명도 사용했다. 고품질 데이터셋을 선별하고, 오픈AI GPT-4o 및 o4-미니를 활용해 부정확한 캡션을 수정하는 과정을 거쳤다. 내부 생성 데이터와 특정 기업에서 확보한 고품질 데이터, 부적절한 행동을 피하기 위한 예시 데이터도 추가했다.
모델 성능 평가 결과, Phi-4-reasoning-vision-15B는 구글 'gemma-3-12b-it'보다 17% 높은 점수를 기록했다. 특히 수학·과학 분야에서 뛰어난 성능을 보이며, 더 많은 계산 시간과 토큰을 요구하는 모델과 유사한 성능을 유지했다고 마이크로소프트는 전했다.
마이크로소프트는 이 모델을 허깅페이스, 깃허브, 애저를 통해 공개했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
