컨텐츠 바로가기

11.09 (토)

엔비디아, 멀티모달 벤치마크 SOTA 달성한 검색 도구 'MM-임베드' 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


엔비디아가 텍스트와 이미지 같은 다양한 형식의 콘텐츠를 이해하고 검색할 수 있는 도구를 선보였다. 특히 관련 벤치마크에서 최첨단(SOTA) 성과를 달성했다고 강조했다.

엔비디아는 7일(현지시간) 허길페이스를 통해 텍스트와 이미지를 효과적으로 처리할 수 있는 범용 멀티모달 검색 도구 'MM-임베드(MM-Embed)'를 공개하고 관련 논문을 아카이브에 게재했다.

MM-임베드는 검색 성능을 극대화하기 위해 바이 인코더(bi-encoder) 아키텍처를 사용해 검색 프로세스를 미세조정했다.

또 모달리티 인식 하드 네거티브 마이닝을 활용해 혼합 모달리티 데이터를 처리할 때 발생하는 편향 문제를 완화했다. 이 마이닝 기법은 모델이 텍스트, 이미지 또는 둘의 조합과 같은 대상에 집중할 수 있도록 도와, 복잡한 텍스트-이미지 혼합 쿼리를 효과적으로 처리할 수 있게 해준다.

또 텍스트 검색 능력을 강화하면서도 멀티모달 작업에서의 성능을 유지하기 위해 지속적인 미세조정을 거쳤다. 이로 인해 텍스트로 질문해도 위키피디아의 이미지를 찾아주거나, 복잡한 설명의 쿼리에도 유사한 이미지를 찾아줄 수 있다는 설명이다.

특히 '멀티모달 M-BEIR' 벤치마크에서 최첨단(SOTA) 성과를 달성한 엔비디아의 최초의 멀티모달 검색 도구라고 강조했다.

텍스트 전용 'MTEB 검색' 벤치마크에서도 상위 5위 안에 들었다. 이처럼 검색 형식 간의 격차를 줄여, 유연한 검색 경험을 제공한다고 전했다.

연구진은 멀티모달모델(LMM)을 바이 인코더 리트리버로 활용, 16개의 검색 작업과 10개의 데이터셋을 통해 MM-임베드를 미세 조정해 모델의 성능을 입증했다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


MM-임베드는 M-BEIR의 모든 작업에서 평균 52.7%의 검색 정확도를 기록, 이전 모델들을 모두 뛰어넘어 멀티모달 검색의 최고 기록을 세웠다. 특히 특정 도메인에서 눈에 띄는 성과를 보였는데, 'MSCOCO' 데이터셋에서는 73.8%의 검색 정확도를 기록하며 복잡한 이미지 캡션을 이해하는 뛰어난 능력을 입증했다.

또 LMM을 활용한 제로샷 재정렬(zero-shot reranking)을 통해 시각적 질의 응답과 복합 이미지 검색과 같은 복잡한 텍스트-이미지 쿼리에서도 검색 정확도를 향상했다.

특히 CIRCO의 복합 이미지 검색 작업에서 순위 정확도가 7포인트 이상 상승, 실제 환경에서의 어려운 시나리오에 대해서는 뛰어난 효과를 입증했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.