"요리하는 장면 찾아줘"...AI가 영상 속 '그 순간' 정확히 짚어낸다

머니투데이 원문
권태혁기자
입력

2026.03.16 12:09

주소복사가 완료되었습니다

김선오 단국대 교수, ETRI·서울시립대 연구진과 공동 연구
기존 AI 모델 재훈련 없이 영상 그라운딩 정확도 향상 '눈길'

김선오 단국대 AI융합대학 컴퓨터공학과 교수./사진제공=단국대

단국대학교는 김선오 AI융합대학 컴퓨터공학과 교수 연구팀이 AI를 활용해 영상 속에서 사용자가 원하는 장면을 정확하게 찾아내는 '영상 그라운딩' 기술을 개발했다고 16일 밝혔다.

영상 그라운딩은 영상 속에서 특정 객체나 행동, 장면을 찾아 연결하는 기술이다. 사용자가 '주인공이 요리하는 장면을 찾아줘'와 같은 문장을 입력하면 해당 장면이 등장하는 구간을 자동으로 찾아낸다. 최근 영상 데이터가 폭발적으로 늘면서 관련 기술의 중요성이 커지는 추세다.

기존 '약지도 영상 그라운딩' 기술은 사람이 영상 속 장면의 시작과 끝을 일일이 표시하지 않아도 학습할 수 있는 장점이 있다. 하지만 특정 장면이 등장할 가능성이 높은 구간을 확률적으로 추정한 뒤 간단한 기준으로 경계를 정하는 방식이라 실제 장면의 시작과 끝을 정확히 찾지 못하는 한계가 있었다.

연구팀은 제안된 장면이 실제 장면을 얼마나 잘 포함하는지, 불필요하게 길어지지 않는지를 동시에 고려하는 방식을 제안했다. 이를 통해 기존 모델이 생성한 결과를 수학적으로 보정해 더욱 정확한 장면 경계를 찾는 방법을 구현했다.

특히 새로운 AI 모델을 다시 학습시키지 않아도 기존 모델에 바로 적용할 수 있는 것이 특징이다. 별도의 대규모 학습 과정 없이 다양한 확률을 기반으로 탐색 정확도를 높일 수 있어 영상 검색과 분석 기술에 폭넓게 활용될 수 있다는 설명이다.

김 교수는 "영상 장면 탐색 모델을 처음부터 다시 학습시키는 대신 이미 학습된 모델의 추론 결과를 더욱 정교하게 해석하는 방법을 제시했다"며 "대규모 영상 검색과 장면 기반 콘텐츠 탐색, 영상 분석 기술의 실용성을 높이는 데 기여할 것"이라고 말했다.

한편 이번 연구에는 김 교수를 비롯해 윤기민 한국전자통신연구원(ETRI) 연구원, 엄대호 서울시립대 교수 등이 참여했다.

연구 결과는 'Finding Optimal Video Moment without Training: Gaussian Boundary Optimization for Weakly Supervised Video Grounding'(훈련 없는 최적 영상 순간 포착: 약지도 영상 그라운딩을 위한 가우시안 경계 최적화)이라는 제목으로 소프트웨어 공학 분야 국제학술지 'IEEE Transactions on Multimedia'(IF=9.7)에 게재됐다.

권태혁 기자 taehkd@mt.co.kr

Copyright ⓒ 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

03.16 (월)

"요리하는 장면 찾아줘"...AI가 영상 속 '그 순간' 정확히 짚어낸다

머니투데이 주요 뉴스