컨텐츠 바로가기

    03.17 (화)

    단국대 연구팀, 문장으로 영상 속 원하는 장면 찾는 AI 기술 개발

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [이원철 기자]
    국제뉴스

    단국대 김선오 교수(컴퓨터공학과)(사진/단국대 제공)

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    (천안=국제뉴스) 이원철 기자 = 16일 단국대는 AI융합대학 컴퓨터공학과 김선오 교수 공동연구팀이 사용자가 입력한 문장을 기반으로 영상 속 원하는 장면을 정확하게 찾아내는 AI 기반 영상 그라운딩(Video Grounding) 기술을 개발했다고 밝혔다.

    이번 연구는 기존 AI 모델을 새로 학습시키지 않고도 추론 결과를 보정하는 방식으로 영상 장면 탐색 정확도를 높인 것이 특징이다. 연구는 윤기민 연구원(한국전자통신연구원·ETRI)과 엄대호 서울시립대 교수 등이 공동으로 참여했다.

    영상 그라운딩은 영상 속 특정 객체나 행동, 장면을 찾아 의미적으로 연결하는 기술로, 사용자가 "주인공이 요리하는 장면을 찾아줘"와 같은 문장을 입력하면 해당 장면이 등장하는 구간을 자동으로 탐색한다.

    기존 '약지도 영상 그라운딩' 방식은 사람이 장면의 시작과 끝을 일일이 표시하지 않아도 학습할 수 있다는 장점이 있지만, 실제 장면의 경계를 정확히 찾는 데 한계가 있었다.

    연구팀은 제안된 장면이 실제 장면을 얼마나 잘 포함하는지와 구간이 불필요하게 길어지지 않는지를 동시에 고려하는 최적화 방식을 적용해 기존 모델이 생성한 결과를 수학적으로 보정하는 방법을 구현했다.

    특히 별도의 대규모 학습 과정 없이 기존 모델에 바로 적용할 수 있어 대규모 영상 검색과 장면 기반 콘텐츠 탐색, 영상 분석 기술 등에 활용될 것으로 기대된다.

    김선오 교수는 "이미 학습된 모델의 추론 결과를 더욱 정교하게 해석하는 방법을 제시했다는 점에서 의미가 있다"고 말했다.

    이번 연구 결과는 소프트웨어 공학 분야 국제학술지 IEEE Transactions on Multimedia'(JCR*상위 3%, Q1)에 게재됐다.

    <저작권자 Copyright ⓒ 국제뉴스 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.