컨텐츠 바로가기

    12.07 (일)

    이슈 인공지능 시대가 열린다

    그 영화 키스씬 언제 나왔더라?...이제 AI가 바로 찾아준다

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    윤성의 KAIST 전산학부 교수
    영상 관련 질문에 정답 찾는 AI 모델
    3가지 모델 혼합해 정확도 높여
    구글 주최한 대회에서 압도적 1등


    매일경제

    윤성의 KAIST 전산학부 교수팀이 영상에 대한 질문에 정확한 답을 찾아주는 인공지능(AI)을 개발해 구글이 주관한 ‘영상 근거 기반 질의응답’ 대회에서 1등을 차지했다. [사진=구글 이미지FX로 생성]

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    “영화에서 주인공이 도넛을 먹는 장면이 언제쯤 나와?”

    긴 영상에서 특정 장면이 잘 기억나지 않을 때, 영상을 일일이 돌려보면서 장면을 찾았던 경험이 다들 한 번씩 있을 것이다. 앞으로는 이 같은 수고를 하지 않아도 된다. 인공지능(AI)에 간단한 명령만 하면 빠르게 원하는 장면을 찾아주는 기술이 개발됐다.

    윤성의 KAIST 전산학부 교수팀이 세계적 권위의 컴퓨터 비전 학회 ICCV 2025에서 열린 인지 테스트 대회의 영상 근거 기반 질의응답 부문에서 1위를 차지했다.

    구글 딥마인드가 주관하는 이 대회는 영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다.

    지금까지 AI는 주로 텍스트 기반이었다. 수백 쪽의 PDF 파일을 AI에게 요약해달라는 건 매우 익숙한 일이지만, 긴 영상을 요약하거나 처리하는 일은 아직 제약이 많았다. 다만 최근에는 멀티모달 AI가 빠르게 발전하면서 음성, 그림, 영상도 점차 능숙하게 처리하고 있다.

    대회 주최 측에서 먼저 10~30초짜리의 비디오 클립 1만 개를 제공하면, 대회에 참가한 연구팀들은 이 영상에서 답을 찾는 AI를 개발한다. 평가에서는 얼마나 정확하게 답을 찾는지를 중점적으로 본다.

    연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면을 먼저 찾아내도록 기술을 설계했다.

    제미나이 2.5 PRO 등 3개의 AI 모델을 사용해 영상을 분석해 질문의 답이 들어있는 핵심 장면을 뽑아낸다. 1분짜리 영상이 있다면 그 중 몇 초 구간을 살펴봐야 하는지 먼저 추려내는 것이다. 이후 그 장면을 기준으로 앞뒤 시간대의 움직임을 정밀하게 추적해 답을 찾는다.

    제미나이가 먼저 어느 순간을 봐야 하는지를 추론해 핵심 장면을 찾으면, 또다른 멀티모달 AI 모델인 ‘Molmo-7B’가 해당 장면의 사람이나 사물의 정확한 위치를 파악한다. 이후 메타가 개발한 ‘SAM2’ 모델이 해당 장면의 맥락을 파악해 오류를 줄인다.

    이는 한 가지의 AI 모델 만으로는 해낼 수 없는 작업이다. 윤 교수는 각 모델의 장점을 파악한 뒤 이를 융합해 정확도를 높였다. 덕분에 AI는 ‘영상에 나오는 가방에 몇 개의 물건을 집어 넣었는가?’, ‘사람이 잡고 있는 물건에 손잡이가 있나?’ 같은 다소 복잡한 질문에도 정확한 답을 내놨다.

    정확한 답의 핵심은 질문을 얼마나 제대로 이해하는지에 있었다. 윤 교수는 “우선 질문에 담긴 특징들을 먼저 뽑아내고, 영상을 구성하는 이미지 프레임에서도 특징들을 뽑아낸 다음에 두 특징들 간의 관계를 분석하는 방식”이라고 설명했다.

    이번에 1등을 차지한 윤 교수의 AI는 ‘고차 추적 정확도’ 지표에서 0.4968점을 기록해 2위인 미국 콜럼비아대의 0.4304점을 압도적인 첨수 차로 따돌렸다. 전년도 우승 기록인 0.2704점과 비교하면 약 두 배에 가까운 성과다.

    최근 피지컬 AI에 대한 수요가 커지면서 해당 기술이 가진 산업적 잠재력도 함께 커졌다. 자율주행 AI에서는 사고 위험이 있는 순간을 정확히 포착하거나, 보안·감시 시스템에서 중요한 장면을 빠르게 찾아낼 수 있다.

    윤 교수는 “로봇에게 무언가를 시키려면 로봇이 인식하는 영상을 정확하게 분석할 수 있어야 한다”며 “이번 기술로 인해 로봇이 근거를 갖고 정확하게 판단할 수 있게 됐다”고 했다.

    매일경제

    윤성의 KAIST 전산학부 교수. [사진=KAIST]

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.