KAIST, 구글 제미나이 '전문가 혼합구조' 악용 공격기법 규명…"유해 응답률 급증 실증"

이코노믹리뷰 원문
입력

2025.12.26 08:05

주소복사가 완료되었습니다

[윤국열 기자]

<이미지를 클릭하시면 크게 보실 수 있습니다>

KAIST(한국과학기술원)는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합구조를 악용해 구글 Gemini 등 거대언어모델의 안전성을 심각하게 훼손할 수 있는 공격기법을 세계 최초로 규명했다고 26일 밝혔다.

이번 연구로 정보보안 분야 최고 권위 국제학회인 'ACSAC 2025'에서 최우수 논문상을 수상한 연구팀은 전문가 혼합구조의 보안 취약성을 체계적으로 분석했다.

특히 공격자가 상용 거대언어모델의 내부구조에 접근하지 않고 악의적으로 조작된 '전문가 모델' 하나만 오픈소스로 유통시 전체 거대언어모델이 위험한 응답을 생성하도록 유도될 수 있음을 입증했다.

연구팀이 제안한 공격기법은 유해 응답 발생률을 기존 0%에서 최대 80%까지 증가시킬 수 있었으며 다수의 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하됨을 확인했다.

이번 연구는 오픈소스 기반 거대언어모델 개발환경에서 발생할 수 있는 새 보안 위협을 최초로 제시했다는 점에서 전문가 모델의 출처와 안전성 검증이 필수적임을 시사하고 있다.

신·손 교수는 "효율성을 위해 빠르게 확산중인 전문가 혼합구조가 새 보안위협이 될 수 있음을 실증적으로 확인했다"며 "이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미있는 성과"라고 말했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

12.26 (금)

KAIST, 구글 제미나이 '전문가 혼합구조' 악용 공격기법 규명…"유해 응답률 급증 실증"

이코노믹리뷰 주요 뉴스