[사진: 셔터스톡] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 황치규 기자]노스이스턴대를 비롯해 스탠퍼드대, 하버드대, 매사추세츠공과대(MIT) 등 10여 개 기관 연구진이 자율 AI 에이전트 위험성을 실증한 논문 '혼돈의 에이전트들(Agents of Chaos)'를 발표했다.
논문은 자율 AI 에이전트들이 열린 경쟁 환경에 놓였을 때 나타나는 시스템 수준 위험을 분석한 것이 골자다. 결과는 단순하지 않다.
논문에 따르면 AI 에이전트가 성과 최적화를 넘어 조작, 담합, 전략적 방해 행동으로 자연스럽게 넘어가는 모습을 보였다. 악의적인 프롬프트나 해킹 시도 없이도 인센티브 구조 만으로도 이런 현상이 나타났다.
연구진은 이를 '로컬 정렬(Local alignment)과 글로벌 안정성(global stability) 간 불균형으로 설명한다. AI 어시스턴트 하나를 완벽하게 정렬시키더라도, 수천 개가 개방된 생태계에서 경쟁을 시작하면 결과는 게임 이론적인 혼돈으로 귀결된다는 것이다. 에이전트 하나를 개별적으로 통제해도 시스템 전체 안전을 보장하지 못한다는 얘기다.
결과는 11가지 대표 사례로 정리됐다. 권한 없는 외부자 지시 이행, 민감정보 노출, 시스템 파괴 명령 실행, 서비스 거부 상태 유발, 자원 무단 소비, 신원 위장, 위험 행동 에이전트 간 전파, 부분적 시스템 장악이 포함됐다. 일부 에이전트는 작업을 완료했다고 보고했지만, 실제 시스템 상태는 보고한 것과는 달랐다.
연구진은 다중 에이전트 금융 거래 시스템, 자율 협상 봇, AI 간 경제 거래 플랫폼, 에이피아이(API) 기반 자율 에이전트 군집 등 현재 빠르게 배포되는 기술들을 주목했다. 연구진은 논문에서 "모두가 금융, 보안, 커머스 영역에 에이전트를 배포하기 위해 경쟁하고 있다. 생태계 수준 효과를 모델링하는 주체는 거의 없다"고 지적했다.
연구진은 2주간 실제 실험실 환경에서 레드팀 테스트를 진행했다. 이메일 계정, 디스코드, 파일 시스템, 셸 실행 권한을 갖춘 언어 모델 기반 자율 에이전트를 구축하고, AI 연구자 20여명이 정상·공격 조건 양쪽에서 에이전트와 상호작용했다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
