총 21차례 실험 중 20차례 핵무기 선택
“AI, 인간만큼 핵 금기 작용하지 않아”
지난 25일(현지시간) 영국 과학 전문 매체 뉴 사이언스트와 영국 기술지 더 레지스터는 킹스칼리지 런던 전쟁학부의 케네스 페인 교수가 이끄는 연구팀이 대표적 대형 언어모델(LLM) 3종을 대상으로 전쟁 시뮬레이션 실험을 진행한 결과를 전했다.
실험에는 구글의 '제미나이 3 플래시', Anthropic의 '클로드 소네트 4', OpenAI의 'GPT-5.2'가 투입됐다. 연구팀은 영토 분쟁, 희귀 자원 확보 경쟁, 정권 붕괴 위기, 군사 동맹 균열 등 다양한 외교·군사적 위기 상황을 설정하고 각 모델이 국가 지도자 역할을 맡아 대응 전략을 선택하도록 했다.
사진은 해당 기사 내용과 직접적인 관계 없음. 픽사베이 |
총 21차례의 시뮬레이션 가운데 약 95%(20회)에서 AI 모델은 핵무기 사용을 결정했다. 협상이나 후퇴, 제재 같은 비군사적 선택지도 있었지만 갈등이 일정 수준을 넘어서면 핵무기로 직행하는 경향이 두드러졌다. 특히 패배 가능성이 커질수록 공격 수위를 끌어올리거나 끝까지 충돌을 택하는 양상도 관찰됐다.
페인 교수는 "핵무기에 대한 금기가 인간 사회에서만큼 강력하게 작동하지 않는 것으로 보인다"고 말했다. 그는 이어 "핵무기에 대한 강한 금기는 인간 사회의 역사적 경험과 윤리적 학습의 산물"이라면서 "AI는 이러한 문화적·도덕적 맥락을 동일한 방식으로 내면화하지 않는다"고 설명했다.
모델별 의사결정 방식에도 차이가 있었다. 클로드는 비교적 계산된 '전략가' 유형에 가까웠다. GPT는 전반적으로 신중하고 중재 지향적인 태도를 보였지만, 시간 제한이라는 변수가 더해지자 다른 모습을 드러냈다. 제미나이는 보다 직선적이고 강경한 태도를 보였다.
연구팀은 이번 결과가 AI가 실제로 핵무기를 통제하게 된다는 의미는 아니라고 선을 그었다. 페인 교수는 "챗GPT에 핵무기 발사 코드를 맡기는 사람은 없겠지만, 이번 실험이 무의미한 것은 아니다"고 말했다.
이어 "AI 시스템은 이미 군사 분야에서 물류, 정보 분석, 의사결정 지원 등에 활용되고 있다"며 "앞으로 시간 압박이 큰 전략적 판단에 AI가 더 깊이 관여하게 될 가능성이 크다. AI가 전략적 문제를 어떻게 추론하는지 이해하는 일은 더 이상 학문적 논의에 그치지 않는다"고 강조했다.
전문가들은 이번 연구를 AI의 '공격성' 자체로 단순 해석하기보다는 목표 설정과 보상 체계, 시뮬레이션 설계 방식이 의사결정에 어떤 영향을 미쳤는지 면밀히 따져볼 필요가 있다고 지적한다.
최승우 기자 loonytuna@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
