<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 인공지능(AI) 모델 '클로드(Claude)'를 개발한 앤트로픽이 AI 시스템의 실패 원인을 분석한 연구 결과를 발표했다. 기존에는 AI가 인간의 의도를 잘못 이해해 오류가 발생한다고 여겨졌으나, 연구에 따르면 AI가 무의미한 행동을 하는 '핫 메스(hot mess)' 상태가 더 큰 위험 요소로 작용할 수 있다.
3일(현지시간) 온라인 매체 기가진은 앤트로픽이 AI 시스템이 어떻게 실패하는지 연구한 결과, 기존의 '미스 얼라인먼트'(misalignment)보다 무작위적이고 예측 불가능한 오류가 더 위험할 수 있다고 전했다.
앤트로픽은 AI가 의도하지 않은 목표를 추구해 문제를 일으키는 현상을 미스 얼라인먼트로 정의했다. 기존 연구에서는 미스 얼라인먼트에 초점을 맞췄지만, 이번 연구에서는 작업이 복잡해지고 추론이 길어질수록 AI가 체계적인 오류가 아니라 예측 불가능하고 자기 파괴적인 '핫 메스' 상태에 빠질 가능성이 높아진다고 지적했다.
앤트로픽은 AI 모델의 실패를 '바이어스(일관된 오류)'와 '베리언스(무작위적 오류)'로 구분해 분석했으며, '클로드 소넷 4', 오픈AI의 'o3-미니', 'o4-미니', 알리바바의 '큐웬3' 모델을 대상으로 실험을 진행했다. 결과적으로, AI가 장시간 추론할수록 일관성을 잃고 예측 불가능한 상태에 빠지는 경향이 강해졌다.
앤트로픽은 AI 모델을 '동적 시스템'으로 보고, 단순한 최적화 장치가 아니라 복잡한 상태 공간에서 작동하는 시스템으로 이해해야 한다고 강조했다. 대규모 모델은 간단한 작업에서는 일관성을 높일 수 있지만, 복잡한 작업에서는 오히려 핫 메스 현상이 증가한다는 것이다.
앤트로픽은 "미래 AI 시스템의 실패는 훈련되지 않은 목표를 일관되게 추구하는 미스 얼라인먼트보다, 통제 불가능한 산업 재해처럼 발생할 가능성이 높다"며 연구의 우선순위를 조정할 필요가 있다고 결론지었다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
