<이미지를 클릭하시면 크게 보실 수 있습니다> |
여러 AI 에이전트가 협력하며 작업을 수행하는 '멀티에이전트' 시스템 구축 방식이 전환점을 맞고 있다. 복잡한 규칙을 미리 설계하는 대신, 다양한 상대와 함께 훈련시키는 것만으로도 AI가 스스로 협력 전략을 학습할 수 있다는 연구 결과가 나왔다.
구글은 11일(현지시간) 에이전트를 다양한 상대와 학습하는 방식이 효과적이라는 내용의 연구 논문 '인컨텍스트 공동 에이전트 추론을 통한 멀티에이전트 협력(Multi-agent cooperation through in-context co-player inference)'를 온라인 아카이브에 공개했다.
핵심은 AI 에이전트를 분산형 강화 학습(RL) 환경에서 다양한 상대와 훈련하는 것이다. 이때 에이전트가 상호작용하는 상대는 계속 전략을 바꾸는 모델과 정해진 규칙대로 움직이는 프로그램이 섞여 있는 형태로 구성된다.
에이전트는 정해진 협력 규칙을 따르는 대신, 상호작용 과정에서 얻은 정보를 바탕으로 행동을 바꾼다. 대화나 행동 기록을 분석하는 인컨텍스트 학습을 활용해 상대의 전략을 파악하고 상황에 맞게 대응 전략을 실시간으로 조정하는 방식이다.
연구진은 이러한 방식이 여러 AI 에이전트가 동시에 작동하는 멀티에이전트 시스템에서 가장 어려운 문제 중 하나인 협력 형성을 해결하는 데 도움이 될 수 있다고 설명했다.
여러 AI 에이전트가 동시에 작동하는 환경에서는 각 에이전트가 서로 다른 목표를 가지고 행동하기 때문에 충돌이 발생하기 쉽다. 특히 각 에이전트가 자신의 보상만 극대화하려고 하면 협력이 이루어지지 않아 전체 시스템의 성능이 오히려 떨어질 수 있다.
대표적인 사례가 게임이론의 '죄수의 딜레마(Prisoner's Dilemma)'로 설명되는 '상호 배신(mutual defection)' 상황이다. 두개의 자동 가격 책정 알고리즘이 서로 경쟁하며 가격을 계속 낮추다 보면, 결국 두 시스템 모두 수익을 잃는 결과가 나타날 수 있다.
기존의 멀티에이전트 강화 학습 연구는 이러한 문제를 해결하려는 시도였지만, 실제 기업 환경에서는 중앙 시스템이 모든 에이전트를 완전히 통제하기 어려운 경우가 많다. 따라서 각 에이전트가 제한된 정보만을 바탕으로 서로 협력할 방법을 찾아야 하는 분산형 학습 방식이 필요하다는 지적이 나온다.
현재 많은 기업용 에이전트 시스템은 상태 머신 기반 구조나 그래프 기반 오케스트레이션 방식을 사용한다. 랭그래프(LangGraph) 같은 프레임워크에서는 에이전트의 역할과 상태 전환, 작업 흐름을 개발자가 직접 정의해야 한다.
하지만 연구진은 이러한 방식이 환경이 복잡해질수록 확장성이 떨어질 수 있다고 지적했다. 대신 에이전트를 다양한 상대와 반복적으로 상호작용하도록 훈련하면, 별도의 규칙을 미리 설계하지 않아도 협력 행동이 자연스럽게 형성될 수 있다고 설명했다.
연구진은 새로운 학습 방법인 예측 기반 정책 개선(Predictive Policy Improvement)을 통해 이러한 접근법을 검증했으며, 기본 원리는 다른 강화 학습 알고리즘에도 적용할 수 있다고 밝혔다.
연구진은 에이전트가 서로 다른 정책과 설정을 가진 다양한 상대와 상호작용하도록 훈련하는 '혼합 풀(mixed pool)' 학습 방식을 제안했다. 이 방식에서는 에이전트가 여러 유형의 상대와 반복적으로 상호작용하면서 상대의 행동을 관찰하고, 상황에 맞는 대응 전략을 스스로 학습하게 된다.
실험에서는 반복된 죄수의 딜레마 환경에서 에이전트들이 안정적인 협력 행동을 형성하는 것이 확인됐다. 특히 상대에 대한 사전 정보가 없는 상황에서도 시행착오를 통해 협력 전략을 학습하는 결과가 나타났다.
이러한 접근법이 최신 AI 모델의 학습 방식과도 잘 맞는다고 설명했다. 최근의 대규모 파운데이션 모델은 이미 다양한 데이터와 작업을 통해 학습하며 인컨텍스트 학습 능력을 갖추고 있기 때문이다.
앞으로 AI 애플리케이션 개발자의 역할도 변화할 가능성이 있다고 전망했다. 기존에는 에이전트 간 상호작용 규칙을 하나하나 직접 설계해야 했다면, 앞으로는 에이전트가 학습할 환경과 데이터 구성을 설계하는 전략적 역할이 더 중요해질 수 있다는 것이다.
연구진은 "개발자는 더 이상 모든 상호작용 규칙을 직접 작성하기보다는, 에이전트가 협력적이고 안전한 행동을 스스로 학습할 수 있도록 전체 학습 환경을 설계하는 역할을 맡게 될 것"이라고 설명했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
