마이크로소프트가 인공지능 에이전트가 인간을 대신해 조달·구매 업무를 수행할 수 있을지를 검증하기 위한 새로운 연구 프로젝트를 시작했다. 실제 환경에서 시행하기에는 비용과 위험이 크다는 점을 고려해, 연구팀은 이를 가상 환경에서 실험할 수 있는 ‘매그네틱 마켓플레이스(Magentic Marketplace)’를 공개했다.
마이크로소프트 연구팀은 이번 프로젝트를 “에이전트 기반 시장의 가능성과 사회적 영향을 탐구하기 위한 오픈소스 시뮬레이션 플랫폼”으로 소개했다. 매그네틱 마켓플레이스는 상품·서비스 카탈로그 관리, 탐색 알고리즘 구현, 에이전트 간 통신, 중앙 거래 계층을 통한 모의 결제 처리 등의 기능을 지원한다.
23명으로 구성된 연구팀은 공식 블로그에서 “매그네틱 마켓플레이스는 다양한 에이전트가 동시에 탐색·의사소통·거래하는 실제 시장의 복잡한 역학을 반영하도록 설계됐다”라고 밝혔다. 기존 연구가 단일 에이전트의 과제 수행이나 단순한 거래 협상에 초점을 맞춘 반면, 이번 프로젝트는 다중 에이전트 환경에서 발생하는 상호작용을 체계적으로 관찰할 수 있도록 설계됐다.
연구팀은 “실제 환경에서 인공지능이 작동할 때 사용자 복지, 시장 효율성, 공정성, 조작 저항성, 편향성 등 다양한 문제가 발생한다”며, 이러한 요소를 안전하게 평가하기 위해 “실험실 수준의 시뮬레이션 환경이 필요하다”라고 강조했다.
또한 최신 모델조차도 “시장 상황에서 편향성과 취약성이 드러난다”는 사실이 확인됐다. 일부 에이전트는 선택지 과다로 인한 판단력 저하, 조작 전략에 대한 취약성, 특정 조건에서의 체계적 편향을 보였다. 이에 연구팀은 “기업이 인공지능 에이전트를 대규모로 배포하기 전에 시장 구성 요소 간의 상호작용을 이해할 수 있는 시뮬레이션 기반 분석 환경이 필수적이다”라고 결론지었다.
기술 논문에는 모델별 행동 차이가 구체적으로 기술됐다. 일부 에이전트는 검색 결과의 노이즈 처리 능력, 조작 저항력, 시장 복잡도 증가에 따른 성능 저하 폭 등에서 현저한 차이를 보였다. 연구팀은 이러한 결과가 “다중 에이전트 경제 환경에서의 체계적 평가 필요성을 보여준다”며, “상용 모델과 오픈소스 모델이 근본적으로 다른 방식으로 작동한다”라고 설명했다.
편향성과 허위 정보, 여전히 해결 과제
옴디아(Omdia)의 수석 애널리스트 리앤 지 수는 매그네틱 마켓플레이스를 “매우 흥미로운 연구”로 평가했다. 리앤 지 수는 최근 발전에도 불구하고 기초 모델이 여전히 편향과 허위 정보 문제를 내포하고 있다고 분석했다.
리앤 지 수는 “전자상거래 운영자가 조달이나 추천 같은 업무를 인공지능 에이전트에 위임하려면, 결과물이 이러한 약점에서 자유로워야 한다”라고 지적했다. 현재 가능한 방법으로는 가드레일(안전 장치)과 필터를 통해 규칙과 기준에 맞는 균형 잡힌 출력을 유도하는 방식이 꼽힌다.
또한 많은 기업이 컨텍스트 엔지니어링 기법을 활용해 관련 데이터, 도구, 메모리를 동적으로 제공하고 있다. 이를 통해 에이전트가 인간 직원처럼 상황에 맞게 판단하며 기업의 목표와 일치하도록 학습한다. 수는 “기업이 인공지능 에이전트를 도입할 때, 충분한 검증과 통제 없이 완전한 자율 작동을 허용해서는 안 된다”며 “중요 업무에는 반드시 인간 검증 단계가 포함돼야 한다”라고 강조했다.
정보 품질과 시장 설계가 핵심 변수
인포테크 리서치 그룹(Info-Tech Research Group)의 연구 책임자 토머스 랜들은 “에이전트가 정확하고 구조화된 정보를 제공받을 때 훨씬 더 합리적인 결정을 내린다는 점이 확인됐다”라고 설명했다.
토머스 랜들은 실험 결과 “제품 설명 왜곡이나 숨겨진 프롬프트를 통해 에이전트가 쉽게 조작될 수 있음이 드러났으며, 선택지가 많을수록 오히려 의사결정 품질이 떨어지는 현상이 나타났다”라고 전했다. 따라서 “정보의 품질과 시장의 설계 방식이 자동화 시스템의 성능을 결정한다”라고 강조했다. 다만 자율 에이전트가 구매·판매 과정을 완전히 대체할 수 있을지는 “아직 불확실한 단계”로 평가했다.
에이전트 기반 구매, 단순 거래를 넘어선 과정
무어 인사이츠 앤드 스트래티지 부사장 제이슨 앤더슨은 연구진이 “거래 시나리오를 복잡하게 구성하기보다, 에이전트 행동을 인간의 자연스러운 판단과 비교 분석하는 데 초점을 맞췄다”라고 밝혔다.
앤더슨은 인간이 보통 두세 가지 선택지로 신속히 좁히는 경향이 있는데, 선택 항목이 많을수록 인간과 모델 모두 판단력이 떨어진다는 점에서 유사성이 발견됐다고 설명했다. 일부 모델은 사용자의 요구를 처음 충족하는 항목만 선택하는 편향적 패턴을 보였으며, 이러한 관찰이 향후 에이전트 성능 개선에 기여할 것으로 분석됐다.
또한 마이크로소프트가 매그네틱 마켓플레이스를 오픈소스로 공개한 점에 대해 “매우 의미 있는 결정”이라고 평가했다. 앤더슨은 “B2B와 B2C, 프리미엄 제품과 일반 상품, 지역별 문화적 차이 등 다양한 구매 패턴을 실험하고 공유할 수 있다는 점에서 큰 가치가 있다”며, “이런 개방형 도구는 신뢰 가능한 인공지능 거래 생태계 구축에 기여할 것”이라고 말했다.
앤더슨은 “에이전트 기반 구매(agentic buying)는 단순한 거래 실행이 아니라 탐색·선정·비교·협상 전체 과정을 포함하는 광범위한 절차이며, 이미 다양한 산업에서 인공지능이 이런 과정에 활용되고 있다”라고 분석했다. 예시로 아마존의 제품 탐색 기능과 세일즈포스의 에이전트 포스 세일즈(Agentforce Sales)를 언급하며, “고객이 프로모션을 클릭해 질문을 시작하면 인공지능이 의사결정 전 과정을 지원하는 방식이 확산되고 있다”라고 설명했다.
기업 도입에는 신중함 필요
조달 분야에서는 아직 완전한 에이전트 단계에 도달하지 않았지만, 이미 챗봇을 활용해 공급업체 후보를 추리고 제안 요청서(RFP)를 작성하는 사례가 증가하고 있다. 다만 제이슨 앤더슨은 “대규모 조달 기업이 인공지능 중심 구조로 성급히 전환하는 것은 위험하다”라고 경고했다.
현재까지의 연구 결과는 인간 개입이 여전히 필수적인 단계임을 보여주고 있으며, 에이전트를 사용할 경우 명확한 규칙과 계약 체계가 마련돼야 한다. 제이슨 앤더슨은 “주문 취소 사유 목록에 ‘에이전트가 오작동했다’는 항목은 아직 존재하지 않는다”는 점을 비유적으로 지적했다.
랜들은 “전자상거래 운영자가 인공지능 에이전트를 도입하려면, 가격·배송·반품 정보를 투명하게 공개하고, 일관된 형식의 데이터 제공이 필수적”이라고 강조했다. 또한 악의적 입력으로 인한 잘못된 의사결정 방지와 시스템 보호 체계 강화의 필요성을 언급했다.
랜들은 “많은 기업이 여전히 거버넌스·책임·안전성 확보 체계를 충분히 갖추지 못한 상태”라며, 기계가 내린 의사결정의 책임과 추적성을 보장하는 것이 향후 최대 과제가 될 것이라고 분석했다.
공유형 ‘샌드박스’로 개방
마이크로소프트는 연구자와 개발자를 위해 매그네틱 마켓플레이스를 오픈소스 실험 환경으로 공개했다. 깃허브와 애저 AI 파운드리 랩(Azure AI Foundry Labs)을 통해 코드·데이터셋·실험 템플릿이 제공되며, 이를 활용해 에이전트 기반 시장의 동적 구조와 행동 패턴을 직접 탐구할 수 있다.
dl-itworldkorea@foundryco.com
Paul Barker editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지
이 기사의 카테고리는 언론사의 분류를 따릅니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
