안애림·김민석 카카오 AI서치에이전트팀 인터뷰
LLM 오케스트레이션 벤치마크 결과
"범용 LLM의 답변력과 에이전트 실행력 달라"
"AI 에이전트 위해 비용·속도 평가 업그레이드할 것"
겉으로 보면 의외의 결과다. 하지만 이는 같은 시험에서의 ‘역전’이라기보다, 서로 다른 능력을 측정한 별개 평가 결과를 나란히 놓고 비교한 데서 생긴 차이다.
핵심은 평가 방식의 차이다. 독파모 평가나 AAII 같은 지표가 거대언어모델(LLM)의 ‘답변 성능’ 중심이라면, 이번 결과의 기준이 된 AI 모델 오케스트레이션 성능평가는 ‘실행 지휘 능력’에 초점을 맞춘다. 즉, 질문에 잘 답하는지보다 복잡한 일을 단계별로 나누고 필요한 도구를 활용해 끝까지 정확히 처리하는지를 평가하는 방식이다.
이데일리는 최근 오케스트레이션 능력 평가 벤치마크를 개발해 ICLR(국제표현학습학회) 2026에 논문이 채택된 카카오 AI서치에이전트의 안애림 매니저(제1저자), 김민석 리더(교신저자)를 만났다. 이들이 깃허브에 공개한 기준으로 산출된 점수가 이번 비교 결과다.
왼쪽부터 김민석 카카오 AI서치에이전트팀 리더(교신저자)와 안애림 AI서치에이전트팀 매니저(제1저자). 사진=이데일리 이영훈 기자 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
점수 차이의 본질은 ‘성능 우열’보다 ‘평가 목적의 차이’
안애림 매니저는 이번 점수 차이를 단순한 성능 우열로 보기보다, 모델별 학습 데이터 구성과 플래닝 역량 차이로 해석해야 한다고 설명했다. 그는 “LLM 오케스트레이션 벤치마크는 사용자의 요구를 잘게 나누고 순서에 맞춰 실행하는 능력을 평가한다”며 “독파모에서 높은 성능을 보인 모델이 여기서는 낮게 나올 수 있는데, 이는 평가 대상과 목적이 다르기 때문”이라고 말했다.
이어 “LG AI연구원 모델이 신약 개발 등 B2B 용도로 개발돼 B2C 관련 데이터 학습이 상대적으로 덜 된 것 아니냐”는 질문에는 “충분히 영향을 미칠 수 있다”며 “어떤 데이터를 어떻게 구성해 학습시키느냐에 따라 모델 성능은 상당히 달라질 수 있다”고 덧붙였다. B2C에 강한 모델은 연속적인 사용자 요청 처리 데이터가 상대적으로 많이 학습됐을 가능성이 크고, 일부 모델은 단일 답변 생성에 더 특화됐을 수 있다는 설명이다.
단일 모델 경쟁에서 ‘에이전트 협업’ 경쟁으로
카카오가 이 벤치마크를 만든 배경에는 AI 서비스 구조 변화가 있다. 앞으로의 AI는 거대한 단일 모델 하나가 답을 내는 방식보다, 여러 모델이 협업하고 다양한 도메인 및 외부 도구와 연결돼 일을 처리하는 ‘AI 에이전트’ 형태로 발전할 가능성이 크다는 판단이다. 안 매니저는 “전체 흐름을 설계하는 메인 LLM과 도메인별 서브 LLM이 협력하는 구조가 더 현실적”이라고 말했다.
김민석 리더도 “2년 전만 해도 필요한 서비스마다 파인튜닝해 내보내는 방식이 주류였지만, 이제는 여러 LLM을 오케스트레이션해 함께 쓰는 방향으로 바뀌고 있다”며 “카카오 AI 서비스에 필요한 평가 기준이었기 때문에 단기간에 준비한 내용을 논문으로 정리했다”고 설명했다.
카카오 측은 실제 서비스에서 중요한 것은 ‘정답’ 자체보다 ‘실행 과정’이라고 강조했다. 예를 들어 카카오톡 선물하기가 AI 에이전트화됐을 때 사용자가 “민지에게 선물해야 돼. 1000원짜리 추천하고 결제까지 해줘”라고 요청하면, AI는 친구 목록의 여러 ‘민지’ 중 누구인지 구분해야 한다. 또 1000원 예산이 비현실적이라면 이를 인지해 재질의하거나 대안을 제시해야 한다. 무리하게 실행하지 않고 상황을 판단해 적절히 멈추는 능력도 평가 대상이라는 뜻이다.
왼쪽부터 김민석 카카오 AI서치에이전트팀 리더(교신저자)와 안애림 AI서치에이전트팀 매니저(제1저자). 사진=이데일리 이영훈 기자 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
플래닝·툴 실행 분리 평가…카카오의 ‘실서비스형 벤치마크’
카카오 측에 따르면 이번 벤치마크는 플래닝 능력과 툴 실행 능력을 분리해 평가한다. 툴 실행 자체의 격차보다, 사용자 요구를 잘게 나누고 실행 순서를 설계하는 플래닝에서 모델 간 차이가 크게 나타날 수 있다는 설명이다. 이 때문에 범용 LLM 성능평가에서 높은 점수를 받은 모델도 오케스트레이션 벤치마크에서는 다른 결과를 낼 수 있다.
벤치마크 설계 역시 실서비스 지향적이다. 특정 프레임워크나 내부 시스템에 종속되지 않도록 설계해 MCP 등 특정 표준이나 API 구현 방식에 따른 유불리를 줄이고, 모델의 순수한 오케스트레이션 역량을 평가하겠다는 취지다. 이를 위해 여행, 쇼핑, 금융, 교통, 길찾기, 일정 관리 등 17개 도메인과 100여 개 가상 도구를 구성해 실제 서비스와 유사한 제약조건을 반영했다.
예를 들어 쇼핑 도메인에는 추천, 결제, 취소, 환불 같은 액션이 포함되고, 예약 도메인에는 브레이크타임, 휴무일, 예약 단위 같은 현실 조건이 들어간다. 사용자가 불가능한 시간을 요청했을 때 단순 실패로 끝내지 않고 가능한 대안을 제시해야 한다. 안 매니저와 김 리더는 이를 통해 “툴 호출 가능 여부”보다 “현실 조건을 이해하고 올바르게 판단하는 능력”을 평가하려 했다고 설명했다.
평가셋도 사람 손으로 설계…문화 맥락까지 반영
평가셋 제작 방식도 차별점이다. 카카오는 AI 합성 평가셋 대신 사람이 명확한 가이드라인에 따라 직접 데이터를 설계했고, 복잡한 시나리오와 요구 변경, 추가 질문 등 실제 서비스 흐름을 반영했다. 또 최소 3명 이상 교차 검증을 거쳤고, 여러 정답 경로가 가능한 사례는 배제해 명확한 기준으로 평가할 수 있는 문제 중심으로 구성했다고 밝혔다.
언어 데이터도 단순 번역이 아니라 문화적 맥락 차이를 반영해 설계했다. 한국어권에서 자연스러운 질의가 영어권에서는 다른 맥락으로 받아들여질 수 있는 지점을 고려해 도메인별 사례를 조정했다는 설명이다.
왼쪽부터 김민석 카카오 AI서치에이전트팀 리더(교신저자)와 안애림 AI서치에이전트팀 매니저(제1저자). 사진=이데일리 이영훈 기자 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
카카오의 결론은 ‘모델 경쟁’보다 ‘서비스 경쟁’…남은 과제는 비용·속도
김 리더는 이번 연구가 “논문을 위한 논문”이 아니라 실제 서비스 개발 과정에서 나온 문제의식에서 출발했다고 강조했다. 카카오는 다양한 AI 서비스를 운영하며 범용 LLM 성능 지표와 실제 AI 서비스 품질 사이의 간극을 체감했고, 그 과정에서 서비스 전용 평가 지표의 필요성이 커졌다는 것이다. 오케스트레이션 벤치마크 역시 “복잡한 AI 서비스를 무엇으로 평가할 것인가”라는 실무적 질문의 연장선이라는 설명이다.
그는 또 “모델보다 서비스로 승부한다”는 카카오의 방향성도 분명히 했다. 외부 모델과의 협업 확대가 자체 AI 전략 포기를 뜻하는 것은 아니며, 핵심은 사용자에게 가장 좋은 품질을 가장 합리적인 비용으로 제공하는 데 있다는 것이다. 자체 모델이든 제휴 모델이든 목적에 맞게 선택·조합하고, 최종 판단 기준은 서비스 품질과 사용자 편의가 돼야 한다는 설명이다.
다만 한계도 있다. 안 매니저는 “가상 도구 기반 평가인 만큼 실제 서비스에서 발생하는 네트워크 지연, 외부 시스템 오류, 실패 복구 시나리오 같은 변수는 충분히 반영하지 못했다”며 향후 개선이 필요한 부분이라고 말했다. 김 리더는 “앞으로 품질 중심 평가를 넘어 비용과 속도까지 함께 보는 다축 평가로 확장할 필요가 있다”고 밝혔다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
