<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털데일리 권하영기자] 생성형 인공지능(AI) 도입을 고민하는 금융사들의 첫 번째 관문은 ‘어떤 AI 모델을 쓸 것인가’다. 끊임 없이 쏟아지는 대규모언어모델(LLM)들 중 금융 서비스에 가장 적합한 모델을 골라내는 것부터가 쉽지 않은 일이기 때문이다.
LG CNS가 최근 개발한 ‘금융 맞춤형 AI 평가도구’는 이러한 금융사들의 페인포인트를 정확히 겨냥한 솔루션이다. 이 평가도구는 LG CNS가 자체 구축한 금융 특화 데이터셋을 기반으로, 현재 공개된 수십개의 개방형 LLM을 분석하고 평가한다. 이를 토대로 뱅킹·보험·증권 등 어떤 금융 서비스든 가장 적합한 AI 모델을 찾아주는 것이다.
일반적으로 허깅페이스 ‘오픈 LLM 리더보드’와 같이 AI 모델의 벤치마크 점수를 공개하는 플랫폼들이 있긴 하지만, 이는 범용적인 성능 지표를 보여줄 뿐 특별히 금융 분야에 최적화된 능력치를 확인해주진 않는다. 그런 점에서 LG CNS가 개발한 이 솔루션은 시중에 공개된 첫 금융 특화 평가도구로서 의의를 가진다고 할 수 있다.
황윤구 팀장은 “금융사들이 생성형 AI에 대한 관심은 많지만, 아직도 온프레미스 환경이 많은 데다 망분리 규제와 보안 이슈로 인해 AI 모델을 활용하기 쉽지 않다”며 “결국 오픈소스 LLM을 파인튜닝(미세조정)해 본인들만의 LLM을 자체 구축해야 하는데, 이 과정에서 금융 특화 평가도구에 대한 니즈가 커지고 있다”고 소개했다.
이에 LG CNS는 총 29개 평가지표와 약 1200개 데이터셋으로 구성된 금융 특화 평가도구를 통해, ▲금융지식 기반의 추론 능력 ▲수학적 추론 능력 ▲복잡한 질문에 대한 이해력 ▲문서요약 능력 ▲금융 용어 이해도 ▲AI에이전트(Agentic Tool) 사용 능력 등을 종합적으로 테스트하고 있다. 평가지표에는 특히 AI가 답변하기 어려워하는 금융 관련 추론 문제들을 적용해 성능 검증의 완성도를 높였다는 설명이다.
물론 이 과정은 결코 쉽지 않았다. 방대한 여러 데이터들 중에서도 금융 분야에 특화된 데이터셋을 확보하는 것 자체가 도전과제였기 때문이다. LG CNS는 금융권 IT 프로젝트를 다수 수행하며 쌓아온 경험치에 더해, 실제 금융 현장의 전문가들과 적극적으로 소통하며 연구한 결과를 이 데이터셋에 녹여냈다.
이민형 선임은 “지금까지 정확히 금융을 타깃으로 한 리더보드가 없었기 때문에 참고할 사례가 많지 않았다”며 “자체적으로 여러 과제를 수행하며 쌓아온 LLM 관련 태스크들을 수집하려 노력했고, 이를 기반으로 금융 전문가들과 함께 실제 현업에서 실효성이 있는지 검증해가며 에셋을 만들었다”고 강조했다.
강민수 선임은 “테스트는 특정 지문을 가지고 질문을 했을 때 AI의 답변을 보는 것인데, 크게 ‘답변 일치도’ ‘내용 일치도’ ‘지시 수행도’를 측정해 최종 평가 점수를 낸다”며 “예를 들어 지문에서 특정 금융 용어를 직접적으로 표현하지 않고 문맥적으로 녹여 설명했을 때 AI가 숨겨진 개념을 이해하고 질문에 대한 답변을 할 수 있는지, 질문과 상관 없는 내용이 지문에 포함돼 있을 때 AI가 알아서 잘 걸러내고 추론하는지 등 상당히 심층적으로 파악하고 있다”고 설명했다.
이러한 금융 맞춤형 AI 평가도구는 상시 업데이트된다. 황 팀장은 “총 29개 평가지표만으로 모든 것에 대응할 수 없을뿐더러 앞으로 기술이나 고객 니즈가 계속 변화해나갈 것인 만큼 지속적으로 업데이트 돼야 의미가 있다”고 언급했다.
LG CNS는 이 평가도구를 통해 금융기업들이 AI를 도입할 때 최적의 LLM 선정부터 커스터마이징, 안정적인 운영까지 금융권에 특화된 생성형 AI 도입 전반 단계에서 차별화된 고객가치를 제공하겠다는 구상이다.
황 팀장은 “최근 딥시크가 화두가 된 것처럼 어떤 LLM이 나왔을 때 객관적인 지표가 나와야 하는데 그 지표가 계속 비어 있는 게 요즘 AI 사업들의 공통점”이라며 “금융사들도 내부적으로 분석은 하겠지만 시간도 오래 걸리고 표준이 없는 상황이기 때문에, LG CNS의 평가도구를 통해 아무에게도 공개되지 않은 데이터셋으로 객관성이 보장되는 평가를 통해 활용 여부를 판단할 수 있을 것”이라 전했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.