컨텐츠 바로가기

09.26 (목)

오픈AI, 한국어 포함 14개 언어 AI 평가용 벤치마크 데이터셋 출시

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈AI가 언어 모델의 다국어 추론 능력을 평가하는 벤치마크 데이터셋을 출시했다. 이 데이터셋은 한국어를 포함한 14개 언어로 구축됐다.

벤처비트는 24일(현지시간) 오픈AI가 한국어, 아랍어, 벵골어, 중국어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 포르투갈어, 스페인어, 스와힐리어, 요루바어 등 14개 언어에 걸쳐 언어 모델의 성능을 평가하는 다국어 대형 멀티태스크 언어 이해(MMMLU) 벤치마크 데이터셋을 출시했다고 보도했다.

MMMLU 벤치마크는 수학, 법학, 컴퓨터 과학 등 57개 분야에 걸쳐 영어로만 AI 모델의 지식을 평가하는 기존의 MMLU 벤치마크를 다국어로 확장한 것이다. 현재 다국어 MMLU 벤치마크 데이터셋은 허깅페이스에서 사용할 수 있다.

이 데이터셋은 다양한 언어 환경에서 AI 모델의 성능을 테스트하며, 전 세계 사용자들과 소통할 수 있는 AI 시스템에 대한 필요성을 반영하고 있다는 설명이다. 기업과 정부가 AI 기반 솔루션을 점점 더 많이 채택함에 따라, 다국어로 텍스트를 이해하고 생성할 수 있는 모델에 대한 수요가 더욱 절실해졌다고 전했다.

오픈AI는 MMMLU 데이터셋을 만들기 위해 전문 번역가를 활용, 기계 번역에 의존하는 데이터셋보다 정확도를 높였다. 자동 번역 도구는 특히 훈련 데이터가 부족한 언어에서 미묘한 오류를 자주 유발하기 때문이다.

특히 정확성이 필수적인 산업에서 매우 중요하다고 강조했다. 의료, 법률, 금융과 같은 분야에서는 작은 번역 오류가 심각한 영향을 미칠 수 있다는 지적이다.

또 MMMLU 데이터셋은 기업들이 글로벌 환경에서 자체 AI 시스템을 벤치마킹할 수 있는 기회를 제공한다고 강조했다.

특히 많은 국가와 기업들이 자국어 데이터로 구축한 소버린 AI를 주창하는 시점에서, 여러 언어에서 AI 시스템을 평가하는 벤치마크가 도움외 될 것으로 예측했다.

국내에서 MMLU를 포함한 벤치마크를 통해 '오픈 Ko-LLM 리더보드'를 운영 중인 업스테이지도 환영의 뜻을 밝혔다.

박찬준 업스테이지 선임연구원dms "우선 OpenAI에서 다국어 벤치마크를 직접 공개한 자체가 고무적이고, 유의미한 데이터셋이라는 생각이 든다"라고 말했다.

또 "구축 방식의 경우, 한국어 리더보드에 활용했던 Ko-MMLU와 유사한 것으로 보여진다"라며 "한국어 LLM 평가 관점에서 이렇게 좋은 벤치마크가 공개되는 것은 좋은 일이나, 리더보드 운영 상 데이터를 비공개(private)하는 것이 공정성과 데이터 오염 측면에서 적합하지 않을까라는 생각이 든다"라고 전했다

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.