컨텐츠 바로가기

10.12 (토)

오픈AI, ML 엔지니어링 역량 벤치마크 공개..."o1, 인간 데이터 과학자에 못 미쳐"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈AI가 인공지능(AI) 에이전트의 머신러닝(ML) 엔지니어링 수행 능력을 측정하기 위한 새로운 벤치마크를 공개했다. 이를 통해 테스트한 결과, 가장 진보한 모델 'o1'도 인간 데이터 과학자 수준에는 못 미치는 것으로 나타났다.

벤처비트는 10일(현지시간) 오픈AI가 복잡한 ML 엔지니어링 분야에서 AI 에이전트가 계획 및 문제 해결을 수행할 수 있는지 평가하는 벤치마크 'MLE-벤치(MLE-bench)'에 관한 논문을 아카이브에 게재했다고 보도했다.

ML 엔지니어링은 AI가 데이터로부터 학습할 수 있도록 시스템을 설계하고 최적화하는 것을 포함한다. MLE-벤치는 데이터 준비, 모델 선택, 성능 조정 등 다양한 측면에서 AI 에이전트를 평가한다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


케글(Kaggle)에서 75개의 ML 엔지니어링 관련 대회를 선별해 모델 훈련, 데이터셋 준비, 실험 실행 등 실제 ML 엔지니어링 기술을 테스트하는 다양한 도전 과제를 포함한다. 케글의 리더보드를 사용, 각 대회에 대한 인간 기준선을 설정했다. 케글은 전 세계 데이터 과학자들이 데이터를 분석할 수 있도록 대회를 개최하고, 분석 내용을 토론할 수 있는 커뮤니티를 제공하는 플랫폼이다.

AI 에이전트는 인간 데이터 과학자의 작업 흐름을 모방, AI가 모델 훈련부터 출력 생성까지 복잡한 ML 작업을 수행한다. 그다음 에이전트의 성능을 인간 기준선과 비교해 평가했다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈 소스 AI 기반 데이터 과학 에이전트를 사용해 여러 최첨단 언어 모델을 평가한 결과, 오픈AI의 'o1-프리뷰'와와 데이터 과학 에이전트 '에이드(AIDE)'가 가장 좋은 성능으로 16.9%의 대회에서 케글 동메달 수준에 도달했다.

오픈AI는 "이 성과는 AI가 인간 데이터 과학자에 못 미치지만, 일부의 경우 AI가 숙련된 인간 데이터 과학자와 비교할 수 있는 수준에서 경쟁할 수 있음을 시사한다:라고 설명했다.

특히 AI 모델은 적응력이나 창의적인 문제 해결을 요구하는 작업에서는 어려움을 겪은 것으로 밝혀졌다. 이런 한계는 데이터 과학 분야에서 인간 통찰력의 중요성과 인간-AI 협업의 필요성을 강조한다고 전했다.

현재 ML-벤치 코드는 깃허브에서 오픈 소스로 제공된다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.