LG AI연구원, 세계 최고 NLP 학회서 최고논문상 수상

더팩트 원문
입력

2025.04.30 10:15

주소복사가 완료되었습니다

"생성형 AI 평가 새 기준 제시"

LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 '최고논문상'을 수상했다고 30일 밝혔다. 김승원 카네기멜론대 박사과정 연구생, 이문태 LG AI연구원 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 KAIST 교수. /LG

[더팩트ㅣ황지향 기자] LG는 LG AI연구원이 자연어 처리(NLP) 분야 최고 권위 학회 중 하나인 미국 전산언어학회(NAACL) 2025에서 '최고논문상'을 수상했다고 30일 밝혔다.

NAACL은 AI NLP 분야 학회다. 올해 NAACL에는 1400편 이상의 논문이 채택됐다.

논문은 저자인 김승원 카네기멜론대 박사과정 연구생이 LG AI연구원 초지능랩 인턴 과정 중 이문태 초지능랩장, 이경재 데이터 스쿼드 리더, 서민준 카이스트 교수 등과 함께 생성형 AI 모델 성능을 평가하는 '빅젠 벤치'를 개발했다.

빅젠 벤치는 생성형 AI 모델이 갖춰야 할 핵심 역량을 9개 항목, 77개 세부 역할, 총 765개 지표로 정량화해 평가하는 새로운 기준이다. 지시 수행, 추론 능력, 도구 사용, 안전성, 문화적 이해 등 실제 사용 환경에서 요구되는 다면적 능력을 평가할 수 있도록 설계됐다.

빅젠(BIGGEN) 벤치마크는 생성형 AI 모델이 갖추어야 할 9가지 핵심 역량을 기준으로 77개의 세부 역할 수행 능력을 객관적이고 종합적으로 평가하도록 설계됐다. /LG

<이미지를 클릭하시면 크게 보실 수 있습니다>

이문태 초지능랩장은"빅젠 벤치는 생성형 AI의 다양한 능력을 객관적이고 종합적으로 평가할 수 있도록 설계됐으며, 기존 벤치마크들의 한계를 극복하고 인간의 정교한 평가기준에 부합하여 AI 모델의 능력을 파악할 수 있다는 장점이 있다"고 말했다.

서민준 교수는 "빅젠 벤치는 생성형 AI 모델을 평가할 때 사람들이 실제로 사용할 때 느끼는 실용성을 지표화 할 수 있다는 점이 가장 큰 장점"이라며 "빅젠 벤치에서 좋은 결과를 얻는다는 것은 실제로 사용할 때 만족스러운 성능을 보이는 생성형 AI 모델이라는 의미"이라고 설명했다.

LG AI연구원은 평가자 역할을 수행하는 AI 모델'‘프로메테우스-2'도 오픈소스로 공개했다. 이 모델은 GPT-4에 버금가는 성능으로 평가 신뢰도를 입증했다. 연구진은 빅젠 벤치를 기반으로 생성형 AI 개발 전반에서 항목별 자동 평가가 가능한 시스템 연구도 병행 중이다.

hyang@tf.co.kr

발로 뛰는 더팩트는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

01.04 (일)

LG AI연구원, 세계 최고 NLP 학회서 최고논문상 수상

더팩트 주요 뉴스