ETRI 연구진이 한국어 생성형 언어모델 '이글'에 대해 논의하고 있다. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
한국전자통신연구원(ETRI)이 한국어 중심 신경망 기반 소형 생성형 언어모델을 개발해 오픈소스로 공개했다. 대규모 언어모델을 활용할 수 없는 중소·중견기업에 단비가 될 전망이다.
ETRI는 한국어 기반 30억개 파라미터(3B)급 신경망 기반 소형 생성 언어모델(SLM) '이글'을 개발해 허깅페이스 허브에 공개했다고 28일 밝혔다.
생성형 언어모델은 텍스트 데이터에서 언어능력을 학습, 사용자 질문이나 지시에 따라 다양한 텍스트 콘텐츠를 만들어내는 시스템이다.
글로벌 빅테크 기업들은 과거 100억개 파라미터 규모 이상 중대형 모델 공개에 집중했으나, 최근 10억~40억개 규모 소형 개방형 모델을 공개하고 있다. 그러나 이런 모델은 한국어 어휘를 음절이나 바이트 단위로 처리해, 동일한 문장 표현에 더 많은 연산이 필요하다. 또 학습 데이터 중 한국어가 전체 5%에도 못 미쳐, 한국어 이해·생성 능력이 영어 등에 비해 상대적으로 낮다.
ETRI가 개발한 언어모델은 한국어 데이터 비중이 훨씬 높다. 이로써 연산 횟수를 줄이면서 효율적인 학습·추론이 가능해졌다.
한국어로 주어진 숫자 연산을 수행하는 미세조정 실험에서, ETRI가 지난 4월 공개한 13억 파라미터 모델은 글로벌기업 모델 절반 수준(50%) 규모임에도 특정 작업들에서 약 15% 높은 성능을 기록했다.
또 기존 한국어 중심 모델은 질의응답에 적합하게 조정된 '기정렬 모델'이라는 한계가 있는 반면, ETRI 공개 모델은 미세조정이 적용되지 않은 기초 모델로 제공된다.
새로운 목적의 과업에 추가 학습을 적용할 경우, 응용모델 기대 성능이 더 높다. 학습시간도 약 20% 내외로 단축돼 더 우수한 성능을 발휘한다.
연구진은 이 모델이 연산 비용 부담을 느끼는 중소·중견 기업에 적합하다고 설명했다. 기업 자체 맞춤형 기초 모델을 제작할 수 있는 연장 학습이 용이하다. 또 ETRI는 기존 SLM에서 어려웠던 복합 추론을 수행할 수 있도록 할 계획이다. 70억 개 파라미터 규모 모델도 내년 공개할 예정이다.
권오욱 언어지능연구실장은 “상대적으로 작은 한국어 토종 모델이 필요한 산학연 여러 분야의 연구개발에 큰 도움이 되길 바란다”고 말했다.
김영준 기자 kyj85@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.