“업스테이지 솔라, 중국 지푸 AI에서 파생” 주장 제기
김성훈 업스테이지 대표 “명확한 검증절차 공개, 사실 관계 바로 잡겠다” 반박
김성훈 업스테이지 대표 [권제인 기자/eyre@] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[헤럴드경제=박세정 기자] 정부의 ‘독자 인공지능(AI) 파운데이션 모델’ 프로젝트 ‘정예 5팀’에 선발된 업스테이지가 중국 모델을 표절했다는 주장이 제기됐다.
이에 업스테이지 측은 학습 전 과정을 공개 검증하는 맞불을 놓고 반박, 강경 대응에 나서겠다고 예고했다.
2일 ICT업계에 따르면, AI 스타트업 사이오닉AI의 고석현 최고경영자(CEO)는 링크드인에 “국민의 세금이 투입된 프로젝트에서 중국 모델을 복사하여 미세 조정한 결과물로 추정되는 모델이 제출된 것은 상당히 큰 유감”이라는 글을 올렸다.
그는 업스테이지의 AI ‘솔라-오픈-100B’가 중국 지푸(Zhipu) AI의 ‘GLM-4.5-에어’에서 파생됐을 가능성을 제기했다. 그 근거로 업스테이지가 국대 AI 1차 평가에 제출한 모델과 중국 AI 모델의 성능을 비교 분석한 깃허브 리포트를 함께 공개했다.
고석현 사이오닉 AI CEO가 업스테이지의 AI 모델이 중국 모델을 복사했다는 주장을 제기한 게시글 [링크드인 갈무리] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
해당 자료에는 업스테이지의 ‘솔라 오픈 100B’ 모델의 AI 모델 신경망 중 특정 부분(LayerNorm)이 중국 모델과 96.8% 동일하다고 나와 있다. 그는 독립적인 두 모델이라면 ‘같은 레이어 번호’라고 해서 더 유사할 이유가 없다며 솔라의 레이어가 GLM의 해당 레이어에서 직접 파생됐음을 증명하는 것이라고 주장했다.
이에 김성훈 업스테이지 대표 즉각 반박했다. 그는 페이스북을 통해 “솔라-100B가 중국 모델을 복사해 미세조정을 한 것으로 추정된다는 글에 대해 사실과 다름을 알린다”며 “명확한 검증 절차를 공개해 사실 관계를 바로잡도록 하겠다”고 밝혔다.
그는 “업스테이지는 명백히 ‘프롬 스크래치’로 학습을 했고, 학습에 사용한 체크포인트들과 WandB(실험 로그)를 모두 공개할 예정”이라고 말했다. 프롬 스크래치는 AI 모델을 처음부터 직접 개발한다는 의미다.
의혹이 제기된 후 깃허브에는 ‘솔라 오픈 100B는 GLM-4.5-Air에서 파생되지 않았습니다’라는 제목의 리포트도 올라왔다. 해당 리포트는 ‘이번 사안과 전혀 상관없는 마이크로소프트의 Phi 모델을 가져와서 앞선 리포트와 똑같은 방식으로 비교해 본 결과 Phi도 GLM 모델과 비교하면 90% 이상 비슷하다’며 ‘레이어놈(LayerNorm) 수치가 비슷하다고 해서 베꼈다고 주장하는 것 자체가 잘못된 계산법’이라고 밝혔다.
AI 자료 사진 [게티이미지뱅크] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
‘표절 의혹’에 신중한 접근이 필요하다는 전문가의 의견도 이어졌다.
임성빈 고려대 통계학과 교수는 “두 레이어놈 파라미터의 코사인 유사도(cosine similarity)가 유사하다고 해서 프롬 스크래치 학습이 아니다고 주장하는 것은 통계적으로 다소 무리가 있다”며 “좀 더 신뢰성 있는 검증을 하려면 두 모델 레이어 간 코사인 유사도보다 파라미터의 분산과 절대적인 수치 차이를 봐야한다”고 설명했다.
한편, 독자 AI 파운데이션 모델 프로젝트는 글로벌 AI 모델의 95% 이상의 성능을 가진 ‘독자 AI 모델’ 개발을 목표로 추진하는 국가사업이다. 정부는 지난 12월 30일 1차 발표회를 열고 정예 5팀(업스테이지, 네이버클라우드, SK텔레콤, 엔씨에이아이(NC AI), LG경영개발원 AI연구원)의 AI 기술을 공개했다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
