김성훈 업스테이지 대표가 지난달 30일 서울 강남구 코엑스에서 열린 '독자 AI 파운데이션 모델' 1차 성과 발표회에 참석했다./뉴스1 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
인공지능(AI) 스타트업 업스테이지가 지난달 30일 과학기술정보통신부가 주최한 ‘국가대표 AI 모델 프로젝트 1차 발표회’에서 공개한 ‘솔라 오픈 100B’ 모델이 중국 모델을 베꼈다는 의혹이 제기됐습니다. 이에 업스테이지는 지난 2일 오후 공개 검증회를 통해 직접 해명에 나섰습니다.
업스테이지는 그동안 국가대표 AI 모델 선발전에 참여하는 5개 정예팀 중 유일한 스타트업 컨소시엄으로 주목을 받았습니다. 국가대표 AI 모델 프로젝트는 그래픽처리장치(GPU)와 데이터 등 자원을 집중 지원하는 이재명 정부의 핵심 사업입니다. 업스테이지를 제외한 4개 정예팀은 네이버클라우드, NC AI, SK텔레콤, LG AI연구원 등 대기업이 주도하고 있습니다. 이 때문에 스타트업 연합군인 업스테이지 컨소시엄이 어떤 성과를 보일지 관심이 모아졌습니다. 과기정통부는 1차 평가를 통해 이달 중 1개 팀을 탈락시키고, 이후 6개월마다 평가를 거쳐 2027년 최종 1~2개 팀을 국가대표 AI 모델로 선정할 계획입니다.
AI 스타트업 사이오닉 AI의 고석현 CEO가 업스테이지의 AI 모델이 중국 모델과 유사하다고 올린 페이스북 게시글./페이스북 캡쳐 |
◇ 솔라 오픈 100B 모델, 中 AI 모델 유사 의혹
업스테이지의 중국 모델 베끼기 논란은 AI 스타트업 사이오닉AI의 고석현 최고경영자(CEO)의 지적이 발단이 됐습니다. 고 CEO는 지난 1일 자신의 페이스북에 “국민 세금이 투입된 프로젝트에 중국 모델을 복사해 미세 조정한 결과물로 추정되는 모델이 제출된 것은 상당히 큰 유감”이라고 적었습니다. 그는 게시글과 함께 업스테이지가 1차 발표회에 제출한 ‘솔라 오픈 100B’ 모델과 중국 AI 모델(GLM 4.5 에어) 성능을 비교 분석한 깃허브 리포트를 첨부했습니다.
깃허브 리포트는 업스테이지 AI 모델의 신경망 중 레이어놈(LayerNorm) 부분이 중국 모델과 96.8% 동일하다고 했습니다. 또한 리포트에는 ‘MoE’ 구조도 동일하다고 나왔는데, 이는 업스테이지 AI 모델 설계도가 사실상 중국 모델과 같다는 이야기입니다. 리포트에는 “이 ‘선택적 보존’이 파생의 결정적 증거”라고 쓰여 있습니다.
이민석 국민대 소프트웨어학부 교수는 “업스테이지 모델이 프롬 스크래치 학습을 한 것으로 보인다”며 “업스테이지와 중국 모델의 유사성을 주장하며 근거로 내세운 코사인 유사도 대상이 파라미터가 아닌 파라미터를 조정하기 위한 레이어놈인데, 해당 방식으로 프롬 스크래치를 검사하는 것은 틀렸다”고 말했습니다. 프롬 스크래치는 AI 모델을 처음부터 직접 개발한다는 의미입니다. 이 교수는 AI 모델을 만드는 것은 쉽게 말해 아키텍처(구조)를 설계하고 이를 학습시켜 파라미터(매개변수)를 채우는 방식인데, 아키텍처는 대부분 비슷하다고 설명했습니다.
김성훈 업스테이지 대표가 공개 검증회를 열겠다고 알린 게시물./페이스북 캡쳐 |
◇ 업스테이지, 검증회 열고 “우리만의 방식으로 구워낸 모델” 반박
고 CEO의 지적에 김성훈 업스테이지 대표는 “솔라 모델에 대한 관심에 감사드린다”면서 “(2일) 사무실에서 대표님과 업계 전문가들을 초청해 전체 학습 과정을 설명드리고 말씀하신 의혹에 대해 상세히 설명드리며 프롬 스크래치(From Scratch) 모델로 만들었다는 것을 보여드리도록 하겠다”고 답변했습니다.
고 CEO는 지난 2일 공개 검증회에 앞서 “솔라 (오픈 100B) 일부 코드에서 (GLM 4.5 에어를 만든) 중국 지푸AI 저작권을 명시하고 있다”며 “내부 분석 및 다른 분들의 분석 글도 종합해보면, 이번 솔라 모델이 GLM 모델의 학습 코드 대부분을 그대로 가져와서 사용한 것은 사실로 판단된다”고 했습니다.
AI 모델을 개발하는 데 오픈소스(공개된 정보)를 활용하는 것은 전혀 문제가 되지 않습니다. 하지만 전문가들은 국민 세금으로 국가대표 AI 모델을 개발할 때는 상황이 다르기에 검증이 필요하다고 말합니다. 이경전 경희대 경영대학·빅데이터응용학과 교수는 “업스테이지가 국민이 보고 있는 상황에서 기준에 안 맞는 일을 했을 가능성은 낮지만, 논란을 명확히 해결하기 위해 검증은 필요하다”고 했습니다.
김성훈 대표는 지난 2일 서울 강남역 인근에서 열린 공개 검증회에서 “프롬 스크래치 여부를 가르는 결정적인 잣대는 모델의 가중치가 랜덤하게 초기화된 상태에서 학습을 시작했느냐인데, 솔라는 처음부터 우리만의 방식으로 구워낸 모델”이라고 했습니다. 다만, 중국 모델(지푸AI) 저작권 병기에 대해서는 실무적인 실수라면서 사안의 본질과 무관하다고 이야기했습니다.
◇ “혁신은 투명하고 치열한 검증 속에서 단단해져”
진실이 뭐가 됐든 업스테이지 입장에서는 이번 의혹이 부담이 될 전망입니다. 김 대표는 공개 검증회에서 “(베끼기 논란) 이슈를 해결하지 못했을 때 정부 심사에 상당한 영향을 끼칠 수 있으니 공개 사과를 해주시기를 부탁드린다”고 말했습니다.
이에 고 CEO는 지난 3일 페이스북에 “(업스테이지의 솔라) 모델 공개 직후, 저희는 내부적으로 모델 분석을 진행하는 과정에서 당시 참조 문헌에 대한 연결 고리가 명확하지 않았던 특정 모델(GLM)과 일부 구조적 및 통계적 특성 측면에서 유사하게 해석될 수 있는 정황을 확인했고, 해당 모델이 국가적 차원에서 논의되는 사안인 만큼 추가 검증과 교차 검증을 진행하는 것에 앞서 관련 내용을 신속히 공론화하는 것이 바람직하다고 판단했다”며 “레이어놈 값의 유사도만으로 결론을 내리기 어려워 엄밀하게 검증하지 않은 채 공개함으로써 불필요한 혼란과 논란을 야기한 점 진심으로 사과드린다”고 했습니다. 다만, 고 CEO는 사과문에서 업스테이지의 모델이 중국 모델과 다르다는 점은 명백히 하지 않았습니다.
배경훈 부총리 겸 과학기술정보통신부 장관은 이번 논란에 대해 “혁신은 투명하고 치열한 검증 속에서 단단해진다”면서 ”성장통 없는 혁신은 없으며, 지금의 논쟁은 대한민국 AI가 더 높이 도약하기 위해 거쳐야 할 필수적인 과정”이라고 했습니다.
안상희 기자(hug@chosunbiz.com)
<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
