LayerNorm 유사성 지표 한계 확인, 공개 검증이 쟁점 정리했다
이번 공방은 국가 예산이 투입되는 ‘독자 파운데이션 모델’의 독자성 검증을 둘러싸고, 국내 AI 생태계가 공개 검증과 논의를 통해 쟁점을 정리해 나갔다는 점에서 의미가 크다.
고석현 대표 글 중 일부. 페이스북 발췌 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
사이오닉AI 고석현 대표는 3일 페이스북을 통해 “Solar 모델 공개 직후 내부 분석 과정에서 특정 모델(GLM)과 일부 구조적·통계적 특성 측면에서 유사하게 해석될 수 있는 정황을 확인했다”고 밝혔다. 다만 그 근거로 제시된 LayerNorm 레이어 값의 코사인 유사도만으로는 “모델 웨이트 공유 여부를 결론내리기 어렵다”는 점을 인정하고, 엄밀한 검증 없이 공개해 “불필요한 혼란과 논란을 야기했다”며 사과했다.
LayerNorm은 딥러닝 모델의 학습을 안정화하는 정규화 기법으로, 각 샘플 내부의 특징값을 기준으로 입력을 정규화해 학습 변동성을 줄이는 데 쓰인다. 고 대표는 “민감한 사안일수록 검증 기준과 절차를 강화하고, 확인된 사실과 해석의 범위를 명확히 구분해 책임 있게 소통하겠다”고 했다.
업스테이지 김성훈(Sung Kim)대표는 약 1시간 만에 “업스테이지를 대표해 사과를 수용하겠다”고 답했다. 김 대표는 “사과는 언제나 어려운 일인데, 용기를 내주셔서 감사하다”면서도, 의혹이 제기된 깃허브(GitHub) 분석 글을 다시 열고 상단에 어떤 실수가 있었는지 간단히 정리해 달라고 요청했다. 향후 AI 업계와 학습자들에게 도움이 될 것이라는 취지다.
사이오닉AI 고석현 대표의 사과를 수용한 업스테이지 김성훈(Sung Kim) 대표. 출처=페이스북 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
앞서 업스테이지는 2일 오후 공개 검증회를 열고 ‘프롬 스크래치(From Scratch)’ 학습을 입증하는 자료로 체크포인트와 학습 로그를 공개했다.
논란의 핵심이었던 LayerNorm 유사성 지표에 대해서도 특정 지표 선택이 통계적 착시를 만들 수 있고, 모델 전체 파라미터 중 극히 일부만으로 결론을 내리기 어렵다는 취지로 반박했다.
토크나이저(사전) 겹침, 아키텍처 참고 여부, 추론 코드 저작권 표기 논란 등도 “오픈소스 관행과 실무적 과정”의 영역과 “모델 가중치”의 본질을 구분해 봐야 한다는 문제의식으로 정리됐다.
이번 사태는 단순한 ‘베끼기’ 공방을 넘어, 국가 단위 프로젝트나 ‘소버린 AI’ 맥락에서 독자 모델을 판단하는 기준을 어디까지 엄밀하게 만들 것인지로 논점을 확장시켰다.
사이오닉AI는 사과문에서 “독자성을 판단하는 기준 또한 기술적·학술적 관점에서 사회적으로 합의 가능한 형태로 정교화될 필요가 있다”고 했고, “핵심 기여(Contribution)가 무엇인지가 명확히 제시되고 검증 가능하게 평가돼야 한다”는 입장도 밝혔다.
이번 공방은 업스테이지가 공개 검증회를 통해 기술적인 사실들을 공개했다는 점에서, 신뢰를 지키기 위해서는 문제 제기 자체보다, 검증 프로세스와 커뮤니케이션 원칙을 함께 세우는 일이 중요하다는 메시지를 남겼다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
