<이미지를 클릭하시면 크게 보실 수 있습니다> |
6일 업계에 따르면 네이버클라우드 멀티모달 AI 모델 ‘하이퍼클로바X 시드 32B 싱크’의 비전·오디오 인코더 일부가 중국 알리바바 오픈소스 모델 ‘큐웬(Qwen)’ 계열과 높은 코사인 유사도와 피어슨 상관계수를 보였다는 분석 결과가 공개됐다. 코사인 유사도는 데이터 방향성의 유사성을, 피어슨 상관계수는 데이터 분포의 유사성을 나타내는 지표다.
이를 두고 일각에서는 정부의 독자 파운데이션 모델 프로젝트가 지향하는 ‘프롬 스크래치(From Scratch)’ 원칙에 부합하는지에 대한 문제를 제기했다. 해당 프로젝트는 모델을 학습 초기 단계부터 자체 기술로 구축하는 것을 핵심 취지로 내세우고 있어 일부 구성 요소라도 외부 모델을 활용할 경우 기술 자립성 논란이 불가피하다는 지적이다.
이에 대해 네이버클라우드는 파운데이션 모델 범위와 본질에 대한 정의 차이를 강조하며 반박에 나섰다. 네이버클라우드는 “파운데이션 모델은 입력된 정보를 해석하고 추론하며 결과를 만들어내는 핵심 영역으로, 인간으로 치면 사고와 정체성을 담당하는 ‘두뇌’에 해당한다”고 설명했다.
회사 측은 “네이버는 이 핵심 엔진을 프롬 스크래치 단계부터 100% 자체 기술로 개발해 왔으며, 이를 통해 한국어와 한국 사회의 복잡한 맥락을 가장 깊이 이해하는 독자적인 경쟁력을 확보해 왔다”고 밝혔다.
논란이 된 비전·오디오 인코더에 대해서는 역할이 다르다는 입장이다. 네이버클라우드는 “비전 인코더는 시각 정보를 모델이 이해할 수 있는 신호로 변환하는 ‘시신경’ 역할을 하고 있다”며 “네이버는 VUClip 등 독자적인 비전 기술력을 충분히 보유하고 있다”고 설명했다.
이번 모델에서 외부 인코더를 활용한 배경에 대해서는 글로벌 기술 생태계와의 호환성과 전체 시스템의 효율적 최적화를 고려한 전략적 선택이었다고 설명했다. 네이버클라우드는 “이는 기술적 자립도가 부족해서가 아니라, 이미 표준화된 고성능 모듈을 활용해 전체 모델의 완성도와 안정성을 높이기 위한 고도의 엔지니어링 판단”이라고 밝혔다.
네이버클라우드는 이러한 개발 방식이 글로벌 AI 업계에서도 보편적으로 활용되고 있다는 점을 근거로 들었다. 알리바바의 큐웬-오디오는 오픈AI의 음성 인식 기술을, 큐웬-옴니는 구글의 이미지 인식 기술을 기반으로 구축한 사례를 예로 제시했다.
아울러 네이버클라우드는 관련 기술 선택과 라이선스 정보를 허깅페이스와 테크 리포트를 통해 투명하게 공개해 왔다고 강조했다. 네이버클라우드 측은 “모델의 성능을 속이거나 기술적 기여를 과장하려는 의도는 전혀 없으며, 어떤 기술적 경로가 가장 효율적이고 강력한 성능을 낼 수 있는지에 대한 고민의 결과물을 공유하고자 했다”고 밝혔다.
업계에서는 이번 논란이 특정 기업의 기술 선택 문제라기보다 정부 독자 파운데이션 모델 프로젝트에서 ‘프롬 스크래치’ 범위와 평가 기준이 명확히 정의되지 않은 데서 비롯됐다는 분석도 나온다. 앞서 업스테이지 모델을 두고도 가중치 유사성을 근거로 한 의혹이 제기됐지만 공개 검증과 추가 설명을 거치며 논쟁이 정리된 사례가 있다.
네이버클라우드 측은 “앞으로도 기술 개발의 모든 과정에서 투명성을 유지할 것”이라며 “단순히 ‘모든 요소를 직접 만들었는가’라는 프레임을 넘어, ‘어떻게 창의적으로 통합하여 사용자에게 최고의 가치를 줄 것인가’에 집중할 계획”이라고 전했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
