<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 생성형 인공지능(AI)이 학습한 소설을 거의 그대로 재현할 수 있다는 연구 결과가 나왔다.
23일(현지시간) IT매체 아스테크니카에 따르면, 오픈AI·구글·메타·앤트로픽·xAI의 AI 모델이 훈련 데이터에 포함된 원문을 암기한 정황이 확인되면서 저작권 침해 논란이 재점화됐다.
미국 스탠퍼드·예일대 연구진은 AI 모델을 활용해 왕좌의 게임, 헝거게임, 호빗 등 13권의 책에서 수천 단어를 정확히 재생산했다. 특히, 제미나이(Gemini) 2.5는 해리포터와 마법사의 돌을 76.8% 정확도로 복제했고, 그록(Grok) 3는 70.3%를 재현했다. 클로드(Claude
) 3.7 소네트를 '탈옥'(jailbreak) 기법을 적용하자 원문에 가까운 텍스트를 생성했다
그동안 AI 업계는 모델이 데이터를 '기억'하는 것이 아니라 '패턴을 학습'한다고 주장해왔다. 실제로 구글은 2023년 미국 저작권청에 제출한 서한에서 "모델 내부에 원본 텍스트나 이미지가 저장돼 있지 않다"라고 밝히며, 저작권 있는 자료의 학습이 공정 이용에 해당한다고 주장했다.
연구진은 안전장치를 강화한 폐쇄형 모델에서는 대규모 암기가 발생하지 않을 것으로 예상했지만, 일부 모델이 상당한 분량의 텍스트를 그대로 재현한 점에 주목했다. 대규모언어모델(LLM)이 특정 내용을 왜 암기하는지, 또 학습 데이터가 실제 출력에 얼마나 반영되는지는 아직 명확히 규명되지 않았다.
전문가들은 이러한 현상이 의료·교육 등 민감한 정보가 포함된 분야로 확산될 경우, 개인정보 유출과 기밀 침해로 이어질 수 있다고 경고한다. 법조계에서는 AI 기업이 저작권 침해 책임을 질 가능성도 커지고 있다고 본다. 실제로 독일 법원은 지난해 AI 모델이 노래 가사를 암기한 사례에서 오픈AI의 저작권 침해를 인정했다.
이에 대해 앤트로픽은 연구에 사용된 탈옥 방식이 일반 사용자가 적용하기 어렵고, 원문을 구매하는 것보다 더 많은 노력이 필요하다고 반박했다. 또한 자사 모델은 데이터를 저장하는 것이 아니라 단어와 문자열 간의 관계를 학습할 뿐이라고 주장했다.
AI 기업들은 여전히 데이터 저장이 아닌 패턴 학습이라고 주장하지만, 법적·윤리적 책임 논란은 더욱 거세질 전망이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
