GPT-4o, 이전 모델보다 유료 도서 인식률 높아
저작권 침해 소송 중인 오픈AI에 또 다른 악재
저작권 침해 소송 중인 오픈AI에 또 다른 악재
챗GPT로 그린 미허가 유료도서 학습하는 AI 모습 |
오픈AI가 미허가된 유료 도서 콘텐츠를 인공지능 학습에 활용했다는 주장이 제기됐다.
1일 테크크런치에 따르면 미디어 경영자 팀 오라일리와 경제학자 일란 스트라우스가 공동 설립한 비영리 단체 ‘AI 디스클로저 프로젝트는 최근 보고서를 통해, 오픈AI의 최신 모델 GPT-4o가 오라일리 미디어의 유료 도서 콘텐츠를 사전 학습한 정황이 있다고 밝혔다.
보고서에 따르면 연구진은 GPT-4o를 포함한 여러 오픈AI 모델에 대해 총 34권의 오라일리 미디어 출판 도서에서 발췌한 1만 3962개의 문단을 활용해 실험을 진행했다.
그 결과, GPT-4o는 오픈AI의 이전 모델인 GPT-3.5 터보에 비해 비공개 오라일리 도서 콘텐츠를 훨씬 더 잘 ‘인식’하는 것으로 나타났다. 연구진은 GPT-4o가 훈련 과정에서 이러한 도서를 학습했을 가능성이 크다고 분석했다.
보고서는 다만, GPT-4o가 해당 도서를 학습했음을 완전히 단정 지을 수는 없다고 선을 그었다. 예컨대, 이용자가 유료 콘텐츠를 복사해 챗GPT에 입력했을 가능성 등 다른 요인들도 존재할 수 있다는 설명이다. 이번 연구는 오픈AI의 최신 모델인 GPT-4.5 및 ‘추론형(reasoning)’ 모델인 o3-mini, o1 등은 포함하지 않았기 때문에, 해당 모델들도 같은 데이터를 학습했는지는 확인되지 않았다.
오픈AI는 이미 여러 건의 저작권 관련 소송에 휘말려 있으며, 학습 데이터로 저작권 보호 자료를 활용하는 방식에 대한 비판이 꾸준히 제기돼 왔다. 이에 따라 오픈AI는 일부 콘텐츠 제작자와 뉴스 미디어와의 유료 라이선스 계약을 체결하고, 자사 모델 학습에서 제외를 요청할 수 있는 ‘옵트아웃’ 절차도 마련했지만, 이는 아직 완벽한 시스템은 아닌 것으로 평가된다. 테크크런치는 오픈AI가 이번 보고서와 관련한 언론의 질의에 답변하지 않았다고 밝혔다.
오픈AI, 미허가 유료 도서로 AI 학습 의혹 |
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.