컨텐츠 바로가기

    12.12 (금)

    이슈 애니메이션 월드

    “더 이상 학습할 데이터가 없다”… 박사급 성능 멀어지는 ‘챗GPT’

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    조선비즈

    /연합뉴스

    <이미지를 클릭하시면 크게 보실 수 있습니다>



    생성형 인공지능(AI)의 성능 향상이 둔화 국면에 접어들고 있다는 분석이 잇따르고 있다. 챗GPT를 비롯한 대규모언어모델(LLM)이 인간이 만든 공개 데이터를 사실상 모두 학습해, 더 이상 새로운 지식을 흡수하거나 확장하기 어려운 기술적 한계에 도달했기 때문이다.

    4일 업계에 따르면 글로벌 AI 기업들이 경쟁적으로 모델 고도화를 이어가고 있지만, 학습 데이터 확보에 어려움을 겪는 현실적인 문제에 직면하고 있다. 이미 공개된 인터넷 텍스트는 대부분 학습에 활용되었으므로, 추가 확장을 위한 고품질 데이터를 새로 확보하는 것이 쉽지 않다. 이처럼 학습 수요 대비 데이터 공급이 부족해지면서, AI 업계 전반이 ‘데이터 포화’ 국면에 들어섰다는 평가가 나온다.

    비영리 연구단체 에포크AI(Epoch AI) 소속 파블로 빌라로보스 연구원 등 스페인·미국 연구진이 발표한 논문 개정판에 따르면 “2026~2032년 사이 인간이 생성한 텍스트 데이터는 사실상 포화 상태에 이를 것”이라고 했다. 연구진은 “이후에는 AI가 만든 ‘합성 데이터’에 의존할 가능성이 높다”며 “대규모언어모델의 학습 추세가 이어질 경우 인간 작성 데이터의 총량과 학습 수요가 곧 일치해 더 이상 확장 여력이 없어질 것”이라고 전망했다.

    앞서 일론 머스크 테슬라 최고경영자(CEO)도 지난 1월 “AI가 학습 가능한 인간 지식의 총량을 이미 소진했다”며 “이제는 AI가 스스로 만든 데이터를 다시 학습하는 단계로 넘어가고 있다”고 지적했다. 그러면서 “이 과정이 반복되면 모델의 품질이 점점 떨어지는 ‘모델 붕괴’ 현상이 나타날 수 있다”고 했다.

    전문가들은 이 같은 데이터 고갈이 단순한 양적 한계를 넘어 AI 품질 저하와 정보 왜곡으로 이어질 수 있다고 본다. 이미 생성된 콘텐츠를 다시 학습에 사용하면 정보의 다양성과 창의성이 감소하고, 결국 모델이 점점 비슷한 답변만 내놓게 된다는 것이다. AI가 스스로 만든 데이터를 반복적으로 학습하는 ‘자기 학습 루프’ 구조에 빠지면 오답이 누적되고 오류가 증폭될 수 있다는 경고다.

    실제로 AI 신뢰성 저하를 입증한 연구 결과도 나왔다. BBC와 유럽방송연합(EBU)이 공동 수행한 대규모 국제 조사에서 챗GPT를 비롯한 주요 AI 도우미의 응답 절반 가까이가 오류를 포함한 것으로 드러났다. 지난달 발표된 EBU 보고서에 따르면 챗GPT·제미나이·코파일럿·퍼플렉시티 등 주요 AI 서비스로 생성한 답변의 45%에서 중대한 오류가 발견됐다. 정확성 결함이 20%, 출처 오류가 31%에 달했고 일부 응답은 오래된 정보를 사실처럼 인용했다. 특히 제미나이의 오류율은 76%로 가장 높았다.

    조선비즈

    샘 올트먼 오픈AI CEO는 1일(현지시각) 아기를 안고 있는 자신의 지브리 스타일 변환 이미지를 X에 게재했다. (X 갈무리)



    여기에 데이터 수집 과정에서의 저작권 침해 논란도 지속되고 있다. 3일(현지시각) IT매체 테크크런치에 따르면, 일본 콘텐츠해외유통협회(CODA)는 최근 오픈AI에 공식 서한을 보내 “스튜디오 지브리 등 회원사의 저작물을 허가 없이 학습에 사용하지 말라”고 요구했다. 챗GPT의 이미지 생성 기능이 ‘지브리풍 셀피’ 열풍을 일으킨 데 이어 샘 올트먼 오픈AI 최고경영자(CEO)까지 지브리 스타일 프로필을 사용하면서 논란이 확산됐다. CODA는 “기계학습 과정에서 저작물을 복제하는 행위 자체가 저작권 침해에 해당할 수 있다”며 “미국의 ‘공정 이용’ 원칙과 달리 일본 법 체계에서는 명백한 위법 소지가 있다”고 밝혔다.

    AI 감시 단체 ‘AI 디스클로저 프로젝트’가 지난 4월 공개한 보고서에서도 오픈AI GPT-4o 모델이 유료 데이터북(오라일리 미디어)의 비공개 콘텐츠를 학습한 흔적을 발견했다고 밝혔다. 연구진은 “GPT-4o가 저작권이 있는 데이터셋을 식별해 응답하는 수준이 82%에 달했다”며 “비인가 학습 가능성을 강하게 시사한다”고 분석했다.

    최병호 고려대 인공지능연구소 교수는 “AI의 데이터 고갈은 이미 상당 부분 진행된 상태다. 빅테크들이 한국에 와서 통신·포털·메신저 같은 B2B(기업대기업) 데이터를 확보하려는 이유도 학습 가능한 오픈 데이터는 대부분 소진됐기 때문”이라며 “남은 건 저작권이 걸린 텍스트나 엔터프라이즈, 공공 데이터처럼 품질이 높은 비공개 데이터인데 이를 확보하지 못하면 모델 고도화에 한계가 생긴다”고 말했다.

    그는 이어 “기계가 만든 데이터에는 인간처럼 고유한 다양성이 없기 때문에 그 데이터를 계속 학습하면 모델이 점점 비슷한 패턴의 답변만 반복하게 된다”며 “이게 바로 AI가 스스로 만든 데이터를 먹는 ‘자기 학습 루프’ 문제로 성능 저하와 오류 누적의 원인이 된다”고 덧붙였다.

    이경탁 기자(kt87@chosunbiz.com)

    <저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.