컨텐츠 바로가기

SNS에 넘쳐나는 지브리풍 그림…AI 붕괴 시나리오의 첫 번째 징조? [스프]

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

[오그랲]

<이미지를 클릭하시면 크게 보실 수 있습니다>



<이미지를 클릭하시면 크게 보실 수 있습니다>





세상 복잡한 이야기들, 5가지 그래프로 명쾌하게 풀어내는 오그랲입니다.


독자 여러분 안녕하세요. 5가지 그래프로 설명하는 오그랲, 오늘 다뤄볼 주제는 인터넷을 가득 채우고 있는 AI 생성물입니다.

이미 많은 분들이 온라인상에서 AI가 만들어낸 그림이나 영상들을 보셨을 거예요. 예전보다 AI 모델의 편의성도 크게 올라서 직접 만들어 보신 분들도 많으실 것 같습니다. 그런데 이렇게 넘쳐나는 AI 생성물들 많아도 너무 많아서 한 편으로는 우려스럽기도 합니다. 어떤 게 AI가 만든 합성 데이터이고, 어떤 게 인간이 만든 데이터인지 구별이 되지 않는 상황이 이어져도 괜찮은지 걱정도 되고요.

오늘 준비한 오그랲을 통해 AI 생성물의 우려 지점을 살펴보도록 하겠습니다.


어딜 가도 AI가 보여요
인스타그램을 보아도, 페이스북을 보아도, 유튜브를 보아도, AI로 만들어진 이미지들과 영상들이 곳곳에 존재합니다. 특히 2022년에 스테이블 디퓨전이 오픈소스로 출시되면서 AI가 만든 이미지는 쏟아져 나왔죠. 오그랲 첫 번째 그래프로 봐 보겠습니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


IT 전문업체 EveryPixel에서 사용자수, 초당 작업 횟수 등을 고려해서 추정한 AI가 생성한 이미지는 모두 154억 7,000만 개였어요. 2022년부터 2023년까지 딱 2년만 계산한 건데 이 정도 수치가 나온 겁니다. 대부분의 생성 이미지는 오픈 소스인 스테이블 디퓨전을 기반으로 만들어졌고 미드저니나 DALL-E 2, 어도비를 통해서도 10억 개가량의 이미지들이 만들어졌습니다. 지난 2년간 하루 평균 3,400만 개의 이미지가 만들어진 셈입니다.

최근 업데이트된 오픈AI의 이미지 생성 모델 성능이 상상을 초월하면서 인터넷 커뮤니티 곳곳에서는 합성된 결과물들이 쏟아지고 있더라고요. 백악관 공식 계정에서도 사용한 것처럼 보여요. 이렇게 입력 이미지를 넣고, 따뜻한 색감과 자연광 느낌을 가진 일본풍의 장면으로 바꿔달라고 하면 이렇게 순식간에 결과물을 뱉어냅니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


사용자 입장에선 손쉽게 그림을 만들어 낼 수 있게 되지만, 이렇게 만들어진 결과물의 저작권은 어떻게 되는 건지 생각해 보면 골치 아파집니다. AI 생성물의 저작권 이슈는 할 이야기가 많으니 나중에 따로 다뤄보도록 하고요, 오늘은 AI 생성물 자체에 조금 더 집중해 보도록 하겠습니다.

이렇게 AI가 만들어낸 이미지들은 이렇게 유쾌하고 놀랍기 하지만, 한편으로는 불쾌한 이미지들이 인터넷을 가득 메우고 있기도 합니다. 그래서 AI 슬롭이라는 새로운 단어가 등장하기도 했죠. 슬롭이라는 단어는 원래 음식물 찌꺼기, 오물이라는 뜻을 갖고 있어요. 생성형 AI가 유행하면서 AI가 만들어낸 쓸모없는 콘텐츠들을 두고 AI 슬롭이라는 이름이 붙었습니다. 인터넷과 이메일 시장이 크게 커질 때 가공육햄 ‘스팸’이 광고 메일로 새롭게 자리 잡았듯이 슬롭도 AI 시대의 새로운 키워드로 떠오를 것이라는 전망도 나오고 있습니다.

그래도 다행인 건 예전보다는 퀄리티가 높아지면서 요상하고 불쾌한 콘텐츠들의 노출이 덜해졌다는 거겠죠. 하지만 그러다 보니 AI가 만든 것과 사람이 만든 걸 구별해 내기 어려워졌다는 문제도 있습니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


두 이미지 가운데 어떤 것이 AI가 만든 이미지일까요? 쉽지 않죠? 정답은 왼쪽입니다.

이렇게 구별하기 어려운 이미지들을 포함해서 AI가 만든 생성물들은 점점 더 웹에 스며들고 있습니다. 가령 핀터레스트에 이미지를 검색해 보면 AI가 만든 이미지들이 상당히 많이 나옵니다. 이게 이용자 입장에서는 짜증이 날 수밖에 없어요. 좋은 결과물을 보고 영감을 받고 싶은데 검색 상위는 AI가 만든 것들이 가득 채우고 있거든요.

여러 커뮤니티에는 이런 서비스들에 AI 이미지가 너무 많아져서 사용하기 불편해졌다는 내용의 글들이 다수 올라올 정도 피로감은 상당한 상황입니다.

물론 이 시장에 침투해서 돈을 버는 사람들도 생겨 났습니다. AI를 이용해 순식간에 사진과 영상을 찍어내고, 이것들을 여러 플랫폼에 더 많이 노출시키면서 광고비를 타 먹는 거죠. 아마 여러분들도 한 번쯤 AI가 만든 가짜 웹사이트 눌러본 적 있을 거예요.

'enshittification'

지난 해 호주의 맥쿼리 사전에서 올해의 단어로 뽑힌 단어입니다. 여기에 Shit은 똥이고요. 번역하자면 똥망화, 쓰레기화, 엿같아짐, 이렇게 표현할 수 있을 겁니다. 지금 사용하는 수많은 웹 서비스들, 과거보다 더 나아진다는 느낌 받는 분들은 아마 거의 없을 겁니다. SNS에 가득 차있는, 쓸모없는 글들과 검색에 걸리는 수많은 광고글들을 보면서 처음 서비스가 나왔을 때는 안 이랬는데… 싶죠. 과거에 비해 점점 서비스 품질이 안 좋아지는, 말 그대로 똥망하고 있는 상황에 불을 붙이고 있는 게 생성형 AI인 겁니다.

다만 빅테크들은 지금 상황을 그렇게 심각하게 보고 있진 않은 듯해요. 모델의 질이 좋아진다면 AI 생성물도 나쁘지 않을 것이고, 이들을 굳이 막을 필요는 없는 거니까요. AI로 만들어진 게시물들이 더 많이 올라오고 그로 인해 트래픽이 발생하는 게 나쁘지 않죠. 특히 메타는 AI가 만든 생성물들을 더 많이 껴안을 생각인 것 같더라고요. 메타의 3분기 컨퍼런스 콜에서 저커버그는 앞으로 인스타그램과 페이스북 피드에 AI 생성 콘텐츠들이 더 많이 채워질 것이라 얘기했어요.


온갖 데이터를 긁어모으는 AI
이렇게 수많은 생성물들을 만들어 낼 수 있었던 이유는 AI 모델들의 성능이 크게 좋아졌기 때문입니다. 그리고 이 성능 향상의 일등공신은 데이터들이죠. 능력 좋은 모델을 만드는 데 필요한 건 양질의 많은 데이터입니다. 그래서 인터넷에 있는 정보를 자동으로 긁어오는 AI 봇들의 활동이 크게 늘었어요. 우리가 이용하는 인터넷에는 사람들만 존재하지 않습니다. 다양한 기업들이 만든 수많은 자동화된 봇들이 돌아다니고 있죠.

한 번 데이터로 살펴보겠습니다. 오그랲 두 번째 그래프는 인터넷을 장악한 AI봇입니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


미국의 종합 IT 기업인 클라우드플레어가 발표한 자료인데요, 전 세계에서 활동 중인 AI봇들의 트래픽 현황입니다. AI봇 가운데 가장 트래픽을 많이 먹은 건 '바이트 스파이더'라는 녀석입니다. 2024년 AI 봇 트래픽의 38.6%를 차지했죠. 오픈AI나 앤트로픽, Meta 같은 기업들의 AI봇은 이 ByteSpider에 미치질 못했습니다.

이 AI봇, 어디 걸까요? 이름에서 알 수 있듯 틱톡의 자회사인 바이트댄스의 AI봇입니다. 바이트 스파이더는 바이트댄스의 LLM을 학습시킬 데이터를 수집하는 데 활용되는 것으로 알려져 있습니다.

물론 여기 트래픽 그래프에 잡힌 AI 봇들이 크롤링만 하는 건 아닙니다. AI 모델이 답변을 하면서 필요한 정보를 검색할 때 사용하는 봇도 포함되어 있죠. 하지만 절대다수가 AI 크롤러 역할을 하고 있습니다.

문제는 이 녀석들의 활동량이 너무나도 많다는 겁니다. 얼마나 많냐면, 인터넷 사이트가 마비될 정도로 많습니다. 2D 이미지를 만드는 어느 업체의 사이트가 갑자기 다운되는 일이 발생합니다. 회사에선 DDoS 공격인가 싶어서 분석해 보니 아니었어요. 알고 보니 오픈AI의 크롤링 봇이 이 사이트의 데이터를 긁어가느라 생긴 일이었죠.

사실 AI 봇의 과한 행동으로 피해를 봤다는 이야기는 지난해 매우 자주 들려왔어요. AI봇이 하루에만 10TB 규모의 데이터를 빼 갔다는 사례도 있었죠. 웹사이트를 운영하는 기업, 혹은 유저들은 피해를 막기 위해 크롤링 차단 조치를 취했지만 이를 어기고 데이터를 긁어가는 AI 봇들도 많이 보고되었죠.


위키를 학습한 AI, AI가 만든 글이 채워진 위키
수단과 방법을 가리지 않고 인터넷에 있는 데이터를 모으고 있는 기업들 입장에서 위키피디아 데이터는 가뭄의 단비일 겁니다. 현재 언어모델이 주를 이루는 생성형 AI 모델 시장에서 위키피디아의 텍스트 자료는 모두에게 열려있고, 또 많은 사람들이 상호 검증을 한 자료다 보니 일반 자료보다 양질의 콘텐츠라고 할 수 있으니까요. 실제로 많은 모델들은 위키피디아를 학습 데이터로 활용했다고 공식적으로 밝히고 있습니다. AI 모멘텀을 만들었던 오픈AI의 ‘GPT-3’ 논문에서도 훈련 데이터셋 5가지 중 하나로 당당히 들어가 있죠.

그런데 최근 자료들을 살펴보면 위키피디아를 통해 학습한 AI들의 생성물들이 다시 위키피디아로 흘러간다는 정황이 포착되고 있어요. 프린스턴 대학교의 연구진이 2024년 8월 한 달 동안 만들어진 영문 위키피디아 문서 2,909개를 2개의 프로그램을 이용해 검증해 봤는데요. 이 중 AI가 만든 자료가 포함된 문서는 얼마나 됐을까요? 오그랲 세 번째 그래프를 통해 살펴보겠습니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


결과는 이렇습니다. 2,909개 중 AI가 만든 것으로 분류된 건 156개와 96개였어요. 비율로 나타내보면 최대 5.36%가 AI가 만든 거였죠.

재밌는 건 AI가 만든 글을 보면 AI만의 스타일이 발견된다는 겁니다. AI가 만든 콘텐츠들이 본격적으로 위키피디아에 들어온 이후 특정 단어들이 눈에 띄게 늘어났어요. 이를테면 “additionally”나 “crucial” 같은 단어들 말이죠.



<이미지를 클릭하시면 크게 보실 수 있습니다>


이렇게 AI가 만든 글들이 위키피디아에 들어오는 게 무슨 문제냐 싶지만, 일단 신뢰도 문제가 있어요. 아직 완벽하게 AI의 환각이 해결되지 않았는데 인터넷 백과사전에 실리면 될까요? 과제를 하기 위해, 혹은 보고서를 쓰기 위해 자료를 찾다가 영문 위키를 보고 있는데, 알고 보니 이게 AI가 만든 글이었다면 낭패겠죠.

신뢰도 이슈는 앞서 프린스턴 대학교에서 연구한 자료에서도 확인할 수 있었습니다. 바로 참고자료가 부족하다는 거였죠. 오그랲 네 번째 그래프는 각주와 외부 링크 데이터를 가지고 그려봤습니다. 전체 문서와 비교해서 AI가 쓴 것으로 분류된 문서는 각주와 외부 링크 비율이 이렇게나 차이가 납니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


전체 게시글에서 문장당 각주는 0.97인데 AI가 만든 문서에선 0.67로 떨어집니다. 단어당 아웃링크 비율 역시 1.77 대 0.38으로 크게 차이가 나죠. 이탈리아어나 프랑스어, 독일어 문서에서도 비슷한 모습이고요.

출처를 확인할 수 있는 각주도 부족하고, 다른 문서와의 연결성도 떨어지는 페이지는 신뢰도가 떨어질 수밖에 없어요. 실제로 AI가 쓴 페이지로 분류된 글을 살펴보면 홍보 목적이 뚜렷하거나 정치적 편향이 심한 게시물들이 포함되어 있기도 합니다.

게다가 요즘 더 큰 문제는 앞서 살펴본 것처럼 이게 AI가 만든 건지 아니면 사람이 만든 건지를 구별할 수 없다는 겁니다. AI가 만든 자료라고 이름표라도 붙여주면 좋으련만 그렇지가 않아요.

그래서 위키피디아 관리자들은 위키피디아의 신뢰성을 지키기 위해, '위키프로젝트 AI 클린업'이라는 걸 결성해 활동 중입니다. 3월 26일 기준으로 123명의 유저가 활동하고 있더라고요. 이들은 위키피디아 페이지에 AI 생성물들이 제대로 사용되고 있는지 파악합니다. 문제가 있는 게시물의 경우 삭제 처리하거나 편집을 해서 신뢰도를 높이고 있죠.


AI 생성 콘텐츠, 잘못하다간 다 죽어
신뢰도 문제도 문제지만, 더 큰 문제는 AI가 생성한 결과물이 AI 모델 자체에 심각한 악영향을 줄 수 있다는 겁니다. AI가 생성한 데이터를 다시 AI가 학습하는 이른바 AI의 자가포식 현상이 불러일으킬 문제가 생각보다 심각하거든요.



<이미지를 클릭하시면 크게 보실 수 있습니다>


이게 작년 7월에 나온 네이처 표지입니다. AI가 구토를 하고 있죠. 왜 구토를 하는 걸까요? 오그랲 마지막 그래프를 통해 살펴보겠습니다.



<이미지를 클릭하시면 크게 보실 수 있습니다>


인간 손글씨 이미지가 담겨있는 데이터 MNIST입니다. 이 그림을 딱 보면 일부 헷갈리는 숫자도 있긴 하지만 어떤 숫자를 나타내는지 단박에 알 수 있죠. 이 이미지 데이터를 AI에게 세대를 거쳐 학습시켜 봤습니다. 각 세대의 모델은 이전 세대가 생성한 데이터만 학습시켰어요. AI에게 AI가 만든 데이터만 계속 넣은 거죠.



<이미지를 클릭하시면 크게 보실 수 있습니다>


5세대를 지나니 이렇게 변하고 10세대엔 이렇게. 20세대엔 이렇게 돼버립니다. AI가 생성한 데이터를 계속해서 되먹이자 모델이 붕괴해 버린 겁니다. 사람 얼굴로 실험을 해봐도 마찬가지입니다. 세대가 지나면 지날수록 생산되는 결과물의 다양성은 사라지게 됩니다. 이미지뿐 아니라 언어도 마찬가지입니다. 원래는 자연스러웠던 문장이 세대를 거듭해 나가면 형체를 알아볼 수 없는 문장이 되어버리죠.

AI가 만든 정보가 위키피디아로 흘러가고 이걸 다시 AI 봇이 긁어와서 학습하는 과정이 계속 반복된다면 어떻게 될까요? 또 우리가 만든 다양한 AI 생성 그림과 영상을 또 다른 AI가 학습하게 된다면요? AI 모델은 이렇게 토사물만 뱉어내게 될 겁니다.

(남은 이야기는 스프에서)



<이미지를 클릭하시면 크게 보실 수 있습니다>






<이미지를 클릭하시면 크게 보실 수 있습니다>




안혜민 기자 hyeminan@sbs.co.kr

▶ 네이버에서 SBS뉴스를 구독해주세요!
▶ 가장 확실한 SBS 제보 [클릭!]
* 제보하기: sbs8news@sbs.co.kr / 02-2113-6000 / 카카오톡 @SBS제보

Copyright ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

SBS 주요 뉴스

해당 언론사로 연결됩니다.