SNS 점령하기 시작하는 AI 봇들
AI 콘텐츠만 가득한 인터넷 되나
모델 훈련 생태계에 치명적 영향
이런 AI 봇은 광고 수익을 노리고 개설된 계정일 가능성이 높습니다. 게다가 만들기도 비교적 쉽다 보니 삽시간에 범람하고 있지요. 지금 당장은 이용자들에게 약간의 귀찮음이나 불쾌함만을 줄 뿐이지만, 언젠가는 'AI 봇의 범람'이 인터넷의 위기에 일조할 수 있다는 경고도 있습니다.
SNS 범람하기 시작한 'AI 봇'
인도 국적 유저들이 만든 것으로 추정되는 사회관계망서비스(SNS)의 '챗봇 계정'. 엑스(X) 캡처 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
오늘날 페이스북, 인스타그램, 엑스(X) 같은 SNS 플랫폼은 광고 수익의 일부를 인기 계정에 환원하는 사업 모델을 두고 있습니다. 이용자들에게 더 많이 노출되고, 더 많은 추천이나 리포스트를 받는 계정일수록 수익도 커집니다.
언젠가부터 이를 노리고 들어온 'AI 봇 계정'들이 범람하기 시작했습니다. 챗GPT를 비롯한 텍스트 챗봇이나 이미지 생성기를 계정에 연동해 자동으로 댓글, 포스트 등을 작성하는 방식입니다. 지금까지는 만듦새도 허술하고 반응에도 '비인간적인' 면이 있어 금방 AI임을 알아차릴 수 있지만, 가끔은 진짜 사람 같은 글을 생성해 화제가 되기도 합니다.
인간 데이터 줄고 AI만 가득한 인터넷 만들어지나
일명 '모델 붕괴'의 예시. 인공지능(AI)이 만든 데이터로만 학습하면 점차 결과물이 형체를 알아보기 힘들 정도로 붕괴한다. 프리씽크 캡처. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
기업들이 AI 서비스를 시작하면서 '자동화 콘텐츠 생성 도구'가 범람하는 건 시간 문제에 가까웠습니다. 그러나 진짜 문제는 이런 봇의 범람이 인터넷, 나아가 AI마저 붕괴시킬 가능성이 있다는 겁니다.
올해 8월 국제 학술지 '네이처'에는 일명 '모델 붕괴(Model collpase)' 현상을 다룬 논문이 올라와 IT 업계의 주목을 받은 바 있습니다. 모델 붕괴는 인간이 아닌 AI가 만든 데이터로만 훈련한 신경망 모델이 서서히 불안정해지다가 결국 아예 쓸모없는 수준으로 '붕괴'해 버리는 현상입니다.
모델 붕괴 현상은 컴퓨터 과학자나 AI 연구자들에겐 섬뜩한 경고로 다가왔습니다. 왜 AI가 자체 생성한 콘텐츠로 훈련하면 붕괴해 버리는지 정확히 알려진 바는 없습니다. 일부 학자들은 마치 생물의 '근친 교배' 사례처럼, 다양성이 부족한 데이터는 신경망을 기형적으로 만들 수 있다고 추측합니다.
AI 모델이 기하급수적으로 커지면서 훈련에 쓰이는 데이터의 양도 점점 늘어납니다. 이 때문에 인간이 지금껏 인터넷에 남겨 온 글자 데이터가 오히려 부족해지는 시점에 이르렀지요. 이런 상황에 AI 봇이 남긴 '질 낮은' 데이터만 인터넷에 남게 되면, AI 기업들은 더는 모델을 훈련할 환경을 조성하기 어려워질 겁니다.
챗봇 성능 강화, 인간 사이 상호작용도 줄여
또 다른 문제는 AI의 발전 자체가 인간 사이의 상호작용을 줄인다는 겁니다. 일례로 지난해 출간된 한 연구에선, 챗GPT에 코딩 자동화 기능이 도입된 후 1년 뒤 '스택오버플로우(Stackoverflow·개발 관련 팁을 주고받는 해외 웹사이트)' 활동량은 16% 급감했다고 합니다. 챗봇과의 의사소통이 인간과의 의사소통 일부를 대체한 셈이죠.
역설적으로, 인터넷 내부에서 챗봇이 인간의 역할을 대체할수록 향후 AI가 훈련용으로 사용할 데이터의 양은 더욱 빨리 고갈될 겁니다. 결국 AI 기업들은 인터넷에 산재한 데이터에서 양질의 '진짜' 인간 데이터를 엄선하는 데 더 많은 시간을 들여야 할 것이고, 그만큼 AI의 발전은 더뎌지겠죠.
모델 붕괴 막으려면 '다양성'이 필수
AI 학습용 데이터 재고량 추측. 인간이 생산한 온라인상의 데이터는 갈수록 줄고 있다. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
물론 '모델 붕괴'가 확정된 미래인 건 아닙니다. 이미 빅테크들은 AI가 생산한 데이터를 걸러내는 다양한 툴을 만들어내고 있습니다. 예를 들어 구글의 경우 인간 눈으로는 볼 수 없는 디지털 '워터마크'를 의무적으로 AI 생성 이미지에 삽입하고 있습니다. 이 워터마크가 부착된 데이터는 나중에 AI 훈련용 데이터셋에서 걸러집니다.
그런가 하면 AI 모델의 '다양성'이 모델 붕괴를 막을 수 있다는 주장도 있습니다. 앞서 언급했듯이, AI 모델의 붕괴 현상은 생물의 근친 교배 문제와 유사한 면이 있습니다. 인간 사이의 상호작용처럼 다양한 패턴을 포착할 수 있는 양질의 데이터로 학습해야 AI도 세대를 거듭할수록 건강해진다는 뜻이죠.
따라서 설령 미래에 AI로 만든 합성 데이터가 범람한다고 해도, 해당 데이터들이 제각기 다른 AI로 만들어졌다면 붕괴 현상이 발생할 가능성은 줄어든다는 겁니다.
따라서 붕괴 현상에 대한 AI 기술의 '내구성'을 증진하려면 각국 규제 당국이 독점 문제에 엄격히 대응할 필요가 있습니다. 일부 빅테크의 AI만이 아니라, 다른 AI 모델도 활발히 이용될 수 있도록 경쟁을 촉진해야 한다는 뜻이겠죠.
임주형 기자 skepped@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.