기업은 성가시고 비용이 많이 드는 개발자를 AI로 대체할 수 있다는 점을 반긴다. 예를 들어 아틀라시안(Atlassian)은 AI에 더 많은 자금을 투입하기 위해 직원의 10%인 약 1,600명을 해고했다. 블록(Block, 옛 스퀘어)의 CEO 잭 도시는 최근 회사 인력의 거의 40%인 4,000명을 감원한다고 발표하며 “우리가 만들고 사용하고 있는 지능형 도구가 회사를 구축하고 운영하는 의미를 근본적으로 바꾸는 새로운 업무 방식을 가능하게 하고 있다”라고 밝혔다.
새롭다고? 그렇지 않다고 본다. 4,000년 전 고대 도시 우르에서 에아나시르가 구리 품질보증 엔지니어를 해고했을 때부터 기업은 수익성을 높이기 위해 사람을 내보내 왔다.
AI는 다르다고 말할 수도 있다. AI는 높은 기준을 유지하면서도 기업의 수익에 실제로 기여한다고 말할 수도 있다. 하지만 정말 그럴까? 아마존에서 AI가 어떻게 작동하고 있는지 살펴보자.
먼저 아마존은 수많은 다른 기업처럼 대규모 해고를 이어가고 있으며, 지난 6개월 동안 3만 명을 감원했다. 아마존 피플 익스피리언스 앤 테크놀로지 부문 수석 부사장 베스 갈레티는 “이번 세대의 AI는 인터넷 이후 우리가 본 것 중 가장 혁신적인 기술이며, 기업이 그 어느 때보다 훨씬 빠르게 혁신할 수 있도록 돕고 있다”라며, 이 변화가 아마존을 “더 날렵하게 조직할 수 있게” 한다고 설명했다.
쉽게 말하면 사람을 해고한다는 뜻이다.
아마존은 그 결정을 결국 후회할 수도 있다. AWS와 아마존 리테일 서비스에서 여러 차례 장애가 발생하자 생성형 AI가 운영 코드에 어떤 방식으로 개입할 수 있는지에 대해 내부 통제가 강화됐다. 소 잃고 외양간 고친다는 말이 딱 이런 상황을 두고 나온 것 아닌가?
문제는 12월 중순 시작됐다. AWS는 내부 AI 코딩 에이전트 키로(Kiro)가 고객 대상 비용 관리 시스템에 실시간 변경을 가할 수 있도록 허용했다. 키로는 가장 적절한 해결책이 “환경을 삭제한 뒤 다시 만드는 것”이라고 판단했고, 그 결과 중국 본토 일부 지역의 AWS 코스트 익스플로러(AWS Cost Explorer) 서비스에 약 13시간 동안 장애가 발생했다.
아마존은 근본 원인이 “사용자 실수”와 잘못 구성된 접근 제어에 있었다고 주장해 왔다. 아마존은 같은 문제가 AI만이 아니라 어떤 개발 도구에서도 발생할 수 있었다고 반박했다. AWS는 내부적으로 이번 장애를 “영향이 극히 제한적이었다”라고 규정하며, 핵심 컴퓨트, 스토리지, 데이터베이스, AI 서비스는 영향을 받지 않았다고 강조했다.
그 말이 사실일 수도 있다. AI가 프로그래밍에 들어오기 훨씬 전부터 사람은 실수를 했고, 엉성한 코드를 작성해 왔다.
하지만 놀랍게도 12월 장애는 단발성 사건이 아니었다. 최근 몇 달 동안 아마존 AI 코딩 도구에도 일부 책임이 있는 운영 장애가 최소 두 차례 더 발생했다. 아마존은 내부적으로 그 장애를 “작지만 충분히 예견 가능했던” 사고라고 설명했다.
근본 원인은 AI가 사실상 인간 운영자의 연장선처럼 취급됐고 운영자 수준 권한까지 부여받았다는 점이다. 그런 판단은 어리석다. 누군가에게, 혹은 어떤 것에게든 시스템 관리 권한은 절대적으로 필요하고 완전히 신뢰할 수 있을 때만 줘야 한다. 이번 사례는 두 조건 모두 충족되지 않았다. 높은 권한과 감독 부재가 결합하면서 결국 사고가 났다.
아마존은 사용자 실수였다고 주장한다. 맞다, 인간의 실수였다. 인간이 AI를 과도하게 신뢰한 것이 바로 그 실수였다. 무엇을 하는지 아는 사람을 종종 갈피를 못 잡는 AI 에이전트와 봇으로 대체할수록 이런 일은 점점 더 자주 벌어질 것이다.
여기서 끝이 아니다. AI 실패는 AWS 인프라를 넘어 아마존 리테일 스토어까지 번졌다. 3월 초에는 AI 지원 작업의 실수가 겹치며 네 건, 무려 네 건의 중대한 사고가 발생했다. 그중 한 건은 6시간 장애로 이어졌다.
아마존도 결국 참지 못했다. 아마존 수석부사장 데이브 트레드웰은 “생성형 AI 도구가 운영 변경 지시를 보완하거나 가속하면서 안전하지 않은 프랙티스로 이어지고 있다”라고 인정했다. 왜 그런가? 트레드웰은 아마존의 AI 안전장치가 “아직 완전히 확립되지 않았다”라고 밝혔다.
개인적인 생각일 수도 있지만, 많은 사람을 해고하기 전에 먼저 AI가 실제로 그 일을 할 수 있는지, 문제가 생기기 전에 AI 오류를 발견하고 추적하고 복구할 수 있는 방식을 확보했는지 확인해야 한다고 본다. 결국 필요한 것은 안전장치다.
지금 아마존은 향후 90일 동안 적용할 새로운 AI 규칙을 내놨다. 이제 초급 엔지니어와 중급 엔지니어는 AI 지원 운영 변경을 진행할 때 상급 엔지니어의 승인을 받아야 한다. 아마존은 코드 프랙티스도 다시 정비하고 전통적인 안전장치도 재차 강조할 예정이다. 이커머스 그룹 엔지니어는 최근 장애와 생성형 AI 기반 배포의 새 규칙을 다루는 주간 회의에 참석하라는 지시를 받았는데, 그 회의는 원래 선택 참석 방식이었다.
대외적으로 아마존은 AI 에이전트 자체가 장애를 “유발했다”라는 서사를 반박해 왔다. 대신 이번 실패를 전형적인 접근 제어 실패와 프로세스 실패로 재규정하고 있다. 아마존 대변인은 매번 사용자 실수와 우연이 겹친 결과였다고 말하며, AI 도구가 기존 소프트웨어 개발자보다 더 자주 실수한다는 “증거는 없다”라고 강조했다.
아마존 경영진은 핵심을 놓치고 있다. 물론 책임은 인간이 져야 한다. 아마존 경영진이 상황을 제대로 이해했다면 1979년 IBM 교육 매뉴얼에 “컴퓨터는 결코 책임을 질 수 없으므로 컴퓨터가 경영 판단을 해서는 안 된다”라고 적혀 있었다는 사실을 떠올렸을 것이다. 안타깝게도 아마존은 위에서 아래까지 AI가 기대만큼 잘 작동하지 않는다는 점이 이미 드러났는데도 AI 사용을 고집하고 있다.
아마존 엔지니어들은 그 사실을 알고 있다. 이들은 가디언에 반드시 AI를 써야 하며 “더 빨라져야 하고, AI가 우리를 더 빠르게 만들 것이며, 속도가 최우선 과제”라는 말을 듣고 있다고 전했다. 또 다른 아마존 직원은 “AI를 사용하라는 압박 때문에 코드 품질이 더 나빠졌을 뿐 아니라 모두의 일이 더 늘어났다”라고 털어놨다.
속담에 이런 말이 있다. “빠름, 저렴함, 좋음 가운데 둘만 가질 수 있다.” 아마존의 AI는 빠르고 저렴할 수는 있어도 좋은 결과를 내는 데는 실패하고 있다.
AI로 진정한 생산성을 얻으려면 AI가 한 일을 두 번, 세 번 검증해야 한다. 이런 교훈은 아마존만 배워야 하는 것이 아니라, AI가 프로그래머를 대체할 준비를 마쳤다는 환상에 시달리는 모든 기업이 배워야 한다.
아직 아니다. 문제는 그만큼 단순하다.
dl-itworldkorea@foundryco.com
Steven Vaughan-Nichols editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지
이 기사의 카테고리는 언론사의 분류를 따릅니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
