컨텐츠 바로가기

03.29 (금)

"부족했다" 치부 드러낸 카카오, 향후 5년간 투자 3배로 늘린다(종합)

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

인프라 조직 CEO 직속으로 격상…안정적 서비스 환경 조성

이중화·위기대응 부족 반성…전체 시스템 다중화 진행

뉴스1

왼쪽 상단부터 남궁훈 비상대책위원회 재발방지대책 공동 소위원장, 이확영 비상대책위원회 원인조사 소위원장, 이채영 비상대책위원회 재발방지대책소위원회 부위원장, 고우찬 비상대책위원회 재발방지대책 공동 소위원장.(사진제공=카카오)

<이미지를 클릭하시면 크게 보실 수 있습니다>


(서울=뉴스1) 정은지 남해인 기자 = 카카오가 지난 10월 SK C&C 데이터센터 화재에 따른 '서비스 먹통 사태'가 발생한 원인에 대해 '시스템 이중화와 위기 대응이 미흡했다'고 진단했다. 카카오는 사상 전례 없던 '먹통' 사태와 관련 치부를 드러내고 서비스 안정화에 최선을 다하고 인프라 부문에 대한 과감한 투자를 예고했다.

카카오는 7일 개발자 콘퍼런스인 '이프카카오'를 기조연설을 통해 먹통 사태 화재로 인한 서비스 장애 원인을 분석하고 인프라 투자 계획을 발표했다.

기조연설에는 남궁훈·고우찬 비상대책위원회 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장, 이채영 비상대책위원회 재발방지대책 소위원회 부위원장 등 4명이 연사로 나섰다.

◇인프라 조직 키우는 카카오…서비스 안정화 투자 3배 늘린다

남궁훈 소위원장은 "어떻게 하면 이런 일이 다시는 일어나지 않을지 카카오 크루(직원)들과 외부 전문가들과 함께 고민했다"며 "미래에는 이런 사고가 발생하지 않도록 최선을 다하고 앞으로 카카오의 서비스의 안정화가 우리의 최우선과제이며, 사회적 책임이라는 것을 항상 명심할 것"이라고 말했다.

이를 위해 고우찬 카카오 엔터프라이즈 부사장을 카카오 인프라부문장으로 영입하고, 인프라 조직을 대폭 확대한다는 방침이다.

남궁 소위원장은 "고우찬 부사장은 카카오 내에 IT 엔지니어링 전문가들로 전담조직을 만들어 안정적인 서비스 환경을 조성하고 투자하는데 집중할 것"이라며 "해당 조직은 기존 개발조직에서 분리돼 별도의 상위조직으로 존재하게 된다"고 설명했다.

현재 카카오의 IT 엔지니어링 조직은 최고기술책임자(CTO)가 이끄는 개발 조직 산하에 있다. 카카오는 인프라 조직 재구성을 통해 해당 조직을 CEO 직할의 부문 규모로 IT 엔지니어링 전담 조직을 확대 편성한다는 방침이다. 전담 조직은 카카오의 안정적인 서비스 환경을 조성하고 투자하는 데 역량을 집중한다.

이와 관련 고우찬 부사장은 "아직 구체적인 규모의 산출의 단계에는 이르지 못했지만 국내 최고의 IT 엔지니어링 전문가들도 추가로 적극 영입할 것"이라며 "데이터센터, 사이트 신뢰성 엔지니어(SRE), 데브옵스(Devops), 클라우드개발 엔지니어 채용과 육성을 공격적으로 진행할 생각"이라고 밝혔다.

인프라에 대한 투자도 대폭 확충한다.

고우찬 부사장은 "IT 엔지니어링 거버넌스 강화, 인재 확보, BCP(Business Continuity Plan) 외부 자문, 기술 R&D의 오픈소스화, 삼중화 플러스 알파의 재난복구(Disaster Recovery, DR) 아키텍처 구현, 멀티클라우드, 원격지 DR 구현을 위한 과감한 투자 결정이 있다"며 "이를 위해 향후 5년간은 지난 5년간의 투자 금액의 3배 이상 규모로 투자를 확대할 것"이라고 강조했다.

◇"이중화 부족했다" 통렬한 반성…시스템 다중화 속도

카카오는 이번 이프카카오를 통해 지난 10월 발생한 데이터센터 화재로 이중화 수준이 부족하고 미흡했다는 점을 여러차례 거론하며 개선 의지를 다졌다.

카카오톡 개발 주역인 이확영 소위원장은 "모든 데이터센터에 전체 시스템이 이중화돼 있었다면 복구가 빠르게 이뤄졌을 테지만, 캐시 서버·오브젝트 스토리지가 판교 데이터센터에만 설치돼 있어 서비스 복구가 늦어졌다"고 설명했다.

그는 위기 대응 과정의 문제점도 지적했다. △복구 인력과 자원 부족 △화재 발생 초기 컨트롤타워 부재 △사내 소통과 위기 대응 채널로 카카오톡·카카오워크만을 사용했던 점 등을 언급했다.

이를 위해 카카오는 기술적 측면에서 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르는 전체 시스템 레이어에서 철저한 다중화를 실행한다는 방침이다. 데이터센터에서 장애가 발생한다 하더라도 강화된 이중화 조치를 통해 서비스에 미치는 영향을 최소화하겠다는 것이다.

이채영 부위원장은 "보다 더 철저한 이중화 구성이 돼 있었다면 화재 진압과는 별개로 조금 더 빠르게 서비스를 복구할 수 있었을 것"이라며 "앞으로 데이터센터 전체에 장애가 발생하더라도 모니터링과 장애탐지가 잘 도작할 수 있도록 모니터링 시스템을 다중화하고 메인 백본 센터를 두 곳에서 세 곳으로 확대하는 한편 늘어난 트래픽 대응을 위해 설비 투자를 진행할 것"이라고 설명했다.

또한 데이터 관리의 경우, 모든 데이터를 일대일 복제를 넘어 데이터센터 간 이중화 이상의 다중 복제 구조로 구성하고 장애 발생시 장애 복구 조치를 즉각 실행할 수 있는 환경을 구축하겠다고 밝혔다.

이 부위원장은 운영관리 도구 이중화 미흡으로 서비스 복구 시간이 지연된 데 대해서도 "데이터센터 간 이중화가 완전하지 않아 장애 상황 초기 조치에 문제가 있었다"며 "데이터센터 간 이중화를 완료했으며 빠른 시일 안에 삼중화를 계획하고 있다"고 강조했다.

이와 함께 2024년 상반기 가동될 예정인 안산 카카오 데이터센터 이외에도 데이터센터 추가 착공 계획을 밝혔다. 이 가운데 안산 데이터센터는 EPS·UPS·배터리를 묶어 하나의 섹터를 구성해 총 4개의 섹터로 전력 안정성을 극대화할 방침이다. 배터리실 화재 상황이 발생할 경우, △밀폐된 전기 패널별로 개별 소화장치 설치 △소화 가스 예비 시스템 구축 △냉각수 방염.방열 시스템 구축 등 총 3중의 진화 방식이 작동하게 된다.

이 부윈장은 "자체 데이터센터는 이번 사고에서 얻은 교훈이 반영하여 디자인하고, 최악의 상황에서도 모듈 단위의 완전 셧다운이 가능하도록 대비할 것"이라고 말했다.

ejjung@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포 금지.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.