컨텐츠 바로가기

    12.11 (목)

    데이터센터 화재가 남긴 교훈…"AI 시대, 더 단단한 회복력 필요"

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다

    [인터뷰] 케빈 울렌웨버 시스코 데이터센터 및 인터넷 인프라 수석부사장

    디지털데일리

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    [디지털데일리 김보민기자] 지난 9월 정부 핵심 전산시설인 대전 국가정보자원관리원에서 화재가 발생했다. 불이 붙은 후 멈춘 시스템만 700여개, 복구까지 2개월의 시간이 소요되면서 국내 디지털 인프라가 취약한 환경에 가동되고 있다는 사실이 드러났다.

    시스코에서 약 30년 재직하며 '데이터센터 안정성'을 고민해온 케빈 울렌웨버 시스코 수석부사장은 이번 국정자원 화재를 바라보며 "단단한 회복력을 고민할 때"라고 제언했다. 특히 정부와 기업이 AI 데이터센터를 구축하는 시대가 도래하면서 안정성을 높이고 위험을 분산할 수 있는 생태계가 마련돼야 한다고 강조했다.

    울렌웨버 수석부사장은 "우리는 몇십 년 동안 회복력 있는 데이터센터 인프라를 구축해왔고, 이중화 체계와 가용 영역을 갖춘 모범사례도 보고 있다"며 "AI 시대에도 똑같은 원칙이 적용돼야 한다"고 밝혔다.

    데이터센터 인프라 측면에서 AI는 선택이 아닌 필수 요소가 됐다는 취지다. 울렌웨버 수석부사장은 "AI는 실제 기계이자 거대한 인프라 조각"이라며 "앞으로 데이터센터에서 할 수 있는 모든 일의 더 큰 부분이 될 것"이라고 예상했다.

    국정자원 화재를 바라본 전문가들은 이중화와 분산 운영은 기본, 재해복구(DR) 체계까지 강화해야 추후 예기치 못한 사고를 방어할 수 있다고 경고하고 있다. 울렌웨버 수석부사장도 "화재뿐만 아니라 홍수, 정전처럼 물리적인 장애는 언제든 일어날 수 있다"며 "시설 절반이 영향을 받았다고 하더라도 나머지 절반으로 시스템을 운영할 수 있는 체계가 필요하다"며 "데이터센터 리소스(Resource)를 여러 지역, 여러 도시로 분산하는 것도 생각해야 한다"고 말했다.

    글로벌 금융기관의 경우 최소 3개 중복 사이트를 두고 데이터를 동기화하는 방식으로 이중화 및 DR 체계를 운영하고 있다. 울렌웨버 수석부사장은 "한국의 경우 높은 인구 밀집도를 보이고 있고 회복력을 갖춘 대규모 데이터센터를 짓는 것 자체가 도전일 수 있다"며 "그러나 흥미로운 건, 마이크로소프트(MS)를 비롯해 세계에서 가장 큰 하이퍼스케일러조차 (데이터센터) 위험을 조정하는 과정에서 고민하고 있다"고 전했다.

    대안으로 '네오클라우드'가 부상하는 이유이기도 하다. 네오클라우드는 그래픽처리장치(GPU)를 중심으로 AI 인프라를 대여해주는 방식, 또는 이를 제공하는 사업자를 뜻한다. 울렌웨버 수석부사장은 "오라클 같은 기업이나, 네오클라우드와 같은 기업과 대규모 파트너십을 발표하고 이들에게 일부 인프라를 구축하도록 허용하는 흐름이 두드러지고 있다"며 "한국 또한 용량 중 일부를 네오클라우드 혹은 다른 하이퍼스케일러에게 이관할 수 있을 것"이라고 설명했다.

    그렇다면 AI 시대 데이터센터 안정성을 높일 방법은 무엇일까. 울렌웨버 수석부사장은 '스케일 어크로스(Scale-Across)' 전략이 주효할 것으로 내다봤다. 그는 "전통적으로 우리는 GPU 등을 공통 패브릭 안에 연결하는 '스케일 업(Scale-Up)', 여러 랙을 서로 연결하는 '스케일 아웃(Scale-Out)' 방식으로 데이터센터 인프라를 확장해왔지만 이제는 단일 데이터센터에 모든 GPU를 넣을 수 없는 한계를 직면했다"며 "이제는 여러 데이터센터와 사이트를 연결 짓고, GPU가 멀리 떨어져 있더라도 대규모 클러스터로 시스템이 동작할 수 있도록 하는 '스케일 어크로스' 전략이 필요하다"고 강조했다.

    한계도 분명하다고 부연했다. 울렌웨버 수석부사장은 "지연 및 대기 시간(Latency)는 랙 사이를 오갈 때, 그리고 데이터센터를 오갈 때 발생한다"며 "매 순간 초세분화된 단위 지연이 발생하기 때문"이라고 말했다. 그러나 이러한 워크로드를 조정하는 차세대 혁신이 일어나고 있다고 진단했다. 그는 "대규모 워크로드와 기능을 큰 클러스터 사이에 조정한 뒤 지연에 민감하지 않은 요소를 패브릭 외 다른 영역에 배치하는 방법이 있다"며 "아직 이러한 클러스터는 초기 단계에 있고, 추후 대규모 학습과 추론을 통해 발전될 것"이라고 예측했다.

    네트워크에 활용되는 데이터를 패브릭 형태로 구성할 필요성도 강조했다. 울렌웨버 수석부사장은 "네트워크에는 많은 데이터가 있지만 우리는 이 가치를 쉽게 과소평가하고 있다"며 "시스코뿐만 아니라 업계 전체의 문제"라고 밝혔다. 이어 "모든 데이터를 스토리지에 밀어 넣는 경우가 많은데, 많은 양의 데이터를 저장한다고 해도 문제를 식별하는 데 사용되지 않는다면 자리만 차지할 뿐"이라며 "시스코가 데이터 패브릭을 발표한 이유"라고 말했다.

    스플렁크 플랫폼을 기반으로 작동하는 시스코 데이터 패브릭은 기업 내 여러 시스템과 클라우드에 흩어진 데이터를 하나로 엮어 실시간으로 활용할 수 있게 하는 일종의 통합 구조다. 시스코 데이터 패브릭은 데이터 흐름을 AI 및 인텔리전스로 전환할 수 있다.

    울렌웨버 수석부사장은 "시스코는 스플렁크로 모든 데이터를 수집할 수 있지만, 이렇게 할 경우 비용이 비싸질 가능성도 있다"며 "그럴 경우 아마존웹서비스(AWS) 등 다른 곳에 위치한 데이터를 연합하는 접근 방식도 구축이 가능하다"고 설명했다. 특히 "스플렁크를 엔터프라이즈 데이터 전체를 가로지르는 검색 도구로 사용할 수 있지만 모든 데이터를 단일 도구에 넣어야 한다는 비용 부담을 느끼지 않아도 된다는 의미"라며 "데이터 없이는 AI가 존재할 수 없고, AI는 네트워크 없이 존재할 수 없다"고 덧붙였다.

    울렌웨버 수석부사장은 AI 시대 데이터센터 안정성을 확보하기 위한 차세대 전략이 쏟아질 것이라고 예고했다. 그는 "현재 (데이터센터 측면에서) 많은 이들이 하이퍼스케일러와 네오클라우드를 주목하고 있고, 한국처럼 AI 기술을 도입하기 시작하는 곳도 늘어나고 있다"며 "앞으로 수년 동안 새로운 AI 데이터센터 기술 혁신을 보게 될 것"이라고 말했다.

    - Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.