[클라우드임팩트 2026] NHN클라우드 “수랭식으로 열 줄이고 ‘논블록’ 구조로 속도↑”
<이미지를 클릭하시면 크게 보실 수 있습니다> |
강상모 NHN클라우드 이사는 25일 양재 엘타워에서 <디지털데일리>가 개최한 ‘클라우드임팩트2026’ 행사에서 ‘AX시대를 위한 고성능 컴퓨팅 설계 및 운영 전략’을 주제로 발표하면서 이같이 강조했다.
세계는 지금 AIDC 영토 전쟁이 한창이다. 오픈AI나 앤트로픽, xAI 등 빅테크 기업은 하루가 멀다 하고 조단위 AIDC 투자 계획을 발표하고 있는 상황이다. 국내에서도 주요 기업을 중심으로 AIDC 확장 속도가 빨라지는 추세다.
AIDC는 확장되고 있지만 새로운 문제가 대두되고 있다. 바로 ‘데이터 병목’ 현상이다. AI 연산 과정에서 그래픽처리장치(GPU)가 동시다발적으로 막대한 양의 데이터를 처리하려고 할 때, 스토리지 입출력(I/O) 처리 속도가 이를 따라가지 못해 발생하는 지연 현상을 의미한다.
강 이사는 “장비 규모가 곧바로 성능을 담보하는 것은 아니며 시스템 내부 여러 병목 요인들로 인해 실제 가동률이 기대치에 미치지 못하는 상황이 빈번하게 발생한다”며 “이는 대규모 투자 자원이 미사용 상태로 방치되는 심각한 투자 손실을 의미한다”고 말했다.
강 이사는 병목현상의 원인을 크게 세 가지로 나눠 설명했다. 통신 과정에서 발생하는 지연 ‘네트워크 병목’, 온도 관리 실패에 따른 ‘쿨링 병목’, 비효율적인 데이터 할당 방식으로 인한 ‘운영 병목’이다.
먼저 네트워크 병목은 대규모 분산 학습 때 여러 GPU 노드 간 데이터를 주고받는 통신 과정에서 지연이 발생하는 문제다. 이를 해결하기 위해 NHN클라우드는 지연 문제를 최소화할 수 있는 초고속 네트워크망을 구축하는 ‘1:1:1 논블로킹 구조’를 적용했다.
강 이사는 “데이터를 주고 받는 과정에서 중앙처리장치(CPU)와 운영체제(OS)의 개입을 완전히 최소화해 GPU가 응답에 대기하는 시간을 최소화한다”고 설명했다.
쿨링 병목 현상에는 각 다이렉투칩(D2C) 수랭식 냉각으로 대응한다. 칩 표면엔 콜드 플레이트를 밀착시켜 발열을 직접 흡수하고 친환경 냉각수(PG-25)를 투입해 GPU 성능 보존에 집중한다. 수랭식을 도입할 경우 중장기적인 전기 비용 효과도 뛰어나다는 것이 강 이사 설명이다.
강 이사는 “대규모 학습 분산이 중요해지고 있는 상황에서 수랭식 냉각 필요성은 더욱 부각되고 있다”며 “유지 전력 비용을 30~50% 절감할 수 있는 효과가 있다”고 말했다.
마지막 운영 병목 문제 해결을 위해서는 ‘하이브리드 스케줄링 알엔티어(RNTier)’를 내세웠다. 대규모 학습에는 ‘슬럼’을, 유연한 스케일링이 필요한 서비스에는 ‘쿠버네티스’를 적용함으로써 물리적으로 방치되는 유휴 GPU 자원을 최소화하고 운영 비용 효율을 극대화할 수 있다는 설명이다.
강 이사는 “워크로드 성격에 맞춰 효율적으로 인프라 작업을 분배함으로써 비용 효율을 극대화하고 있다”며 “스케줄링 최적화와 더불어 자원 활용도를 높이는 자원 가상화 방안도 같이 제공하고 있다”고 강조했다.
마지막으로 강 이사는 “초저지연 및 무손실을 보장하는 네트워크, 가용 성능을 유지하는 냉각, 그리고 유휴 자원을 최소화하는 스케줄링 솔루션이 모두 하나로 통합돼야 한다”며 “이는 직접 경험해 보지 않으면 제대로 알 수 없는 영역이며 NHN클라우드가 잘하는 부분”이라고 전했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
