"AWS·애저·구글·OCI 통합"…엔비디아 '다이나모' AI 추론 확장

뉴스1 원문
김민석 기자
입력

2025.11.17 09:23

주소복사가 완료되었습니다

블랙웰·쿠버네티스 통합…멀티 노드 추론 가속

프로덕션급 분산 서빙 통해 전문가혼합 모델 효율 높여

엔비디아·AWS·구글·마이크로소프트·OCI 협력 다이나모 기반 AI 추론 가속(엔비디아 제공)

<이미지를 클릭하시면 크게 보실 수 있습니다>

(서울=뉴스1) 김민석 기자 = 엔비디아가 인공지능(AI) 추론 성능을 높이기 위해 글로벌 빅테크 클라우드 기업들과 손잡고 '다이나모'(Dynamo) 기반 멀티 노드(서버) 추론 가속을 본격화한다고 17일 밝혔다.

엔비디아는 △아마존웹서비스(AWS) △구글 클라우드 △마이크로소프트 애저 △오라클 클라우드 인프라스트럭처(OCI) 등과 협력으로 엔터프라이즈급 AI 추론 환경 전반의 확장성을 높일 계획이다.

엔비디아 관계자는 "다이나모를 통해 블랙웰(Blackwell) 기반 시스템 전반에 대규모 AI 추론 및 전문가 혼합(MoE) 모델 등 복잡한 워크로드 성능을 효율적으로 지원할 수 있다"며 "쿠버네티스(Kubernetes) 관리형 서비스와 통합해 기업들이 클라우드 전반에서 멀티 노드 추론을 손쉽게 확장할 수 있도록 했다"고 말했다.

AWS는 엔비디아 다이나모와 자사 쿠버네티스 서비스(EKS)를 통합해 생성형 AI 추론을 가속한다.

구글 클라우드는 다이나모 레시피로 자사 AI 하이퍼컴퓨터에서 대형 언어모델(LLM) 추론을 최적화한다.

애저는 ND GB200-v6 GPU와 다이나모를 연동해 멀티 노드 추론을 지원한다. OCI는 슈퍼클러스터 환경에서 대규모 LLM 추론을 구현할 수 있게 됐다.

젠슨 황 엔비디아 CEO는 미국 워싱턴D.C.에서 열린 GTC 콘퍼런스에서 "블랙웰은 기존 호퍼(Hopper) 대비 10배 높은 성능과 수익을 제공한다"며 "강력한 추론 컴퓨팅이 클라우드 생태계 전반으로 확산될 것"이라고 했다.

엔비디아 다이나모는 프리필(prefill)과 디코드(decode) 과정이 분리된 분산형 서빙(disaggregated serving)을 지원해 기존 통합형 추론 방식 구조의 리소스 경합 및 병목 현상을 해결한다. 모델 지시문 해석·응답 생성을 각기 최적화된 GPU로 분산 실행해 처리 속도를 높이고 리소스 효율을 극대화하는 방식이다.

엔비디아는 쿠버네티스 기반 추론 관리 효율을 높이는 API '그로브'(Grove)도 공개했다. 그로브는 노드 할당·통신 경로 배치 등 복잡한 조율 과정을 자동 처리해 AI 서비스 운영을 단순화한다.

ideaed@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지. <용어설명> ■ 엔비디아 다이나모 엔비디아 다이나모(NVIDIA Dynamo)는 오픈소스 분산 추론 프레임워크로 대규모 생성형 AI·추론 모델을 효율적으로 운영할 수 있도록 설계된 기술이다. 다이나모는 여러 개의 GPU가 연결된 대형 클러스터 환경에서 AI 추론의 각 단계를 분리해 병렬로 처리하고 GPU 자원을 동적으로 할당함으로써 전체 처리량을 극대화하고 응답 지연을 최소화한다. ■ 전문가 혼합(MoE) 전문가 혼합(Mixture-of-Experts)은 인공지능 모델의 효율성과 확장성을 극대화하기 위해 설계된 혁신적인 아키텍처다. 이 기법은 입력 데이터에 따라 특화된 하위 모델(전문가)을 선택적으로 활성화해 연산 비용을 절감하면서도 대규모 모델의 장점을 유지한다. ■ 쿠버네티스 쿠버네티스(Kubernetes)는 컨테이너화된 애플리케이션을 자동으로 배포·관리·확장하는 오픈소스 플랫폼이다. 대규모 클라우드·데이터센터 환경에서 앱을 여러 서버(노드)에 걸쳐 효율적으로 운영할 수 있도록 지원한다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

12.06 (토)

"AWS·애저·구글·OCI 통합"…엔비디아 '다이나모' AI 추론 확장

뉴스1 주요 뉴스