엔비디아, 차세대 CPU·추론용 LPU·GPU '베라 루빈' 공개

AI타임스 원문
입력

2026.03.17 12:56

최종수정

2026.03.17 12:57

주소복사가 완료되었습니다

[박찬 기자]

엔비디아가 AI 칩 시장의 폭발적인 성장에 힘입어 2027년까지 최소 1조 달러 규모의 매출 기회를 창출할 수 있을 것으로 전망했다. 동시에 새로운 CPU와 추론용 칩, 차세대 AI 플랫폼 로드맵을 공개하며 AI 인프라 시장에서의 지배력을 더 강화하겠다는 전략을 제시했다.

젠슨 황 엔비디아 CEO는 16일(현지시간) 미국 캘리포니아 새너제이에서 열린 연례 개발자 행사 'GTC' 기조연설에서 "지금부터 2027년까지 최소 1조 달러 규모의 AI 칩 매출 기회를 보고 있다"라며 "AI 컴퓨팅 수요는 지난 2년 동안 100만배 증가한 것처럼 느껴질 정도로 폭발적으로 확대되고 있다"라고 말했다.

이번 전망치는 엔비디아가 이전에 제시했던 2026년까지 5000억달러 전망의 두배 수준이다. 이는 차세대 AI 칩인 '블랙웰(Blackwell)'과 새로운 플랫폼 '베라 루빈(Vera Rubin)'을 중심으로 한 수요 증가를 반영한 것이다.

황 CEO는 AI 산업이 모델 훈련(training) 중심에서 추론(inference) 중심으로 빠르게 이동하고 있다고 강조했다. 추론은 AI가 사용자 질문에 답하거나 실제 작업을 수행하는 단계로, 챗봇과 AI 에이전트 확산으로 수요가 급증하고 있다.

엔비디아는 AI 추론 성능을 높이기 위해 추론 과정을 두 단계로 나누는 새로운 구조를 공개했다.

먼저 프리필(Prefill) 단계에서는 사용자의 요청을 AI가 이해할 수 있는 토큰 형태의 언어로 변환하며, 이 과정은 차세대 베라 루빈 GPU가 담당한다. 이어지는 디코드(Decode) 단계에서는 AI가 실제 답변을 생성하는 작업이 이루어지며, 이 부분은 스타트업 그로크(Groq)의 기술을 기반으로 한 칩 LPU가 처리한다.

그로크 3 LPU (사진=엔비디아)

<이미지를 클릭하시면 크게 보실 수 있습니다>

엔비디아는 지난해 약 170억~200억달러 규모의 라이선스 계약을 통해 그로크 기술을 확보했으며, 이번 행사에서 추론 전용 칩 '그로크 3 LPU(Language Processing Unit)'를 공개했다. 이는 대형언어모델(LLM)의 응답 속도를 크게 높이도록 설계된 반도체다.

그로크 칩은 GPU를 주로 생산하는 TSMC가 아니라 삼성전자에서 생산되며, 고대역폭 메모리(HBM)가 필요 없다는 점도 특징이다. 황 CEO는 "고처리량 GPU와 저지연 LPU를 결합하면 AI 시스템 성능을 크게 향상할 수 있다"고 설명했다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

엔비디아는 GPU 중심 전략에서 벗어나 CPU 시장 공략도 본격화했다. 이날 공개된 새로운 CPU 베라는 데이터센터와 PC, 노트북용 CPU 기능을 통합한 설계로, 다수의 입력을 동시에 처리하면서도 복잡한 연산을 빠르게 수행하도록 설계됐다.

황 CEO는 "CPU 단독 판매도 이미 빠르게 증가하고 있으며 확실한 수십억 달러 규모 사업이 될 것"이라고 밝혔다.

이 전략은 CPU 시장을 장악해 온 인텔과 AMD, 그리고 자체 AI 칩을 개발 중인 구글과 아마존 등과의 경쟁을 더욱 치열하게 만들 것으로 전망된다.

베라 루빈 플랫폼 (사진=엔비디아)

<이미지를 클릭하시면 크게 보실 수 있습니다>

엔비디아는 이날 차세대 AI 컴퓨팅 플랫폼 베라 루빈의 세부 사양도 공개했다. 이 플랫폼은 7개의 첨단 칩과 5개의 랙으로 구성된 대형 AI 시스템으로, 하나의 슈퍼컴퓨터처럼 작동하도록 설계됐다.

플랫폼의 핵심 구성 요소는 여러 개의 고성능 칩과 네트워크 장치로 이뤄졌다. 먼저 88개의 올림푸스(Olympus) 코어를 기반으로 설계돼 에이전트형 AI와 강화 학습 작업에 최적화된 중앙처리장치다. 루빈 GPU는 대규모 인공지능 모델의 학습을 처리하기 위한 고성능 그래픽처리장치이며, 그로크 3 LPU는 저지연 환경에서 빠른 AI 추론을 수행하도록 설계된 가속기다.

여기에 NV링크 6 스위치, 커넥트X-9 슈퍼NIC, 블루필드-4 DPU, 스펙트럼-6 이더넷 스위 등 네트워크 장치가 결합, CPU와 GPU, 스토리지, 네트워크를 하나의 통합 시스템으로 연결해 작동하도록 구성된다.

대표 시스템 NVL72는 72개의 루빈 GPU와 36개의 베라 CPU를 연결해 기존 대비 4분의 1 GPU만으로도 대규모 전문가 혼합(MoE) 모델을 훈련할 수 있다고 밝혔다. 또 블랙웰 시스템 대비 추론 처리량은 최대 10배로 증가하고 토큰당 비용은 10분의 1 수준으로 감소했다고 설명했다.

이 플랫폼은 앤트로픽, 오픈AI, 메타, 미스트랄 AI를 비롯해 아마존웹서비스(AWS), 구글 클라우드, 마이크로소프트 애저, 오라클 클라우드 등 주요 클라우드 기업에 제공될 예정이다.

엔비디아는 베라 루빈 플랫폼이 기존 챗봇 중심 AI에서 에이전트형 AI(agentic AI) 시대로의 전환을 의미한다고 강조했다. 이는 장시간 자율적으로 추론하고 소프트웨어 실행, 외부 도구 호출, 지속적인 학습과 개선을 수행하는 시스템이다.

이를 지원하기 위해 엔비디아는 에이전트 툴킷(Agent Toolkit), 오픈쉘(OpenShell), 네모클로(NemoClaw), 다이나모(Dynamo) 1.0 등 소프트웨어 도구도 공개했다. 이 도구들은 어도비, 아틀라시안, 시스코, 세일즈포스, 지멘스 등 기업이 안정적이고 지속적으로 작동하는 AI 에이전트를 구축하는 데 활용될 예정이다.

엔비디아는 앞으로도 AI 인프라 시장 확대에 맞춰 새로운 아키텍처를 이어갈 계획이다. 엔비디아는 2027년 대형 랙 시스템 '루빈 울트라(Rubin Ultra)', 2028년에는 물리학자 이름을 딴 '파인만(Feynman)' 아키텍처를 출시할 계획이라고 밝혔다.

박찬 기자 cpark@aitimes.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

03.17 (화)

엔비디아, 차세대 CPU·추론용 LPU·GPU '베라 루빈' 공개

AI타임스 주요 뉴스