엔비디아·AMD·텐스토렌트 묶는 이종 추론 부상
모레는 MoAI로 통합 추론
네이버는 AMD와 협력
래블업은 운영 소프트웨어 부각
엔비디아는 16일(현지시간) 개막한 GTC 2026에서 베라 루빈(Vera Rubin) 플랫폼, 그록 3 엘피엑스(Groq 3 LPX), 분산 추론 소프트웨어 다이너모(Dynamo) 1.0을 함께 제시하며 AI 인프라의 중심축을 ‘분리형 추론’으로 옮기고 있다는 해석을 낳고 있다. 그록 기술을 활용한 저지연 추론 가속과 그래픽처리장치(GPU) 기반 대규모 처리 구조를 결합해, 단일 GPU가 모든 작업을 맡던 기존 방식에서 벗어나겠다는 신호로 읽힌다.
한마디로 단일 GPU가 추론 전 과정을 처리하던 구조에서 벗어나 입력 처리와 토큰 생성을 서로 다른 가속기에 나눠 맡기는 방식이 새 표준으로 부상하고 있는 것이다. 이에 따라 AI 인프라의 승부처도 칩 하나의 성능보다 여러 칩을 어떻게 조합하고 얼마나 효율적으로 운용하느냐로 이동하는 분위기다.
이 변화의 중심에는 국내 AI 인프라 소프트웨어 기업 모레(Moreh)가 있다. 모레는 최근 엔비디아, AMD, 텐스토렌트 등 이종 GPU·NPU를 단일 클러스터에서 함께 구동하는 추론 프레임워크 ‘MoAI 추론 프로임워크’를 공개했다. 특정 반도체를 더 많이 확보하는 것보다, 서로 다른 가속기를 역할별로 배치하고 이를 자동으로 최적화해 추론 속도와 비용 효율을 함께 끌어올리겠다는 전략이다.
지난해 12월 AI 인프라 솔루션 기업 모레(MOREH, 대표 조강원)는 글로벌 반도체 기업 AMD와 함께 최신 기술 트렌드를 공유하고 AMD 생태계 협업 촉진을 위한 'AI 개발자 밋업'을 개최했다. 사진=모레 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
단일 GPU 시대 저문다…왜 분리형 추론인가
분리형 추론은 대규모 입력을 한꺼번에 처리하는 프리필(Prefill)과 토큰을 순차적으로 생성하는 디코드(Decode)를 분리해 각각에 적합한 칩을 배치하는 구조다. 긴 문맥 처리와 AI 에이전트 수요가 늘수록 처리량과 저지연을 동시에 잡아야 하는데, 단일 GPU만으로는 비용과 효율의 한계가 커질 수밖에 없다는 문제의식이 배경에 깔려 있다.
그래픽처리장치(GPU)는 대규모 입력 처리에, 신경망처리장치(NPU)나 언어처리장치(LPU) 계열 칩은 저지연 토큰 생성에 강점을 살려 역할을 나눠 맡는 편이 더 현실적이라는 계산이다. 학습보다 추론 비용이 AI 서비스 확산의 병목으로 떠오르는 상황에서 업계가 분리형 추론을 차세대 인프라 전략으로 보는 이유도 여기에 있다.
모레, MoAI로 이종 가속기 통합 전면에
모레는 여기서 한발 더 나아가 서로 다른 벤더의 가속기를 하나의 추론 파이프라인으로 묶는 데 초점을 맞췄다. 회사 측에 따르면 MoAI Inference Framework는 엔비디아 GPU뿐 아니라 AMD GPU, 텐스토렌트 칩까지 지원하며 데이터센터 단위에서 최적 조합을 찾도록 설계됐다.
특히 강점으로 내세우는 것은 자동화다. 목표 응답속도만 설정하면 시스템이 요청 부하와 입출력 패턴을 분석해 어떤 가속기를 얼마나 투입할지, 어떤 경로로 라우팅할지를 스스로 조정하는 방식이다. 더 비싼 칩을 추가로 들이는 것보다 기존 인프라를 얼마나 영리하게 섞어 쓰느냐가 경쟁력을 좌우한다는 논리다.
모레는 내부 테스트에서 일부 성능 개선 효과도 확인했다고 밝혔다. AMD MI300X 기반 환경에서 자사 최적화 소프트웨어가 성능 개선을 보였고, 엔비디아와 AMD를 섞은 구성은 속도 측면에서, AMD 동기종 구성은 비용 효율 측면에서 각각 장점이 나타났다는 설명이다. 다만 이는 회사가 제시한 초기 내부 결과인 만큼 향후 외부 검증이 더 필요하다.
“칩 성능보다 조합 능력”…추론 경쟁력의 이동
시장이 모레에 주목하는 이유는 단순한 수치보다 방향성에 있다. 이제 AI 인프라 경쟁은 “더 비싼 단일 칩” 확보전이 아니라 “여러 칩을 어떻게 묶고 제어하느냐”로 이동하고 있다는 점이다. 추론 비용이 서비스 확산의 핵심 제약으로 떠오른 상황에서, 이종 가속기를 효율적으로 통합하는 기술은 비용과 성능을 동시에 좌우하는 변수로 부상하고 있다.
모레는 이런 역량을 정부의 독자 AI 파운데이션 모델 사업과도 연결하고 있다. 자회사 모티프테크놀로지스를 통해 모델 개발과 인프라 최적화를 함께 추진하며, 국가 AI 모델을 한국형 인프라에서 효율적으로 구동하는 기반을 겨냥하고 있다.
조강원 모레 대표는 “엔비디아의 GTC 2026 발표는 이종 분리형 추론이 AI 인프라의 미래임을 보여줬다”며 “MoAI 추론 프레임워크를 통해 엔비디아·AMD·텐스토렌트를 아우르는 더 넓은 생태계를 지원하고, 특정 벤더에 종속되지 않는 AI 인프라 선택지를 제공할 것”이라고 말했다. 이어 “독자 AI 파운데이션 모델 사업을 통해 국가대표 AI 모델의 추론 효율을 극대화하는 인프라를 제공하겠다”고 강조했다.
네이버와 AMD가 18일, 네이버 제2사옥 1784에서 양사 주요 경영진이 참석한 가운데 AI 생태계 확장 및 차세대 인프라 협력을 위한 양해각서(MOU)를 체결했다. 왼쪽부터 최수연 네이버 대표와 리사 수 AMD CEO다. 사진=네이버 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
네이버는 다변화, 래블업은 운영 소프트웨어
국내 다른 기업들도 비슷한 흐름에 올라타고 있다. 네이버는 AMD와 AI 생태계 확장 및 차세대 인프라 협력을 위한 양해각서(MOU)를 맺고, 하이퍼클로바X에 최적화된 고성능 GPU 연산 환경 구축에 나섰다. 업계에서는 네이버가 국내 LPU 스타트업인 하이퍼엑셀과의 추론용 칩 협력에 더해 AMD와도 손잡으면서 특정 벤더 의존을 줄이는 다변화 전략에 속도를 내고 있다고 본다. 18일 네이버 1784를 찾은 리사 수 AMD 최고경영자(CEO)가 각 세종 데이터센터에 AMD AI 칩을 공급할 계획 여부에 대해 “오늘 네이버와 많은 논의를 할 것(We will discuss more today)”이라고 밝힌 것도 이런 흐름에 힘을 실었다.
래블업은 또 다른 축이다. 이 회사는 대규모 GPU 자원을 통합 관리하는 ‘인프라 운영체계(OS)’급 소프트웨어를 앞세워 존재감을 키우고 있다. 분리형 추론이 칩 조합의 문제라면, 래블업은 그 위에서 GPU 자원과 데이터, 저장소를 끊김 없이 배치하고 운영하는 관리 소프트웨어의 중요성을 부각하고 있다.
AI 인프라 승부처, 이제는 운영 능력
GTC 2026이 던진 메시지는 분명하다. AI 인프라 경쟁의 무게중심이 더 이상 GPU 단일 스펙에만 있지 않다는 점이다. 엔비디아가 분리형 추론을 공식화한 지금, 국내에서는 모레가 MoAI Inference Framework를 앞세워 이종 가속기 통합과 자동화 소프트웨어 경쟁에서 가장 선명한 존재감을 드러내고 있다.
여기에 네이버의 인프라 다변화, 래블업의 운영 소프트웨어 전략까지 더해지면서 국내 AI 인프라 경쟁도 새 국면에 들어섰다. 이제 승부는 칩을 얼마나 많이 사느냐가 아니라, 어떤 칩을 어떻게 엮어 비용과 성능을 함께 최적화하느냐다. AI 인프라의 주도권도 결국 그 운영 능력에서 갈릴 가능성이 커지고 있다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
