컨텐츠 바로가기

    12.31 (수)

    [12월 커버스토리] 소버린 AI부터 전력난, 공급 문제까지... 엔비디아 대안 찾는 인공지능 컴퓨팅

    댓글 첫 댓글을 작성해보세요
    주소복사가 완료되었습니다
    [최호섭 편집위원] [디지털포스트(PC사랑)=최호섭 편집위원 ] 엔비디아의 GPU 기반 AI 컴퓨터와 이를 운영하는 CUDA 프레임워크는 현재 인공지능 시장의 가장 중요한 '자원'으로 꼽힌다. 지금 이 순간에도 모든 AI 관련 기업은 엔비디아의 GPU를 목말라 하고 있고, 국가간의 AI 주도권 다툼이 예민해지면서 엔비디아의 GPU와 AI 컴퓨터는 국가적 핵심 전략 자원으로 꼽힐 만큼 높은 가치를 인정받고 있다.

    엔비디아의 GPU는 지속적으로 성능을 높여가고, 생산량도 한계치에 다다랐지만 여전히 시장의 수요를 만족시키지 못하고 있다. 당장 엔비디아의 GPU 없이는 인공지능 서비스를 구축할 수 없는 것은 명확한 현실이다. 엔비디아도 이 정도의 독점 구조를 기대했던 것은 아니겠지만 그 결과는 만성적인 공급 부족과 가격 상승, 그리고 최근의 메모리 부족까지 그 여파가 이어지고 있다. 왜 인공지능 시장은 엔비디아만을 중심으로 돌아가고 있는 것일까? 그리고 그 대안은 없는 걸까?

    디지털포스트(PC사랑)

    엔비디아 젠슨 황 CEO. 사진=엔비디아

    <이미지를 클릭하시면 크게 보실 수 있습니다>



    엔비디아가 파는 것은 GPU 아닌 CUDA 소프트웨어

    엔비디아의 GPU는 왜 이렇게 인공지능 시장의 가장 중요한 열쇠가 되었을까? 인공지능의 기본 축인 학습과 추론은 막대한 연산이 필요하다. 하지만 그 과정 하나하나를 보면 행렬 기반의 비교적 단순한 계산의 반복이 이어지는 구조다. 이 병렬 연산에 가장 쉽게 접근할 수 있는 방법은 GPU였다. GPU는 애초 게이밍을 중심으로 한 3D 그래픽의 핵심 요소인 폴리곤 생성과 텍스처 맵핑을 빨리 할 수 있도록 고안된 장치다.

    더 작고 많은 폴리곤을 이어 붙일수록 3D 그래픽은 더 사실적으로 표현되기 떄문에 GPU는 게임이 허용하는 시간의 한계 안에서 매 프레임에 필요한 폴리곤을 많이 만들어 내는 '연산량'의 싸움을 지난 수 십년 동안 이어 왔다. AI 역시 '토큰의 생산량'이 핵심이 되는 산업이다. 학습과 추론에 더 많은 토큰을 쏟아붓는 것이 승패를 가름짓기 때문에 단순 반복 연산에 유리한 GPU의 특성은 머신러닝 초기부터 주목을 받아 왔다.

    문제는 이 GPU 시스템에 접근해서 이전에 없던 일을 주문하는 방법에 있다. 일반적으로 GPU는 마이크로소프트의 다이렉트 X, 또는 유니티, 언리얼 등으로 꼽히는 게임 엔진을 통해서 접근하게 된다. 게임에 최적화된 방식이다. 하지만 인공지능을 비롯한 일반 연산은 게임 엔진으로 처리하는 것이 쉽지 않다. 엔비디아는 2006년 일찍이 이 GPU에 원하는 기능을 넣을 수 있도록 '프로그래머블 GPU' 개념을 도입했고, GPU를 직접 제어해 필요한 연산을 분산처리할 수 있는 CUDA 플랫폼을 개발했다.

    디지털포스트(PC사랑)

     AI의 상징으로 불리는 엔비디아의 H100. 사진=최호섭

    <이미지를 클릭하시면 크게 보실 수 있습니다>



    2015년 구글이 누구나 쉽게 머신러닝을 이용할 수 있는 프레임워크 '텐서플로(Tensorflow)를 공개하면서 이를 여러 기기에서 구동할 수 있게 되었고, 실제 현장에서는 엔비디아의 GPU와 CUDA를 이용해 모델을 학습시킬 수 있는 방법을 고민하기 시작했다. 이후 챗GPT의 등장과 함께 대규모 언어 모델, 생성형 AI의 붐이 일면서 사실상 AI 모델은 CUDA를 중심으로 개발된다.

    이렇게 AI 관련 개발자들도, 데이터 엔지니어들도, 인공지능 전문가들도 모두 엔비디아를 통해 성과를 만들다 보니 나 CUDA와 엔비디아를 기반으로 하는 AI 프레임워크와 사례들이 나오기 시작한다. 인공지능 업계의 표준 아닌 표준이 된 셈이다.

    엔비디아는 확실한 성과를 내어 주었다. 엔비디아의 GPU 칩과 AI 컴퓨터의 성능은 뛰어났고, 생각하던 것들을 결과로 만들어 냈다. 하지만 인공지능의 수요가 높아지면서 GPU는 구하기 어려워졌고. 값도 극단적으로 치솟았다. 지금 엔비디아 인기의 불꽃이 피어 오른 것이다.

    실제로 현재 엔비디아의 수익은 사실상 CUDA의 소프트웨어 비즈니스의 결과물이라고 해도 지나치지 않는다. GPU는 CUDA를 구동하는 환경이고, 인공지능의 기본적인 모델 설계, 학습, 추론 등의 모든 과정은 CUDA를 중심으로 완성된다.

    하지만 이 엔비디아 중심의 인공지능 산업은 극심한 피로감으로 이어진다. GPU를 비롯해 AI PC를 구성하는 메모리 등 기본적인 요건에 대한 부담이 크게 늘어난 것이다. 기본적으로 H100 시스템 도입에 억 대의 비용이 들어갈 정도이고, 그마저도 구입 기회 자체가 운이라고 할 만큼 어렵다. 엔비디아로서는 공급에 최선을 다하고 있지만 여전히 시장의 요구에는 미치지 못하고 있다.

    특히 인공지능 자체가 국가 경쟁력과 연결되다 보니 특정 국가의 특정 기업 제품으로 인공지능 인프라가 만들어지는 것에 대한 부담도 뒤따른다. 자립할 수 있는 능력을 갖춘 AI 주권, 이른바 소버린 AI(Sovereign AI)에 대한 고민이다.

    소버린 AI는 국가, 혹은 기업이 스스로 AI를 운영할 수 있도록 하드웨어부터 AI 모델, 데이터, 인력 등의 조건을 자력으로 충족할 수 있는지를 정의하는 움직임이다. 당장 미국이 엔비디아에게 중국에 고성능 GPU와 AI 컴퓨터를 판매하지 못하도록 제한하는 것도 소버린 AI의 한 예로 볼 수 있다. 특정 시점에서 필요한 인프라를 갖추기 어렵다면, 특정 AI 모델을 쓰지 못하게 된다면 단숨에 AI 시장에서 주도권을 잃을 수밖에 없다. AI가 '국력'과 '안보'라는 키워드로 연결되서 특정 하드웨어, 특정 플랫폼의 높은 의존도는 많은 우려를 낳는다. 엔비디아가 'AI 시대의 무기상'으로 불리는 것 역시 이런 상황을 설명하는 것이다.

    기술 시장은 언제나 새로운 기술을 이끌어가는 강력한 리더와 함께 이를 빠르게 뒤따르는 경쟁자를 원한다. 인공지능 시장은 폭발적으로 성장하는 중이고, 엔비디아는 전체의 현재 90%에 달하는 점유율을 보이고 있다. 시장이 다양한 대안을 찾는 것은 소버린 AI에 대한 수요 뿐 아니라 당장의 인공지능 기술 개발, 비용, 운영 등 모든 측면에서 자연스러운 일이다.

    디지털포스트(PC사랑)

    엔비디아는 칩을 판매하지만 실제로는 CUDA를 기반으로 한 소프트웨어 생태계를 팔고 있다. 사진=최호섭

    <이미지를 클릭하시면 크게 보실 수 있습니다>



    GPU 시장의 경쟁자, 대안으로 떠오르는 AMD의 AI

    당장 대안으로 떠오르는 것은 AMD다. AMD는 라데온 그래픽카드를 통해 엔비디아와 대등한 수준의 GPU 성능을 보여준다. AMD 역시 기본적인 병렬 처리 기반의 GPU 컴퓨팅을 오랫동안 이끌어 왔고, 엔비디아의 CUDA와 마찬가지로 ROCm을 통해 GPU에 접근할 수 있는 길을 열었다.

    AMD는 '인스팅트 MI300' 시리즈를 중심으로 인공지능 시장에 발을 내딛고 있다. 현재 주력 제품인 '인스팅트 MI300X'는 엔비디아 H100에 견주는 성능을 보여주는데, 상대적으로 메모리의 용량과 대역폭이 크기 때문에 GPU당 처리할 수 있는 데이터 처리량이 많고 추론 측면에서 높은 성능을 보여주는 것으로 알려졌다.

    AMD는 지난 6월 4세대 인스팅트 아키텍처와 함께 MI350 시리즈 AI 가속기를 발표하기도 했다. MI350 시리즈는 MI300 시리즈에 비해 4배 이상 높은 성능과 함께 최대 메모리 용량도 288GB로 늘려 병목 현상을 해소한 고성능 칩이다. 특히 추론 성능을 높이기 위해 6비트 부동소수점 연산을 더해 8비트 연산에 비해 속도와 효율성을 높이면서도 4비트 연산 보다 더 정확한 결과를 내어서 과학이나 엔지니어링 분야의 AI에서 효용성을 높이기도 했다.

    현재 오픈AI를 비롯한 생성형 AI 기업들은 폭발적으로 늘어나는 이용량 때문에 성능과 비용에 대한 막대한 부담을 떠안고 있다. AMD의 AI 컴퓨터는 부족한 엔비디아 중심의 인프라를 대신해 추가 성능을 확보할 수 있는 방법이기도 하지만 동시에 추론의 효율성을 바탕으로 비용 부담을 낮출 수 있는 대안으로 떠오르고 있다.

    디지털포스트(PC사랑)

     엔비디아의 대안으로 꼽히는 AMD의 인스팅트 MI350 GPU. 사진=최호섭

    <이미지를 클릭하시면 크게 보실 수 있습니다>



    특히 AMD는 그 동안 CUDA에 맞선 GPU 컴퓨팅 프레임워크를 구축하는 데에 어려움을 겪어왔지만 최근 ROCm 7을 공개하면서 단순한 CUDA의 흉내가 아니라 개발과 활용 측면에서도 직접적인 경쟁력을 보여주고 있다. AMD로서는 오랫동안 고민하던 것이 GPU 컴퓨팅이고, 이 새로운 컴퓨팅 방법이 PC의 환경을 바꿀 것이라고 오랫동안 믿어 왔다. 다만 그 동안은 그 실효성을 제대로 증명하지 못했고, AI 등장 이전까지는 눈에 띄는 활용 방법을 보여주지도 못했다.

    돌아보면 AMD는 엔비디아가 CUDA를 발표하던 2009년 GPU 컴퓨팅을 위한 '오픈CL(OpenCL)'을 선택했다. 오픈CL은 애플이 GPU의 연산 능력을 모든 응용 프로그램에 확장하기 위해 처음 제안했다. 그리고 이를 오픈소스로 개방했다. 누구나 참여할 수 있고 이용할 수 있었지만 엔비디아는 CUDA를 내세웠기 때문에 AMD는 이를 대항마로 선택하면서 CPU와 GPU의 조합인 '이종 컴퓨팅'의 막을 열었다.

    AMD는 CPU와 GPU를 함께 만들기 때문에 이 두 가지 컴퓨팅 기술을 하나의 칩으로 구현하면 인텔, 그리고 엔비디아와 전혀 다른 프로세서를 만들 수 있을 것으로 기대했다. 그게 바로 AMD의 APU(Accelerated Processing Unit), 연산 가속 장치다.

    하지만 CUDA에 비해 성능이나 편의성이 부족했고, 정작 GPU를 적극적으로 이용하는 소프트웨어가 많지 않았다. 오픈소스의 개방성은 누구나 참여해 '함께 키워간다'는 강점을 갖고 있지만 동시에 '아무도 책임지지 않는다'는 약점을 갖고 있다. 오픈CL 역시 마찬가지의 길을 걸었다. 정작 애플도 GPU에 더 높은 효율로 접근할 수 있는 '메탈(Metal)' API를 내세웠고, AMD 역시 2016년부터 CUDA처럼 모든 개발 환경을 통합한 ROCm이라는 소프트웨어 환경을 만들어 왔다.

    이 ROCm은 CUDA의 오랜 경험과 소프트웨어 생태계를 단숨에 뒤엎지는 못했지만 최근 들어 점차 AI 성능을 중심으로 자리를 잡아가고 있다. ROCm 역시 개방형 플랫폼으로 누구나 함께 발전시킬 수 있다는 강점을 갖고 있다. 동시에 AMD GPU의 AI 추론 역량을 높이기 위해 지속적으로 최적화가 이뤄지고 있다. 생태계도 서서히 넓어져서 현재 허깅페이스에서 180만 개 이상의 모델이 ROCm으로 작동된다.

    기본적으로 ROCm 자체가 개방성을 갖고 있기 때문에 많은 기업과 국가들이 소버린 AI를 위한 대안으로 AMD를 눈여겨보고 있다. 유럽연합은 지속적으로 미국 빅테크 기업 중심의 기술 편향을 우려해 왔다. 90% 이상의 점유율을 갖는 엔비디아와 CUDA를 중심으로 AI 전략을 구축하는 것은 유럽으로서는 부담스러운 일이기도 하다.

    유럽은 핀란드의 LUMI처럼 이미 AMD의 GPU를 이용해 AI 슈퍼컴퓨터 가능성을 확인했고, AMD 역시 '사일로AI(Silo AI)'를 인수하면서 유럽 현지의 AI 환경을 받아들일 수 있는 채비를 하기도 했다. AI 생태계에서 엔비디아를 완전히 배제하는 것은 당장은 불가능한 일이지만 AMD를 통해 균형을 맞추려는 노력이 이어지는 것은 큰 의미가 있다.

    디지털포스트(PC사랑)

    한발 늦은 것은 사실이지만 AMD는 PC 시장과 마찬가지로 성능 기반의 치열한 경쟁을 예고하고 있다. 사진=최호섭

    <이미지를 클릭하시면 크게 보실 수 있습니다>


    AMD를 통한 소버린 AI의 움직임은 미국에서도 일어나고 있다. 미국 에너지부는 차세대 AI 슈퍼컴퓨터를 AMD의 인스팅트 MI400 시리즈를 중심으로 구축할 계획이다. 에너지부는 고성능 AI 컴퓨팅과 국가를 위한 안전한 소버린 AI 인프라를 가장 중요한 목표로 삼았다. 미국 역시 엔비디아만에 의존하는 AI 환경을 경계하는 것으로 읽을 수 있다.

    AMD는 아직까지 분명히 엔비디아에 미치지 못하는 것은 사실이지만 앞으로의 가능성은 충분히 열려 있다. 이미 많은 기업들이 AMD를 통한 확장을 검토중이고, 오픈AI 역시 인프라의 상당 부분을 AMD 인스팅트 GPU로 대체하고, 또 전환할 계획을 밝히기도 했다. 단순히 '저렴한 대체재'의 의미가 아니라 확실한 효과를 보여주는 '전략적 파트너' 자리로 올라서는 셈이다.

    엔비디아와 AMD의 GPU 전쟁은 지난 수 십 년 동안 늘 반복적으로 엎치락뒤치락하며 함께 성장해 왔다. 조금 늦은 것은 사실이지만 AMD의 추격은 지금까지 PC 시장에서 그래 왔듯 AI 분야에서도 시장의 다양성과 공급 유연성, 그리고 가격 경쟁력 등을 이끌어낼 가장 현실적인 대안으로 꼽힌다.

    NPU, 저전력과 효율로 추론의 대안 떠올라

    인공지능 연산만을 위해 개발된 NPU는 현재 GPU 중심의 AI 환경이 낳고 있는 여러가지 문제점들을 해소할 가장 강력한 해결책으로 꼽힌다. GPU는 당장 성능이 뛰어나고 확장이 쉬우면서도 기존의 소프트웨어 생태계가 잘 갖춰져 있다는 강점이 있다.

    하지만 동시에 불안정한 공급, 높은 가격의 현실적인 문제와 함께 높은 전력 소비량으로 인한 발전 문제, 환경 문제를 동시에 떠안고 있다. 결국 현재 AI의 높은 가격, 그리고 데이터센터의 환경 영향은 기본으로 GPU의 비효율성에서 출발한다. 아예 인공지능 연산 처리에 최적화된 전용 프로세서는 이런 GPU의 태생적인 문제점을 해소할 수 있는 방법으로 꼽힌다.

    NPU는 여러가지 형태가 있지만 기본적으로는 AI의 딥러닝에 주로 쓰이는 행렬 곱셉에 특화된 연산 장치를 말한다. 프로그래밍 가능한 반도체인 FPGA에서 시작해 암호화폐 채굴에서 전력 대비 높은 성능을 내면서 그 범용적 가치를 인정받았고, 그 가능성이 인공지능으로 확장되는 추세다.

    당장 애플이 아이폰에 쓰는 A 시리즈 칩을 비롯해 퀄컴, 미디어텍 등이 NPU를 통해 낮은 전력으로 이용자의 여러가지 정보들을 학습해 OS의 경험을 높이고 있고, 윈도우 PC도 NPU를 통해 카메라의 특수 효과와 특정 상황을 기억하는 '윈도우 리콜' 같은 기능을 만들어내고 있다.

    물론 이 NPU 하나하나의 성능은 매우 낮고 할 수 있는 연산도 제한적이다. 복잡한 벡터 연산이 필요한 학습에 대해서는 여전히 엔비디아의 GPU가 절대적으로 높은 성능과 효율을 내는 것도 사실이다. 하지만 모델을 통해 새로운 것을 만들어내는 추론에 대해서는 NPU가 훨씬 높은 효율로 같은 결과를 만들어낼 수 있다. 챗GPT나 제미나이처럼 대규모 서비스들은 이미 상당 부분 NPU를 통해서 서비스 비용을 낮추려는 노력을 해내고 있다.

    NPU는 상대적으로 개발이 쉽기 때문에 개발에 대한 문턱이 GPU에 비해 상대적으로 낮은 편이다. 또한 어느 정도 자리를 잡은 AI 모델에 대해서는 NPU를 통해 충분한 성능과 결과를 낼 수 있기 때문에 인공지능 서비스의 운영을 자체적으로 독립화하려는 소버린 AI의 관점에서도 적절한 답이 될 수 있다. 실제로 구글의 제미나이는 구글이 직접 개발해 온 NPU인 TPU(Tensor Processing Unit)를 이용해서 서비스하기 때문에 다른 생성형 AI 모델에 비해 높은 성능을 내면서도 훨씬 저렴하게 서비스할 수 있는 것으로 알려졌다.

    국내에서도 리벨리온, 퓨리오사AI, 사피온 등 유망한 팹리스 기업들이 독자적인 아키텍처를 가진 NPU를 선보이며 소버린 AI 구축을 위한 시도를 이어가고 있다. 이들은 엔비디아의 GPU가 장악한 범용 시장보다는 데이터센터의 전력 효율을 극대화하거나, 국방·보안 등 폐쇄적인 환경에서 확실한 성능을 내는 '특화 생태계'를 노린다.

    결국 NPU는 범용성이라는 측면에서는 GPU에 미치지 못할지라도, '목적성'과 '효율성'이라는 강력한 무기를 바탕으로 적절한 엔비디아의 대안이 될 수 있다.

    독점의 시대에서 '적재적소'의 시대로

    지금까지 인공지능 시장은 "AI를 하려면 무조건 엔비디아 GPU와 CUDA를 써야 한다"는 하나의 정답만을 향해 달려왔다. 엔비디아는 선구자로서 그 자격을 충분히 증명했지만, AI가 특정 기업의 전유물이 아닌 국가의 인프라이자 안보 자산이 된 지금, 단 하나의 선택지만 존재하는 구조는 지속 가능하지 않다.

    소버린 AI의 본질은 결국 '선택권'이다. 우리가 감당할 수 있는 비용, 우리가 통제할 수 있는 기술, 우리에게 맞는 효율성을 선택할 수 있어야 데이터 주권을 확보할 수 있다. 이런 관점에서 AMD의 부상은 단순한 2등 기업의 추격 그 이상의 의미를 갖는다. AMD는 엔비디아와 대등하게 경쟁할 수 있는 고성능 하드웨어를 제공하고, 개방형 소프트웨어 생태계를 통해 특정 플랫폼에 종속되지 않는 길을 열어 나가고 있다.

    여기에 효율성을 극대화한 NPU가 가세하며 시장은 건전한 경쟁 체제를 받아들일 채비를 하고 있다. 물론 하루 아침에 지금의 흐름을 뒤엎는 변화가 일어나지는 않을 것이다. CUDA 생태계는 기술적으로도, 플랫폼 특성으로도 여전히 독보적인 강점을 갖고 있기 때문이다. 다만 인공지능 시장의 성장에 따라 다양한 연산 처리가 복합적으로 고민되는 것은 당장의 많은 문제들을 풀어낼 수 있는 가장 현실적인 방법이다.

    컴퓨터 발전의 역사는 특정 연산에 대한 요구에서 출발해 왔다. CPU가 맡던 그래픽 처리들이 3D 처리에 최적화된 GPU 반도체로 서서히 옮겨가면서 게임 시장이 성장한 것처럼 인공지능 역시 연산에 대한 고민이 적절한 답을 찾아가는 것이 지금의 상황이다. 적절한 컴퓨팅 요소들을 적절히 조합하는 'AI 인프라의 다변화'는 다음 단계의 인공지능을 기대하는 지금, 가장 필요한 현실적인 고민이다.

    <저작권자 Copyright ⓒ 디지털포스트(PC사랑) 무단전재 및 재배포 금지>
    기사가 속한 카테고리는 언론사가 분류합니다.
    언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.