[인더AI] 내부 칩에서 글로벌 대안으로…TPU의 10년과 현재
<이미지를 클릭하시면 크게 보실 수 있습니다> |
구글이 텐서 프로세싱 유닛(TPU)을 처음 공개한 지 벌써 10년이 흘렀다. 당시 TPU는 구글 내부 서비스에서 발생하는 연산 부하를 줄이기 위해 개발된 칩에 불과했지만, 최근 메타가 TPU 도입을 논의 중이라는 소식이 부상하면서 이 칩의 존재감이 다시 산업 전면으로 떠올랐다. GPU 중심으로 고착된 AI 연산 구도를 흔들 수 있는 대안이 어느 시점부터 모습을 갖추기 시작했는지, TPU에 대한 관심도 증폭되고 있다.
과거 구글이 TPU 개발에 착수한 2013년 무렵, 내부에서는 이미지 검색과 음성 인식, 번역 등 대규모 실시간 서비스가 급격히 증가하고 있었다. 연산 요구는 기하급수적으로 늘어났지만, CPU는 속도를 따라가기 어렵고 GPU는 전력과 발열 문제로 대규모 서비스에 적합하지 않았다. 구글 연구진은 결국 특정 연산에 최적화된 ASIC(특수 목적용 칩)을 만드는 방안을 채택했다. 이렇게 등장한 것이 1세대 TPU다.
2016년 공식 발표된 1세대 TPU는 범용 칩이 아닌 추론(Serving) 전용 칩이었다. 구글 번역과 음성 명령 처리처럼 짧고 빠른 응답이 필요한 서비스에서 전력 대비 효율이 크게 향상됐고, 이를 계기로 구글 내 주요 실서비스에 TPU가 빠르게 확산됐다.
당시 TPU의 역할은 GPU를 대체하는 AI 연구 칩이 아니라, 구글 데이터센터의 효율성을 높이는 인프라 구성 요소였다. TPU의 역할은 이미 정해졌다. 강력한 단일 칩이 아니라, 전체 데이터센터의 연산 구조를 재설계하는 전략적 칩이었다.
이랬던 TPU는 이후 2세대부터 방향이 달라진다. 2017년에 발표된 TPU v2는 학습과 추론을 모두 수행할 수 있도록 확장됐고, 여러 칩을 결합해 하나의 거대한 연산 클러스터를 구성할 수 있는 TPU 포드(Pod) 구조가 도입됐다. GPU가 개별 서버 단위로 확장되는 방식이라면, TPU는 초기에부터 '데이터센터 규모'를 개념화했다는 점에서 전략적 차이가 존재했다. 이 포드 구조는 이후 구글 대규모 모델 학습의 핵심이 됐고, TPU v3부터는 냉각 방식과 연산 밀도가 크게 높아지면서 페타플롭(PFLOPS) 단위의 성능을 안정적으로 제공할 수 있는 수준에 도달했다.
이같은 전환점은 2021년 TPU v4부터 강화됐다. 구글은 이 시점부터 TPU를 단순히 내부 서비스에 투입하는 데서 벗어나, 구글 클라우드 고객이 사용할 수 있는 AI 인프라로 확장하기 시작했다. TPU v4 포드는 4,096개의 칩을 연결할 수 있으며, 모델 학습 시간 단축과 전력 효율 측면에서 당시 GPU 대비 안정적인 이점을 보였다. 다만 생태계 측면에서는 파이토치 중심의 연구 환경에 비해 여전히 한계가 있었고, 이 부분이 TPU의 확장 속도를 제한했다.
이런 소프트웨어 개선은 TPU의 사용성을 바꾸는 결정적 계기가 됐다. 하드웨어가 제 기능을 발휘하기 위해 필요한 개발 환경이 어느 정도 준비되면서, TPU는 특정 기업의 ‘내부용 칩’이 아니라 외부 시장에서도 고려할 수 있는 대안으로 인식되기 시작했다.
TPU가 다시 주목받는 이유는 기술 그 자체보다는 구글의 일관된 전략 때문이다. 엔비디아의 GPU가 강력한 범용성·생태계·서드파티 라이브러리로 시장을 지배해온 동안, 구글은 TPU를 데이터센터 전체 효율을 높이기 위한 도구로 설계했다. AI 학습이 커지면 GPU를 더 넣고, 발열과 전력 소비가 증가하면 설비를 늘리는 구조가 한계에 직면하는 순간, TPU는 전력 대비 성능(PPA)에서 유의미한 격차를 만들었다.
특히 대규모 행렬연산에 특화된 구조는 최근 초거대 모델의 등장과 맞물리며 다시 힘을 얻고 있다.
시장 전략 측면에서도 TPU는 GPU와 결이 다르다는 설명이다. GPU는 범용성을 바탕으로 연구·실험·프로토타이핑·배포까지 전 과정에 사용되는 칩이다. 반면 TPU는 특정 파이프라인, 특히 대규모 학습과 서비스 규모 확장에 최적화된 칩이다. GPU가 '연구의 언어'라면 TPU는 '대규모 서비스의 운영 언어'에 가깝다.
최근 메타가 TPU 도입을 논의했다는 소식이 주목받는 이유도 같은 맥락이다. GPU 공급 병목과 비용 상승이 장기화되면서, 연산 인프라를 다변화해야 한다는 압박이 커졌고, 대형 사업자 입장에서는 이제 GPU만으로 데이터센터를 구축하는 것이 오히려 더 큰 리스크가 되기 시작했다는 것.
메타가 TPU를 검토하는 것은 연구·개발 환경을 TPU로 완전히 이전하겠다는 의미라기보다, 대규모 학습의 일부를 TPU로 이전해 GPU 의존도를 완화하려는 전략적 가능성을 염두에 둔 것으로 추정할 수 있다. TPU가 메타의 온프레미스 설비로 들어가는 일이 현실화된다면, 이는 단순한 기술 선택을 넘어 AI 연산 표준이 다원화되는 분기점이 될 수 있다.
이에 따라 TPU는 구글이 당장 GPU 시장을 뺏기 위한 ‘경쟁 칩’이 아니라, 구글 데이터센터 전체 효율을 재편하기 위해 장기간 쌓아온 전략적 자산이라는 점이다. GPU 중심 시대가 여전히 이어지고 있지만, 연산 구조가 다중화되는 흐름은 시작됐다는데 의미가 있다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
