컨텐츠 바로가기

11.26 (화)

[이상덕의 위클리반도체] 열 받으면 생존 어렵다 AI반도체 '발열'과의 전쟁

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
매일경제

게티이미지뱅크

<이미지를 클릭하시면 크게 보실 수 있습니다>


오늘날 반도체 산업에는 한 가지 큰 딜레마가 있습니다. 반도체 연산 성능을 높이면 높일수록 점점 더 뜨거워져 한계에 부딪힌다는 점입니다. 그동안 반도체 발열은 큰 문제가 안 됐습니다. 하지만 발열 문제는 10㎚(나노미터·1㎚는 머리카락 굵기의 10만분의 1) 이하 공정부터 점진적으로 발생하다가 7㎚ 공정에 접어들면서 본격적으로 나타났습니다.

공정이 미세화될수록 발열 문제는 심화할 가능성이 큽니다. 반도체의 최소 단위는 트랜지스터입니다. 트랜지스터는 0과 1의 이진 신호를 제어해 데이터를 처리합니다. 오늘날 칩은 수십억 개에서 수조 개에 달하는 트랜지스터로 구성돼 있습니다. 예를 들어 반도체를 3㎚와 같은 미세 공정에서 생산한다는 뜻은 그만큼 반도체 소자인 트랜지스터를 내부에 더 많이 밀집시키는 것을 가리킵니다.

블랙웰이 던진 숙제

반도체 발열에는 몇몇 이유가 있습니다. 미세공정으로 트랜지스터를 밀집시킬수록 전자가 이동하는 거리와 시간이 줄어듭니다. 연산 성능은 높아집니다만 상대적으로 발열이 심해집니다. 또 있습니다. 연산 성능을 높이고자 클록 속도(주파수)를 증가시키기도 하는데요. 이에 따라 전력 소모 역시 비례적으로 늘어납니다. 그만큼 더 많은 열이 발생합니다. 이뿐 아닙니다. 트랜지스터는 온(On) 오프(Off)를 반복적으로 '스위칭'하면서 데이터를 처리합니다. 이런 행동 자체가 에너지 손실을 부르고 열을 발생시키는데요. 밀도를 높여 설계를 하다 보면 트랜지스터 간에 간섭 현상이 일어납니다. 이에 누설 전류가 늘어나고, 더 많은 열이 발생합니다.

반도체 업계를 이끄는 엔비디아 역시 예외는 아닙니다. 엔비디아는 차세대 그래픽처리장치(GPU)인 '블랙웰(Blackwell) B200'의 발열 문제로 한바탕 홍역을 앓았습니다. 블랙웰은 올 3월 선보인 괴물 GPU인데요. 초당 2경번에 이르는 계산이 가능합니다.

블랙웰 B200은 인공지능(AI)을 학습·추론하는 AI 가속기의 근간입니다. 블랙웰 B200 2대에 중앙처리장치(CPU)인 그레이스 1대 그리고 고대역폭메모리(HBM)인 HBM3E 16대를 결합하면 AI 칩인 'GB200'이 됩니다. GB200은 막강한 AI 가속기입니다. 챗GPT 근간이 되는 GPT-3.5를 기준으로 놓고 보면 종전 모델인 H100보다 성능이 7배, AI 학습 속도는 4배나 빠릅니다.

매일경제

120가구 전기 소모하는 서버

엔비디아는 연산을 극대화하고자 AI 칩 'GB200'을 72대나 연결했습니다. 'GB200 NVL72'라는 서버 시스템입니다. GPU 간 거리가 짧아질수록 데이터 전송 지연(latency)이 줄어들고, 효율적인 병렬 연산을 할 수 있어서인데요. 높이만 2m 안팎에 무게는 1.5t에 달합니다. 외관은 마치 철제 캐비닛과 닮았습니다. GB200 NVL72는 종전 버전보다 언어 모델에 대한 추론 능력이 30배 높고, 데이터 처리 능력은 18배 우수합니다. 괴물 서버이다 보니 가격은 상상을 초월합니다. 무려 300만달러(약 42억원)에 이릅니다.

하지만 이러한 고성능 설계에는 한계가 따릅니다. 고밀도 반도체들을 한 곳에 담아두다 보니 서버 랙(server rack) 1개가 무려 120㎾의 에너지를 소모합니다. 이는 가구 120곳이 사용할 전기입니다. 높은 전기 소모는 엄청난 발열로 이어집니다. GPU 칩은 컴퓨터가 작업을 하지 않는 상황인 유휴 상태에서는 30~50도, 작업을 할 때인 부하 상태에서는 60~85도에 달합니다. 내부 온도가 85도를 넘어서면 반도체는 망가집니다.

이 때문에 성능을 꾸준히 높이면서 발열을 제어하는 것은 매우 어려운 숙제입니다. 얼마 전에는 TSMC와 엔비디아가 충돌을 빚었다는 소식이 있었습니다.

예상보다 늦어진 양산

더인포메이션에 따르면 엔비디아는 올 3월 블랙웰을 발표한 직후 테스트 과정에서 TSMC가 납품한 반도체에 고장이 난 것을 발견했다고 합니다. 엔비디아는 TSMC에 고장 이유를 문의했지만 TSMC가 책임을 엔비디아 설계 탓으로 돌리면서 서로 감정이 상했다고 하는데요. 젠슨 황 엔비디아 최고경영자(CEO)가 올 6월 TSMC를 방문해 엔비디아만을 위한 전용 패키징 라인을 구축해달라고 요구하자 TSMC 임원들이 강하게 반발한 것으로 알려진 것이죠. 서로 간 신경전이 거세지자 웨이저자 TSMC 회장이 중재에 나설 정도였다고 합니다. TSMC와 엔비디아 갈등설은 황 CEO가 직접 공개적으로 발표하면서 누그러졌습니다.

이런 블랙웰 B200은 우여곡절 끝에 올 10월 대량 생산에 돌입할 수 있었습니다. 또 델 등 일부 엔비디아 고객사는 GB200 NVL72 같은 서버 랙까지 이미 주문한 상태입니다. 하지만 또 발열 문제가 불거졌습니다.

매일경제

<이미지를 클릭하시면 크게 보실 수 있습니다>


발열 때문에 휘청인 반도체주

서버 랙에 엄청난 발열 현상이 나타난 것인데요. 마이크로소프트를 비롯한 역량 있는 일부 고객사는 랙을 다시 구성할 계획이지만 상당수 고객사는 블랙웰 대신 종전 버전의 칩을 구매해야 할지 고민하는 것으로 알려졌습니다.

GB200 NVL72에는 너무 많은 칩이 들어 있고 서로 얽히고설켜 연결돼 있다 보니 발열이 나타난 것입니다. 엔비디아는 이후 서버 랙 설계를 다시 평가했고, 공급업체들을 상대로 설계 변경을 요청한 것으로 전해졌습니다. GB200 NVL72 공급 지연 소식에 글로벌 반도체 주식이 휘청였던 이유가 바로 여기에 있습니다. 발열 발생→GPU 서버 공급 차질→고대역폭메모리 등 공급 차질→반도체주 둔화로 이어지는 것입니다.

오늘날 아마존 AWS, 마이크로소프트 애저, 구글 클라우드와 같은 클라우드 기업들은 자체 인공지능 칩인 NPU(Neural Processing Units)를 설계해 사용하면서도 엔비디아 GPU를 대량 구매하고 있습니다. 발열 문제는 엔비디아뿐만은 아닙니다. 삼성전자 엑시노스, 퀄컴 스냅드래곤 810, 애플 M2 역시 발열 이슈를 한 차례씩 겪었습니다.

발열 잡을 기술을 찾아라

이 때문에 수많은 기업이 저전력·저발열 반도체 기술 개발에 매진 중입니다. 반도체 설계 차원에서는 삼성전자가 트랜지스터 전류를 3면이 아닌 4면에서 제어해 전류 누설을 줄이고 전력 효율을 높이는 게이트 올 어라운드(GAA·Gate-All-Around)를 개발했습니다.

신소재 개발 역시 적극적입니다. 대표적인 것이 탄소 원자가 육각형 벌집 모양의 2차원 평면을 이루는 단층 구조 신소재인 그래핀(Graphene)입니다. 두께가 0.34㎚로 지금껏 발견된 가장 얇은 소재인데요. 열전달 속도가 매우 빨라 냉각 소재로 주목받고 있습니다. 삼성전자는 그래핀 방열재를, IBM은 그래핀 트랜지스터를 연구 중입니다. 후공정인 패키징 단계에서도 열관리 연구가 활발합니다. 삼성전자, TSMC, 인텔은 TSV(Through-Silicon Via)를 적극 연구 중입니다.

클라우드 기업은 데이터센터 서버 자체 열을 식히는 방법을 연구하고 있습니다. 대표적으로 서버 자체를 비전도성 액체에 담가 열을 관리하는 액침 냉각(Immersion Cooling)이 있습니다. 특히 구글은 핀란드와 싱가포르 데이터센터에서 액침 냉각 기술을 활용 중입니다. 마이크로소프트는 한 걸음 더 나아가 액침 냉각에서 발생한 열을 인근 시설 난방 에너지로 활용하는 방안까지 개발하고 있습니다.

열을 잘 관리하는 기업이 미래 반도체 패권을 잡을 가능성이 높습니다.

'위클리반도체'는 반도체 산업에서 벌어지는 '핫'한 소식을 독자들이 알기 쉽게 분석해 드리는 연재물입니다. 반도체 산업을 놓고 빅테크 기업들이 벌이는 '칩 워(Chip War)'를 파헤칩니다.
매일경제

매일경제

[이상덕 기자]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.