컨텐츠 바로가기

메타, 세계에서 가장 빠른 AI 슈퍼컴퓨터 구축

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
AI타임스

AI 슈퍼컴퓨터는 여러 GPU를 컴퓨팅 노드로 결합하여 구축되며, 컴퓨팅 노드는 고성능 네트워크 패브릭으로 연결되어 해당 GPU 간의 빠른 통신이 가능하다.(사진=메타 블로그)

<이미지를 클릭하시면 크게 보실 수 있습니다>


AI 슈퍼컴퓨터는 여러 GPU를 컴퓨팅 노드로 결합하여 구축되며, 컴퓨팅 노드는 고성능 네트워크 패브릭으로 연결되어 해당 GPU 간의 빠른 통신이 가능하다.(사진=메타 블로그)6개월 뒤에는 초당 5,000조 개 이상의 작업을 수행할 수 있는 차세대 인공지능(AI) 슈퍼컴퓨터가 등장할 예정이다. 25일 메타(Meta)는 세계에서 가장 빠른 AI 슈퍼컴퓨터(RSC·Research SuperCluster)를 구축할 수 있는 설계에 들어갔다고 발표했다. RSC는 오늘날 실행되는 가장 빠른 AI 슈퍼컴퓨터 중 하나이다. 2022년 중반에 완전히 구축되면 세계에서 가장 빠른 AI 슈퍼컴퓨터가 될 것으로 보인다. (관련 기사-엔비디아, 메타 AI 슈퍼컴퓨터에 A100 공급...5엑사급 성능 발휘)

RSC는 수조 개의 매개변수가 있는 신경망과 함께 작동하는 완전히 새로운 AI 시스템을 구축 하는데 도움을 줄 것이다. 예를 들어, 서로 다른 언어를 사용하는 대규모 그룹의 사람들에게 실시간 음성 번역을 제공하여 그들이 연구 프로젝트에서 원활하게 협업하거나 함께 AR 게임을 할 수 있게 될 것이다. 궁극적으로 RSC는 AI 기반 애플리케이션과 제품이 중요한 역할을 하는 차세대 컴퓨팅 플랫폼인 메타버스 기술 구축을 위한 길을 열 것이다.

메타 CEO 겸 공동 설립자 마크 주커버그는 "메타버스를 위해 구축하는 경험은 엄청난 연산 능력(초당 1000조 개의 연산!)이 필요하며 RSC는 수조 개의 예제에서 배우고 수백 가지 언어 등을 이해할 수 있는 새로운 AI 모델을 가능하게 할 것이다"고 밝혔다.

AI타임스

RSC는 현재 사용 가능한 가장 진보된 기술을 통해 최대 규모의 성능 제공한다. (사진=메타 블로그)

<이미지를 클릭하시면 크게 보실 수 있습니다>


RSC는 현재 사용 가능한 가장 진보된 기술을 통해 최대 규모의 성능 제공한다. (사진=메타 블로그)2017년에 설계된 기존의 AI 연구 클러스터와 비교할 때, RSC는 GPU의 수, 통신 방식, 연결된 스토리지의 변화다. 이전 시스템은 22,000개의 NVIDIA V100 Tensor Core GPU를 연결했다. RSC는 엔비디아의 최신 코어인 A100으로 전환되며, 이는 AI 시스템의 최근 벤치마크 테스트에서 최고의 성능 우위를 기록했다. RSC는 총 6,080개의 GPU가 있는 760대의 Nvidia DGX A100 컴퓨터 클러스터다.

컴퓨터 클러스터는 NVIDIA Quantum 1600Gb/s InfiniBand 2계층 토폴로지 Clos 패브릭을 통해 통신한다. 스토리지에는 46페타바이트(4600만 바이트)의 캐시 스토리지와 175페타바이트의 대용량 플래시 스토리지가 포함된다. 이전 V100 기반 시스템과 비교하여 RSC는 컴퓨터 비전 작업에서 20배, 대규모 자연어 처리 처리에서 3배의 속도 향상을 보였다.

RSC는 현재 가동 중이지만 개발은 계속 진행 중이다. RSC 구축의 2단계를 완료하면 거의 5엑사플롭의 정밀 컴퓨팅을 수행하는 세계에서 가장 빠른 AI 슈퍼컴퓨터가 될 것이다. 2022년까지 GPU 수를 6,080개에서 16,000개로 늘려 AI 훈련 성능을 2.5배 이상 높일 것이다. InfiniBand 패브릭은 2계층 토폴로지에서 16,000개의 포트를 지원하도록 확장된다.

스토리지 시스템은 증가하는 수요를 충족하기 위해 초당 16테라바이트의 전송 대역폭과 엑사바이트(10억 바이트) 규모의 용량을 갖는다. 새로운 시스템은 또한 안정성에 중점을 둘 것이다. 매우 큰 신경망 네트워크는 몇 주 동안 훈련 시간이 필요할 수 있고 작업 도중에 다시 시작해야 하는 실패를 원하지 않기 때문에 중요하다.

AI타임스

RSC 구축의 2단계를 완료하면 정밀 컴퓨팅을 수행하는 세계에서 가장 빠른 AI 슈퍼컴퓨터가 될 것이다.(사진=메타 블로그)

<이미지를 클릭하시면 크게 보실 수 있습니다>


RSC 구축의 2단계를 완료하면 정밀 컴퓨팅을 수행하는 세계에서 가장 빠른 AI 슈퍼컴퓨터가 될 것이다.(사진=메타 블로그)또한 RSC의 출시는 메타가 연구를 위해 데이터를 사용하는 방식의 변화와 함께 제공된다. 유해 콘텐츠를 감지하거나 새로운 AR 경험을 창출하는 등 새로운 AI 모델을 구축하려면 메타의 프로덕션 시스템의 실제 데이터만을 사용하여 모델을 가르쳐야 한다. RSC는 처음부터 개인 정보 보호 및 보안을 염두에 두고 설계되었으므로 메타의 연구원은 훈련 직전까지 해독되지 않는 암호화된 사용자 생성 데이터를 사용하여 모델을 안전하게 훈련할 수 있다.

예를 들어 RSC는 직접적인 인바운드 또는 아웃바운드 연결 없이 더 큰 인터넷과 격리되어 있으며 트래픽은 메타의 프로덕션 데이터 센터에서만 흐를 수 있다. 또한 스토리지와 GPU 간의 데이터 경로는 종단 간 암호화되며 데이터는 익명화되고 익명화 확인을 위한 검토 프로세스를 거친다.

AI타임스 박찬 위원 cpark@aitimes.com

[관련기사]LG 초거대 AI '엑사원' 등장...언어와 이미지, 한국어와 영어 같이 다뤄

[관련기사]카카오브레인, '구글 TPU'로 국내 최대 딥러닝 슈퍼컴퓨팅 인프라 구축

Copyright ⓒ '인공지능 전문미디어' AI타임스 (http://aitimes.com)
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.