컨텐츠 바로가기

11.05 (화)

이슈 인공지능 시대가 열린다

인텔, 네이버 플레이스 AI 모델 서버 기반 GPU→CPU 전환 성공

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
파이낸셜뉴스

인텔 본사 로고. 뉴시스

<이미지를 클릭하시면 크게 보실 수 있습니다>


인텔은 네이버와 함께 네이버 플레이스 서비스 인공지능(AI) 모델 서버를 전환하고 모델 최적화를 성공적으로 진행했다고 31일 밝혔다.

네이버는 AI 모델 추론 수행용 서버를 그래픽처리장치(GPU) 기반에서 인텔 중앙처리장치(CPU) 기반 서버로 전환하고 인텔 소프트웨어 솔루션인 인텔 파이토치 확장팩을 도입했으며 AI 모델 최적화 작업을 진행했다. 이를 통해 장비 전환에 따른 성능 하락 또는 추가 장비 투입 없이 동일한 서비스 품질을 유지하면서 연간 4억원 이상 운용비용을 절감했다.

네이버 G플레이스 AI 개발팀은 한국 및 일본에서 지역 기반 온·오프라인 연계(O2O) 서비스를 개발·제공 중이다. 해당 서비스는 사용자들이 다양한 오프라인 상점에 대한 상세 정보 및 후기를 입력 또는 검색하거나 사업주들이 업체에 대한 정보를 관리하고 판매에 활용할 다양한 데이터를 제공 받을 수 있다. 특히 업체 이용자들이 입력한 정보를 실시간 수집 후 활용하고, 정보 진위를 파악해 노출할 수 있도록 AI 모델을 활용한 점이 특징이다.

이를 위해 데이터를 가공할 수 있도록 전처리 및 학습·추론하고 AI 모델을 개발하고 적용함은 물론 AI 모델의 성능을 주기적으로 검증하고 개선해 신규 모델로 배포하는 과정도 구축했다. 이 과정 중 일부는 CPU, 나머지는 GPU 기반 서버가 처리해왔다. 시스템에 확보된 데이터를 AI 모델이 활용할 수 있도록 전처리하는 과정과 추론 결과를 후처리하는 과정은 CPU 기반 앱서버가, 추론을 수행하는 과정은 GPU 기반 서버가 담당했다.

네이버 G플레이스 AI 개발팀은 최근 GPU 기반 서버 비용 증가 및 가용성 제한으로 인해 GPU 기반 서버에서 수행하던 추론 과정을 CPU 기반 서버로 전환할 방안을 개발하고 성능 검증 및 테스트를 진행했다. 다만 단순 전환 시 GPU 기반 서버 대비 10배 낮은 성능을 제공하는 문제점이 발생했다. 따라서 네이버 G 플레이스 AI 개발팀은 엔지니어링 및 AI 모델 측면 개선을 진행했다.

개발팀은 엔지니어링 측면 개선을 위해 신경망 추론(NNI)에 최적화된 인텔 파이토치 확장팩을 도입해 병목현상을 제거, CPU 코어 활용을 개선했다. 이를 통해 초당 처리 개수(RPS)를 최대 7배까지 개선했다. 더불어 AI 모델 측면 개선의 경우 서비스 정확도를 유지하면서 지연시간을 개선하도록 모델 경량화 기법을 적용했다. CPU 서버에서 AI모델 최적화 작업 이후 최종 성능 측정 결과 음식사진 분류기(33배), 이미지 점수 측정기(30배), 영수증 분류기 (5.5배) 등에서 개선된 결과를 기록했다.

CPU 기반으로의 전환에 사용된 장비는 2세대 인텔 제온 스케일러블 프로세서 기반 서버다. 현재 네이버 플레이스 서비스에 활용되고 있는 영수증, 음식 사진, 공간 사진 등 이미지 인식, 판별 및 매칭, 상점 정보, 사용 후기 판별 및 검색 결과 노출에 적용 중이며 향후 활용 범위를 확대할 예정이다. 특히 4세대 인텔 제온 스케일러블 프로세서와 인텔 어드밴스드 매트릭스 익스텐션(Intel AMX)을 활용한 테스트를 진행 중으로 상당한 성능 향상을 확인했으며 향후 최신 CPU 도입에 따른 추가적인 성능 향상이 기대된다.

주윤상 네이버G플레이스 AI개발 팀장은 “성능 하락 없이 이전과 동일한 서비스 품질을 유지하면서 GPU 모델 서버의 CPU 전환과 AI 모델 최적화를 통해 운영비용을 절감할 수 있었다"며 "이를 통해 현재 서비스에 적용할 비용효율적인 AI서비스 운영 방안 마련은 물론 향후 확대 적용할 수 있는 기술 기반을 확보하게 됐다”고 말했다.

나승주 인텔코리아 상무는 “AI 활용이 증가하면서 AI 서비스용 인프라 구축 및 운영에 비용 효율적인 시스템을 갖추는 것이 중요해졌다. AI는 GPU라는 고정관념에서 벗어나 총 소유비용을 최적화할수 있는 시스템과 인프라를 구축해야한다”며 “AI모델 개발 및 배포, 데이터 전·후처리를 포함하는 전체 과정을 면밀히 검토하고 CPU를 효율적으로 활용하면 GPU사용을 최소화하면서도 원하는 성능을 확보할 수 있다”고 밝혔다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.