양자화로 AI 압축…손안의 AI기기 핵심도 ‘SW’

아시아경제 원문
최유리
입력

2024.01.08 08:07

최종수정

2024.01.08 13:56

주소복사가 완료되었습니다

CES 2024 화두는 '온디바이스 AI'

작지만 강한 AI·경량화 기술 핵심

‘온디바이스 인공지능(AI)’이 전 세계를 휩쓸고 있다. 스마트폰부터 자동차까지 다양한 기기에 AI 기술을 탑재해 기기가 자체적으로 정보를 수집·연산하는 능력을 갖추는 게 핵심이다. 이를 위해선 AI를 경량화하는 기술이 필요한데, 소프트웨어(SW)가 그 역할을 담당한다. 지난해 AI 모델이 두뇌 크기로 자체 성능을 겨뤘다면 올해는 노트북부터 청소기, 냉장고, 스마트카 등에 AI를 탑재하는 게 거대한 흐름이 됐다.

온디바이스 AI는 서버나 클라우드를 거치지 않고 기기가 자체적으로 AI를 구동하는 것이다. 이용자 입장에선 개인 정보가 외부로 나가지 않아 보안 측면에 이점이 있다. 이 때문에 개인 정보를 활용한 맞춤형 서비스가 가능해진다. 공급자 입장에선 서버 운영 비용을 들이지 않고도 AI 서비스를 제공할 수 있다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

온디바이스 AI에 필요한 하드웨어(HW)가 고성능 반도체라면 SW는 무게를 가볍게 만드는 역할을 한다. 스마트폰이라는 제한된 성능·공간에서 AI를 구동하려면 모델 자체가 작거나, 큰 모델을 가볍게 만들 필요가 있기 때문이다.

모델 자체를 작게 만든 것은 경량거대언어모델(sLLM)이다. LLM이 큰 두뇌로 범용 영역에서 고성능을 낸다면 sLLM은 상대적으로 사이즈가 작은 AI 모델이다. 특정 영역에서 성능이 좋고 비용 효율성이 높은 게 특징이다. 보통 수천억 개 파라미터(정보를 학습하고 기억하는 역할)를 LLM, 수십억~수백억 개 파라미터를 sLLM으로 구분한다.

작은 모델로 좋은 성능을 내려면 최적화 기술이 있어야 한다. AI 스타트업 업스테이지는 자체 LLM ‘솔라’를 구현할 때 작은 모델을 쪼개고 합치면서 최적의 성능을 내는 비율을 찾아냈다. 그 결과 107억개 파라미터에 불과한 크기로 오픈소스 AI 모델의 글로벌 경연장인 허깅페이스 리더보드에서 1위를 차지했다. 오픈AI가 개발한 GPT-4(파라미터 1조개)의 100분의 1수준으로 고성능을 내는 것이다. AI 기술 기업 코난테크놀로지는 모델 크기를 줄이는 대신 학습량을 늘리거나 양질의 데이터만 학습시켰다. 자체 모델 ‘코난LLM’에 메타가 개발한 ‘라마2’보다 270배 많은 한국어를 투입했다.

큰 모델을 가볍게 만드는 경량화 기술도 주목받고 있다. AI 스타트업 스퀴즈비츠는 양자화로 AI를 압축하는 기술을 개발했다. 32자릿수 연산을 더 작은 단위의 연산으로 간단하게 표현해 빠르게 계산하면서도 똑같은 성능을 내는 원리다. AI 모델 최적화 기술 기업 노타는 AI 모델의 연산량을 줄여 경량화한다. 상대적으로 결과물에 영향을 덜 미치는 연산을 건너뛰게 하는 방식이다. AI가 알아서 특정 기능을 수행하는데 효율적인 모델을 찾도록 하는 오토 머신러닝(ML) 기술도 있다.

김형준 스퀴즈비츠 대표는 "다양한 하드웨어에 얼마나 적합하게 모델을 경량화, 최적화하느냐가 온디바이스 AI의 경쟁력"이라며 "더 많은 분야에 AI가 활용되려면 이 같은 기술이 필수"라고 말했다.

최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

07.01 (월)

양자화로 AI 압축…손안의 AI기기 핵심도 ‘SW’

아시아경제 주요 뉴스