사카나, LLM 최적화 기술로 메모리 비용 최대 75% 절감

AI타임스 원문
박찬
입력

2024.12.16 18:00

주소복사가 완료되었습니다

[박찬 기자]

(사진=사카나 AI)

<이미지를 클릭하시면 크게 보실 수 있습니다>

인공지능(AI) 스타트업 사카나 AI가 대현언어모델(LLM)의 메모리를 효율적으로 사용할 수 있는 새로운 기술을 개발했다. 이를 통해 LLM이나 트랜스포머 기반 모델을 활용해 애플리케이션을 구축할 때 발생하는 비용을 절감할 수 있다는 내용이다.

사카나 AI는 최근 '범용 트랜스포머 메모리(Universal Transformer Memory)'에 관한 논문을 아카이브에 게재했다. 이는 중요한 정보를 집중적으로 기억하고 불필요한 정보를 빨리 잊는 인간의 기억 방식을 모방한 것이다.

트랜스포머 아키텍처에 기반한 LLM은 입력 프롬프트에서 제공된 정보를 바탕으로 응답을 생성하는데, 이때 중요한 역할을 하는 것이 바로 '컨텍스트 창(context window)'이다. 컨텍스트 창은 모델이 처리하는 정보의 범위로, 이를 모델의 작업 메모리로 볼 수 있다.

이 컨텍스트 창의 내용을 적절히 조정하는 것은 모델의 성능에 큰 영향을 미칠 수 있으며, 프롬프트 엔지니어링도 이를 확장한 것으로 볼 수 있다.

현재 모델은 12만8000 토큰이 기본이며, '제미나이 1.5 프로'는 200만 토큰을 포함하는 긴 컨텍스트 창을 지원한다. 이는 사용자가 더 많은 정보를 입력할 수 있게 해 주지만, 긴 프롬프트는 계산 비용을 증가시키고 성능 저하를 일으킬 수 있다.

따라서 중요한 정보를 유지하면서 불필요한 토큰을 제거하는 최적화가 필요하다는 것이 이번 연구의 핵심이다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

현재 프롬프트 최적화 기술은 리소스를 많이 소모하거나 사용자가 다양한 설정을 수동으로 테스트해야 하는 단점이 있다. 하지만 사카나 AI의 범용 트랜스포머 메모리는 '신경 어텐션 메모리 모델(NAMM)'을 사용해 프롬프트를 최적화한다. NAMM은 각 토큰을 기억할지 잊을지를 결정하는 간단한 신경망이다.

연구진은 "이 기술은 트랜스포머가 불필요하거나 중복된 세부 사항을 버리고, 가장 중요한 정보에 집중할 수 있도록 해준다"라며 "이는 긴 컨텍스트를 필요로 하는 추론 작업에서 매우 중요한 요소"라고 설명했다.

NAMM은 LLM과 별도로 훈련되며, 추론 시 사전 훈련된 모델과 결합된다. 이로 인해 유연하게 적용할 수 있으며 배포도 쉽다는 설명이다. 그러나 모델 내부에 접근해 활성화하는 방식이기 때문에 오픈 소스 모델에만 적용 가능하다.

NAMM은 진화 알고리즘을 통해 훈련된다. 진화 알고리즘은 최상의 성능을 내는 모델을 반복적으로 변형하고 선택하는 방식으로 효율성 및 성능을 최적화한다. 토큰을 기억하거나 버리는 작업을 수행하기 때문에 중요한 과정으로 꼽힌다.

또 트랜스포머 아키텍처의 핵심 요소인 '어텐션(attention) 레이어'에서 작동한다. 이 레이어는 각 토큰의 관계와 중요성을 평가해 어떤 토큰을 보존하고 어떤 토큰을 버릴지 결정한다. 이 때문에 NAMM은 다른 모델에 맞춰 추가 수정할 필요없이 바로 적용할 수 있다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

벤치마크 결과도 인상적이다. '라마 3-8B' 모델을 NAMM로 훈련한 결과, 긴 시퀀스의 자연어 처리와 코드 해결에서 더 높은 성능을 보였다.

특히 불필요한 토큰을 제거해 모델 작업 수행 중 최대 75%의 캐시 메모리를 절약할 수 있었다.

연구진은 "NAMM이 작업에 따라 자동으로 동작을 조정한다는 것이 힝미롭다"라고 밝혔다. 예를 들어, 코딩 작업에서는 주석과 공백과 같은 실행에 영향을 미치지 않는 토큰 덩어리를 버린다. 반면, 자연어 작업에서는 문법적으로 중복된 토큰을 제거하며, 이로 인해 시퀀스의 의미가 영향을 받지 않도록 한다는 말이다.

사카나는 "이번 연구는 사전 훈련된 트랜스포머 모델의 성능과 효율성을 모두 높일 뿐만 아니라 재훈련 없이 다양한 파운데이션 모델에 적용할 수 있는 기술"이라ㅣ고 강조했다. NAMM을 만들 수 있도록 코드는 깃허브에 공개했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

12.17 (화)

사카나, LLM 최적화 기술로 메모리 비용 최대 75% 절감

AI타임스 주요 뉴스