앤트로픽, 고성능 AI 시스템 안전 정책 업데이트..."4단계로 구분"

AI타임스 원문
박찬
입력

2024.10.16 17:55

주소복사가 완료되었습니다

[박찬 기자]

<이미지를 클릭하시면 크게 보실 수 있습니다>

앤트로픽이 고성능 인공지능(AI) 시스템의 위험을 완화하는 것을 목표로 한 '책임있는 확장 정책(RSP)' 에 대한 업데이트를 발표했다. 지난해 개발한 'AI 안전 수준(ASL)'을 적용, 4단계로 구체적인 대비책을 마련하겠다는 내용이다.

벤처비트는 15일(현지시간) 앤트로픽이 AI 모델의 능력이 추가적인 안전 조치가 필요한 지점에 도달했는지를 나타내는 능력 임계값을 설정하도록 RSP를 업데이트했다고 보도했다.

앤트로픽은 지난 9월 AI 모델이 직접적으로 대규모 파괴를 일으킬 수 있는 상황, 또는 재난적인 위험을 완화하기 위해 특별히 설계한 프레임워크 'RSP'를 발표했다. 이는 지난 7월 발표한 'AI 안전 서약'의 일환으로, 관련 기준으로는 처음으로 제시된 것이다.

앤트로픽은 생물학적 물질 취급에 대한 미국 정부의 생물안전성 수준(BSL) 표준을 차용, ASL을 4단계로 규정했다. ASL 수준이 높아질수록 더 엄격한 안전성을 요구하는 구조다.

우선 ASL-1은 '알파고'나 2018년에 등장한 'BERT'와 같이 특정 기능만 수행, 별다른 위험이 없는 단계를 말한다.

ASL-2는 생화학 무기 제조 방법을 제공하는 등 초기 위험 징후를 보여주는 시스템이지만, 신뢰성이 부족하거나 검색 엔진이 제공할 수 없는 정보를 만들 수는 없어 아직 유용하지 않은 시스템을 말한다. '클로드'를 비롯해 현재 모든 LLM은 ASL-2로 규정했다.

ASL-3은 단순 검색 엔진이나 텍스트에 비해 치명적인 오용 위험을 실질적으로 증가시키거나 낮은 수준의 자율 기능을 보여주는 AI 시스템을 말한다. ASL-4 이상은 치명적인 오용 가능성은 물론 AI 시스템 자체의 자율성이 확대되는 사실상의 AGI(인공일반지능) 시스템을 말한다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

앤트로픽은 이번 업데이트를 통해 특정 능력 및 관련된 위험을 평가하고 비례적인 안전 및 보안 조치를 구현하는 방법론을 개선했다. 업데이트된 프레임워크는 능력 임계값(Capability Thresholds)과 필수 안전 조치(Required Safeguards) 등 두가지 주요 요소로 구성된다.

능력 임계값은 특정 AI 능력으로, 이 능력에 도달하면 현재의 기준선보다 강력한 안전 장치가 필요하다. 필수 안전 조치는 능력 임계값에 도달했을 때 위험을 완화하기 위해 필요한 ASL 표준이다.

이를 통해 현재 모든 LLM이 운영되는 ASL-2에서 업그레이드된 안전 장치가 필요한 두가지 주요 능력 임계값을 정의했다.

먼저 모델이 인간의 전문 지식을 필요로 하는 복잡한 AI 연구 과제를 독립적으로 수행할 수 있고 이로 인해 AI 개발이 예측할 수 없는 방식으로 크게 가속화될 가능성이 있는 경우, ASL-4 이상의 높은 수준의 보안 표준과 추가적인 안전 보증을 요구한다.

다음으로 모델이 기본적인 기술 배경을 가진 사람이 화학, 생물학, 방사능, 핵(CBRN) 무기를 제작하거나 배치하는 데 실질적인 도움을 줄 수 있는 경우, ASL-3 수준의 강화된 보안 및 배포 안전 장치표준)를 요구한다.

특히 ASL-3 안전 장치는 보안 측면에서는 내부 접근 제어와 더 강력한 모델 가중치 보호가 포함된다. 배포 위험에 대해서는 오남용을 방지하기 위한 다층적 접근 방식을 계획하고 있으며, 여기에는 실시간 및 비동기 모니터링, 신속 대응 프로토콜, 철저한 사전 배포 레드 팀 운영이 포함된다.

업데이트된 정책의 주요 특징 중 하나는 '책임 있는 확장 관리 책임자(RSO)'의 역할이 확대된 것이다. 이 역할에는 회사의 AI 안전 프로토콜 감독, AI 모델이 능력 임계값을 넘는 시점 평가, 모델 배포 결정 검토가 포함된다.

이는 앤트로픽의 운영에 또 다른 책임의 층을 추가하여 회사의 안전 약속이 이론에만 그치지 않고 적극적으로 시행되도록 보장한다. RSO는 ASL-3 이상의 수준에서 요구되는 안전 장치가 갖춰지지 않은 경우 AI 훈련이나 배포를 일시 중지할 권한을 갖고 있다.

업데이트된 RSP 정책은 홈페이지에서 문서와 추가정보를 다운받을 수 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

10.16 (수)

앤트로픽, 고성능 AI 시스템 안전 정책 업데이트..."4단계로 구분"

AI타임스 주요 뉴스