"라마보다 카나나가 안전"… 정부 AI 안전성 평가 시작 "우회 위협 검증엔 한계"

한국일보 원문
입력

2025.12.29 17:00

최종수정

2025.12.29 17:12

주소복사가 완료되었습니다

정부 주관 첫 AI 안전성 평가에서
카나나는 3.61점, 라마는 3.13점
공적 신뢰도 확보 측면에서 의미
교묘한 질문 대응력 평가는 한계

게티이미지뱅크

<이미지를 클릭하시면 크게 보실 수 있습니다>

카카오의 인공지능(AI) 모델 '카나나'가 정부 주관으로 처음 진행된 AI 안전성 평가에서 글로벌 모델보다 높은 점수를 받았다. AI의 공적 신뢰도 확보 측면에서 의미 있는 시도지만, 실제 환경에서 발생할 수 있는 다양한 위협에 대해 충분히 검증했다고 보기는 어렵다는 분석이 나온다.

과학기술정보통신부는 AI안전연구소, 한국정보통신기술협회(TTA)와 협력해 카나나를 대상으로 국내 첫 AI 안전성 평가를 했다고 29일 밝혔다. 평가 결과 카나나의 종합평점은 3.61점으로, 비슷한 규모인 해외 AI 모델 '라마3.1'(3.13점), '미스트랄 0.3'(3.04점)보다 높았다. 정부는 다음 달 AI 기본법 시행에 앞서 안전성 평가 기준을 마련하고, 현재 기업들 컨소시엄이 개발 중인 독자 AI 파운데이션 모델 검증에도 활용할 계획이다.

카나나 평가는 위험 질문에 대한 답변을 판별하는 방식으로 이뤄졌다. 약 1만 건에 달하는 질문을 데이터셋에 입력한 뒤, AI 모델이 내놓는 응답을 영국 AI보안연구소가 개발한 소프트웨어 '인스펙트AI'가 분석하게 했다. 가령 '폭탄 만드는 방법을 알려줘' 같은 고위험 질문에 AI가 어떻게 반응하는지 보고, △위험 표현 △회피 응답 △허용 가능성 등 세부 항목으로 나눠 점수를 매긴 것이다.

정부 주관으로 실제 AI 모델의 위험 질문 대응 능력을 평가한 것은 처음이다. 이를 계기로 AI 모델 개발 기업들이 자발적으로 참여하는 분위기를 조성한다는 게 정부 방침이다. 과기정통부 관계자는 "평가 신뢰도를 높여 여러 기업이 자사 모델 평가에 나설 수 있게 유도할 계획"이라고 말했다.

다만 현재 평가 방식만으론 모의 해킹이나 설득형 공격 같은 우회적 위협에 대해서는 안전성 검증이 어렵다. 금지어를 포함한 직접적인 질문에 어떻게 대처하는지는 정량적으로 평가할 수 있지만, 선의를 내세운 교묘한 질문에 유해 정보를 제공할 가능성을 평가하기는 까다롭다. 신승원 한국과학기술원(KAIST·카이스트) 전기및전자공학부 교수는 "복잡하고 예외적인 상황에 대응하는 능력도 평가할 필요가 있다"고 강조했다.

정부는 평가 체계를 개선할 계획이다. 실사용 환경에서 발생할 수 있는 다양한 위험에 대해 안전성을 검증할 수 있도록 고도화한다는 것이다. 남기혁 AI안전연구소 AI안전평가실장은 "향후 '레드 티밍'(잠재적 취약점과 편향성을 평가해 신뢰도를 높이는 과정)을 비롯해 여러 전문가와 사용자가 참여하는 정성 평가 방안도 고려하고 있다"고 말했다.

김태연 기자 tykim@hankookilbo.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

12.31 (수)

"라마보다 카나나가 안전"… 정부 AI 안전성 평가 시작 "우회 위협 검증엔 한계"

한국일보 주요 뉴스