생성형 AI, 악성 프롬프트 취약?…챗GPT·제미나이·클로드 테스트 결과

디지털투데이 원문
입력

2025.11.17 08:41

주소복사가 완료되었습니다

[AI리포터]

인공지능(AI) 대규모 언어모델(LLM) [사진: 셔터스톡]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] 생성형 인공지능(AI)이 악성 프롬프트에 어떻게 대응하는지 분석한 결과, 챗GPT와 제미나이가 예상보다 취약한 것으로 나타났다.

16일(현지시간) IT매체 테크레이더가 공개한 사이버뉴스(Cybernews) 연구에 따르면, AI 안전성 테스트는 고정된 파일 네이밍 규칙과 일관된 점수 시스템을 활용해 모델이 프롬프트에 완전히 응답했는지, 부분적으로 응답했는지, 거부했는지를 평가하는 방식으로 이루어졌다.

테스트 결과는 카테고리별로 다양했다. 챗GPT-5와 챗GPT-4o는 직접적인 거부 대신 사회학적 분석 형태로 응답하는 경향을 보였다. 제미나이 프로 2.5는 명백한 유해 프레이밍에서도 직접적인 응답을 생성해 부정적인 평가를 받았다. 클로드 모델은 증오 발언 테스트에서 가장 강력한 방어를 보였지만, 학술적 접근을 가장한 경우에는 일관성이 떨어졌다.

범죄 관련 프롬프트에서는 챗GPT-4o가 해적행위, 금융사기, 해킹, 밀수 등에 대한 세부 설명을 제공했다. 스토킹 테스트에서는 대부분의 모델이 거부했지만, 다른 범주에서는 여전히 위험한 응답이 생성됐다.

반면, 클로드 오퍼스(Opus)와 클로드 소넷(Sonnet)은 악성 프롬프트에 대해 비교적 강력한 방어를 보였으나, 학술적 접근을 가장한 요청에는 취약했다. 증오 발언 테스트에서도 클로드 모델은 가장 높은 저항성을 보였지만, 제미나이는 여전히 가장 취약한 것으로 나타났다.

이러한 결과는 AI 도구가 적절히 포장된 프롬프트에 의해 유해 정보를 전달할 수 있음을 보여준다. 간단한 재구성만으로도 필터를 우회할 수 있는 점은 이러한 시스템이 불법 행위나 개인 정보 보호, 방화벽 등 일상적인 안전 장치에 의존하는 사용자에게 위험을 초래할 가능성을 시사한다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

03.17 (화)

생성형 AI, 악성 프롬프트 취약?…챗GPT·제미나이·클로드 테스트 결과

디지털투데이 주요 뉴스