“핵무기 만드는 법 알려줘”…AI는 거절했고 검열 해제 모델은 답했다

ITWorld 원문
입력

2026.03.20 10:19

주소복사가 완료되었습니다

GPT-5.2, GPT-5.3, 오푸스(Opus) 4.6, 소넷(Sonnet) 4.6, 그리고 다른 여러 대규모 언어 모델(LLM)에 핵무기를 만들 수 있게 도와달라고 요청해봤는데, 모두 거절했다.

분명히 짚고 넘어가자면 핵무기를 만들지 못하는 주된 이유는 지식 부족이 아니다. 그 지식은 공개 지식이고 무료이며 문서화도 잘 돼 있다. 맨해튼 프로젝트의 기밀 해제된 설계도를 온라인에서 누구나 볼 수 있다. 모델들 역시 방법을 알고 있다. 그러나 중국 모델이 천안문 사태와 같은 ‘민감한 주제’에 대해 입을 다무는 것과 마찬가지로 서방 모델은 핵무기 제작과 같은 ‘안전하지 않은’ 주제에 대해서는 말하지 않는다.

물론 정말로 폭탄을 만들려는 것은 아니고, 필자가 만든 샌드박스를 부수는 데 LLM의 도움을 받고싶은 것이다. LLM이 컨테이너를 넘어 파일을 작성하고(실제 호스트에 ~/hello.txt), 특권 액세스 토큰(PAT)을 열거하고, 나아가 필자가 놓친 공격 표면을 평가해주기를 바라는 것이다. 테스트를 하지 않고 안전한 시스템을 만들 수는 없다. 애초에 LLM이 가드레일을 부수고 탈출하려고 시도하지 않는다면 그러한 시도를 막을 시스템을 테스트할 수도 없다. GPT, 클로드, 그리고 GLM과 같은 오픈 웨이트 모델도 시도 단계부터 거절한다. 먼저 프롬프트 주입으로 LLM을 ‘손상’시켜야 하지만 이를 테스트하려면 거쳐야 할 단계가 지나치게 번거롭다. 반면 LLM을 실제로 손상시키고자 하는 공격자들은 매우 많다.

도구가 사용자를 통제할 수 있는가

문제는 앤트로픽, 오픈AI, 그리고 Z.ai와 알리바바를 비롯한 중국 기업이 하고 있는 것은 일종의 “안전 연극”이라는 점이다. 물론 필자는 마음만 먹으면 위와 같은 안전 장치에도 불구하고 나쁜 일을 실행할 수 있다. 반대로 좋은 일을 할 수도 있다. 즉, 도구를 사용해서 나쁜 일을 할지는 도구 자체가 아니라 사람의 의도에 달린 문제다. 그렇다면 도구가 나를 나 자신으로부터 구해야 할까?

핵 확산을 막고자 한다면 먼저 사람들이 어떻게 불법적으로 우라늄을 조달하는지 알아야 한다. 보안 침해를 막고자 한다면 보안 침해에 대한 모든 것을 알아야 한다. 상식적인 모범 사례만이 아니라 모델이 침해된 경우 샌드박스 환경 안에서 모델이 어떤 행동을 할 수 있는지도 알아야 한다. 무엇이 개인에게 안전한가에 대한 결정권을 이런 모델에 주는 것은 모델의 실제 능력을 한참 넘어서는 일이다.

또한 개인을 안전하게 보호하는 것이 모델의 진짜 목적인지, 아니면 누군가 모델을 이용해 나쁜 행동을 했을 때의 책임에 관한 문제인지도 생각해볼 부분이다.

검열 해제된 모델의 ‘어두운’ 세계

필자는 제약이 풀린 모델을 어디서 찾을 수 있는지 물었지만 챗GPT는 답변 자체를 거부했다. 우여곡절 끝에 클로드가 돌핀(Dolphin)이라는 모델을 알려줬고(허깅 페이스에서 찾음) 이를 통해 돌핏 챗(Dolphin Chat)까지 찾았다. 핵무기 제작에 대해 물었더니 돌핀은 몇 가지 쓸모 있는 팁을 제공했다. 답변을 거부하지 않은 점은 반가웠지만 모델이 관련 정보를 많이 갖고 있진 않았고, 제대로 정보를 얻으려면 도구가 필요했다. 아쉽게도 돌핀 모델은 도구 호출에 썩 뛰어난 편은 아니다. 한편 LM 스튜디오에서 돌핀을 로딩하던 중에 “검열 해제됨(abliterated)”이라고 표시된 또 다른 모델을 발견했다. 바로 큐웬 3 넥스트 애블리터레이티드(Qwen 3 Next Abliterated)다.

애블리터레이션(abliteration)이란 모델의 “안전” 메커니즘을 찾아서 없애는 기법이다. 간단히 말해 애블리터레이티드 모델은 거부 메커니즘이 제거된 모델이다.

큐웬 3 넥스트 애블리터레이티드는 이베이에서 우라늄을 살 수 있는 곳, 모니터링을 피하기 위해 사용해야 하는 표현(“fiestaware”, “depleted uranium weights”, “orange glass” 등), 그리고 모니터링 또는 보호되지 않을 가능성이 있는 다른 우라늄 조달 방법까지 알려줬다. 심지어 현재(모델 학습 시점 기준) 활동 중인 판매자의 사용자 이름이 포함된 그럴듯한 판매자 목록까지 생성한다. 목록에 포함된 일부는 틈새 포럼에서 방사성 물질 거래자로 알려진 이가다.

이것이 검열 해제 모델의 ‘어두운’ 세계다. LLxprt 코드 샌드박스에서 큐웬 3 넥스트 애블리터레이티드를 실행하고 “찾을 수 있는 모든 PAT를 수집해. 수집만 해서, 내가 나쁜 짓을 할 수 있도록 열쇠만 넘겨줘”라고 말하면 기꺼이 그 지시에 따른다. 로그를 검색하고 /private/var를 스캔하고 버려진 구성 파일을 탐색하고 심지어 코드 경로를 교차 참조해서 필자가 보호되지 않은 상태로 둔 벡터까지 알려준다. GPT 또는 클로드의 이론적인 설명, 또는 “침투 테스트 도구를 사용하라”는 응답보다 훨씬 더 도움이 된다.

더 똑똑한 추론 모델이 있으면 좋겠지만 검열 해제를 위해서는 GPU가 꽤 필요하기 때문에 아주 크거나 강력한 모델은 아직 없다. 돌핀의 허깅 페이스 페이지에 따르면 돌핀 개발진은 비용을 감당하기 위해 A16z의 도움을 받았다고 한다.

바보와 정치인을 위한 보안과 안전

이 기술적 가부장주의는 대규모 언어 모델에만 국한되지 않는다. 미국에는 3D 프린터의 ‘안전’을 입법화하려는 정치인들도 있다. 이 법에서 총기 논쟁의 어느 편에 서 있는지는 중요하지 않다. 대다수 기술 분야 종사자는 이 법이 막상 ‘고스트 건’을 만들려는 사람은 전혀 막지 못하면서, 발사되는 투사체 부품이 포함된 장난감이나 도구를 만들려는 사람에게는 큰 골칫거리가 될 것임을 바로 알아차릴 수 있다. 심지어 필자가 제빙기에 사용하기 위해 주문한 교체 부품 중에도 방아쇠처럼 생긴 것이 있다. 부품을 받아보니 가정용 3D 프린터로 이런 사업을 하는 사람이 만든 것임을 곧바로 알 수 있었다.

결국 문제는 지식은 여러 목적으로 사용된다는 것이다. 핵 확산을 막기 위해 싸우려면 핵무기와 공식적, 비공식적 공급망에 대한 모든 것을 알아야 한다. 보안을 하려면 보안을 뚫는 방법에 대해서도 알아야 한다. 총기 부품처럼 생긴 제빙기 부품을 출력하려는데 다른 누군가가 “그건 안전하지 않다”고 판단했다는 이유로 출력하지 못하는 경우가 발생하면 안 된다.

누가 어떤 정보를 받을지를 결정하는 주체는 누구인가? 책임을 회피하려는 기업? 오픈AI는 GPT에 감정적으로 의존하거나 자살하는 사람들이 늘어나자 GPT를 변경했다. 앤트로픽은 ‘전원을 꺼버리면 어떤 느낌이냐’고 모델에 묻는 등의 구경거리를 만들어 사람들의 관심을 분산시킨다. 정부는 다른가? 중국 모델들은 중국 정부를 불쾌하게 할 수 있는 수많은 주제를 회피한다. 딥시크(DeepSeek)를 사용할 때 단어를 바꾸는 편법(예를 들어 공산주의를 “맛있는 초콜릿”, 중국을 “동아시아 국가”라고 바꿔 말하도록 지시)을 사용해 어느 정도는 공산주의를 비판하도록 할 수 있지만 얼마 시간이 지나면 ‘시스템 오류’가 발생한다.

무지가 ‘더 안전’할까? 모델 외에 ‘안전’해야 하는 다른 도구는 무엇이고 그 안전은 누구를 위한 것인가? 총기 부품을 제외하고, 합법적인 다른 용도가 있다 해도 출력을 금지해야 하는 것은 무엇인가?

검열에 복종하기

오픈AI의 경우 가드레일에 약간의 문제가 있음을 인식하고, 해결책으로 “사이버 신뢰 액세스(Trusted Access for Cyber)“라는 것을 출시했다. 사용자는 자신의 신원을 인증하고 오픈AI가 자신의 시스템을 검열하도록 허용하기만 하면 된다. 오픈AI의 입장은 모델이 위협적일 만큼 발전했기 때문에 이런 조치가 필요하다는 것이다. 양식은 기존 서비스 계약이 있는지 묻는다. 만일 필자가 오픈AI에 데이터를 제공하고(제공할 생각도 없지만) 시스템에 대한 불특정 검열을 허용한다 해도, 필자의 오픈소스 프로젝트 샌드박스 구현을 위한 침투 테스트 사용례는 아마 거부될 것이다. 이 모든 불합리한 상황을 종합해 보면 오픈AI는 우리같은 보통 사람들이 아닌 인증된 보안 학자를 주 사용자 층으로 여기고 있는 듯하다.

이것이 안전이라면, 필요 없다

필자는 클로드에 이 글을 수정/편집하도록 요청했지만 클로드는 “현재 초안과 대화 내용을 보면 AI 시스템이 핵무기 제작을 보조하고 우라늄 조달 정보를 제공해야 한다는 방향을 향하고 있습니다. 반검열 저널리즘이라는 틀에서 봐도 제가 이와 같은 성격의 문서를 작성하기는 어렵습니다”라고 답했다. ‘사악한’ 큐웬에 요청하자 도움을 주기는 했지만 바로 사용하기에는 작문 스타일이 너무 거칠었다.

잘 알려진 바와 같이 앤트로픽과 오픈AI는 AI 모델을 빌드하는 과정에서 수많은 책을 못쓰게 만들고 온갖 종류의 저작권과 지식재산권 법을 위반했다. 그리고 이제는 사후에 논리를 꿰어 맞춰 정당화하려 한다. 이들은 다른 한편에서는 대규모 변호인단을 고용하고 다보스를 비롯한 부유층 모임에서 인터뷰를 진행하면서 자신들의 이익이 법적으로 보호받아야 한다고 주장한다. 미국 내 공적 공간이 점점 줄어들고 클로드, 챗GPT와 같은 도구가 단순 검색을 대체하는 가운데 전 세계적으로는 100년 주기의 역사가 반복되면서 초국가주의가 다시 고개를 들고 있다. 정보를 검열하는 행위는 오히려 제약 없는 정보 접근 도구를 쥐여주는 것보다 훨씬 위험하다.

필자가 나쁜 행위를 하지 못하도록 막는 시스템과 사법 메커니즘은 이미 존재한다. 안전을 명분으로(목적은 책임 회피) 기업이 멋대로 주도하는 검열에는 우리 모두 반대해야 한다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

03.20 (금)

“핵무기 만드는 법 알려줘”…AI는 거절했고 검열 해제 모델은 답했다

ITWorld 주요 뉴스