(사진=셔터스톡) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI가 최신 인공지능(AI) 모델의 안전 평가에 들이는 시간과 자원을 대폭 줄이는 등 충분한 검증 없이 기술을 서둘러 출시하고 있다는 비판이 제기됐다.
파이낸셜타임스는 11일(현지시간) 내외부 테스트 관계자들을 인용, 오픈AI가 내부 직원과 외부 테스트 그룹에 최신 대형언어모델(LLM)의 위험과 성능을 테스트하는 평가 과정을 과거 수개월에서 이제는 며칠로 단축하라는 지시를 내리고 있다고 보도했다.
이에 따르면, 오픈AI의 테스트는 점점 허술해지고 있으며, 위험을 식별하고 이를 완화하기 위하기에는 시간과 자원이 부족하다고 전해졌다. 이는 구글과 앤트로픽, xAI는 물론, 딥시크 등 중국 기업까지 경쟁에 뛰어든 탓이다.
'o3' 내부 테스트에 참여 중인 한 관계자는 "기술이 지금보다 덜 중요했을 때는 오히려 더 철저하게 테스트했다"라고 지적했다. 이어 "모델이 점점 강력해질수록 오용될 가능성도 높아지지만, 시장 수요에 밀려 출시를 서두르고 있다"라며 "무모한 결정이며, 자칫하면 재앙이 될 수도 있다"라고 우려했다.
GPT-4를 테스트했던 한 관계자는 "위험한 기능 중 일부는 테스트 두달이 지나서야 발견됐다"라며 "현재 오픈AI의 방식은 공공의 안전을 전혀 우선시하지 않고 있다"라고 비판했다.
이에 대해 오픈AI는 자동화 시스템 도입 등으로 인해 테스트 기간을 단축했으며, 이를 최선이라고 밝혔다.
요하네스 하이데케 오픈AI 안전 시스템 책임자는 "재앙적 위험에 대해선 철저한 테스트와 완화 조치를 진행했다"라며 "우리는 속도와 철저함 사이에서 좋은 균형을 유지하고 있다"라고 해명했다.
테스트 모델이 실제 출시 모델과 다를 수 있다는 점도 지적되고 있다. 오픈AI는 '체크포인트(checkpoints)'라 불리는 중간 단계의 모델에서 테스트를 진행한 뒤 성능을 개선해 최종 모델을 공개하는데, 이는 평가 당시의 성능과는 다를 수 있다는 지적이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.