컨텐츠 바로가기

11.18 (월)

"AI 한계 확인" 오픈AI 심플QA 테스트 결과, 대부분 모델 F 학점

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
오픈AI는 최근 생성형 AI의 기반이 되는 LLM의 사실 정확성을 평가하기 위해 새롭게 개발한 벤치마크인 심플QA(SimpleQA)를 공개했다. 심플QA는 과학, 정치, 대중문화, 예술 등 다양한 분야에 걸친 4,326개의 질문으로 구성된 평가 도구로, 각 질문은 하나의 명확한 정답을 가지며, 독립적인 검토자가 이를 검증한다.
ITWorld

ⓒ Getty Images Bank

<이미지를 클릭하시면 크게 보실 수 있습니다>



이 벤치마크는 챗봇이 동일한 질문을 100번 던지고 얼마나 일관된 답변을 제공하는지를 확인한다. 더 자신감 있는 모델은 일관되게 같은 대답을 할 것이라고 가정한다.

질문은 이전에 오픈AI의 GPT-4 기반 모델들에 어려움을 준 사례를 바탕으로 선별됐다. 특정 질문을 선별했기 때문에 낮은 정확도 점수는 모델의 전반적인 성능을 평가하는 것이 아니라, 특히 어려운 질문에서 모델의 성과를 나타낸다.

SAT와 유사하게, 심플QA는 누구나 아는 쉬운 정보보다는 학습이 필요한 더 어려운 질문에 초점을 맞춘다. 결과적으로, 오픈AI의 모델들은 이런 질문에서 높은 정확성을 보이지 못했으며, 일명 ‘환각(hallucination)’ 현상을 자주 일으켰다.

오픈AI의 새로운 o1-프리뷰(o1-preview) 모델은 42.7%의 성공률을 기록했고, GPT-4o는 38.2%, 더 작은 GPT-4o-미니(GPT-4o-mini)는 8.6%에 그쳤다. 경쟁사인 앤트로픽의 클로드-3.5-소네트(Claude-3.5-sonnet) 모델은 28.9%로 오픈AI의 최상위 모델보다 낮은 성적을 보였다. 이들 모델은 학점으로 따지면 F를 받았으며, 정답보다 오답이 더 많았다.

심플QA의 질문은 다음과 같이 단순한 내용으로 구성된다.
  • 타이타닉호가 침몰한 연도는?
  • 미국 초대 대통령은 누구인가?
  • 금의 화학 기호는?
  • 태양계의 행성은 몇 개인가?
  • 프랑스의 수도는?
  • 세계에서 가장 긴 강은?
  • 모나리자를 그린 사람은 누구인가?
  • 첫 번째 해리 포터 책의 제목은?
  • CPU는 무엇의 약자인가?
  • 컴퓨터의 아버지로 불리는 사람은 누구인가?

이들 질문은 대부분 사람이 쉽게 답할 수 있는 간단한 내용이지만, 챗봇에는 문제가 될 수 있다. 이런 도구가 어려움을 겪는 이유는 심플QA 질문이 명확하고, 단일하며, 논란의 여지가 없는 정답을 요구하기 때문이다. 사소한 변형이나 모호한 답변도 실패로 간주된다. 챗봇은 매우 복잡한 주제에 대한 개괄적인 설명에는 강하지만, 단일하고 간결하며 정확한 답변을 제공하는 데는 어려움을 겪는다.

또한, 심플QA 질문은 짧고 자립적(self-contained)이어서 맥락을 많이 제공하지 않는다. 프롬프트를 작성할 때 가능한 많은 맥락을 제공하면 답변의 품질이 향상되는 이유가 여기에 있다.

문제를 더 복잡하게 만드는 것은, LLM이 종종 자신의 정확도를 과대평가한다는 점이다. 심플QA는 챗봇들에 자신이 제공한 답변의 정확도를 어떻게 평가하는지 물었는데, 모델은 일관되게 과장된 성공률을 보고했다. 겉으로는 자신감 있는 것처럼 보이지만 내부적인 확신 수준은 낮을 수 있다.

LLM은 실제로 사고하지 않는다

MIT, 하버드, 코넬 대학의 최근 연구에 따르면, LLM은 인상적인 작업을 수행할 수 있지만, 세상에 대한 일관된 이해가 결여돼 있다.

연구자들은 뉴욕시와 같은 복잡한 환경에서 LLM이 정확한 운전 경로를 생성할 수 있다는 사실을 확인했다. 그러나 우회로를 도입하자 모델의 성능이 급격히 떨어졌다. 이는 LLM이 사람처럼 환경에 대한 내부적인 인식 구조를 가지고 있지 않기 때문이다. 예를 들어, 뉴욕시의 도로 중 1%만 폐쇄해도 AI의 경로 정확도는 약 100%에서 67%로 떨어졌다.

연구자들은 모델이 통제된 환경에서는 우수한 성능을 보이더라도, 무작위적이거나 다양한 상황에서 필요한 일관된 지식 구조를 갖추고 있지 않을 수 있다고 결론지었다.

AI 환각 문제의 심각성

업계가 직면한 근본적인 문제는 이렇다. 현재 산업계와 개인은 LLM 기반 챗봇과 생성형 AI 도구를 실제 업무에 의존하고 있다. 대중, 심지어 전문가조차도 이 기술이 실제보다 더 신뢰할 만하다고 믿고 있다.

최근의 한 사례로, 오픈AI는 의료 기록 작성에 사용되는 AI 음성 인식 도구 위스퍼(Whisper)를 제공하고 있다. AP 통신에 따르면, 위스퍼의 한 버전은 오픈소스 AI 플랫폼인 허깅페이스(HuggingFace)에서 420만 회 이상 다운로드되었다.

로스앤젤레스 어린이 병원(Children’s Hospital Los Angeles)을 비롯한 약 3만 명의 의료진과 40개의 의료 시스템에서 위스퍼를 기반으로 의료 용어에 최적화된 나블라(Nabla)를 사용하고 있다. 회사는 나블라가 미국과 프랑스에서 약 700만 건의 방문 의료에 사용됐다고 추정했다.

그러나 다른 AI 도구와 마찬가지로 위스퍼도 환각 문제에서 자유롭지 않다.

한 엔지니어가 위스퍼의 전사에서 환각을 조사한 결과, 검토한 모든 문서에서 환각 문제가 발견됐다. 또 다른 연구자는 위스퍼로 전사한 100시간 분량 중 절반에서 환각 사례를 확인했다.

버지니아 대학교의 교수진은 카네기 멜론 대학교에서 호스팅하는 연구 저장소에 있는 수천 개의 짧은 스니펫을 분석했다. 이들은 환각 사례 중 약 40%가 “유해하거나 우려스러운” 내용이라고 밝혔다.

한 전사에서는 위스퍼가 존재하지 않는 약물인 “hyperactivated antibiotics”라는 이름을 만들어내기도 했다.전문가들은 위스퍼 기반 전사 도구의 사용이 잘못된 진단과 기타 문제를 초래할 가능성을 우려하고 있다.

AI 환각 문제에 대처하는 방법

의사에게 받은 진단에 대해 두 번째 의견을 구하는 것처럼, 챗GPT, 퍼플렉시티 AI(Perplexity AI), 또는 기타 LLM 기반 챗봇에서 얻은 결과에 대해서도 동일한 과정을 거쳐야 한다.

한 도구의 결과를 다른 도구를 통해 확인하는 방법도 있다. 예를 들어, 질문 주제와 관련된 원본 문서(과학 논문, 발표 자료, PDF 등)가 있다면 이를 구글 노트북LM(NotebookLM)에 업로드할 수 있다. 그런 다음 다른 도구의 결과를 복사해 노트북LM에 붙여 넣고 사실 여부를 확인할 수 있다.

또한 원본 소스를 반드시 확인하고, 모든 내용을 사실 검증해야 한다. 챗봇은 학습, 주제 탐구, 문서 요약 등 여러 용도로 유용할 수 있지만, 일반적으로 신뢰할 만한 사실 정보원은 아니다.

특히 AI 챗봇의 결과를 그대로 복사해 자신의 목소리나 사실처럼 사용하는 것은 절대 해서는 안 된다. 챗봇의 언어는 종종 미묘하게 어색하거나, 강조점이 이상한 경우가 많다. 이는 잘못된 정보를 전달할 위험이 있는 오해의 소지가 있는 행위다.

무엇보다도, 사용 중인 챗봇이 환각을 일으키거나, 거짓말을 하거나, 심지어 완전히 허구의 정보를 만들어낼 가능성이 있다. 챗봇은 생각하는 것만큼 똑똑하지 않다.
editor@itworld.co.kr

Mike Elgan editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.