AI, 검색해도 오류 투성이…환각 문제 여전히 심각

디지털투데이 원문
입력

2026.02.11 08:57

주소복사가 완료되었습니다

[AI리포터]

AI 환각 문제가 여전히 심각하다. [사진: 셔터스톡]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] AI의 최신 모델조차도 웹 검색 기능을 활용해도 약 30% 확률로 사실과 다른 정보를 생성하는 것으로 나타났다.

10일(현지시간) 온라인 매체 기가진은 스위스 연방공과대학 로잔(EPFL)과 유럽 AI 연구기관 ELLIS 연구팀의 보고서를 인용해, AI의 사실 오류, 즉 할루시네이션을 정밀하게 측정할 수 있는 새로운 벤치마크 할루하드(HalluHard)를 개발했다고 전했다. 할루하드는 단발성 질문이 아닌 현실적인 3턴 대화 형식으로 진행되며, 법률·연구·의학·프로그래밍 등 4개 전문 분야의 950개 문제를 기반으로 AI의 정확성을 검증한다.

연구 결과, 가장 낮은 할루시네이션률을 기록한 모델은 웹 검색을 병행한 클로드 오푸스 4.5로 평균 30.2%였고, GPT-5.2-씽킹은 38.2%였다. 웹 검색 기능은 참조 문헌의 존재 여부를 확인하는 리퍼런스 그라운딩(reference grounding)에서는 효과적이었지만, 실제 내용이 출처에 기반하는지 검증하는 콘텐츠 그라운딩(content grounding)에서는 완전하지 않아 내용 오류는 여전히 상당 수준 남아 있었다.

또한 대화가 길어질수록 이전 턴의 오류가 후속 답변에 반영되는 자기조건화 효과로 할루시네이션이 악화되는 경향이 관찰됐다. 다만 프로그래밍 분야에서는 대화가 구체적이고 좁은 범위로 집중되면서 예외적으로 오류율이 감소하는 사례도 있었다.

연구팀은 AI 모델의 규모가 클수록 할루시네이션이 줄어드는 경향이 있지만, 상세하고 길어진 답변은 오히려 오류를 포함할 위험을 높일 수 있다고 지적했다. 특히 학습 데이터가 제한적인 틈새 지식 영역에서는 AI가 추측으로 답변을 만들어 사실과 다른 정보를 생성하는 경우가 많아, 할루하드와 같은 고난도 검증 도구의 필요성이 강조된다.

연구팀은 할루하드가 저비용(10개 답변당 약 160원)으로 고정밀 검증이 가능하며, 기존 벤치마크가 포화된 상황에서도 AI 신뢰성을 확보하고 불확실성을 정확히 평가하는 데 중요한 기준이 될 것이라고 밝혔다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

02.24 (화)

AI, 검색해도 오류 투성이…환각 문제 여전히 심각

디지털투데이 주요 뉴스