컨텐츠 바로가기

05.02 (목)

허깅페이스, LLM '의료 지식' 평가하는 벤치마크 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


허깅페이스가 의료 관련 작업에서 생성 인공지능(AI) 모델의 성능을 평가하기 위한 벤치마크를 공개했다. 신뢰성이 중요한 의료 분야에서 생성 AI 모델에 대한 강력한 평가 도구로 자리매김할 것으로 전망된다.

테크크런치는 18일(현지시간) 허깅페이스가 비영리 오픈 라이프 사이언스 AI 및 에든버러 대학교 자연어 처리 그룹 연구진과 협력해 새로운 의료용 AI 벤치마크 테스트인 '오픈 메디컬-LM(Open Medical-LLM)'과 리더보드를 공개했다고 보도했다.

이에 따르면 오픈 메디컬-LM은 다양한 의료 관련 작업에서 생성 AI 모델의 성능 평가를 표준화하는 것을 목표로 한다.

오픈 메디컬-LLM은 처음부터 새로 만들어진 벤치마크가 아니라 기존의 테스트 세트(MedQA, PubMedQA, MedMCQA 등)를 이어 붙인 것이다.

이런 세트들은 일반 의학 지식과 해부학, 약리학, 유전학, 임상 실무와 같은 관련 분야를 탐색하기 위해 설계됐다. 이 벤치마크에는 의료 추론과 이해를 필요로 하는 객관식 및 개방형 질문이 포함돼 있으며, 미국과 인도 의료 면허 시험 및 대학 생물학 시험 문제 은행 등의 자료를 참고하고 있다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


허깅 페이스는 "오픈 메디컬-LM은 연구자와 실무자들이 서로 다른 접근 방식의 장점과 약점을 식별하고 해당 분야에서의 더 나은 발전을 촉진하며, 궁극적으로는 더 나은 환자 치료와 결과에 기여하는 것이 목적"이라고 밝혔다.

이 벤치마크가 의료 분야로 확장하는 생성 AI 모델의 강력한 평가 도구 역할을 할 것으로 기대하고 있다.

그러나 일부 의료 전문가들은 오픈 메디컬-LM을 너무 많이 신뢰하면 잘못된 배포를 유발할 수 있다고 경고했다.

리암 맥코이 알버타 대학 신경학 의사는 X(트위터)에서 의료 질문에 대한 답변의 인위적인 환경과 실제 임상 실무 간의 격차가 상당히 크다는 점을 지적했다.

이에 대해 클레멘틴 푸리에 허깅페이스 연구과학자도 동의했다.

그는 "이 리더보드를 특정 사용 사례에 대해 어떤 생성 AI 모델을 활용할 것인지에 대한 대략적인 지표로만 사용해야 한다"라며 "의료 모델은 환자가 스스로 사용해서는 절대 안 되며, 대신 의사를 위한 지원 도구로 훈련돼야 한다"라고 말했다.

이와 관련, 구글은 당뇨병성 망막증에 대한 AI 검사 도구를 태국의 의료 시스템에 도입하려고 시도했다가 실패한 경험이 있다.

구글은 시력 상실의 주요 원인인 망막병증의 증거를 찾기 위해 눈 이미지를 스캔하는 딥 러닝 시스템을 만들었다. 높은 이론적 정확성에도 불구하고 ,이 도구는 실제 테스트에서는 비현실적인 것으로 판명됐다. 일관되지 않은 결과와 현장 실습과의 전반적인 밸런스 부족으로 결국 폐기됐다.

또 지금까지 미국 식품의약국(FDA)이 승인한 139개의 AI 관련 의료기기 중에는 생성 AI를 사용한 것이 하나도 없다.

그렇다고 오픈 메디컬-LM이 유용하거나 정보를 제공하지 않는다는 의미는 아니다. 적어도 결과 리더보드는 모델이 기본 건강 질문에 얼마나 부적절하게 답하는지를 상기시키는 역할을 한다.

그러나 테크크런치는 "오픈 메디컬-LM이나 다른 어떤 벤치마크도 신중하게 계획된 현실 세계 테스트를 대체할 수 없다"라고 지적했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.