아카이브에 관련 논문 발표
구글 LLM 기반 챗봇 평가
정확도, 환자 공감력 높은 평가
연구진 “신중하게 해석해야”
구글 LLM 기반 챗봇 평가
정확도, 환자 공감력 높은 평가
연구진 “신중하게 해석해야”
생성형 AI 이미지 프로그램 미드저니로 만든 그림. “AI가 환자를 치료하는 장면”을 명령어로 이벽했다. [사진=미드저니] |
의료와 관련된 인터뷰를 수행하는 인공지능(AI) 시스템이 인간 의사와 비슷하거나 특정한 경우에는 더 나은 성과를 낼 수 있는 것으로 나타났다.
구글이 공개한 논문에 따르면 자사의 대형언어모델(LLM)을 기반으로 한 챗봇이 호흡기, 심혈관 질환 등을 진단하는 데 있어서 일차 의료 의사와 비교했을 때 정확도가 조금 더 높았다고 밝혔다. 해당 연구는 논문 공개 사이트 ‘아카이브’에 올라온 만큼 아직 피어리뷰(동료 평가)를 거치지는 않았다. 네이처는 이를 보도하며 “인간 의사와 비교했을 때 인터뷰 도중 유사한 양의 정보를 습득했으며 공감 능력에 있어서 더 높은 점수를 받았다”라고 밝혔다.
‘명확한 의료 지능 탐색(Articulate Medical Intelligence Explorer·AMIE)’이라고 명명된 이 챗봇은 다만 아직 실험 단계의 솔루션이다. 실제로 건강 문제가 있는 환자에게 테스트한 것은 아니며 배우를 대상으로 실험됐다. 논문의 저자인 알란 카티케살링엄 런던의대 교수는 “결과는 조심스럽게 해석되어야 한다”라고 말했다. 연구진은 이 챗봇이 아직 임상 치료에서 사용되지는 않지만 의료의 민주화를 해결하는 데 이바지할 수 있다고 보고 있다.
연구진은 LLM을 디지털화된 건강 정보로 훈련을 시켰다. 이어 공감력 있는 임상의사 역할을 하도록 유도했다. 또한 의사와 환자의 상호작용을 평가하고, 어떻게 개선할 수 있는지에 대한 피드백을 제공하도록 했다. 이 피드백은 LLM을 더 훈련하고 향상된 대화를 생성하는 데 사용된다.
연구진은 이 시스템을 테스트하기 위해 환자를 가장한 20명의 실험 참가자를 모집했다. 이어 실제 임상의와 챗봇이 온라인 문자를 기반으로 상담하도록 했다. 실험 참가자들은 그들이 사람과 채팅하고 있는지, AI와 채팅하고 있는지 알 수 없도록 했다. 실험 참가자들은 149개의 임상 시나리오를 기반으로 모의 실험을 한 다음에 그들의 경험을 평가하도록 요청받았다. 전문가 그룹도 AMIE와 의사의 성과를 평가했다.
AI 시스템은 6개의 의학 전문 분야에서 의사의 진단 정확도와 일치하거나 이를 능가한 것으로 나타났다. 로봇은 정중함, 상태와 치료 설명을 비롯해 돌봄과 헌신 등을 표현하는 등 26개 기준 중 14개에서 의사를 앞선 것으로 나타났다. 다만 카티케살링엄 교수는 확대 해석을 경계했다. 그는 네이처와의 인터뷰에서 “챗봇이 일반 의사보다 낫다는 것을 의미하는 것은 아니다”라며 “실제 임상의들은 텍스트 기반의 대화를 통해 환자와 상호작용하는 게 익숙하지 않았을 수 있다”라고 말했다. 이에 비해 LLM은 길고 아름답게 구성된 답변을 신속하게 작성할 수 있는 만큼 지치지 않고 상대방을 배려하는 듯한 문자를 만들어낼 수 있다. 연구진은 이러한 체계에서 편견을 평가하고 다른 여러 집단에서도 공평하게 나타나는 것을 확인하기 위한 후속 연구를 준비하고 있다고 밝혔다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.