사진 왼쪽부터 이수교, 정수민 교수 |
[라포르시안] 이수교 고대안산병원 응급의학과 교수와 정수민 고대의대 통일한국보건의학연구소 교수 연구팀이 응급실 환자와 의료진의 실제 대화를 학습해 환자 중증도를 분류하는 인공지능(AI) 모델을 개발했다.
연구팀은 'Development of BERT-based large language models for emergency department triage using real-world conversations' 연구를 통해 실제 응급실 대화를 기반으로 한 AI 모델을 개발하고 성능을 평가한 결과 챗GPT보다 높은 정확도를 확인했다고 16일 밝혔다. 해당 연구는 의료정보학 분야 국제학술지 'Journal of the American Medical Informatics Association'(JAMIA)에 게재됐다.
응급실에서는 환자 상태를 빠르게 평가해 치료 우선순위를 정하는 중증도 분류가 중요하다. 정확한 중증도 분류는 환자 생존율과 직결될 뿐 아니라 제한된 응급 의료 자원을 효율적으로 배분하는 데 필요한 핵심 과정이다.
우리나라에서는 KTAS(한국형 응급환자 분류도구)를 사용하며 심정지, 의식 변화, 심각한 호흡곤란, 쇼크 징후, 대량 출혈, 극심한 통증 등 생명을 위협하는 증상을 보이는 환자의 경우 즉시 KTAS 1~2단계로 분류돼 면담 절차 없이 소생술과 응급 처치를 받는다.
그런데 실제 현장에서는 즉각적인 생명 위협은 없지만 의료적 처치가 필요한 KTAS 3단계 환자와 비교적 경증인 KTAS 4~5단계 환자를 구분하는 과정이 까다롭다. 이는 검사 수치나 명확한 증상보다 환자와의 면담 내용, 증상 경과, 통증 양상 등 세밀한 임상적 판단에 크게 의존하기 때문이다.
그동안 'ClinicalBERT'와 같이 의료 분야에 특화된 AI 모델을 활용한 중증도 분류 연구도 진행돼 왔지만 기존 모델들은 실제 응급실 대화가 아닌 요약된 임상 시나리오나 구조화된 환자 사례를 기반으로 학습된 경우가 많아 임상 환경을 충분히 반영하지 못한다는 한계가 있었다.
연구팀은 이러한 문제 해결을 위해 실제 응급실 의료진과 환자의 대화를 기반으로 중증도를 판단하는 AI 모델을 개발하고 성능을 검증했다. 연구에는 국내 3개 상급종합병원 응급실에서 수집된 총 5244건의 임상 대화 데이터가 활용됐다.
해당 데이터는 중증도 분류 진료 투약·검사 검사 결과 설명·퇴원 등 네 단계로 구성돼 있으며 이 가운데 중증도 분류 단계의 대화 1057건을 선별해 사용했다. 검증 결과 연구팀이 개발한 '응급실 대화 기반 중증도 분류 AI 모델'은 정확도 75.94%를 기록해 챗GPT(56.68%)·ClinicalBERT(69.42%) 보다 높은 성능을 보였다.
특히 긴급 환자를 놓치지 않고 식별하는 능력을 의미하는 재현율은 0.9610으로 챗GPT(0.5352)보다 크게 높았다. 재현율 0.9610은 실제 긴급 환자 중 약 96% 이상을 정확히 찾아냈음을 의미한다.
이수교 고대안산병원 응급의학과 교수는 "이번 연구는 응급실 현장에서 오가는 실제 대화를 별도의 요약이나 가공 과정 없이 학습해 환자의 긴급도를 파악할 수 있는 최초의 AI 모델"이라며 "짧은 시간 내 환자 상태를 판단해야 하는 응급실 현장에서 효과적인 임상 의사결정 지원 도구로 활용될 수 있을 것"이라고 기대했다.
정수민 고대의대 통일한국보건의학연구소 교수는 "사람의 언어를 이해하고 분석하는 AI는 일반적으로 방대한 데이터를 기반으로 학습되지만 특정 임상 상황에 맞는 데이터를 활용하면 더 높은 성능을 보일 수 있다"며 "이번 연구는 실제 응급실 대화 데이터를 기반으로 학습한 모델이 범용 AI보다 응급 환자 분류에서 더 높은 정확도를 보일 수 있음을 확인한 사례"라고 강조했다.
<저작권자 Copyright ⓒ 라포르시안 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
