흉부 엑스레이에서 파운데이션 모델이 골다공증 판독을 위해 주목한 영역을 시각화한 이미지(사진=서울대병원) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
골다공증은 뼈의 양이 줄고 구조가 약해지면서 골절 위험이 높아지는 질환을 말한다. 고령화로 인해 골다골증 환자가 빠르게 증가하지만, 현행 표준검사인 골밀도 검사(DXA)는 장비 접근성 등 문제로 충분히 시행되지 못하는 경우가 많다.
박상민 서울대병원 가정의학과 교수 연구팀은 대부분의 건강검진에 도입된 흉부 엑스레이로 골다공증 여부를 함께 평가할 수 있다면 조기 진단의 새로운 대안이 될 수 있다고 판단했다. 다만 지금까지의 AI 모델은 예측 과정이 명확하게 설명되지 않는 '블랙박스' 문제 때문에 임상 적용에 어려움이 있었다.
연구팀은 서울대병원 건강증진센터에서 2004~2019년 동안 흉부 X선과 골밀도 검사(DXA)를 모두 받은 여성 1만4502명 데이터를 분석한 결과를 발표했다. 연구는 파운데이션 기반 AI 모델의 예측 성능과 설명 가능성을 비교했다.
연구팀은 다양한 이미지에서 사전 학습된 파운데이션 모델을 의료 영상 분석에 적용했다. 대규모 데이터를 학습한 파운데이션 모델을 의료 영상에 맞게 미세 조정하면 제한된 의료 데이터로도 높은 성능을 낼 수 있다.
파운데이션 모델별 예측 성능 지표(자료=서울대병원) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
연구에는 일반 이미지로 학습된 모델(OpenCLIP, DINOv2)과 의료 영상으로 학습된 모델(CheXagent, RAD-DINO) 등 네 가지 모델을 사용했다. 마지막 분류 단계만 새로 학습하는 '선형 검증', 모델 일부 레이어만 재학습하는 '부분 미세조정 방식', 저차원 행렬을 추가하는 'LoRA 방식' 등 세 가지 방법을 적용해 총 12개의 AI 모델을 만들었다.
AI는 입력된 흉부 엑스레이에서 척추와 늑골 같은 뼈 구조를 중심으로 특징을 추출했다. 이를 기존 학습 패턴과 비교해 정상, 골감소증, 골다공증 중 어떤 상태와 가장 유사한지 판단했다.
연구팀은 여기에 더해 AI가 실제로 어떤 뼈를 근거로 삼아 판단하는지까지 확인할 수 있도록 '설명 가능성' 평가 체계를 설계했다. 뼈를 모두 가린 상태에서 특정 뼈 부위를 추가해 성능이 얼마나 향상하는지 확인하는 '차단 분석 방식'과 AI의 주목 영역이 실제 뼈 위치와 얼마나 일치하는지를 계산하는 '유의성 지도 방식'으로, AI가 임상적으로 중요한 뼈 구조를 근거로 판단하는지를 정량 검증했다.
연구 결과, DINOv2 모델에 LoRA 방식을 적용한 모델이 AUC 0.93으로 가장 높은 예측 성능을 보였다. 이 모델은 뼈 구조 활용도가 가장 높고, 주목 영역 타당성에서도 우수했다. 예측력과 설명 가능성이 균형 있게 확보된 최적 모델로 평가됐다.
연구팀은 의료 영상 기반 모델이 항상 더 우수한 것은 아니며, 예측 성능이 높다고 해서 설명 가능성까지 함께 향상되는 것은 아니라는 점도 확인했다. 의료 AI가 실제 임상에서 활용되기 위해서는 정확도와 함께 '왜 그렇게 판단했는지'에 대한 근거 검증이 필수임을 보여준다고 연구팀은 설명했다.
이번 연구 결과는 골다공증과 기타 대사성 골질환 분야의 국제 학술지 '국제 골다공증' 최근호에 게재됐다.
(왼쪽부터)박상민 서울대병원 가정의학과 교수, 김재원 서울대 의과학과 연구원 |
제1저자인 김재원 서울대 의과학과 연구원은 “파운데이션 모델을 의료 영상에 적용할 때는 높은 성능만으로는 충분하지 않고, 실제 의료 현장에서 신뢰받기 위한 다차원적 평가 체계가 필요하다”면서 “이번 연구가 그 기준을 제시했다는 점에서 의미가 크다”고 말했다.
교신저자인 박상민 서울대 가정의학과 교수는 “예측 정확도뿐 아니라 AI 판단 근거를 투명하게 설명할 수 있는지를 함께 평가함으로써, 파운데이션 모델을 어떻게 선택하고 활용해야 하는지에 대한 방향성을 제시했다는 점에 큰 의의가 있다”고 말했다.
송윤섭 기자 sys@etnews.com
[Copyright © 전자신문. 무단전재-재배포금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
