딥러닝 이용 귀영상 진단 논문 발표

  • Post author:
  • Post category:News

본 연구실의 배종원 박사와 박해정 교수 팀은 이비인후과 차동철 박사와 함께 귀 질환 자동 진단에 대한 인공 지능 기술을 개발하여 의료 전문가와 비교 연구를 진행하여 다음 논문으로 출간하였습니다. 딥 러닝(DL) 기반 인공 지능은 의료 진단 분야에서 인간 전문가와 다른 진단 특성을 가질 수 있습니다. 데이터 기반 지식 시스템으로서 임상 세계에서 이질적인 인구 발생률은 임상의보다 DL에 더 많은 편향을 일으키는 것으로 간주됩니다. 반대로, 제한된 수의 사례를 경험함으로써 인간 전문가는 큰 개인 간 변동성을 보일 수 있습니다. 따라서 두 그룹이 주어진 데이터를 어떻게 다르게 분류하는지 이해하는 것은 임상 적용에서 DL을 협력적으로 사용하는 데 필수적인 단계입니다. 본 연구는 클래스 불균형 문제로 예시된 컴퓨터와 의사 모두에서 이내시경 영상 진단에서 임상 경험의 차등 효과를 평가 및 비교하고 의사 결정 지원 시스템을 활용할 때 임상의를 안내하는 것을 목적으로 하였습니다. ML 모델이 귀 질환을 분류하는 데 탁월한 성능을 제공하지만 의사와 ML 모델은 각각의 장점이 있습니다. ML 모델은 주어진 이미지만 고려하면서 일관되고 높은 정확도를 가지며 유병률에 대한 편향을 나타내는 반면, 인간 의사는 성능이 다양하지만 유병률에 대한 편향을 나타내지 않으며 이미지가 아닌 추가 정보도 고려할 수 있습니다. 이비인후과 전문의가 부족한 상황에서 최상의 환자 치료를 제공하기 위해 우리의 ML 모델은 모델이 이미지만 고려하고 데이터 보강 후에도 유행하는 질병에 편향될 수 있다는 점을 염두에 두는 한 다양한 전문 지식을 가진 임상의에게 협력적인 역할을 할 수 있습니다. 

Cha, D., Pae, C., Lee, S.A., Na, G., Hur, Y.K., Lee, H.Y., Cho, A.R., Cho, Y.J., Han, S.G., Kim, S.H., Choi, J.Y., Park, H.J.*, 2021, Differential Biases and Variabilities of Deep Learning-Based Artificial Intelligence and Human Experts in Clinical Diagnosis: Retrospective Cohort and Survey Study. JMIR Med Inform 9, e33049.

https://pubmed.ncbi.nlm.nih.gov/34889764/

Abstract

Background: Deep learning (DL)-based artificial intelligence may have different diagnostic characteristics than human experts in medical diagnosis. As a data-driven knowledge system, heterogeneous population incidence in the clinical world is considered to cause more bias to DL than clinicians. Conversely, by experiencing limited numbers of cases, human experts may exhibit large interindividual variability. Thus, understanding how the 2 groups classify given data differently is an essential step for the cooperative usage of DL in clinical application.

Objective: This study aimed to evaluate and compare the differential effects of clinical experience in otoendoscopic image diagnosis in both computers and physicians exemplified by the class imbalance problem and guide clinicians when utilizing decision support systems.

Methods: We used digital otoendoscopic images of patients who visited the outpatient clinic in the Department of Otorhinolaryngology at Severance Hospital, Seoul, South Korea, from January 2013 to June 2019, for a total of 22,707 otoendoscopic images. We excluded similar images, and 7500 otoendoscopic images were selected for labeling. We built a DL-based image classification model to classify the given image into 6 disease categories. Two test sets of 300 images were populated: balanced and imbalanced test sets. We included 14 clinicians (otolaryngologists and nonotolaryngology specialists including general practitioners) and 13 DL-based models. We used accuracy (overall and per-class) and kappa statistics to compare the results of individual physicians and the ML models.

Results: Our ML models had consistently high accuracies (balanced test set: mean 77.14%, SD 1.83%; imbalanced test set: mean 82.03%, SD 3.06%), equivalent to those of otolaryngologists (balanced: mean 71.17%, SD 3.37%; imbalanced: mean 72.84%, SD 6.41%) and far better than those of nonotolaryngologists (balanced: mean 45.63%, SD 7.89%; imbalanced: mean 44.08%, SD 15.83%). However, ML models suffered from class imbalance problems (balanced test set: mean 77.14%, SD 1.83%; imbalanced test set: mean 82.03%, SD 3.06%). This was mitigated by data augmentation, particularly for low incidence classes, but rare disease classes still had low per-class accuracies. Human physicians, despite being less affected by prevalence, showed high interphysician variability (ML models: kappa=0.83, SD 0.02; otolaryngologists: kappa=0.60, SD 0.07).

Conclusions: Even though ML models deliver excellent performance in classifying ear disease, physicians and ML models have their own strengths. ML models have consistent and high accuracy while considering only the given image and show bias toward prevalence, whereas human physicians have varying performance but do not show bias toward prevalence and may also consider extra information that is not images. To deliver the best patient care in the shortage of otolaryngologists, our ML model can serve a cooperative role for clinicians with diverse expertise, as long as it is kept in mind that models consider only images and could be biased toward prevalent diseases even after data augmentation.