banner

블로그

Nov 08, 2023

일관되지 않은 인간 주석이 AI 기반 임상 의사 결정에 미치는 영향

npj 디지털 의학 6권, 기사 번호: 26(2023) 이 기사 인용

2596 액세스

18 알트메트릭

측정항목 세부정보

지도 학습 모델 개발에서는 도메인 전문가를 사용하여 클래스 레이블(주석)을 제공하는 경우가 많습니다. 주석 불일치는 경험이 풍부한 임상 전문가라도 동일한 현상(예: 의료 이미지, 진단 또는 예후 상태)에 주석을 달 때 흔히 발생합니다. 이는 무엇보다도 본질적인 전문가 편견, 판단, 실수로 인해 발생합니다. 그 존재는 상대적으로 잘 알려져 있지만, '잡음이 많은' 라벨이 붙은 데이터에 지도 학습을 적용할 때 실제 환경에서는 이러한 불일치의 의미가 크게 연구되지 않습니다. 이러한 문제를 밝히기 위해 우리는 세 가지 실제 집중 치료실(ICU) 데이터 세트에 대한 광범위한 실험과 분석을 수행했습니다. 구체적으로, 개별 모델은 11명의 글래스고 퀸엘리자베스 대학 병원 ICU 컨설턴트가 독립적으로 주석을 추가한 공통 데이터세트로부터 구축되었으며 모델 성능 추정치는 내부 검증(Fleiss' κ = 0.383, 즉 공정한 합의)을 통해 비교되었습니다. 또한 이러한 11개 분류기의 광범위한 외부 검증(정적 및 시계열 데이터 세트 모두에서)이 HiRID 외부 데이터 세트에서 수행되었으며, 여기서 모델의 분류는 쌍별 일치도가 낮은 것으로 나타났습니다(평균 Cohen의 κ = 0.255, 즉 최소 일치). . 더욱이 그들은 사망률 예측(Fleiss' κ = 0.267)보다 퇴원 결정(Fleiss' κ = 0.174)에 대해 더 많은 의견 차이를 보이는 경향이 있습니다. 이러한 불일치를 고려하여 최종 표준 모델을 얻고 합의를 결정하는 현재 모범 사례를 평가하기 위해 추가 분석이 수행되었습니다. 결과는 다음을 시사합니다: (a) 급성 임상 환경에서 항상 "슈퍼 전문가"가 있을 수는 없습니다(내부 및 외부 검증 모델 성능을 대용으로 사용). (b) 표준 합의 추구(예: 다수결)는 지속적으로 차선책 모델로 이어집니다. 그러나 추가 분석에 따르면 주석 학습성을 평가하고 합의를 결정하기 위해 '학습 가능한' 주석이 달린 데이터세트만 사용하면 대부분의 경우 최적의 모델을 달성할 수 있는 것으로 나타났습니다.

기존 지도 머신 러닝에서는 클래스 노이즈 및 부정확성을 무시하고 훈련 예제의 레이블이 모두 정확하다고 가정합니다1. 의료 분야에서는 경험이 풍부한 임상의가 이러한 라벨을 제공하더라도 잡음의 정도, 관찰자의 주관성 및 관련된 편견으로 인해 이러한 가정이 유지되지 않을 수 있습니다. ML-DSS(기계 학습 결정 지원 시스템) 교육을 무시할 경우 주석 불일치로 인해 근거 진실의 임의 부분 버전이 발생하고 잘못된 분류를 포함하여 후속 예측할 수 없는 임상 결과가 발생할 수 있습니다2,3,4.

이상적으로 클래스 레이블은 지식 기반 시스템(KBS)을 구축하기 위해 이러한 지상 진리 클래스 레이블을 기반으로 하는 적절한 "최적 표준"을 선택하는 것과 관련된 지식 획득 프로세스를 통해 얻습니다. 의료 및 생물의학 환경에서는 임상 분야 전문가가 이러한 라벨을 제공하는 데 자주 사용됩니다5. 그러나 많은 임상 영역에서는 의학에 내재된 병리생리학적, 진단적, 예후적 불확실성으로 인해 이러한 근거 진실을 찾고 정의하기가 어렵습니다2,6.

인지 심리학은 예를 들어 인지 과부하와 편견으로 인해 인간(및 전문가)이 "실수"를 한다는 것을 실험적으로 보여주었습니다. 반면, 전문가 시스템과 KBS 분야에서는 (대부분의) 학문 분야에 고도로 숙련된 전문가가 "미끄럽지 않은" 존재한다고 가정하고 있으며, 이러한 전문가를 어떻게 객관적 또는 주관적으로 식별할 수 있는지가 핵심 과제입니다. 그러나 문헌에서 증가하는 증거는 일반적인 작업 세트(예: 분류)에 대해 전문가 그룹이 서로 크게 동의하지 않는 경우가 많다는 것을 보여줍니다5,7,8. 2021년에 Kahneman et al.9는 소음: 인간 판단의 결함이라는 이 주제에 대한 주요 기고문을 발표했는데, 이는 여러 분야의 동료 전문가들이 다르다는 주장을 설득력 있게 만들어줍니다. 이들 저자9는 판단과 의견을 구별하는데, 전자의 경우 전문가는 (고정된) 일련의 대안으로부터 응답을 제공할 것으로 기대되는 반면, 의견은 훨씬 더 개방적입니다. 본 논문에서는 다양한 전문가의 판단이 필요한 작업을 다룬다.

 0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert's judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen's κ, Fleiss’ κ and Krippendorff's α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d58063440e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>

공유하다