banner

블로그

Dec 03, 2023

의료 부문에서 AI 혁신을 추진하기 위한 강력한 벤치마크 개발

Nature Machine Intelligence 4권, 916~921페이지(2022)이 기사 인용

5730 액세스

2 인용

21 알트메트릭

측정항목 세부정보

기계 학습 기술은 의료 영역에 대한 적용이 증가하는 것으로 나타났습니다. 주요 동인은 공개적으로 사용 가능한 의료 데이터 세트와 보다 보수적인 분야에서 지식 발견 및 기술 발전을 위해 자신의 힘을 사용하려는 커뮤니티의 일반적인 관심입니다. 그러나 이 추가 볼륨으로 인해 다양한 질문과 우려가 발생합니다. 얻은 결과가 의미 있고 결론이 정확합니까? 우리가 최신 기술을 향상시켰다는 것을 어떻게 알 수 있나요? 임상 문제가 잘 정의되어 있고 모델이 이를 해결하고 있습니까? 우리는 이 분야에서 가장 큰 어려움을 겪는 엔드투엔드 파이프라인의 주요 측면을 반영하고 이러한 문제의 재현을 피하기 위한 몇 가지 모범 사례를 제안합니다.

우리의 대상 독자는 의료 분야의 기계 학습(ML)에 대한 벤치마킹 실험을 수행하고 이러한 결과를 컨퍼런스나 저널에 제출하는 모든 사람입니다. 그리고 이러한 장소를 검토하는 사람. 임상 벤치마킹이란 결합된 프로세스를 따르는 것을 의미합니다.

의료 공간에서 문제를 선택합니다.

함께 제공되는 데이터 세트를 사용하거나 생성합니다.

ML 모델 제품군 및 해당 인프라를 개발합니다.

원래 문제를 얼마나 잘 해결했는지에 대한 일련의 기준에 따라 이러한 모델을 평가합니다.

좋은 벤치마크를 찾는 문제는 이것이 실제로 무엇을 구성하는지에 대한 충분한 조정이 없기 때문에 의료 분야에서 훨씬 더 널리 퍼져 있습니다1. 일반적인 연구 주기에서 ML이 새로운 의료 영역에 처음 적용되면 모델 성능을 측정하고 해당 문제에 대한 기준을 설정하는 출판물로 이어집니다. 새로운 기술이 실제로 무엇을 할 수 있는지 알아보는 데 많은 관심이 있기 때문에 데이터세트, 실제 데이터, 지표 또는 코드는 기존 ML만큼 면밀히 조사되지는 않습니다. 우리는 정의, 설정 및 평가의 다양성으로 인해 결과가 많이 잘못 표현될 수 있을 뿐만 아니라 해당 분야에 새로 입문한 사람들이 자신의 작업을 비교하는 방법에 대한 혼란을 초래할 수 있으므로 벤치마킹 논문을 더욱 면밀히 조사해야 한다고 주장합니다.

다음 4개 섹션에서는 서로 다른 두 벤치마킹 출판물 사이의 대부분의 불일치가 있다고 생각되는 영역(데이터 세트, 도구 및 사례, 문제 공식화 및 결과)을 다룹니다. 우리의 견해로는 그러한 변화는 발전을 정량화하기가 훨씬 쉽기 때문에 전반적인 임상 적용에 영향을 미칠 수 있습니다. 심판에서 영감을 얻었습니다. 2, 우리는 제안을 필요, 권장, 권장의 세 가지 범주로 분류합니다(상자 1-4). 각 섹션은 이전 섹션을 기반으로 하며 영향과 구현의 어려움을 혼합하여 고려하여 특정 버킷 내에 배치됩니다. 비록 일부 사람들이 분류에 완전히 동의하지 않더라도 우리는 이러한 주제에 관해 대화를 시작하여 현장에서 변화를 볼 수 있을 것으로 기대합니다.

이 분야에는 보고 표준(예: STARD-AI3, TRIPOD-AI4)을 정의하거나 모델 개발 및 기술 보고에 관한 모범 사례를 지정하는 기존 작업이 있습니다5. 이 두 가지 방향 모두 최종 작업에 추가적인 세부 사항을 포함시켜 사용된 방법에 관한 불확실성을 줄이도록 권장합니다. 우리는 엔드투엔드 파이프라인을 살펴보고 도구 및 인프라와 같이 덜 탐구된 주제를 다루면서 이러한 작업을 기반으로 하고 확장하는 작업이라고 믿습니다.

의료 연구를 위한 ML에서는 데이터 공유가 표준이 아니기 때문에 대규모의 고품질, 다양하고 잘 문서화된 건강 데이터 세트를 얻기가 어렵습니다6. 첫째, 건강 데이터 세트에는 매우 민감한 정보가 포함되어 있으므로 엄격하게 규제됩니다. 최근 연구에서는 건강 데이터 공유에 대한 환자의 태도를 이해하려고 합니다7,8. 이것이 바로 이러한 데이터 세트가 공개되기 전에 일반적으로 환자의 이름, 식별 번호, 데이터 수집 날짜 및 위치를 제거하는 과정을 포함하여 신원이 제거되는 이유입니다. 그럼에도 불구하고, 최근에는 익명화된 자기공명영상(MRI) 또는 컴퓨터 단층촬영 데이터를 사용하여 환자의 얼굴을 재구성할 수 있다는 것이 밝혀졌으며9, 이는 현재의 비식별화 표준이 안전한 공개 데이터 공개에 충분한지 의문을 제기합니다. 둘째, 이러한 데이터 세트의 수집, 유지 관리 및 큐레이션에는 상당한 노력, 시간 및 비용이 필요합니다. 더욱이, 데이터 세트는 독점적인 사용을 중심으로 회사가 설립되는 경우 경쟁적인 상업적 이점으로 간주됩니다. 따라서 이는 상당한 비즈니스 가치를 갖는 경향이 있으므로 데이터 수집자가 자신의 작업을 자유롭게 공유하는 것이 덜 매력적입니다. 그러나 비공개 데이터 세트에 대한 연구 출판의 영향을 확대하고 재현성을 장려하기 위해 데이터 큐레이터는 연합 학습과 같은 개인 정보 보호 ML 기술을 사용하여 커뮤니티가 모델을 개발할 수 있도록 인프라를 설정할 수 있습니다10,11,12. 이 설정에서 데이터 컨트롤러는 교육 및 검증 단계에서 자체 거버넌스 프로세스, 관련 개인 정보 보호 정책 및 액세스 관리 전략을 정의합니다. 이를 통해 데이터 프라이버시를 유지하면서 외부 연구원이 건강 데이터 세트를 탐색할 수 있게 되어 진행 속도가 빨라집니다. 그러나 우리는 이를 설정하는 데 가파른 학습 곡선이 있다는 점을 인정하며 이러한 방법이 상대적으로 새로운 점을 고려할 때 그러한 시스템을 신뢰하기가 어렵습니다. 그러면 처음에는 데이터 큐레이터가 검증된 외부 데이터 과학자와 협력하는 것이 더 나을 수 있습니다. 비즈니스 가치를 유지하는 데 유망한 또 다른 분야는 데이터 세트의 구성원이 모델 교육에 사용될 때를 추적하는 것입니다. 이에 대한 예로는 훈련된 모델의 식별을 용이하게 하기 위해 주어진 데이터세트를 '워터마킹'하는 최근 작업이나 멤버십 추론14과 같은 기술이 있습니다. 이 분야는 아직 확립되지 않았으므로 이 경로로 갈 경우 주의가 필요합니다.

공유하다