機器之心專欄
機器之心編輯部
人工智能(AI)在醫學影像診斷方面的應用已經有了長足的進步。然而,在未經嚴格測試的情況下,醫生往往難以采信人工智能的診斷結果。對于他們來說,理解人工智能根據醫學影像給出的判别,需要增加額外的認知成本。
爲了增強醫生對輔助醫療的人工智能之間的信任,讓 AI 通過一個醫生必須通過的資格考試或許是一個有效的方法。醫學執照考試是用來評估醫生專業知識和技能的标準化考試,是衡量一個醫生是否有能力安全有效地護理患者的基礎。
在最新的研究中,來自馬薩諸塞大學、複旦大學的跨學科研究人員團隊利用生成式多模态預訓練模型 GPT-4V ( ision ) 突破了人工智能在醫學問答中的最佳水平。研究測試了 GPT-4V 回答美國醫學執照考試題的能力,特别是題目包含圖像的考題 —— 這對醫療人工智能系統來說一直以來都是一項挑戰。
該研究表明,GPT-4V 不僅超越了 GPT-4 和 ChatGPT 等前輩,還超越了大部分醫學生,爲人工智能能夠作爲輔助診斷和臨床決策的工具提供了理論上的可能。該研究分析了 GPT-4V 在不同醫學子領域的性能。
同時,該研究還指出了醫療人工智能在一緻解釋方面的局限性,強調了人機協作在未來醫療診斷中的重要性。
論文鏈接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3
測試問題收集
該研究中,用來測試人工智能醫學執照考試的題型爲涉及不同醫學領域、難度各異的帶有圖像的選擇題。論文作者們選擇了來自美國醫學執照考試(USMLE)、醫學生考試題庫(AMBOSS)和診斷放射學資格核心考試(DRQCE)的三套選擇題,共計 226 道題(28 個醫學領域),來測試 GPT-4V 的準确性。
其中 AMBOSS 和 DRQCE 的數據未公開,需要用戶注冊後才能獲取。AMBOSS 數據集中的每個問題都設定有對應的難度。問題按難易程度分五級,1、2、3、4 和 5 級分别代表學生第一次作答時最容易答對的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的問題。
此外,作者們還收集了醫療專業人士的偏好,用以評估 GPT-4V 的解釋是否違背醫學常識。當 GPT-4V 做錯的時候,作者們還收集了來自醫療專業人士的反饋,用來改善 GPT-4V。
用美國醫學執照考試(USMLE)中包含圖像的考題測試 GPT-4V。
準确性
結果顯示,GPT-4V 在帶有圖像的醫學執照考試題上表現出了很高的準确率,分别在 USMLE、AMBOSS 和 DRQCE 上達到了 86.2%、62.0% 和 73.1%,遠遠超過了 ChatGPT 和 GPT-4。與準備考試的學生相比,GPT-4V 的大緻排名能達到前 20-30% 的水平。
而在 2022 年,美國醫學執照考試大約有前 90% 的考生通過了考試,這意味着 GPT-4V 想要獲得通過,也相對較爲輕松。GPT-4V 的準确率反映了它掌握大量生物醫學和臨床科學知識,也能夠解決醫患相處中遇到的問題。這些都是進入醫學臨床實踐的必備技能。
GPT-4V 在美國醫學執照考試(USMLE)的測試表現遠遠超過了 ChatGPT 和 GPT-4。
在使用提示和不使用提示的情況下,GPT-4V 在 AMBOSS 的準确率分别爲 86% 和 63%。随着問題難度的增加,不使用提示時 GPT-4V 的表現呈現下降趨勢(卡方檢驗,顯著性水平 0.05)。然而,當使用提示提問時,這種下降趨勢并未明顯觀察到。這表明,來自醫療專業人士的提示可以很好的幫助 GPT-4 做出正确的決策。
GPT-4V 和學生在不同難度 AMBOSS 考試上的準确率
解釋性
在解釋質量方面,作者們發現,當 GPT-4V 回答正确時,醫療專業人士對 GPT-4V 給出的解釋與專家給出的解釋的偏好相差不大。這說明 GPT-4V 的解釋具有可信度和專業性。作者們還發現,在 GPT-4V 的解釋中,有超過 80% 的回答包含了對題目中圖像和文本的解讀,這說明 GPT-4V 能夠利用多模态的數據來生成回答。
然而,當 GPT-4V 回答錯誤時,它的解釋中也存在一些嚴重的問題,例如圖像誤解(Image misunderstanding)、文本幻覺(Text hallucination)、推理錯誤(Reasoning error)等,這些問題可能會影響 GPT-4V 的可靠性和可解釋性。
針對每道考試題,醫療專業人員從專家生成的解釋和 GPT-4V 生成的解釋中選擇偏好。考試分爲 Step1, Step2CK, Step3 共 3 個階段。每個階段抽取 50 道題目進行測試。
作者發現許多 GPT-4V 回答錯誤的解釋是圖像誤解。在 55 個錯誤回答中,有 42 個回答(76.3%)是由圖像理解錯誤所導緻的。相比之下,隻有 10 個回答(18.2%)錯誤歸因于文本幻覺。
針對圖像誤解,作者建議使用以圖像或者文字爲形式的提示。例如,醫生可以用箭頭指示圖中重要的位置,或者用一兩句話來解釋圖像的意義來提示模型。當醫生使用文字提示的時候,就有 40.5% ( 17/42 個 ) 之前錯誤的回答被 GPT-4V 改正了。
輔助診斷的潛力
作者還展示了使用 GPT-4V 作爲影像診斷輔助工具的可能性。基于一個高血壓病人的病例報告,醫生對 GPT-4V 進行提問。定性分析表明,GPT-4V 能夠根據 CT 掃描圖像、化驗單和病人症狀等其他信息,提供鑒别診斷和後續檢查的建議。詳細分析請參考原論文。
結論與展望
作者們認爲,GPT-4V 在帶有圖像的醫學執照考試題上展現了非凡的準确率,在臨床決策支持方面,GPT-4V 具備無窮的潛力。然而,GPT-4V 還需要改進它的解釋質量和可靠性,才能真正适用于臨床場景。
論文中嘗試使用提示來改進 GPT-4V 的判斷,取得了不錯的效果,這爲未來的研究提出了一個有希望的方向:開發更精細的人類人工智能協作系統,使得其成爲臨床環境中更可靠的工具。随着技術的不斷進步和研究不斷深入,我們有理由相信,AI 将在提高醫療質量、減輕醫生工作負擔和促進醫療服務普及化方面繼續發揮重要作用。
© THE END
投稿或尋求報道:[email protected]