"AI 的一些醫療決策,實際上就是抛硬币。"
哈佛醫學院的數據科學家 Kun-Hsing Yu 語出驚人。
他還補充道:
即便比賽中正确率達 90% 的獲獎模型,再用原數據集子集測試時,準确度最多 60-70%,可謂慘敗。這讓我們很驚訝。
上述科學家的觀點來自 Nature 最近新發表的一篇文章。
内容對 AI 在醫療領域的可重複性提出了質疑,呈現諸多醫療領域及場景中,AI 自帶的黑箱屬性造成的隐患。
更值得關注的是,盡管問題存在,但 AI 仍在醫療領域大規模推廣使用。
舉例來看,數以百計的美國醫院已在使用一種 AI 模型标記敗血症早期症狀,但在 2021 年,該模型被發現未能識别率高達 67%。
所以,AI 究竟帶來了哪些醫療隐患,如何解決?
繼續往下看。
△ 圖源:Nature
人工智能的 " 看病難 "
我們先從哈佛醫學院的數據科學家 Kun-Hsing Yu 發現 AI" 抛硬币 " 的始末聊起。
在醫療領域,AI 用于診斷檢測人體一直質疑聲不斷,Kun-Hsing Yu 此番研究也是希望有個直觀體感。
他選定了常見癌症之一的肺癌,每年有 350 萬美國人因該病症去世,若能更早通過 CT 掃描篩查,很多人可以免于死亡。
該領域的确備受機器學習界關注,為此,2017 年業内還舉辦了面向肺癌篩查的競賽。
該活動歸屬于 Kaggle 的 Data Science Bowl 賽事,數據由主辦方提供,涵蓋 1397 位患者的胸部 CT 掃描數據。參賽團隊需開發并測試算法,最終大賽按準确率給予評獎,在官宣中,至少五個獲獎模型準确度 90% 以上。
但 Kun-Hsing Yu 又重新測試了一輪,然後震驚地發現,即便使用原比賽數據的子集,這些 " 獲獎 " 模型最高準确率卻下降到了 60-70%。
△ 一位參賽者分享的模型結構
上述狀況并非個例。
普林斯頓一位博士,Sayash Kapoor,在 17 個領域的 329 項研究中報告了可重複性失敗和陷阱,醫學名列其中。
基于研究,這位博士及自己的教授還組織了一個研讨會,吸引了 30 個國家 600 名科研者參與。
一位劍橋的高級研究員在現場表示,他用機器學習技術預測新冠傳播流行趨勢,但因不同來源的數據偏差、訓練方法等問題,沒有一次模型預測準确。還有一位研究者也分享了——自己用機器學習研究心理課題,但無法複現的問題。
在該研讨會上,還有參與者指出谷歌此前遇到的 " 坑 "。
他們曾在 2008 年就利用機器學習分析用戶搜索所産生數據集,進而預測流感暴發。谷歌為此還鼓吹一波。
但事實上,它并未能預測 2013 年的流感暴發。一家獨立研究機構指出,該模型将一些流感流行無關的季節性詞彙進行了關聯和鎖定。2015 年,谷歌停止了對外公開該趨勢預測。
Kapoor 認為,就可重複性來說,AI 模型背後的代碼和數據集都應可用并不出錯誤。那位研究新冠流行模型的劍橋 ML 研究者補充道,數據隐私問題、倫理問題、監管障礙也是導緻可重複性出問題的病竈。
他們繼續補充道,數據集是問題根源之一。目前公開可用的數據集比較稀缺,這導緻模型很容易産生帶偏見的判斷。比如特定數據集中,醫生給一個種族開的藥比另一個種族多,這可能導緻 AI 将病症與種族關聯,而非病症本身。
另一個問題是訓練 AI 中的" 透題 " 現象。因數據集不足,用于訓練模型的數據集和測試集會重疊,甚至該情況一些當事人還不知道,這也可能導緻大家對模型的正确率過于樂觀。
△ Sayash Kapoor 博士
盡管問題存在,但 AI 模型仍已被應用在實際診斷場景中,甚至直接下場看病。
2021 年,一個名為 Epic Sepsis Model 的醫療診斷模型被曝出嚴重漏檢問題。
該模型用于敗血症篩查,通過識别病人早期患病特征檢測,避免這種全身感染的發生,但密歇根大學醫學院研究者通過調查分析了 27697 人的就診情況,結果發現,該模型未能識别 67% 敗血症病患。
此後,該公司對模型進行了大調整。
一位計算生物學家對此指出,該問題之所以較難解決,也同 AI 模型透明度不足有關。" 我們在實踐中部署了無法理解的算法,也并不知道它帶什麼偏見 ",他補充道。
△ 曝出 Epic Sepsis Model 問題的文章
可以明确的是,隻要上述問題一直未能解決,商業巨頭及相關創業項目也有些舉步維艱——
去年谷歌谷歌健康(Google Health)宣布人員拆分到各團隊,前幾天,谷歌孵化的生命健康子公司 Verily 又被曝裁員約 15%。
有沒改進措施?
對于這樣的現狀,一些研究者和業内人士也在着手改進醫療 AI。
一方面,是構建靠譜的超大數據集。
涵蓋機構、國家和人口等多方面的數據,并向所有人開放。
這種數據庫其實已經出現了,比如英國和日本的國家生物庫,以及重症病房遠程監護系統 eICU 合作的數據庫等。
就拿 eICU 合作研究數據庫來說,這裡面大約有20 萬次的 ICU 入院相關數據,由飛利浦醫療集團和 MIT 的計算生理學實驗室共同提供。
為了規範數據庫的内容,需要建立收集數據的标準。例如一個關于醫療結果夥伴關系的可觀測數據模型,讓各醫療機構能以相同的方式收集信息,這樣有利于加強醫療保健領域的機器學習研究。
當然,與此同時,也必須重視嚴格保護患者的隐私,而且隻有當患者本人同意時,才有資格把他們的數據納入庫。
另一方面,想要提升機器學習質量的話,消除冗餘數據也很有幫助。
因為在機器學習中,冗餘數據不僅會延長運行時間、消耗更多資源;而且還很可能造成模型過拟合——也就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差。
對于 AI 圈很熱門的預測蛋白質結構,這個問題已經得到了有效緩解。在機器學習過程中,科學家們成功地從測試集中删除了和訓練集用到的過于相似的蛋白質。
but,各病人醫療數據之間的差異,并沒有不同蛋白質結構差異那麼明顯。在一個數據庫中,可能有許許多多病情非常相似的個體。
所以我們需要想清楚到底向算法展示什麼數據,才能平衡好數據的代表性和豐富性之間的關系。
哥本哈根大學的轉化性疾病系統生物學家 S ø ren Brunak 如是評價。
除此之外,還可以請行業大佬們制定一個檢查表,規範醫療 AI 領域的研究開發步驟。
然後,研究人員就能更方便地搞清楚先做什麼、再做什麼,有條不紊地操作;還能 Check 一些可能遺漏的問題,比如一項研究是回顧性還是前瞻性的,數據與模型的預期用途是否匹配等等。
其實,現有已有多種機器學習檢查表,其中大部分是基于 "EQUATOR Network" 先提出的,這是一項旨在提高健康研究可靠性的國際倡議。
此前,上文提到的普林斯頓的 Kapoor 博士,也和團隊共同發表了一份包含 21 個問題的清單。
他們建議,對于一個預測結果的模型,研究人員得确認訓練集中的數據要早于測試集,這樣可以确保兩個數據集是獨立的,不會有數據重疊和相互影響。
參考鍊接:
[ 1 ] https://www.nature.com/articles/d41586-023-00023-2
[ 2 ] https://www.wired.com/story/machine-learning-reproducibility-crisis/
[ 3 ] https://mp.weixin.qq.com/s/TEoe3d9DYuO7DGQeEQFghA