圖片來源 @視覺中國
文 | 追問 NextQuestion,作者 | 鑄雪,編輯 | lixia
近年來,随着深度學習技術的發展,醫療人工智能(醫療 AI)在基于視網膜圖像判定人體健康狀況、診斷潛在眼部和全身性疾病等領域,具有巨大潛力。然而,AI 模型的開發往往需要大量的标記,這些标記通常隻針對特定任務,因而對不同臨床應用的泛化能力十分有限。
近日,在 nature 雜志上發表的一篇研究介紹了基礎模型 RETFound ——一個針對視網膜圖像的大模型。RETFound 能從未标記的視網膜圖像中學習可泛化的表征,具體而言,RETFound 通過自監督學習的方法在 160 萬張未标記的視網膜圖像上進行訓練,然後通過微調來适應具有明确标記的疾病檢測任務。
科學家們展示了微調後的 RETFound 在診斷和預測眼部疾病方面的能力,以及在較少标記數據的情況下,對于複雜的全身性疾病(如心力衰竭和心肌梗死)的預測能力,發現它的表現始終優于其他模型。
總之,RETFound 提供了一個可泛化的解決方案,能提高模型性能并減輕專家标記工作的負擔,從而實現了基于視網膜圖像的 AI 更廣泛的臨床應用。
▷圖 1:論文封面。圖源:nature 官網
從心靈的窗戶窺見疾病的端倪
毋庸置疑,醫療 AI 的發展之迅速,在不少醫療領域已達到,甚至超越了臨床專家的準确度,比如在進行對威脅視力的視網膜疾病的轉診建議、胸部 X 射線圖像的病理學檢測等。
但上述模型是基于大量高質量的标記開發完成的,這樣的标記需要大量的專家評估,對醫生而言是一項繁重的工作負擔。更爲重要的是,由于具有相關領域知識的專家十分稀缺,無法滿足 AI 對于标記的要求,這也導緻大量醫療數據未被标記,無法被有效利用。
對此,深度學習中的自監督學習(self-supervised learning,SSL),或可提供解決思路。
SSL 通過直接從數據中獲取監督信号來緩解數據效率低下的問題,而不是依靠專家标記。SSL 訓練模型執行不需要标簽或可以自動生成标簽的 " 前置任務 ",該過程中模型利用大量未标記數據來學習通用特征的表征,從而輕松适應更具體的任務。
在預訓練階段之後,模型将針對特定的下遊任務進行微調,例如分類或細分。在各種計算機視覺任務中,SSL 模型的性能優于基于監督學習的遷移學習(例如,使用 ImageNet 和分類标簽來預訓練模型)。除了提高标記的效率之外,在對來自不同領域的新數據進行測試時,基于 SSL 的模型比監督模型的表現更好。
強大的泛化表征能力,加之其在許多下遊任務中通過微調模型實現的高性能,種種證據皆表明 SSL 在數據豐富、任務多樣化但标記稀缺的醫療 AI 領域中具有巨大潛力。
彩色眼底攝影(colour fundus photography,CFP)和光學相幹斷層掃描(optical coherence tomography,OCT)是眼科最常見的成像方式,此類視網膜圖像在常規臨床實踐中得以迅速積累。
除了能顯示與眼部疾病相關的臨床特征外,這些圖像對于全身性疾病的診斷也很有價值。例如,視神經和視網膜内層攝影提供了中樞神經系統組織的非侵入性影像,從而爲醫生提供了了解病人神經病變的窗口。同樣地,視網膜血管的幾何形狀也有利于醫生深入了解其他器官(如心髒和腎髒)。
視網膜圖像 +SSL 模型,一個基于自監督學習的視網膜圖像基礎模型由此誕生了。
RETFound:視網膜圖像基礎模型
在這項研究中,科學家通過 SSL 利用大量未标記的視網膜圖像構建了 RETFound,并用其促進多種疾病的檢測。
具體而言,科研團隊開發了兩個獨立的 RETFound 模型,一個基于 CFP,另一個基于 OCT,通過掩碼自編碼器(一種 SSL 技術),依次對自然圖像(ImageNet-1k)、Moorfields 糖尿病圖像數據集(MEH-MIDAS)的視網膜圖像和公共數據(共計 904170 個 CFP 數據和 736442 個 OCT 數據)進行分析。
然後,科學家通過使用特定任務标簽微調 RETFound,使 RETFound 可以适應一系列具有挑戰性的診斷和預測任務,并驗證其性能。
▷圖 2.RETFound 基礎模型的開發和評估示意圖。階段 1:使用來自 MEH-MIDAS 的 CFP 和 OCT 圖像以及公共數據集,通過 SSL 構建 RETFound。階段 2:通過内部和外部評估的監督學習使 RETFound 适應下遊任務。圖源:論文
圖 2 概述了 RETFound 的構建和應用。爲了構建 RETFound,科學家使用了 904170 幅 CFP 圖像,其中 90.2% 的圖像來自 MEH-MIDAS,9.8% 來自 Kaggle EyePACS;科學家同時采用了 736442 個 OCT 圖像,其中 85.2% 來自 MEH-MIDAS,14.8% 來自其他參考文獻。
MEH-MIDAS 是一個回溯數據集,包括 2000 年 1 月至 2022 年 3 月期間在 Moorfields 眼科醫院就診的 37401 名糖尿病患者的完整眼部成像記錄。
在對這些視網膜圖像進行自監督預訓練後,科學家評估了模型在适應不同眼部和眼科任務方面的性能和通用性。驗證時,他們首先考慮對眼部疾病的診斷,包括糖尿病視網膜病變和青光眼;
其次是眼科疾病的預後,特别是一年之内對側眼(contralateral eye)向濕性血管性年齡相關性黃斑病變(wet AMD)轉變的概率;
最後是其他與眼科相關的挑戰,特别是基于視網膜圖像的心血管疾病(缺血性中風、心肌梗死和心力衰竭)的三年預測和神經退行性疾病(帕金森病)的預測。
他們選擇了公開可用的數據集來完成眼部疾病診斷的任務。詳情見表 1。
▷表 1. 心肌梗死 3 年預測的匹配矩陣。a,CFP 的混淆矩陣。b,OCT 的混淆矩陣。RETFound 較其他模型顯示出最高的敏感性和特異性。表源:論文
對于眼部疾病預後和全身疾病預測的任務,研究團隊使用了 Moorfields AlzEye 研究(MEH-AlzEye)的隊列,該隊列包含了 2008 年至 2018 年間在 Moorfields 眼科醫院就診的 353157 名患者的眼科數據,其中包含來自整個英格蘭入院的系統性疾病數據。
RETFound vs. 傳統模型
科研團隊将 RETFound 的性能和标記效率與三個預訓練的比較模型進行了比較:SL-ImageNet、SSL-ImageNet 和 SSL-Retinal。所有模型都使用不同的預訓練策略,但具有相同的模型架構以及下遊任務的微調過程,RETFound 的性能和标記效率始終占優。
SL-ImageNet 采用傳統的遷移學習,即在 ImageNet-21k(約 1400 萬張帶有分類标簽的自然圖像)上通過監督學習的方式預訓練模型;SSL-ImageNet 通過 SSL 在 ImageNet-1k(約 140 萬張自然圖像)上預訓練模型,SSL-Retinal 通過 SSL 在視網膜圖像上從頭開始預訓練模型。
RETFound 在擴展到視網膜圖像之前使用 SSL-ImageNet 的權重作爲基線(相當于在自然圖像上使用 SSL 預訓練模型,然後在視網膜圖像上進行訓練)。
在最新成果中,科學家們報告了這些模型的内部和外部評估結果。利用标記後的訓練數據,這些模型可以适應每項任務,并在内部測試集以及與訓練數據完全不同的外部數據集上進行評估。
此外,科學家使用接收者操作曲線下面積(area under the receiver operating curve,AUROC)和精确召回曲線下面積(area under the precision-recall curve,AUPR)來報告模型性能;同時使用 RETFound 和每個任務中最具競争力的比較模型之間的雙邊 t 檢驗來計算 P 值,以檢查模型的顯著性。
▷圖 3. 不同模型對于眼部疾病診斷分類的表現。圖源:論文
圖 3 給出了不同模型對于眼部疾病診斷分類表現的内部評價、外部評價和預後表現。其中圖 a 爲内部評價。在診斷眼部疾病(如糖尿病視網膜病變和青光眼)的任務中,通過微調和内部評估來使模型适應每個數據集。圖 b 爲外部評估。
上述幾個模型在一個糖尿病視網膜病變數據集上進行微調,并在其他數據集上進行外部評估。圖 c 爲預後表現。模型經過微調,可以預測 1 年内對側眼向濕性 AMD 轉變的概率,并進行内部評估。結果表明,RETFound 在所有任務中表現最佳。
▷圖 4. 不同模型利用視網膜圖像預測全身性疾病 3 年發病率的表現。圖源:論文
圖 4 給出了不同模型利用視網膜圖像預測全身性疾病 3 年發病率的表現。其中圖 a 爲内部評價。通過微調,模型可以适應 MEH-AlzEye 數據集。内部評估是基于測試集實現的。圖 b 爲外部評價。
模型在 MEH-AlzEye 上進行微調,并在 UK Biobank 上進行外部評估。盡管由于任務難度較高,幾個模型整體表現不盡如人意,但 RETFound 在所有内部評估和大多數外部評估中 AUROC 都顯著高于其他幾個模型。
▷圖 5. 幾個典型應用場景中模型的标記效率。圖源:論文
标記效率是衡量不同數量訓練數據下模型的性能,以了解達到目标性能水平所需的數據量。圖 5 中灰色虛線突出顯示了 RETFound 和最具競争力的模型之間所需訓練數據的差異。
圖像中不同顔色曲線代表不同模型的 AUROC,95% 置信區間,中心代表 AUROC 平均值。數據顯示,在利用 CFP 圖像預測心力衰竭和心肌梗死 3 年發病率兩項任務中,RETFound 僅使用 10% 數據量,其表現就優于對照組模型。而在糖尿病視網膜病變相關的數據集 MESSIDOR-2 和 IDRID 上,RETFound 僅使用 45% 和 50% 的數據量,模型表現即可超越對照組模型。
盡管這項工作系統地評估了 RETFound 在診斷和預測多種疾病方面的作用,但仍存在一些限制和挑戰,需要在未來的工作中進行探索。
首先,用于開發 RETFound 的大多數數據都來自英國,因此需要考慮未來引入全球視網膜圖像後可能對模型效果帶來的影響,模型有必要引入更加多樣化和平衡的數據。
其次,雖然這項研究探索了 CFP 和 OCT 下模型的性能,但尚未研究 CFP 和 OCT 之間的多模态信息融合,這可能會導緻 RETFound 性能的進一步提高。
最後,一些臨床相關信息,例如人口統計和視敏度(visual acuity),可能可以作爲眼科研究的有效協變量,它們尚未包含在 SSL 模型中。
可以想象,通過引入更多數量的圖像、探索多模式數據之間的動态交互,可以進一步增強 RETFound 在後續叠代中的表現。研究團隊對于 RETFound 在未來的廣泛應用持樂觀态度,同時也指出,增強人與 AI 的集成對于實現醫療 AI 應用的真正落地至關重要。