哈佛全新類ChatGPT癌症診斷AI登上Nature，準确率最高96%

新智元報道

編輯：靜音

【新智元導讀】能夠執行多種任務，識别 19 種癌症類型，預測患者生存率 …… 哈佛醫學院研究人員提出 CHIEF，一種多功能 AI 癌症診斷模型，表現出類似于 ChatGPT 的靈活性，遠超其他現有的癌症診斷模型。

近日，來自哈佛醫學院等機構的科學家們開發了一種名爲 CHIEF（Clinical Histopathology Imaging Evaluation Foundation，臨床組織病理學成像評估基礎）的多功能 AI 癌症診斷模型。

并于 9 月 4 日登上「Nature」。

論文地址：https://www.nature.com/articles/s41586-024-07894-z

值得一提的是，盡管最近出現了其他用于醫學診斷的病理圖像基礎 AI 模型，但 CHIEF 是第一個能夠預測患者預後并在多個國際患者群體中驗證的模型。

工作原理

當前，大多數 AI 癌症診斷系統通常被訓練來執行特定任務。例如，檢測癌症的存在，或分析腫瘤的基因特征，且通常僅适用于少數幾種癌症類型。

相比之下，全新的 CHIEF 模型則具有類似于 ChatGPT 的靈活性——不僅能夠執行多種任務，而且還能識别不同癌症類型需要特别關注的區域。

通過讀取腫瘤組織的數字切片，它可以檢測癌細胞并根據圖像中觀察到的細胞特征分析腫瘤的基因特征。

此外，還可以預測多種癌症類型的患者生存率，并精确定位腫瘤周圍組織的特征，即腫瘤微環境。這些特征與患者對手術、化療、放療和免疫治療等标準治療的反應有關。

更進一步的，CHIEF 還具有生成新見解的潛力——它發現了此前未被認爲與患者生存相關的特定腫瘤特征。

研究團隊指出，這些發現進一步證明了 AI 可以幫助臨床醫生高效、準确評估癌症，包括識别可能對标準癌症療法反應不佳的患者。

論文主要作者，哈佛醫學院 Blavatnik 研究所生物醫學信息學助理教授 Kun-Hsing Yu

模型訓練與表現

首先，CHIEF 在 1500 萬張未标記的圖像上進行訓練，這些圖像被分成多個模型可能需要特别關注的部分。

然後，CHIEF 在 6 萬張全切片圖像上進行了訓練，其中包括肺、乳腺、前列腺、結腸、胃、食管、腎髒、腦、肝、甲狀腺、胰腺、宮頸、子宮、卵巢、睾丸、皮膚、軟組織、腎上腺和膀胱等組織的全切片圖像。

這種訓練方法，使得模型不僅關注圖像的局部，還能夠結合整個圖像，将某一局部的特定變化與整體聯系起來。從而，CHIEF 在進行癌症分析時能夠考慮更廣泛的背景信息，更全面地解讀圖像，而不是僅僅專注于某個特定區域。

訓練完成後，研究團隊在 19400 多張全切片圖像上測試了 CHIEF 的性能。這 19400 多張全切片圖像來自全球 24 家醫院和患者群體中收集的 32 個獨立數據集。

總體上，CHIEF 在以下任務中比其他最先進的 AI 方法高出 36%：癌細胞檢測、腫瘤起源識别、預測患者結果、以及識别與患者治療反應相關的基因和 DNA 模式。

無論腫瘤細胞是通過活檢還是手術切除獲得，CHIEF 的表現都同樣出色。無論使用何種技術對癌細胞樣本進行數字化處理，它的準确性也同樣高。

研究人員表示，這種适應性使 CHIEF 能夠在不同的臨床環境中使用，而當前大部分 AI 癌症診斷模型通常隻能在通過特定技術獲取的組織中表現良好。

CHIEF 的 4 種應用

癌症檢測

CHIEF 在癌症檢測中的準确率達到了近 94%，測試涵蓋了 15 個數據集，其中包含 11 種癌症類型。

在另一個涵蓋 5 個活檢數據集的測試中，CHIEF 達到了 96% 的準确率，其中包括食道、胃、結腸和前列腺在内的多種癌症類型檢測。

當研究人員用數據集之外的手術切除腫瘤切片來測試 CHIEF 時，模型的準确率超過了 90%。

模型注意力得分的可視化顯示，CHIEF 準确識别了黑色素瘤、肺癌和腎癌的癌變區域

分析腫瘤的基因特征

腫瘤的基因構成包含了未來腫瘤發展和最佳治療方案的關鍵線索。爲了獲取這些信息，腫瘤學家通常會對腫瘤樣本進行 DNA 測序。

但由于将樣本送往專業的 DNA 測序實驗室需要一定的成本和時間，世界各地普遍沒有進行常規的詳細的基因組分析。即使是在資源充足的地區，這一過程也可能需要數周時間。

不過，這是 AI 可以填補的空白。

研究人員稱，對于圖像中特定的基因組異常，識别其細胞模式，可能提供一種快速且經濟的替代基因組測序的方案。

CHIEF 在預測腫瘤的基因變異方面優于現有的 AI 方法。這種新的 AI 方法成功識别了與癌症生長和抑制相關的多個重要基因特征，并預測了腫瘤在各種标準癌症療法過程中的關鍵基因突變。

CHIEF 還檢測到了特定的 DNA 模式，這些模式與結腸腫瘤對一種稱爲免疫檢查點抑制的免疫療法的反應效果相關。

在觀察全組織圖像時，CHIEF 識别出 54 個常見突變癌症基因中的突變，總體準确率超過 70%，優于當前用于基因組癌症預測的最先進 AI 方法。

研究團隊使用 CHIEF 模型來預測特定基因突變，這些突變與 FDA（美國食品藥品監督管理局）批準的靶向治療方法的效果有關。研究涉及的 18 個基因分布在人體的 15 個不同解剖部位。

CHIEF 在多種癌症類型中都達到了高準确率。在檢測一種名爲彌漫性大 B 細胞淋巴瘤的血液癌症中的 EZH2 基因突變時，CHIEF 達到了 96% 的準确率；在檢測甲狀腺癌中的 BRAF 基因突變時，CHIEF 的準确率達到了 89%；在檢測頭頸部癌症中的 NTRK1 基因突變時，準确率爲 91%。

CHIEF 在預測癌症類型的組織病理學圖像中的基因突變狀态方面取得了很高的成績

預測患者

生存率

基于初次診斷時獲得的腫瘤組織病理圖像，CHIEF 能夠成功預測患者的生存期。

總體上，CHIEF 預測高風險和低風險死亡率的能力在來自 17 家不同機構的患者樣本中得到了測試和驗證。

在所有研究的癌症類型和患者群體中，CHIEF 能夠區分長期生存的患者和短期生存的患者。CHIEF 的表現比其他模型好 8%。

在患有晚期癌症的患者中，CHIEF 的表現比其他 AI 模型高出 10%。

識别不同癌症類型需要特别關注的區域

該模型在圖像上識别出與腫瘤侵襲性和患者生存率相關的明顯模式。

爲了可視化特定的區域，CHIEF 在圖像上生成了熱圖。當人類病理學家分析這些由 AI 生成的熱點時，他們發現了一些反映癌細胞與周圍組織相互作用的有趣信号。

模型注意力的可視化顯示了肺癌患者生存預測中的重要區域

其中一個特征是，在長期生存者的腫瘤區域中，免疫細胞的數量比短期生存者更多。Yu 指出，這一發現有其合理性，因爲更多的免疫細胞可能表明免疫系統已被激活來攻擊腫瘤。

在觀察短期生存者的腫瘤時，CHIEF 識别出了一些需要關注的區域。這些區域的特征包括各種細胞成分的異常大小比例、細胞核上更多的非典型特征、細胞之間較弱的連接，以及腫瘤周圍區域中較少的結締組織。

這些腫瘤周圍還有更多的死亡細胞。例如，在乳腺腫瘤中，CHIEF 指出組織内的壞死（或細胞死亡）是一個需要關注的區域。另一方面，生存率較高的乳腺癌患者腫瘤周圍，更有可能保持類似于健康組織的細胞結構。

研究團隊指出，與生存率相關的視覺特征和需要關注的區域因癌症類型而異