清華校友立功！谷歌發布首個全科醫療大模型，14項任務SOTA

全球首個全科醫療大模型正式發布：

由谷歌 Research 和 DeepMind 共同打造的多模态生成模型Med-PaLM M，懂臨床語言、懂影像，也懂基因組學。

在 14 項測試任務中，Med-PaLM M 均接近或超過現有 SOTA，前提是所有任務都使用一組相同的模型權重。

而在 246 份真實胸部 X 光片中，臨床醫生表示，在高達 40.50% 的病例中，Med-PaLM M 生成的報告都要比專業放射科醫生的更受采納，這表明 Med-PaLM M 并非 " 紙上談兵 "，用于臨床指日可待。

對此，谷歌也自己給出了評價：

這是通用醫學人工智能史上的一個裏程碑。

所以，Med-PaLM M 具體什麽來頭？

全球首個全科醫療大模型來了

在正式了解 Med-PaLM M 之前，我們先簡單介紹谷歌自建的多模态醫學測試基準MultiMedBench。

谷歌表示，在 MultiMedBench 之前，市面上缺乏這樣一個全面的多模态醫學基準。

該基準由 12 個開源數據集和 14 個單獨的任務組成，用于測量通用生物醫學 AI 執行各種臨床任務的能力。

其中 12 個數據集共包含了六種生物醫學數據模式（文本、放射學（CT、MRI 和 X 光）、病理學、皮膚病學、乳房 X 光檢查和基因組學），14 個任務則涵蓋五種類型（問題回答、報告生成和摘要、視覺問題回答、醫學圖像分類和基因組變體調用）。

Med-PaLM M 就在上面進行了微調。

正如其名 "M" 代表多模态，Med-PaLM M 相比之前谷歌發布的 Med-PaLM、Med-PaLM-2 等醫療大模型，是一個主打全科、通才的醫療 AI，不僅能回答各種醫學問題，還能直接看片、懂基因組學。

它的基本架構是 PaLM-E（多模态語言模型），并采用 ViT 預訓練模型作爲視覺編碼器，具體實現了三種組合：

-PaLM 8B+ViT 4B ( PaLM-E 12B )

-PaLM 62B+ViT 22B ( PaLM-E 84B )

-PaLM 540B+ViT 22B ( PaLM-E 562B )

通過 MultiMedBench 對 PaLM-E 模型進行微調，并将其與生物醫學領域對齊，Med-PaLM M 得以誕生。以下是一些實現細節：

（1）數據集和預處理方面，将 MultiMedBench 中所有圖像大小調整爲 224 × 224 × 3，同時按需使用填充來保留原始縱橫比。

（2）由于谷歌的目标是訓練一個通用的生物醫學 AI 模型，使用統一的模型架構和模型參數，用多模式輸入執行多個任務。爲此，他們爲 Med-PaLM M 提供了特定于各種任務的指令以及一個純文本的 " 一次性示例 "。

如下圖所示的胸部 x 光解讀和皮膚病變分類任務所示，這些指令有一種寫提示語的味道，以 " 你是一個很給力的放射科助理 " 開頭。

（3）訓練過程中，作者對 PaLM-E 進行了端到端的微調。在多模态任務中，圖像标記與文本标記交錯，以形成對 PALM-E 模型的多模式上下文輸入。對于所有微調任務，多模式上下文輸入最多包含 1 個圖像，然而 Med-PaLM M 能夠在推理過程中處理具有多個圖像的輸入。

14 項任務接近 or 超 SOTA，臨床戰勝 40% 放射科醫生

性能評估階段，作者主要測試 Med-PaLM M 的 " 多面手 "（即全科）能力、突發湧現能力以及放射學報告生成質量（與真實放射科醫生進行對比）。

結果顯示：

（1）與專業 SOTA 模型和無生物醫學領域微調的廣義模型（PaLM-E 84B）相比，Med-PaLM M 在 MultiMedBench 上的所有任務、數據集和指标組合（共計 14 項）中，性能均基本接近 SOTA 或超過 SOTA。

需要注意的是，該結果是在沒有任何特定任務定制的情況下使用相同的模型權重集實現的。

（2）在 scale 實驗中，三個不同規模的 Med-PaLM M 對各類任務的影響各不相同：

粗略來看，對于純語言任務和需要調整的多模式任務來說，模型越大越好；但對圖像分類和胸部 X 光報告生成任務來說，84B 的效果比 562B 表現反而更好一些。

（3）零樣本思維鏈推理能力湧現。Med-PaLM M 可以通過胸部 X 射線圖像檢測沒有訓練過的結核病，與針對該類數據集進行專門優化過的 SOTA 結果相比，它的準确率已相差不大。

不過，它給出的具體報告還是存在具體錯誤，說明還有不足。

（4）放射性報告生成測試中，80B 參數的 Med-PaLM M 平均有 40.50% 的報告比放射科醫生做的更好（被臨床醫生采納），而 12B 和 562B，分别爲 34.05% 和 32.00%。

另外，遺漏和錯誤率測試顯示，Med-PaLM M 12B 和 84B 模型平均每份報告的遺漏率最低，爲 0.12，其次是 562B 模型爲 0.13。這一結果與 MIMIC-CXR 上人類放射科醫生基線報告的相當。

多久能實用？

作爲人類首個全科醫學大模型，Med-PaLM M 多久能投入實用，想必也是大家關心的問題。

雖然它被 " 自诩 " 爲裏程碑（主要是因爲靠一組模型權重在各種生物醫學任務上接近或超過 SOTA），但谷歌也指出目前還有不少局限性待解決。

比如缺乏高質量的測試基準。谷歌表示，這是迄今爲止通用生物醫學人工智能發展的關鍵瓶頸，因爲隻有高質量的基準才能在很大程度上促進相關領域的發展。

而目前的 MultiMedBench 還存在單個數據集大小有限以及模式和任務多樣性有限（比如缺乏轉錄組學和蛋白質組學）等問題。

再比如，擴展（scale）多模态 AI 模型也具有挑戰性。

在語言領域，這一操作可以顯著提高性能和應急能力。然而，谷歌在 Med-PaLM M 上的初步實驗表明，由于醫學數據的稀缺性，這對于生物醫學任務領域的多模态廣義模型來說并沒有這麽簡單。

作者介紹

目前，谷歌僅發布了 Med-PaLM M 的論文。

它一共有兩位共同一作，其中一位叫 Tao Tu。

他本科畢業于北理工（2010 年），碩士畢業于清華大學，博士爲美國哥倫比亞大學，專業都是醫學工程。目前已在谷歌擔任軟件工程師快兩年。

論文地址：

https://arxiv.org/abs/2307.14334