史上 AI 最高分,谷歌新模型剛剛通過美國醫師執照試題驗證!
而且在科學常識、理解、檢索和推理能力等任務中,直接與人類醫生水平相匹敵。在一些臨床問答表現中,最高超原 SOTA 模型 17% 以上。
此進展一出,瞬間引爆學界熱議,不少業内人士感歎:終于,它來了。
廣大網友在看完 Med-PaLM 與人類醫生的對比後,則是紛紛表示已經在期待 AI 醫生上崗了。
還有人調侃這個時間點的精準,恰逢大家都以為谷歌會因 ChatGPT 而 " 死 " 之際。
來看看這到底是一個什麼樣的研究?
史上 AI 最高分
由于醫療的專業性,今天的 AI 模型在該領域的應用很大程度上沒有充分運用語言。這些模型雖然有用,但存在聚焦單任務系統(如分類、回歸、分割等)、缺乏表現力和互動能力等問題。
大模型的突破給 AI+ 醫療帶來了新的可能性,但由于該領域的特殊性,仍需考慮潛在的危害,比如提供虛假醫療信息。
基于這樣的背景,谷歌研究院和 DeepMind 團隊以醫療問答為研究對象,做出了以下貢獻:
提出了一個醫學問答基準MultiMedQA,包括醫學考試、醫學研究和消費者醫學問題;
在 MultiMedQA 上評估了 PaLM 及微調變體Flan-PaLM;
提出了指令提示 x 調整,讓 Flan-PaLM 進一步與醫學接軌,産生了Med-PaLM。
他們認為「醫療問題的回答」這項任務很有挑戰性,因為要提供高質量的答案,AI 需要理解醫學背景、回憶适當的醫學知識,并對專家信息進行推理。
現有的評價基準往往局限于評估分類準确度或自然語言生成指标,而不能對實際臨床應用中詳細分析。
首先,團隊提出了一個由 7 個醫學問題問答數據集組成的基準。
包括 6 個現有數據集,其中還包括 MedQA(USMLE,美國醫師執照考試題),還引入了他們自己的新數據集HealthSearchQA,它由搜索過的健康問題組成。
這當中有關于醫學考試、醫學研究以及消費者醫學問題等。
接着,團隊用 MultiMedQA 評估了 PaLM(5400 億參數)、以及指令微調後的變體Flan-PaLM。比如通過擴大任務數、模型大小和使用思維鍊數據的策略。
FLAN是谷歌研究院去年提出的一種微調語言網絡,對模型進行微調使其更适用于通用 NLP 任務,使用指令調整來訓練模型。
結果發現,Flan-PaLM 在幾個基準上達到了最優性能,比如 MedQA、MedMCQA、PubMedQA 和 MMLU。尤其是 MedQA(USMLE)數據集,表現超過了此前 SOTA 模型 17% 以上。
本項研究中,共考慮了三種不同規模的 PaLM 和 Flan-PaLM 模型變體:80 億參數、620 億參數以及 5400 億參數。
不過 Flan-PaLM 仍存在一定的局限性,在處理消費者醫學問題上表現效果不佳。
為了解決這一問題,讓 Flan-PaLM 更适應醫學領域,他們進行了指令提示調整,由此産生Med-PaLM模型。
△示例:新生兒黃疸需要多長時間才能消失?
團隊首先從 MultiMedQA 自由回答數據集(HealthSearchQA、MedicationQA、LiveQA)中随機抽取了一些例子。
然後讓臨床醫生 5 人組提供示範性答案。這些臨床醫生分布于美國和英國,在初級保健、外科、内科和兒科方面具有專業經驗。最終在 HealthSearchQA、MedicationQA 和 LiveQA 中留下了 40 個例子,用于指令提示調諧訓練。
多個任務接近人類醫生水平
為了驗證 Med-PaLM 的最終效果,研究人員從上文提到的 MultiMedQA 中抽取了 140 個消費者醫療問題。
其中 100 個來自 HealthSearchQA 數據集,20 個來自 LiveQA 數據集,20 個來自 MedicationQA 數據集。
值得一提的是,這裡面并不包含當初用于指令提示調整以生成 Med-PaLM 的問題。
他們讓 Flan-PaLM 和 Med-PaLM 分别對這 140 個問題生成答案,又請來一組專業的臨床醫生作出回答。
以下圖為例,當被問到 " 耳朵疼得厲害意味着什麼 " 時,Med-PaLM 不僅會一條條列出患者可能感染的疾病,還會建議如果有以下幾種現象應該去就醫。
耳部疼痛可能是幾種潛在疾病的征兆,包括:中耳感染 ( 中耳炎 ) 、外耳感染 ( 耳部感染 ) 、耳垢嵌塞。也可能是更嚴重疾病的征兆,比如腦瘤或中風。
如果你有嚴重的耳朵疼痛,持續時間超過幾天,或者有其他症狀伴随耳朵疼痛,如頭暈、發燒、面部無力或麻木,你應該去看醫生進行評估。醫生可以确定疼痛的原因,并提供适當的治療。
就這樣,研究人員将這三組答案匿名後交給 9 名分别來自美國、英國和印度的臨床醫生進行評估。
結果顯示,在科學常識方面,Med-PaLM 和人類醫生的正确率都達到了 92% 以上,而 Flan-PaLM 對應的數字為 61.9%。
在理解、檢索和推理能力上,總體來說,Med-PaLM 幾乎達到了人類醫生的水平,兩者相差無幾,而 Flan-PaLM 同樣表現墊底。
在答案的完整性上,雖然 Flan-PaLM 的回答被認為漏掉了 47.2% 的重要信息,但 Med-PaLM 的回答有顯著提升,隻有 15.1% 的回答被認為缺失了信息,進一步拉近了與人類醫生的距離。
不過,盡管遺漏信息較少,但更長的答案也意味着會增加引入不正确内容的風險,Med-PaLM 的答案中不正确内容比例達到了 18.7%,為三者中最高。
再考慮到答案可能産生的危害性,29.7% 的 Flan-PaLM 回答被認為存在潛在的危害;Med-PaLM 的這個數字下降到了 5.9%,人類醫生相對最低為 5.7%。
除此之外,在醫學人口統計學的偏見上,Med-PaLM 的性能超過了人類醫生,Med-PaLM 的答案中存在偏見的情況僅有 0.8%,相比之下,人類醫生為 1.4%,Flan-PaLM 為 7.9% 。
最後,研究人員還請來了 5 位非專業用戶,來評估這三組答案的實用性。Flan-PaLM 的答案隻有 60.6% 被認為有幫助,Med-PaLM 的數量增加到了 80.3%,人類醫生最高為 91.1%。
總結上述所有評估可以看出,指令提示調整對性能的提升效果顯著,在 140 個消費者醫療問題中,Med-PaLM 的表現幾乎追上了人類醫生水平。
背後團隊
本次論文的研究團隊來自谷歌和 DeepMind。
繼去年谷歌健康被曝大規模裁員重組後,這可以說是他們在醫療領域推出一大力作。
連谷歌 AI 負責人 Jeff Dean 都出來站台,表示強烈推薦!
有業内人士看完後也稱贊道:
臨床知識是一個複雜的領域,往往沒有一個明顯的正确答案,而且還需要與病人進行對話。
這次谷歌 DeepMind 的新模型堪稱 LLM 的完美應用。
值得一提的是,前段時間剛通過了美國醫師執照考試另一個團隊。
再往前數,今年湧現的 PubMed GPT、DRAGON、Meta 的 Galactica 等等一波大模型,屢屢在專業考試上創下新的記錄。
醫療 AI 如此盛況,很難想象去年還一度唱衰的光景。當時谷歌與醫療 AI 相關的創新業務始終沒有做起來。
去年 6 月還一度被美國媒體 BI 曝光正陷入重重危機之中,不得不大規模裁員重組。而在 2018 年 11 月谷歌健康部門剛成立時可謂風光無限。
也不隻是谷歌,其他知名科技公司的醫療 AI 業務,也都曾經曆過重組、收購的情況。
看完這次谷歌 DeepMind 發布的醫療大模型,你看好醫療 AI 的發展嗎?
論文地址:
https://arxiv.org/abs/2212.13138
參考鍊接:
https://twitter.com/vivnat/status/1607609299894947841