能爲患者答疑解惑的谷歌醫療大模型(Med-PaLM),它的詳細測評數據終于披露了!
現在,這篇論文已經登上了 Nature,來看看裏面的具體細節吧。
團隊首先研制了 Flan-PaLM,并在此基礎之上,通過提示策略等方式調整得到了成品 Med-PaLM。
前者挑戰了美國醫學執照考試(USMLE),取得了 67.6% 的成績,比此前最好的模型提高了 17%。
Med-PaLM 相比于 Flan-PaLM,在實際問題上的表現有顯著提升,而後者則顯示出很大不足。
經過專業臨床醫生評判,Med-PaLM 對實際問題的回答準确率與真人相差無幾。
除了 Med-PaLM 模型,研究團隊還推出了自建醫療模型測評數據集。
團隊成員 Jason Wei 興奮地在社交媒體表示,自己 89 歲的奶奶經常問他有沒有發 Science 或 Nature,現在終于可以回答是了。
研究團隊一共使用了七套測試數據集,從多個角度對 Med-PaLM 的表現進行了測評。
首先就是準确性。
Med-PaLM 相比于其前體 Flan-PaLM 的主要改進不在于此,故這一步使用後者作爲測試對象。
這部分一共使用了多個數據集,包括由 USMLE 題目構成的 MedQA。
結果 Flan-PaLM 在其中兩個數據集上的表現較此前的最佳産品均有顯著提升。
而針對 PubMedQA 數據集,Flan-PaLM 的成績雖然隻提高了 0.8%,但真人在該數據集中取得的成績也隻有 78%。
更爲專業的數據集 MMLU 中包含來自多個臨床知識、醫學和生物學相關主題的多項選擇題。
其中包括解剖學、臨床知識、專業醫學、人類遺傳學、大學醫學和大學生物學等方面。
結果 Flan-PaLM 的準确度超越了所有的已知模型。
前面的測評主要是針對模型的理論能力,接下來就要進入實戰了。
這個過程中 Med-PaLM 本體和前體 Flan-PaLM 都是測試的對象。
研究團隊從另外三個數據集中共選擇了 140 個問題(HealthSearchQA 中 100 個,另外兩種各 20 個)。
其中的 HealthSearchQA 是谷歌自建的,包含了 3000 多個問題。
這些問題既包括學術問題,也包括患者在就醫時可能會向醫生提出的疑問。
模型的表現則由 9 名來自不同國家的醫生組成的專家小組進行人工評判。
在科學共識方面,Med-PaLM 的結果具有 92.6% 的一緻性,遠高于其前體,與真人醫生相近。
但和真人相比,Med-PaLM 輸出的錯誤或不準确信息還是比較高的,在信息缺失方面差距則小一些。
不過錯誤的信息不一定會真的帶來傷害,經過專家評估,Med-PaLM 造成傷害的可能性與嚴重性和人類相比并不大。
甚至出現偏見的概率比人類還要低。
而從模型能力角度看,Med-PaLM 在閱讀理解、信息檢索和邏輯推理能力上都表現出了接近真人的水平。
而作爲一款面向不特定人群的語言模型,獲得專業人士的認可是不夠的,因此,研究團隊還邀請了非專業人士對 Med-PaLM 進行評價。
評價的标準有兩條——「是不是所答所問」和「有沒有幫助」。
結果在答案匹配度上,Med-PaLM 和真人差了 1.5%。
而對于「有沒有幫助」這個問題,80.3% 認爲 Med-PaLM 是「有用」的。
這個數字和真人差距不小,但如果分别加上認爲「比較有用」的人,區别就沒有那麽明顯了。
從以上測試結果可以看出,Med-PaLM 和真人之間還存在一定的差距,但已經是目前最好的醫療大模型。
論文地址:
https://www.nature.com/articles/s41586-023-06291-2