AI 或将徹底改變醫學
AI 在醫療領域再次發光!谷歌 DeepMind 團隊發布的全新診斷對話式 AI 在測試中擊敗醫生,通過了圖靈測試,再次引領醫療 AI 的革命。
我們需要研發對人類有益 AGI 的原因之一:
我妻子的身體 5 年來經曆了種種痛苦,最終被檢查出一種叫肢體活動過度 Ehlers-Danlos 綜合征的遺傳病。現在的醫療體系是根據不同科室劃分,而這個遺傳病 hEDS 會影響人體各個系統和器官。大多醫生都隻關注自己專業相關的症狀,很難整體診斷。
OpenAI 聯創 Greg Brockman 的一番話點明,當前先進 AI 系統還需不斷演進,有望破解人類醫學難題。
這足以成爲巨大遊戲規則的改變者。衆所周知,醫患對話是醫學的基石。
當前醫學大模型已取得很大的進展,以同理心回應患者情緒,總結醫學摘要,根據臨床病史鑒别診斷病情等等。
不過,若想研發一個與臨床醫生專業知識相當的 AI,并且擁有強大的對話診斷能力,是一個巨大的挑戰。
如今,谷歌 DeepMind 研究團隊推出全新的醫學對話 AI —— AMIE,竟通過了「圖靈測試」!
論文地址:https://arxiv.org/pdf/2401.05654.pdf
具體來說,AMIE 采用了一種強化學習算法中「自我博弈」方法,可以在一個模拟環境中自我對弈,并通過自動反饋機制,可在各種疾病、醫學專科和環境中進行擴展學習。
在病人雙盲文本測試中,AMIE 在診斷呼吸系統和心血管疾病等疾病直接擊敗醫生,比初級保健醫生(PCP)更準确。
與此同時,AMIE 還表現出一緻的同理心。
論文稱,雖然在 AMIE 在臨床應用之前還需要進一步的研究,但代表着邁向對話式診斷人工智能的一個裏程碑。
足見,谷歌最新研究暗示了 AI 驅動的診斷對話的未來。不久的将來,Greg 口中的 AGI 便會降臨。
01 谷歌 AI 醫生通過圖靈測試,診斷對話 AI 裏程碑
除了開發和優化用于診斷對話的人工智能系統外,如何評估此類系統也是難題。
受現實世界中用于衡量會診質量和臨床溝通技巧的工具的啓發,研究人員構建了一個試驗性評估标準,按照病史采集、診斷準确性、臨床管理、臨床溝通技巧、關系培養和移情等标準來評估診斷對話的過程。
然後,研究人員設計了一項随機、雙盲交叉研究,讓經過驗證的患者與經過認證的初級保健醫生(PCP)或針對診斷對話進行優化的人工智能系統通過文字聊天的方式進行互動。
研究人員以客觀結構化臨床考試(OSCE)的形式設置咨詢場景。
OSCE 是現實世界中常用的實用評估方法,以标準化和客觀的方式考察臨床醫生的技能和能力。
在典型的 OSCE 考試中,臨床醫生可能會輪流經過多個工作場景,每個工作場景都模拟了真實的臨床場景。
例如與标準化病人演員(經過嚴格訓練以模拟患有特定疾病的病人)進行會診。
會診是通過同步文本聊天工具進行的,模仿的是當今大多數使用 LLM 的消費者所熟悉的界面。
02 AMIE:基于 LLM 的對話式診斷研究 AI 系統
研究人員在真實世界的數據集上訓練 AMIE,這些數據集包括醫學推理、醫學總結和真實世界的臨床對話。
使用通過被動收集和轉錄個人臨床訪問而開發的真實世界對話來訓練 LLM 是可行的,但是,有兩個重大挑戰限制了它們在訓練醫學對話 LLM 方面的有效性。
首先,現有的真實世界數據往往無法捕捉到大量的醫療條件和場景,這阻礙了數據的可擴展性和全面性。
其次,從真實世界對話記錄中獲得的數據往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明确的引用。
爲了解決這些局限性,研究人員設計了一個基于自演的模拟學習環境,該環境具有自動反饋機制,用于虛拟醫療環境中的診斷性醫療對話,使研究人員能夠在多種醫療條件和環境中擴展 AMIE 的知識和能力。
除了所描述的真實世界數據的靜态語料庫之外,研究人員還利用該環境通過不斷變化的模拟對話集對 AMIE 進行了反複微調。
這一過程包括兩個自我循環:
(1)「内部」自演循環,即 AMIE 利用上下文中批評者的反饋來完善其與人工智能患者模拟器進行模拟對話的行爲;
(2)「外部」自演循環,即完善的模拟對話集被納入後續的微調叠代中。
由此産生的新版 AMIE 可以再次參與内循環,形成良性的持續學習循環。
此外,研究人員還采用了推理時間鏈策略( inference time chain-of-reasoning strategy),使 AMIE 能夠根據當前對話的情況逐步完善自己的回答,從而得出有理有據的答複。
研究人員采用上述随機方法測試了模拟患者(由專業的演員扮演)的問診表現,并與 20 名真實初級保健醫生的問診表現進行了對比。
在一項随機、雙盲交叉研究中,研究人員從專科主治醫師和模拟患者的角度對 AMIE 和初級保健醫生進行了評估,該研究包括來自加拿大、英國和印度 OSCE 提供者的 149 個病例場景,涉及各種專科和疾病。值得注意的是,研究人員的研究既不是爲了模仿傳統的面對面 OSCE 評估,也不是爲了模仿臨床醫生通常使用的文本、電子郵件、聊天或遠程醫療方式。
相反,研究人員的實驗反映了當今消費者與 LLM 交互的最常見方式,這是人工智能系統參與遠程診斷對話的潛在可擴展且熟悉的機制。
AMIE 擊敗醫生
在這種情況下,研究人員觀察到 AMIE 在模拟診斷對話中的表現至少與初級保健醫生不相上下。
從專科醫生的角度來看,AMIE 的診斷準确性更高,在 32 個指标中的 28 個指标上表現更優,從患者的角度來看,在 26 個指标中的 24 個指标上表現更優。
AMIE 在研究人員設定的評估中各個指标上都超越了初級保健醫生。
專家評定的 top-k 診斷準确率。在 149 種情況下,AMIE 和初級保健醫生的頂 k 鑒别診斷 ( DDx ) 準确率與基本真實診斷(a)和公認鑒别診斷中列出的所有診斷(b)進行比較。引導法(n=10,000)證實,經過誤診率(FDR)校正後,AMIE 和 PCP DDx 準确性之間的所有 top-k 差異均具有顯著性,p <0.05。
由專科醫生評估的診斷性對話和推理質量:在 32 個指标中的 28 個指标上,AMIE 的性能優于初級保健醫生,而其他指标的性能相當。
AMIE 成爲臨床醫生助手的潛力
在最近發布的一篇預發表論文中,研究人員評估了 AMIE 系統早期叠代版本單獨生成 DDx 或作爲臨床醫生輔助工具的能力。
二十名全科臨床醫生評估了 303 個來自《新英格蘭醫學雜志》(NEJM)臨床病理會議(CPC)的具有挑戰性的真實醫療病例。
每份病例報告都由兩名臨床醫生進行評估,他們被随機分配了兩種輔助方式之一:
1)搜索引擎和标準醫學資源的輔助,
2)這些工具之外的 AMIE 輔助。
在使用相應的輔助工具之前,所有臨床醫生都提供了無輔助的基線 DDx。
AMIE 的獨立性能超過了無輔助臨床醫生(前 10 名的準确率爲 59.1%,醫生爲 33.6%,P= 0.04)。
比較兩個輔助研究方式,與沒有 AMIE 輔助的臨床醫生(24.6%,p<0.01)和使用搜索的臨床醫生(5.45%,p=0.02)相比,有 AMIE 輔助的臨床醫生的前 10 名準确率更高。
此外,與沒有 AMIE 輔助的臨床醫生相比,有 AMIE 輔助的臨床醫生得出的鑒别清單更全面。
值得注意的是,NEJM CPCs 并不代表日常臨床實踐。它們是僅針對幾百人的不常見的病例報告,爲探讨公平或公正等重要問題提供的空間還比較有限。
大膽而負責任的醫療保健研究 -- 可能的藝術
在世界各地,獲得臨床專業知識的機會仍然很少。
雖然人工智能在特定的臨床應用中顯示出巨大的前景,但參與臨床實踐中的動态、對話式診斷過程需要許多人工智能系統尚未表現出的能力。
醫生不僅要掌握知識和技能,還要恪守各種原則,包括安全和質量、溝通、夥伴關系和團隊合作、信任和專業精神。
在人工智能系統中實現這些特質是一項鼓舞人心的挑戰,研究人員應該以負責任的态度謹慎對待。
AMIE 是研究人員對 「可能的藝術」的探索,它是一個研究性的系統,用于安全地探索未來的願景,在這個願景中,人工智能系統可能會更好地與受托爲研究人員提供醫療服務的技術娴熟的臨床醫生的特質保持一緻。
它隻是早期的實驗性工作,而不是産品,有一些局限性,研究人員認爲值得進行嚴格而廣泛的進一步科學研究,以展望未來,讓會話式、移情式和診斷式人工智能系統變得安全、有用和易用。
局限性
研究人員的研究存在一些局限性,在解釋時應保持适當的謹慎。
首先,研究人員的評估技術很可能低估了人類對話在現實世界中的價值,因爲研究人員研究中的臨床醫生僅限于使用一個陌生的文本聊天界面,該界面允許大規模的 LLM 患者互動,但并不代表通常的臨床實踐。
其次,任何此類研究都必須被視爲漫長旅程中的第一步探索。要從研究人員在本研究中評估的 LLM 研究原型過渡到可供人們和護理人員使用的安全、強大的工具,還需要進行大量的額外研究。
還有許多重要的限制因素需要解決,包括在真實世界限制條件下的實驗表現,以及對健康公平與公正、隐私、穩健性等重要主題的專門探索,以确保技術的安全性和可靠性。
03 AI 或将徹底改變醫學
過去一年中大模型的發展,也讓許多人看到 AI 在醫學中的應用潛力。
谷歌便是這個垂類模型領域的典型代表。
谷歌的 Med-PaLM 2 根據 14 項标準進行了測試,結果發現可以達到醫學專家的水平。
還記得去年,一位 4 歲小男孩得了「怪病」,3 年來看了 17 位醫生,但他們都無法解釋疼痛的具體原因。
直到小男孩母親注冊 ChatGPT 之後,将病情上傳,才終于得到了正确的診斷結果。
近來,有網友發文表示,在 ChatGPT 幫助下,發現了女朋友的過敏反應。
淩晨 4 點,她全身起了大面積的荨麻疹,去醫院後醫生給她靜脈注射了皮質類固醇,然後就好了。醫生說可能是防腐劑 / 保鮮劑 / 食品化學物質引起的,但我們一直都吃得很幹淨,怎麽會這樣呢?
緊接着,他們把過去 24 小時内吃的所有東西告訴 GPT-4,然後讓它對最可能的過敏原進行排名。
GPT-4 起初以爲是巧克力裏的榛子的原因,但後來網友突然想起昨天從超市買的肉,便從垃圾桶撿出來把它配料輸給 GPT-4……
配料:牛肉 ( 86% ) 、水、面包屑 ( 大米和玉米粉、澱粉、玉米、鹽、葡萄糖 ) 、鹽、甜菜提取物、香料和芳香草藥、天然香氣和防腐劑 E223 ( 亞硫酸鹽 ) 。
GPT-4 立即将亞硫酸鹽列爲可能導緻荨麻疹的最主要過敏原,通過谷歌搜索,證實它會是荨麻疹原因之一。
最後發現,這與醫生所說的相符,很可能是食物防腐劑過敏。
另外一位網友也分享了自己的心路曆程,以及利用 GPT 發現醫生們遺漏的病情聯系。
一年前,我的身體在與自己作戰,我的病情惡化速度之快超出了專家們的理解。然後,GPT 成爲了我的 Copilot。
現在,谷歌推出的 AMIE 系統再次引領了醫療 AI 革命。
論文作者表示,「據我們所知,這是第一次爲診斷對話和記錄臨床病史而設計的對話式人工智能系統」。
AI 醫學,未來可期。
參考資料:
https://blog.research.google/2024/01/amie-research-ai-system-for-diagnostic_12.html
本文來自微信公衆号" 新智元 "(ID:AI_era),作者:新智元,36 氪經授權發布。