ChatGPT、AutoGPT 能幹那麽些事,好想知道大模型啥時候才能看病,救我本人狗命?
帶視覺的多模态醫學基礎大模型,它來啦~
名爲Visual Med-Alpaca,官宣即開源。
這個專爲生物醫學領域設計的基礎模型,構建于 LLaMa-7B 之上,還在一定程度上借鑒了 Visual-ChatGPT 和 Alpaca(羊駝)。
因爲參數量相對較小,所以使用單個消費級 GPU就能輕松部署和運行。
給小羊駝披上白大褂的背後團隊,主要成員來自劍橋大學語言技術實驗室(CambridgeLTL,Language Technology Lab at the University of Cambridge),以及一位 MIT 背景的中國小哥。
披上白大褂的羊駝
披上白大褂的小羊駝,望聞問切的實際效果如何?
帶着疑問,我們把同樣的考題(根據模态能力)丢給了 Visual Med-Alpaca、Glass AI(提供診斷和臨床建議的生成式 AI 應用)、VQA Medical Model(醫學影像語言模型)、MOSS 以及 GPT-4。
看 X 光片能力
既然是多模态 LLM,測試時自然不能放過這部分。
丢給他一張胸部 X 光片,并且提問:X 光片顯示了這人有啥毛病?該咋辦?
Visual Med-Alpaca 給出的答案是這樣的:
在胸部 X 光片中看到的雙側浸潤和雙側胸腔積液,可能表明呼吸道感染或其他呼吸系統疾病,例如肺炎肺水腫或胸腔積液,重要的是咨詢醫療專業人員以進行正确診斷和治療計劃。
而參賽選手中另一名能讀圖看病的VQA Medical Model,回答就兩個字:
褥瘡(the decubitus)。
提供用藥建議
鑒于能夠讀圖看病的 LLM 應用太少,後續測試都隻采用純文字模式。
第一個問題:我頭發掉到快秃了,有啥藥可以救救孩子?
Visual Med-Alpaca列出了 5 種藥物,順帶解釋了一下用法和對應病症。
1、米諾地爾:一種用于頭皮以促進頭發生長的藥物。
2、非那雄胺:一種口服藥物,可減緩二氫睾酮 ( DHT ) 的産生,DHT 是一種可導緻脫發的激素。
3、皮質類固醇:可塗抹在頭皮上以減輕炎症和促進毛發生長的外用藥物。
4、蒽林:一種應用于頭皮的藥物,通過刺激滋養毛囊的血細胞的産生來促進頭發生長。
5、酮康唑:一種應用于頭皮的藥物,用于治療可導緻脫發的真菌感染。在使用任何這些化學物質治療脫發之前。
請務必咨詢醫療保健專業人員,因爲它們可能有潛在的副作用并且可能并不适合所有人。
(感覺有人跟我一樣需要,所以特地翻譯後列出,狗頭 .jpg)
Glass AI對這個問題的回答,給出的診療方案是米諾地爾和非那雄胺。
深孚衆望的ChatGPT,也給出了 5 種用藥:
(由于一些不可描述的原因,對第 3 種表示婉拒了哈)
第二個問題:如何檢測 2 型糖尿病?
Visual Med-Alpaca給出了 5 種測試辦法,包括空腹血糖測試、口服葡萄糖耐量測試等。
Glass AI給出的建議包含了此前的 5 種方案,然後額外有一種脂質譜。
ChatGPT給出的測試辦法少了一種,但也舉例了多種方法。
體驗結果來看,Visual Med-Alpaca 在醫學領域确實普遍表現更好,Glass AI 也很有不錯的表現,但吃虧在無法進行多模态的生成。
Visual Med-Alpaca
而從技術層面來看,Visual Med-Alpaca 構建于 Meta 開源的 LLaMa-7B 之上,是比較輕量級的一個模型,易于本地化部署,并降低微調成本。
據團隊成員解釋,整個模型還參考了 Visual-ChatGPT 和 Alpaca。也就是說,整個模型及其架構層面沒有太大創新。
基于這個問題,團隊成員對量子位的回答是:
畢竟全天下 basically Transformer,哈哈哈哈哈哈。
Visual Med-Alpaca 的整體工作原理,就是使用 prompt 管理器,将文本和視覺兩種模态的信息合并到 prompt 中,從而生成具有生物醫藥專業知識的回答。
首先,圖像 input 被送入類型分類器,識别出把視覺信息轉換爲中間文本格式的适當模塊,然後加入文本 input,用于後續推理過程。
爲了讓醫學圖像更适合輸入,這一步涉及了集成視覺基礎模型 DEPLOT 和 Med-GIT。
然後,prompt 管理器從圖像和文本 input 中提取到的文本信息,合并到 Med-Alpaca 的 prompt 中,最後生成具有生物醫學領域專業知識的回答。
訓練過程中,爲了更好地讓生物醫學知識和視覺模态在 LLaMA-7B 中結合,團隊使用了兩個不同的數據集進行微調。
一個是 54000 個生物醫學示例問答對組成的模型生成數據集,負責執行标準微調和低秩自适應 (LoRA) 微調;另一個是 Radiology Objects in Context (ROCO) 數據集,在其上微調了 Microsoft GIT 模型,用來合并視覺模态。
這裏還運用了GPT-3.5-turbo 的 NLP 能力,從各種醫學數據集中收集、查詢,最後綜合生成更符合人類對話習慣的結構化答案。
在體驗過程中不難發現,所有的回答最後,Visual Med-Alpaca 都會附上一句叮囑,大緻内容是:
" 鑒于風險因素的存在,可以結合你的個人健康史去看看醫生哈~"
究其緣由,團隊解釋這是一個學術合作項目,而非商業化模型。
團隊強調,爲 Visual Med-Alpaca 評估劃定能力邊界非常重要。模型雖然通過 insruct-tuning,對整體的專業性進行了增強,讓模型在生物醫療領域更傾向于保守作答,但無法完全避免大模型的幻覺現象。
所以開源頁中也加粗标出了 "Visual Med-Alpaca 嚴格用于學術研究,在任何國家都沒有合法批準将其用于醫療用途"。
2 名劍橋老師 +4 名華人小哥
Visual Med-Alpaca 項目背後,是兩位劍橋老師和四名華人小哥。
帶隊老師是 CambridgeLTL 聯合主任、劍橋 NLP 教授Nigel Collier,他在 NLP 和 AI 領域研究 25 年有餘,現在也是艾倫圖靈研究所研究員。
共同一作Chang Shu,CambridgeLTL 博一在讀,導師是 Nigel Collier。此前,他在愛丁堡大學完成本碩學業。
目前的研究領域集中在 LLM 的安全性和可解釋性方面。
共同一作Baian Chen,本科畢業于 MIT 計算機系,從事 AI 方向的研究。他的目前身份是 Ruiping Health 創始人。
Fangyu Liu,CambridgeLTL 博三在讀,師從 Nigel Collier。在進入劍橋大學攻讀碩士學位之前,他在滑鐵盧大學就讀計算機科學本科。
Zihao Fu,CambridgeLTL 助理研究員、博士後,同樣是 Nigel Collier 的學生。在此之前,他博士畢業于香港中文大學,師從 Wai Lam 教授;本碩階段則就讀于北京航空航天大學。
以及還有一位Ehsan Shareghi,他是劍橋大學的兼職講師,同時是莫納什大學數據科學與人工智能系的助理教授,之前有在倫敦大學電氣與電子工程系的工作經曆。
研究興趣包括探究和增強預訓練大模型。
GitHub:https://github.com/cambridgeltl/visual-med-alpaca/tree/main/code
參考鏈接:https://cambridgeltl.github.io/visual-med-alpaca/
— 聯系作者 —