圖片來源 @視覺中國
文|vb 動脈網
NFT、Web3.0 後,矽谷最近搶起了生成式 AI。
當大語言模型(LLM)掀起的浪潮波及世界的每一個角落,越來越多的人相信,生成式 AI 賦予我們的不僅僅是單純的交互——它能夠作爲一種新式的生産力,逐步颠覆我們的工作與生活。
最先嗅到變革趨勢的是專注前沿科技的投資者們。矽谷 Fusion Fund 的創始合夥人張璐已經好久沒有看到如此狂熱的景象。作爲最早投資 AI 在醫療領域應用的矽谷投資機構,Fusion Fund 過去幾年一直對生成式 AI 的醫療應用領域有所布局,投資組合中包括 Huma.AI、深透醫療等優質醫療 AI 企業,有的被投企業早在兩年前就已經與 OpenAI 有了諸多合作。
" 生成式 AI 的垂直領域應用,需要該行業擁有海量的高質量數據,才能最大化地體現它地技術實力。而醫療領域恰恰擁有海量的高質量數據,人類社會中大約 30% 的數據與醫療相關,是最大的品類,在此基礎上生成式 AI 爲醫療領域帶來了巨大的機會。" 張璐說。
與諸多熱門賽道不同,醫療領域表面上沉寂着數以億計的大數據,但若落足于具體的臨床場景,開發者時常會爲數據的數量、質量與數據的獲取成本發愁,尤其是在應用級臨床 AI 的研發方向上,限制其發展的,正是醫療數據的稀缺性。
這一次,熟稔于繪圖作詞的文藝 AI 們,能否入駐醫學專業,爲臨床 AI 的發展再注活力?
生成式 AI 賦能臨床的兩條路徑
AI 的發展趨勢大緻可歸納爲兩個方向,一是單任務辨别式 AI 模型,單病種 AI 輔助診療、分類、檢測等均是這類 AI 應用的典型例子;二是生成式 AI 應用,局域數據生成更高維度的信息,例如預測醫學圖像數據、生成健康報告等。
兩個方向均依賴于臨床數據進行模型訓練,亦受限于臨床數據的缺失。張璐表示:" 早在 2018 年前後,研發人員便嘗試采用小樣本學習、生成對抗網絡(GAN)等方式彌補訓練樣本量不足的問題,也是從那時開始,生成式 AI 便已應用于醫療之中,隻是如今它的定義更明确,強調在深度學習之上搭建 Transformer Model。"
以 Fusion Fund 投下的深透醫療爲例,該公司的核心業務爲利用 AI 加速 MRI、PET 成像速度,并提升成像質量,這個過程本身就是利用生成式 AI 處理原始數據獲取合成數據,再根據合成數據重構 MRI、PET 影像。
"MR 臨床掃描中的部分序列常常出現信噪比偏低、僞影明顯等情況,影響最終影像的生成。發布于 IEEE 的研究 "One Model to Synthesize Them All: Multi-contrast Multi-scale Transformer for Missing Data Imputation" 結果顯示:在 AI 的支持下,通過 T1、T2 等現有圖像間接生成新的圖像(例如更高分辨率圖像、其他對比度、模拟打造影劑的圖像等),其效果甚至可以優于直接成像。目前,我們能将 MRI、PET 的成像過程提速 4-10 倍,并減少 10 倍造影劑的使用,基于更新生成式 AI 的模型也将不斷提升産品性能 " 深透醫療 CEO 宮恩浩告訴動脈網。
" 此外,我們也在通過做一些 image degrader 的工作,把一些金标準高質量的圖像變至更接近實際掃描獲取的低質量圖像,進而訓練出新的模型。這種融合了多重數據的 diffusion model(擴散模型),它的效果要明顯優于通過傳統手段訓練的模型。"
國内 AI 企業數坤科技則是将生成式 AI 用在了冠脈 CTA 的圖像增強上。在與上海市第一人民醫院的合作中,雙方将 GAN 用于冠脈 CTA 圖像後處理中,成功修複運動僞影,最終提高冠脈 CTA 的成像質量,使其診斷準确性達到冠脈造影的 " 金标準 " 水平。
定量分析結果顯示,使用 GAN 技術修複運動僞影後的冠脈 CTA 圖像質量顯著高于修複前的冠脈 CTA 圖像
通常而言,需要 64 排及其以上排數 CT 才能完成心髒 CTA 掃描,而生成式 AI 可以讓 32 排甚至 16 排的 CT 執行起 CTA 的掃描任務,取得滿足醫生診斷需求的影像。從理論上講,這一技術賦能可以有效提高基層醫療服務能力及服務質量。
MR 同理,通過 AI 賦能,更普遍的 1.5T 設備或者低場便攜設備大幅提升圖像質量,實現 3T 等高端設備的診斷質量與掃描效率。
總的來說,生成式 AI 在單任務辨别式 AI 應用中的作用路徑,均是基于原始數據生成合成數據,并将其應用于最終結果的生成,實現影像增強。同時,整個模型訓練過程中,生成式模型可以同來進行數據擴充(Data Augmentation ) ,從而基于較小數據量以更快速度獲取更爲優質的圖像,有利于研發人員開拓更多數據量相對缺失的場景。
相較于主攻分析能力提升的單任務辨别式 AI,生成式 AI 應用的能力則有一些超脫于當下醫療需求之前。舉一個不那麽恰當的例子:辨别式 AI 應用可以評估患者當下的健康狀态,而生成式 AI 應用意在預測每一人身體的未來。
目前國内嘗試生成式 AI 應用探索的項目非常有限。一個典型的例子是鷹瞳 Airdoc 與北京大學臨床研究所、愛康集團開展的視網膜研究。通過觀察 40 萬人的視網膜血管和神經的發展變化,研究人員讓生成式 AI 自學,去判斷受檢者接下來的發展變化,評估未來心腦血管病風險有多高。目前相關研究已發表在國際知名期刊《Science Bulletin》之中。
據鷹瞳科技表示,以生成式 AI 爲基礎的阿爾茨海默病風險預測、近視進展預測、帕金森風險預測同樣處于研發之中。如果上述疾病能通過 AI 實現預測或早發現,及時的防治措施能夠幫助大量患者規避疾病風險,避免後續漫長且不可控的治療。
生成式 AI 能夠生成臨床數據嗎?
既然單任務辨别式 AI 應用與生成式 AI 應用都在運算的過程之中使用了生成數據,那麽我們是否也能像 AIGC 在金融、藝術中的應用中那樣,直接生成醫療數據呢?
美國聖路易斯華盛頓大學醫學院信息學研究所去年開啓了一項基于生成式 AI 生成患者合成數據集的研究,意在爲廣大科技醫療研究人員提供更爲豐富的數據,爲各類醫療 AI 的研發提速。
該研究使用了以色列公司 MDClone 研發的生成式 AI 模型。MDClone 的系統與醫院的 EHR 直連,可以抽取患者數據進行脫敏,把數據按照特定維度打散,再利用其自研的生成式 AI 模型進行重新組合。通過這一路徑,MDClone 可以根據基于少量電子健康記錄中真實的患者數據準确地生成大量合成數據,重建真實患者的特征。
在後續的研究中,相關人員将合成數據集與真實數據集置于三個特定任務下進行對比,分别爲分析兒科創傷患者的死亡風險;預測哪些住院患者最有可能發生敗血症;制作聖路易斯地區一年内按郵政編碼劃分的衣原體感染率地圖。
該對比研究結果顯示,合成數據分析的結果在統計上與真實數據的分析相似,各項數據集都得出了相同的結論。在絕大多數情況下,統計結果是相同的,隻有在極少數情況下,真實數據集和合成數據集之間存在差異。
這一研究結果與深透醫療在影像加速中的研究結果方向一緻。這也意味着,過去準備訓練數據往往需要耗去研究人員數個月的時間,而在生成式 AI 模型的賦能下,研究人員可以在數小時至數日内建立、查詢并下載自己的合成數據集。
此外,這一生成合成數據的方法還創造了一種嚴格的患者隐私保密方式。由于合成數據無法與真實的人和身份聯系起來,醫院或能借助這一技術将數據變爲一種特定的資産,在不侵害患者隐私的前提下,最大化相關臨床研究。
同樣的邏輯亦可用于影像數據中。
在訓練輔助診斷類人工智能的過程中,患者影像數據的不均勻分布常常會影響最終模型在實際應用中的效果。
以皮膚病 AI 爲例,該 AI 在處理影像時需要同時計算多種皮膚病的概率,但由于人的皮膚膚質及患病類型并非均勻分布,僅考慮患病種類一個維度,濕疹、毛囊炎的數據頻率偏高,銀屑病的數據頻率則會相對偏低。
常規算法可以雖然可以實現影像數據的合成,但其合成數據質量與真實數據質量存在差異,不能完全替代真實數據的價值。生成式 AI 的出現則補全了生成邏輯方面的缺陷,讓生成數據不僅保有質量,還能加快生成過程,擴大生成數據的量級。
英偉達在影像類合成數據中早有布局。2022 年,英偉達與倫敦國王學院使用 Cambridge-1 超級計算機創建一套包含 10 萬份大腦合成圖像的數據集,借此訓練 AI 應用以加快對于癡呆症、帕金森病及其他腦部疾病的理解。其生成邏輯與文本有相似之處,便是将真實數據拆分爲素材,再通過特定邏輯的 AI 進行組合,進而解決數據量稀缺的問題。
合成數據的另一個潛在應用場景在于多病種判别式 AI 的審評審批。
多病種 AI 的臨床試驗設計是一個複雜的過程。譬如,多病種 AI(以 N=2 爲例)在進行數據集構建與算法驗證時,不僅需要構建病種 A 數據庫與病種 B 數據庫,還需要構建 A ∩ B 數據庫,并需在模型之中添加醫學知識,使其能基于醫學原理解釋交集數據的概率得出過程。
當病種數量較少時,構建融合數據庫的難度尚且可控。而在當前審評審批邏輯下,病種數量一旦增多,各病種組合的樣式及需要的數據集豐富程度則會呈指數趨勢上升,數據不均勻分布導緻的障礙也會進一步凸顯。
譬如,糖網病變的 0 期、6 期患者數據天然較少,企業很難在真實世界中找到足量滿足驗證數據集要求的數據量。若将病種的組合考慮在内,相關數據收集複雜程度将急速擴增,最終變成一個現實之中無法解決的難題。顯然,應用生成式 AI 對部分稀缺維度進行數據擴增有希望解決這一問題。
深透醫療已拿到 FDA、CE、NMPA 等各地認證,宮恩浩在采訪中告訴動脈網:" 合成數據的應用貫穿 AI 應用全流程,FDA 有明确要求申報公司闡述清楚訓練和測試用到的真實臨床數據的數量和細節,但 FDA 沒有對合成數據的使用量及使用環節進行明确規定。另一方面,影像增強過程中産生合成數據并以此重建影像與直接構建合成數據集進行 AI 訓練兩種方式存在差異,後一種方式仍然存在探索空間。"
中國人工智能醫療器械标準化技術單位及 NMPA 對于數據質控的标注制定及讨論同樣走在全球前列,目标是針對訓練數據、預訓練、遷移學習等方面的建立完善的标準。如今生成式 AI 的進一步拓寬,或能加速相關法律法規及審評審批條款的制定,使多病種 AI 的審評審批獲得理論與經濟上的雙重可能。
距離矽谷,我們還有多遠?
近日,國家互聯網信息辦公室發布了一則關于《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見的通知,有意将生成式 AI 盡快納入監管範圍。
對于這項仍處于野蠻生長中的技術,有效的監管将爲其帶來更爲良性的發展空間,也利于企業及早規避可能的政策風險。不過,要在國内全面推動生成式 AI 的發展,需要依靠不能隻是監管。
" 任何技術創新都是由基礎技術創新,到技術應用創新,最後帶來商業模式的創新。目前國内的生成式 AI 發展與矽谷存在一定差距,既存在于模型方面,又存在于數據方面。在美國,以 OpenAI 爲代表的科技公司已經完成了 GPT 模型、大語言模型(LLM)等基礎設施的搭建,這意味着,美國已經進入到了創新的第二階段——技術應用創新。" 張璐表示。
要追趕矽谷并不簡單,一方面需要有科技公司完成基礎模型的突破,讓後進的創業公司們能夠通過 API 去調用先進的模型;另一方面需要加速多模态數據的治理,爲模型的專科化培養提供數據支撐。
回到國内,哪些企業能夠承擔風險扛起 AI 跨時代發展的責任?還需時間給出答案。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App