出品 | 虎嗅科技醫療組
作者 | 陳廣晶
編輯 | 苗正卿
頭圖 | 視覺中國
每個人都是移動的 " 數據礦 ",但是,還是養不活 AI 醫生。
" 你的血壓在升高 "" 我這樣做能改善你的情緒嗎 "…… 這是電影《超能陸戰隊》中健康管家 " 大白 " 的經典台詞。研究者給他安裝了 " 醫療芯片 " 賦予其治病救人的能力。
在全球都深陷 " 看病難看病貴 " 泥潭的今天,誰不想要一個 24 小時監測健康情況、随時解決健康問題的 " 大白 "?但是現實情況是,無論是用于嚴肅的醫療場景,還是日常健康管理,沒有足夠的數據,很多 " 大白 " 都是巧婦難爲無米之炊。
在其背後,醫療數據領域長期存在的因醫療亂象而産生的 " 髒數據 ",以及各家醫院分而治之導緻的标準不統一、" 數據孤島 " 等問題,都成了新技術在健康領域應用的桎梏。
爲了解決數據問題,AI 醫療、AI 制藥公司,從合成數據到自建 " 數據礦 "(自動化實驗室)想了很多辦法,但是核心的,與病人直接相關的數據,還是很難獲得。
現在情況正在改變。
就在 8 月 30 日,國務院常務會議剛剛審議通過了《網絡數據安全管理條例(草案)》 。其中明确提到了" 要厘清安全邊界,保障數據依法有序自由流動 ",進而,爲促進數字經濟高質量發展、推動科技創新和産業創新營造良好環境。
這意味着,大數據的價值被提到了新的高度,大數據交易的規則和路徑也在逐漸清晰。乘着這場東風,AI 醫療發展的數據難題有望快速解決。
醫療數據能在陽光下 " 變現 " 了
胸科單一病種 " 數據集 "," 賣 " 了 150 萬元;
經過資産登記、質量評估和資産價值評估,某醫院的抑郁症病數據 " 賣 " 了 500 萬元;
在骨科機器人輔助下完成的骨科手術,相關數據按照 1020 萬元增資入股到了一家公司 ……
這是 2024 西普會 "AI For Health" 高峰論壇上,北京國際大數據交易所(簡稱 " 北數所 ")副總經理潘沖分享的案例,就真實發生在中國醫療領域。
作爲落地單位,潘沖所在的北數所推動 " 醫療健康數據流通試點 " 落地——該活動由北京市經濟和信息化局會同北京市醫管中心組織北京安定醫院、北京積水潭醫院等 6 家市屬醫院開展,已經完成了累計 2000 萬元的交易。
就在潘沖分享上述案例之前,心理應用大模型 " 洞見人和 ",已經完成了數據資産評估,以 3.25 億元的高價刷新了行業認知。
這些事件都在傳遞一個信号,那就是醫療數據真的可以 " 變現 " 了,也真的可以體現在财務報表上,讓财務數據更好看。
數據的 " 錢 " 力不止于此。
僅在醫療領域,根據安永(Ernst & Young Global Limited)報告,NHS(英國國家醫療服務體系)的醫療數據,每年産生的總價值達到 96 億英鎊(約合 897 億元人民币)。這些數據還隻覆蓋了 5500 萬人的電子病曆和觸及護理記錄、2300 萬人的專科護理記錄以及 10 萬人左右的基因數據。
在患者更加衆多的中國——根據國家醫保局統計數據,僅住院就有 2 億人,門診慢特病有 3.4 億人,可以産生的數據量幾乎是英國的數倍之多,如果充分流通起來,這些數據能夠産生的價值将非常可觀。
按照國家工信安全中心測算,到 2025 年,數據交易将貢獻國内 GDP 增長的 1.8%,數據要素的規模産值将突破 1.5 萬億元。醫療數據是其中重要組成部分,也将很快達到 500 億元規模。
而且,這潑天富貴中,也有普通人的一杯羹。
在 " 數據二十條 "(全稱《中共中央 國務院關于構建數據基礎制度更好發揮數據要素作用的意見》)裏,有關于 " 建立健全個人信息的數據确權授權機制,探索個人分享的數據價值收益的方式 " 的内容,北京市的 " 數據二十條 " 裏面也專門提到了相關内容。
爲此,北數所也建立了數據授權平台,可以對接到個人和企業。對接到北數所平台上的個人數據,如果被申請使用,這個人就會收到授權請求信息,在充分了解誰将在什麽場景使用數據的情況下,選擇同意或拒絕授權對方使用。如果同意授權,這個人就可以從該交易中分到一筆收益。
" 我們每個人名下都有成千上萬條這樣的數據,它們都是個人的數據資産。" 潘沖說。
事實上,數據的價值,特别是醫療數據的價值,被觊觎已久。在數據交易通道沒有打開之前,數據也在灰色地帶持續交易着,隻是在那裏,個人的隐私得不到保護,更不用說獲得收益了。
數據交易放到陽光下以後,交易的數據要脫敏,獲取方式也要合規,這樣就可以形成多方獲益的局面了——除了直接地惠及醫生和患者,因爲具有幫助快速把握事物規律的屬性,這些數據也将在新藥開發、公共衛生管理等方面給出更多支撐。
來自:視覺中國
中國 "AI 醫生 " 不能再等了
在 AI 快速發展的今天,數據交易已經日漸成爲 " 剛需 " 了。
盡管 ChatGPT 等人工智能大模型,已經給碳基生命帶來了太多震撼,但是,它們還是沒法在缺乏專業數據的情況下,成爲任何領域的專家。以 ChatGPT 爲例,它可以通過語言文字認識顔色,了解沒有見過的事物,但是沒有受過訓練的情況下,也沒法很好地勝任健康咨詢的任務。
2023 年,一份發表在權威期刊 JAMA(美國醫學會雜志)上的試驗結果顯示,ChatGPT 在根據現行臨床指南針對心血管疾病預防保健提出建議時,雖然有 84% 的回答是合理的,但是另外 4 個答案,不僅錯誤,而且有害,是嚴肅的臨床診療中絕對不允許出現的。更多試驗中,還進一步發現了倫理、法律等方面的問題。
這既提示了對 ChatGPT" 行醫 " 需要有更多人工複核、監督的問題,也說明專業數據對特定領域的人工智能,特别是醫學、生命科學等容錯率非常低領域的人工智能,是足以扼住咽喉的影響因素。
從整體來看,人工智能已經是國家競争力比拼的關鍵,如果在這方面落後于人,并不隻是導緻某個産業的落後,更會在經濟增長、科技創新等各個方面拖後腿,甚至會在社會問題,如城鄉差距、老齡化等問題的解決上落後于人。
由于大模型逐漸在 AI 世界占據主導,作爲 " 燃料 ",數據已經成了下一階段各國 AI 競争的關鍵,甚至有業内人士稱其爲人工智能的 " 護城河 "。
正因爲此,國家層面對數據如何在安全有序的前提下,順暢交易,已經越來越重視。除了前述提到的《網絡數據安全管理條例(草案)》,此前還有諸多文件發布,包括綱領性的 " 數據二十條 ",推動落地、列出時間表的《" 數據要素 X" 三年行動計劃(2024-2026 年)》 等。
在今年全國兩會期間," 數據交易 " 也是被頻頻提到的熱詞。還有相關專家建議建立國家級數據交易市場,方便 " 數據要素 " 在全國範圍内自由交流、交易。
在 AI 最爲重視的生命科學領域,各方都更加迫切地需要數據流通起來。有 AI 制藥頭部公司聯合創始人直言,AI 制藥接下來的競争将在數據領域。
這種緊迫感,随着全球 AI+ 醫療、制藥競争的白熱化,也在不斷升級。
從公開數據看,2012 年到 2022 年,美國食品藥品監管部門 FDA 批準的 AI 相關醫療器械數量增長了 45 倍以上。
全球領先的醫療大模型谷歌的 Med-PaLM2,在此前的測試中已經表現出了與醫生基本相當,甚至超過人類專家的實力。2023 年發表在《急診醫學年鑒》上的一項研究顯示,歐洲研究者向 AI 提供了 30 名急診患者的症狀、體檢和化驗結果記錄後,AI 對患者作出正确判斷的比例爲 97%,超過人類醫生的 87%。
這當然不意味着人類醫生會被 AI 取代,但是,意味着,在接下來生命科學領域的尖端探索中,沒有 AI 輔助工具的醫生,很可能會遠遠落後于有 AI 輔助的醫生。
而在國内外醫療 "AI 助手 " 成長爲 "AI 醫生 " 的道路上,一定規模的高質量臨床數據也必不可少。
從這個意義上講,中國醫療領域的 AI,也不能再受限于數據了。
來自:視覺中國
還隻是開始
客觀來說,中國在打破 " 醫療數據孤島 " 方面也做了很多努力,也有了一些初步的成果。
比如:北京、上海等城市已經建立了區域統一的醫療數據平台;浙江省部分醫療影像數據已經可以在公立醫院之間共享了;如前所述,醫療數據的交易也在多個示範區悄然開始了。
對于藥械企業來說,今年 1 月份以來,數據也可以作爲資産列入财務報表了。根據公開信息,截至上半年,已經有 125 家企業加入到了數據資産入表的行列,涉及多家藥械企業。
臨床方面,在中國,支付寶、百度、騰訊等互聯網巨頭,都在嘗試将 AI 技術與診療活動、健康管理結合起來,清華大學的 "AI 醫院 " 也曾引起過大衆的一波關注熱潮。
盡管如此,其背後的支撐因素,充分利用醫療數據才剛剛開始,挑戰仍然很多。潘沖直言,醫療數據交易非常敏感,大家操作的時候都是小心翼翼的,所以必須一步一步通過試點推開。
實際上,中國并不缺少醫療數據。國家衛健委發布的最新版衛生年鑒顯示,2023 年,全國衛生機構總診療人次達到 96 億人,由此産生的醫療數據預計早已超過百億條。業界認爲,如此龐大的數據儲備規模,已經堪稱是國家重要的基礎性戰略資源了。
但是,因爲各家醫院标準不統一,數據參差不齊,存在數據精準度不夠,數據一緻性不夠,原始數據在錄入過程中數據錯漏、數據不完整等問題。此外,由于大量醫療數據是以文本、影像、圖像等非結構化方式儲存的,這些數據的管理和整合也非常困難。
(虎嗅注:非結構化數據,是指數據結構不規則或不完整,沒有預定義的數據模型,難以用數據庫二維邏輯表來表現的數據。)
同時,這些醫療數據還涉及患者的個人隐私等問題,有醫療數據領域法學專家曾指出:" 如果沒有每個醫療機構對數據按照統一技術标準清洗處理和合規治理,很難想像醫療數據可以安全有效地開放利用。"
而要把這些數據,通過治理變成分門别類、清晰準确、可以用的狀态,也就是成爲 " 産品 ",這件事本身難度就非常大,也需要巨大的資金投入。
更爲棘手的是,作爲數據供給方,醫療機構和藥企,都還缺乏拿數據賺錢的動力。當下,由衛健委、醫保局或者地方政府主導,彙總醫療機構數據,做一部分治理以後形成公共數據,再将這些公共數據的使用權賣給有需要的 AI 企業的模式,反而成了當下最行之有效的通路。
實際上,即便是沒有做任何治理,隻是備份數據,就已經很令醫療機構頭疼了。随着數據積累越來越多,一些大三甲醫院的信息科負責人已經在抱怨,現在設備越來越先進、越來越精準,導緻數據量越來越多。
" 目前的數據治理能力跟不上數據資源的膨脹速度。" 華通智研院副總經理、青島數據資産登記評價中心主任趙傳啓告訴虎嗅。
即便是高質量的數據,也存在場景評估和價值評定标準缺失的問題;這些數據如果沒有應用場景,也無法形成交易。而且很多涉及個人的數據,在采集過程中沒有獲得個人授權,這也會在交易環節帶來合規問題。
醫療行業是一個強監管的行業,任何新技術進入其中都會受到慎重的評估。疊加上同樣嚴格的數據管理規則,業界人士擔心,立法過于嚴格會限制行業的發展。" 現在的一些法律如果嚴格執行,很多事情就做不了了。"
這些問題的解決需要業界付出更多努力,需要政策、技術上有更多突破。在此之前,潘沖認爲," 當前的第一步,是一定要把數據拿出來,要交易,要讓數據進入市場。"
實踐會解決很多問題,比如:如何定價。" 就像超市裏的商品,沒有權威機構給它定價,有市場規律在起作用。" 潘沖認爲,充分的流通交易後市場會給出一個合理的價格。數據的價值也有望在使用中充分體現,甚至不斷增值。
對于如何激發供方參與積極性,趙傳啓認爲," 建立起讓各方受益的利益分配機制,或許是較好地解決問題的方式。"
無論如何,醫療數據交易的閘門已經打開了,新技術對生命科學這個傳統行業的沖擊也洶湧而至。按照中康科技董事長吳瀚的預測,未來三五年,大數據也好、AI 也好,新技術會廣泛滲透到健康産業的各個環節。
屆時,每個人擁有自己的 " 大白 " 或許也不再是奢望了。