首個千億生物醫藥ChatGPT來了！清華AIR聶再清：這個行業未來的“Killer APP”

制藥行業的 " 專家版 ChatGPT"，終于來了！

就在這兩天，首個生物醫藥的千億參數大模型産品ChatDD發布，不僅制藥各階段知識 " 樣樣通 "，還能和藥學專家進行對話，瞬間秒懂一些行業神秘 " 黑話 "。

這和 AlphaFold2 直接加個 Chat 功能還不太一樣——

現階段大模型雖然能在藥物發現上做得不錯，但要麽隻涉及單個模态，要麽不具備直接對話能力。

ChatDD 則兼具多模态和對話雙重特點，順便還能給醫藥界學生 " 解個惑 "。

做出這個産品背後的水木分子，是今年 6 月新成立的一家公司。清華大學智能産業研究院院長張亞勤院士指出：

ChatDD 通過人機協作對話方式有效地将專家知識與大模型知識相聯結，開拓了繼傳統藥物研發 TMDD、CADD、AIDD 之後的第四代藥物研發新模式。

所以，它究竟在什麽功能上做到 " 劃時代 "？

我們和清華 AIR 教授、水木分子首席科學家聶再清聊了聊，詳細了解了 ChatDD 的來龍去脈。

ChatDD 是一個什麽樣的産品？

先來看看 ChatDD 能做哪些事兒，具體又能用在哪裏。

它的外觀和 ChatGPT 有點像，是一個網頁版，同樣能通過對話來實現各種功能。

對話能力上，不僅英文總結不錯，中文對話也來得，直接 hold 住 " 疾病畫像 " 這樣的專業黑（術）話（語）：

如果有看不懂的分子，可以直接一鍵上傳相關文件，讓它來負責解讀這種分子的作用：

試試更複雜一點的任務，例如計算親和力問題，大模型竟然直接 " 推薦 " 了一個工具，并快速計算出結果：

此外，也不用擔心問答内容超出 ChatDD 訓練數據截止日期，畢竟它還學會了自己聯網、或是從數據庫中查找答案。

總結來看，ChatDD 雖然用法上像 ChatGPT，但在生物醫藥這塊是 " 專業的 "。

無論是掌握的多模态（小分子 + 大分子 + 文本）醫藥專業知識量，還是對行業的理解程度、完成任務的能力，ChatDD 都要比 ChatGPT" 更像個學醫藥的人 "。

與同行 AI 不同的是，ChatDD 的 "業務範圍"，涵蓋了制藥的前、中、後期三個階段。

此前的醫藥行業 AI，即使是大模型，往往也隻能用于制藥的部分階段，例如前期的藥物發現，或是中期的臨床前研究。占研發成本大部頭的後期臨床試驗，幾乎無人問津。

而 ChatDD 不僅能參與藥物發現、立項、商業智能（BI，Business Inteligence）、臨床試驗各環節，還能幫助提升成功率。

聶再清介紹表示，ChatDD 用于後期臨床試驗設計，也是大夥兒最期待的功能。

首先，藥物在臨床試驗階段的通過率，往往并不高。

尤其二期到三期臨床，通過率隻有 34%，三期到四期通過率也不高。但臨床試驗加上前中期的費用往往又極高，一旦不通過，就是幾億美元成本 " 打水漂 "。

其次，藥物通過率不高的原因，（除非藥物本身不行）很大程度上是因爲沒找到适合 " 對症下藥 " 的患者。

藥廠通常會從臨床信息數據庫中，篩選适合用藥的病人。

假設這個藥物對數據庫中 5% 的患者有效，那麽從這 5% 的患者中挑選進行臨床試驗，肯定比剩下 95% 的患者有效率高。

在綜合各方面信息做判斷這件事上，ChatDD 往往比人類更适合篩選出 " 對症下藥 " 的患者。

聶再清特意舉了一個例子，來表明 ChatDD 的能力：

注意這裏未來會是 " 私有化部署的合作夥伴的單細胞 RNA 測序數據 "，現在因爲沒有，所以我們用了水木分子收集到的公開數據計算出來的。

這樣的 ChatDD，背後功能究竟是怎麽實現的？

醫學院博士後負責數據構建

ChatDD 背後的底座，取名ChatDD-FM，參數量達到千億級别。

這次推出的 ChatDD-FM-100B，是全球首個千億參數多模态生物醫藥對話大模型，其在 C- Eval 評測中達到全部醫學 4 項專業第一、也是唯一平均分超過 90 分的模型。

聯想到團隊前不久發的 BioMedGPT-10B，其自然語言模态的大模型同樣基于 LLaMA 2 架構，這二者是否有什麽聯系？

聶再清表示，ChatDD-FM 和 BioMedGPT，在受衆和用途上都不太一樣，" 有點像 ChatGPT 和 GPT-3.5 的區别，前者在對話和意圖對齊能力上有更大提升 "。

BioMedGPT主要用于科研領域，更擅長英文生物醫藥科研任務，适合直接拿來作爲生物醫藥領域的相關科研任務的基礎模型。

ChatDD-FM主要給國内醫藥行業 " 打輔助 "，側重中文對話能力，融入了更多專家的對話模式和經驗。

技術上，ChatDD-FM 相比 BioMedGPT，主要增強了三大方面，模态、訓練數據和參數量級——

模态上，增加了蛋白質結構數據；訓練上，增加了用于中文、專家對話和調用工具能力的數據；參數量級上，從百億增加到千億。

讓 ChatDD-FM 提升 " 專業度 "、說話像 " 行内人 " 的秘訣，依舊在于高質量數據上。

這些數據主要分爲兩部分。

第一部分，是預訓練用的醫藥知識數據，主要目的是讓 ChatDD-FM提升專業素養，幾個月内掌握行業知識。

由于之前業内缺少相關（大小分子等多個模态和自然語言對齊）數據集、尤其是中文數據，所以團隊又自己收集整理了一系列訓練數據集。

首先，和廠商合作翻譯專業英文期刊、整理中文期刊，收集帶有中文專業名詞的大量數據，降低大模型沒見過的專業詞彙比率；

然後，找來一批醫學院博士和博士後，設計一套系統對這些數據進行整理，直到它們可以被喂給大模型使用。

聶再清強調，這些博士不是在做數據标注，畢竟相比有監督學習，自監督學習更重要的是清洗、查找數據的工作：

這些期刊數據當然不是一個人一篇一篇地看，那絕對不行，也不是一個字一個字敲進去，也肯定不行。

畢竟大模型最主要的能力還是來源于自監督學習，所以更多是讓他們進行數據清洗和查找的工作。

當然，醫藥界期刊總是在更新，因此這部分的工作也會持續進行。

第二部分，是 " 專家數據集 "，專門用于提升 ChatDD-FM 的對話能力。

ChatDD 的用戶，會有不少醫藥領域的專業用戶，爲了讓它能無縫讀懂業内人的 " 專言專語 "，就必須要先了解專家們平時都會怎麽說話。

團隊爲此找了一些專家，" 觀察 " 他們平時是怎麽提問的，根據這些問題整理了一套數據集，專門喂給 ChatDD。

這樣醫藥專業的用戶在使用時，不僅能像和同事聊天一樣直接提問，也能選擇 " 提示詞模闆 " 直接換詞填充。

此外，爲了進一步增強模型解決實際醫藥任務的能力，團隊也接入了不少實用工具和開源算法，解決用戶遇到的問題，主要分爲查詢和計算兩大類，如知識庫查詢工具、或靶點親和力計算工具。

但，ChatDD-FM 作爲大模型，總歸繞不過幻覺這個問題。

此前發布 BioMedGPT 時，聶再清就曾表示過不用害怕科研、藥物發現等階段的 " 幻覺 "。現在發布商業版 ChatDD-FM，是否還這麽想？

聶再清表示，現階段 ChatDD-FM 可以根據不同的需求，調整大模型出現幻覺的情況。

例如在做商業智能的時候，就盡可能降低大模型的幻覺，做到每一句話都有來源可追溯；

但在做藥物發現的時候，隻要有實驗人員把關，都可以去适當提升幻覺，增加一部分模型想象力來 " 換換思路 "，或許能試出有意思的結果。

後期，ChatDD-FM 理論上甚至能做到 " 一鍵更改回答出現幻覺的比率 "。

" 對制藥行業有劃時代意義 "

ChatDD 背後的公司水木分子，目前已完成千萬級種子輪融資。

水木分子自定義爲 " 大模型時代的 CRO 公司 "，即利用大模型或 AI 技術，幫助别人更好更快地制藥。

公司的盈利方式目前有三種，包括 ToB 付費會員（按使用次數收費）、私有化部署和制藥分成。

已經有制藥廠商找來合作了——複星醫藥計劃對 ChatDD 進行私有化部署，用于輔助藥物立項等階段。

藥物立項，涉及大量資料查找和判斷，包括查找有無藥物相關（官能團、分子結構保護等）專利，還要根據大量文獻和實時市場信息等資料判斷是否值得立項。ChatDD 能通過整合文獻和相關專利，生成一個完整的參考報告。

ChatDD 的出現，聶再清認爲對于行業而言有跨時代意義：

它真正将專家的經驗和直覺、以及大模型的 " 智力湧現 " 能力融會貫通了起來。

此前，制藥行業經曆了三個階段，分别是 TMDD（Traditional Manual Drug Design）、CADD（Computer-Aided Drug Design）和 AIDD（AI Drug Design）。

但無論是人工試驗，還是計算或 AI 輔助藥物研發設計，都需要大量人力去 " 學會如何使用 " 模型，尚未出現一個能和科研人員直接對話的系統。

現在，ChatDD 的出現真正改變了這一現狀。

它不僅能将制藥的知識經驗集成到大模型中，通過提示詞就能激發調用出來，還能通過學習專家對話方法掌握專業溝通能力，" 相當于把人和機器最 powerful 的地方做了個融合。"

不過，要完全實現 ChatDD 的全部潛能，真正進入比較成熟的階段，聶再清認爲至少還有 10 年的黃金時代。

一方面，對于生物醫藥行業來說，人類對于蛋白質、細胞、小分子之類的理解也還遠遠不夠，在這個學科方面仍然可以做出很多成績和進展；

另一方面，對 AI 行業來說，無論是數據還是算法，也都還沒發展到足夠成熟的階段。

數據上，目前生物醫藥領域内各模态和自然語言對齊的數據還很少。

（就像圖文一樣，雖然文字和圖像各自的數據很多，但圖文對齊如 VQA 的數據卻相對要少很多）

對此依舊需要不斷收集整理出 PQA（蛋白質問答）、MQA（小分子問答）等模态的數據，來讓多模态大模型的效果變得更好。

模型上，大模型目前的效果還不是最好的，無論是單模态還是多模态，都值得繼續去探索。

所以，公司的下一步計劃，就是繼續優化模型、增加更多模态，并找到更多的場景落地需求。

對于 ChatDD 最終形态的設想，聶再清表示：

它會成爲一個各模态（大小分子、蛋白質結構、DNA、單細胞等）和自然語言全部對齊的生物醫藥基礎大模型産品。

他也在發布會上預言，這個産品會成爲生物醫藥行業的大模型"Killer APP"。

到那時候，才會真正打破醫藥界的 " 雙十定律 "，高性價比的實現人機協作新藥研發。