生物醫藥研發領域,一個名爲BioMedGPT-1.6B的輕量級科研版基礎模型剛剛開源。
參數 16 億,最大特點是跨模态與知識融合。
訓練數據中,包含分子、文獻、專利、知識庫等多尺度跨模态的生物醫藥大數據,并融合分子結構、知識圖譜和文獻文本中的知識,用于增強模型的泛化能力和可解釋性。
應用任務上,BioMedGPT-1.6B 則展現出了通用能 " 打 " 的效果,可以處理藥物性質預測、自然語言類、跨模态等多種任務。
打造這個 BioMedGPT-1.6B 生物醫藥基礎模型的團隊,來自清華智能産業研究院(AIR)。
項目負責人聶再清,清華大學國強教授、AIR 首席研究員,主要研究領域是大數據與 AI 的前沿創新,以及在健康醫療領域的産業應用,更早之前則以阿裏達摩院大牛、天貓精靈首席科學家爲人熟知。
△聶再清
此次開源的 BioMedGPT-1.6B,其實是他和團隊正在做的BioMedGPT的單機輕量版,後者是一個适用于生物醫藥領域研發的通用大模型。
1.6B 版本先行開源,目的是小試牛刀,同時讓行業相關科研人員有東西可用。
所以,這個 BioMedGPT 究竟是做什麽的,團隊目前進展如何?在業界已有不少生物醫藥專業大模型的情況下,做通用大模型的考量是什麽,又要如何去做?
聶再清教授向我們解答了背後的思考。
生物醫藥版 GPT,也應具備 " 湧現 " 潛力
先來看看 BioMedGPT 究竟是個什麽項目,進展到了哪一階段。
聶再清教授認爲,就像 ChatGPT 成爲了 NLP 領域的基礎大模型一樣,BioMedGPT 也會成爲生物醫藥領域的基礎大模型。
但在這裏," 像 ChatGPT" 并不僅僅意味着 BioMedGPT= 生物醫學大模型 + 對話能力,而是和 ChatGPT 一樣,會出現智力湧現的情況。
隻不過,這裏的 " 智力 ",指的是生物醫學領域方面知識的理解、規律的發現與靈感的啓迪。
這個基礎模型的底座能夠給藥物發現、分子 / 蛋白質設計等應用提供底層能力,同時能夠成爲生物醫藥研究者的助手(Copilot)輔助研究者更高效的開展研究探索。
所以,能實現這種效果的 BioMedGPT,架構上究竟長啥樣?
整體來看,它是一個具備多個輸入 Encoder 的模型,這些 Encoder 會先分别處理不同模态的輸入,如分子、蛋白質和文獻等。
然後,将這些不同模态的輸入,進行統一表示處理,這樣就能學習到不同模态之間的關聯知識。
這給了模型 " 融會貫通 " 的能力,既可以讀文獻、查專利,又可以讀分子序列、蛋白結構、實驗數據。
不僅如此,BioMedGPT 也是首個将多模态知識引入模型構建的項目,通過知識圖譜的方式将生物醫藥領域的知識注入到模型中,以增強模型的泛化能力和可解釋性,同時能夠應對科研領域知識的快速更叠,讓模型持續學習,變得更 " 聰明 "。
基于這種融會貫通與知識增強的能力,BioMedGPT 在下遊的多項任務中表現出了整體的效果提升。
目前團隊已經完成了實驗驗證階段,用一個比較小的端到端模型證明了這種思路的可行性。
那麽最終能在生物醫藥方面表現出 " 智力湧現 " 的模型,預計在什麽規模?
聶再清教授認爲,模型參數量級預計在幾百億左右,而訓練這一模型達成 " 湧現 " 效果的數據量,幾十億到百億級應該也就夠了。
事實上,在 ChatGPT 出現之前,也就是一年多以前,聶再清和團隊就已經在籌備這一項目,目前清華 AIR 生命科學相關團隊規模已經達到 50 人左右。
對于 BioMedGPT 的未來,聶再清教授很有信心:
預計兩年内,這個模型應該會在小範圍内具備一定影響力,至于像 ChatGPT 那樣成爲行業通用大模型,做到那樣的影響力可能至少還需要 3~5 年。
但即便如此,BioMedGPT 模型究竟能否成功,目前仍舊是一個未知數。
同時對于大模型訓練必不可少的算力和數據等方面,也仍然是業界關注的話題。
對于這些觀點和想法,聶再清教授又是如何看待的?
" 一個理性而大膽的嘗試 "
大模型的發展和 AI 技術的更叠組成了 ChatGPT 爲首的一波 AI 新浪潮。
但早在聶再清教授動念要将生物醫藥學科知識 " 塞 " 進大模型裏時,ChatGPT 還沒打破沉寂。
所以爲什麽要做?爲什麽敢做?
時間回到 ChatGPT 刮大風之前。當時,GPT-2 已經可以編故事,下象棋;等到 1750 億參數 GPT-3 出現,已經博得衆人矚目:不僅延續了前代編故事的能力,還能寫代碼、答問題……
利用大規模文本數據學習語言知識和規律,加上狂疊參數的暴力美學,GPT-3 已經在通用領域任務中出現湧現能力,到 GPT-3.5,基本的邏輯推理能力突然出現。
在生物和化學領域,生命的本質可以看做一種精密的編碼語言,尤其是生命科學領域中微觀世界的分子序列數據。
聶再清教授認爲,自然語言同樣也是一種非常精密的序列,缺一點或少一絲都會讓意思變得不一樣,因此二者具有類似的特征。
基于此,大模型的底層思想或許有用于生命科學微觀數據處理的可能。如果能實現,就能利用生物醫藥領域的專業知識,幫助完成科研任務。
工作正式開始之前,團隊将微觀(基因、分子、蛋白質、細胞)與文獻知識壓縮到一個端到端的模型裏,用實驗驗證了這條思路的可能性——确實在部分藥物研發關鍵下遊任務中取得 SOTA 效果。
于是,做一個适用于生物醫藥領域研發的基礎大模型這事,正式開始了。
此前,無論是單獨針對分子、蛋白質還是生物醫藥領域文獻,都有團隊單獨打造過大模型,但還沒有人做一個行業通用的多模态版本。而現在的開源版本 BioMedGPT-1.6B,并非一個接近 AGI 甚至與 ChatGPT 能力媲美的版本。
" 畢竟大家的期待比較高,我們還是要把期待降下來," 聶再清教授解釋選擇現在向外界告知進度的原因,大方表示目前還達不到理想狀态的能力," 實際上,我們最主要還是想把現有工作服務到正在進行相關研究的科研人員。"
但這樣的嘗試,被聶再清教授稱爲一種理性而大膽的選擇。
理性,是因爲通過實驗,确實發現人類知識經過 encoder 後,能夠産生幫助;大膽,是因爲一方面還未完全證明這個工作的商業實用價值,工作還在初步階段,模型的規模和模态的種類都有待擴大。
但在這個樂觀的估計下,工作還是推進了;不僅推進,還快速拿出了輕量級版本。
樂觀倒不是因爲沒由來的盲目,聶再清教授表示,數據、算力和成本上,BioMedGPT 暫時都不存在什麽擔憂:
數據質量上,生物醫學領域的論文和專利質量 " 還是很高的 ",不必過于擔心訓練語料質量不高的情況,并且目前已公開的 PubMedQA 等數據集,數據量 " 已經足夠 "。
同時,團隊集合了具有生物醫學專業背景的同學,對數據集的構建做了精細專業的設計和專業的标注。
當然,還有一些任務所需的私有數據,BioMedGPT 希望通過未來的雙通道幹濕閉環得到補充。
算力層面,聶再清教授是這樣表示的:
目前國内敢跳出來宣布入局大模型的團隊,背後肯定已經有足夠的算力支撐規劃。
數據豐富但公開,算力稀缺但不是無法解決,日後入局者紛至沓來,是不是會在壁壘很薄的情況下形成不必要的行業競争?
聶再清教授表示了對這個問題的否定,他認爲做的人越多,意味着關注度越高,最終的結果就是利好行業内所有的 AI 制藥公司。
最後,我們也朝聶再清教授抛出了那個靈魂問題——
生物醫藥研發階段,一切都容不得半點差錯,怎麽約束大模型的幻覺?
聶再清教授說了段繞口令般的話:
我們當然希望,大模型知道 " 自己知道什麽事 ",也知道 " 它知道自己不知道什麽事 "。但,目前确實也會出現大模型 " 不知道自己不知道 " 的情況。
而大模型 " 不知道自己不知道 ",就是我們常見的大模型幻覺——它以爲自己知道,其實它不知道。
針對生物醫藥領域解決的思路,是通過兩個閉環來實現對模型的 " 糾偏 "。
幹濕實驗驗證通過濕實驗,将模型真實性趨近物理真實世界;專家在環可控的設計,則通過專家 instruct,讓模型與人類專家認知趨近。
換言之,通過 " 做實驗 " 和 " 跟專家學 " 兩個環路,讓 AI 模型幻覺降低。
聶再清與團隊的下一站,就是通過兩個閉環,盡可能擴大 " 大模型知道自己能做啥 " 的範圍,以進一步降低大模型 " 不知道自己不知道 " 的比例。
對于此次開源,中國工程院院士、清華大學講席教授、AIR 院長張亞勤院士表示:
将大模型範式應用于生命科學是理性又大膽的探索。
AIR 的研究團隊以構建生物醫藥領域大模型爲目标,相繼研發了多個生物醫藥專業領域的 AI 模型,在蛋白質結構預測、抗體設計等領域取得了不錯的成果。
此次開源的輕量級科研版基礎模型 BioMedGPT-1.6B 是在生命科學領域的重要進展。
未來,研究團隊将繼續用 BioMedGPT 進一步整合領域内多源異構的數據,将知識融入模型構建之中,實現生物世界文本和知識的統一表示學習,帶來生物醫藥領域的 " 智能湧現 "。
開源地址:https://github.com/BioFM/OpenBioMed
— 聯系作者 —