AI 制藥,一個被稱作明星賽道的行業。
不僅融資消息隔三差五傳出,更被認為是計算生物最有希望落地的領域。
據量子位智庫預測,AI 制藥行業國内市場保守估計将達到 2040 億元規模。
在這樣的前景下,不僅國内外高校博士生和教授紛紛投身創業,就連互聯網大廠們也争相入資角逐。
如今 AI 制藥步入熱度高峰後的瓶頸突破期,各玩家的差異性也逐步顯現。
作為國内互聯網巨頭的騰訊,相比間接投資,三年前選擇直接成立 AI 制藥平台,成為賽道上角逐玩家之一。
現在,騰訊 AI 制藥平台成果進展如何?相比同賽道玩家,其競争優勢是否得以體現?
在 MEET 2023 大會上,騰訊醫療健康 AIDD 技術負責人劉偉,從騰訊制藥 AI 算法實踐的角度探讨了這一行業當前的現狀。
為了完整體現劉偉的分享及思考,在不改變原意的基礎上,量子位對他的演講内容進行了編輯整理。
關于 MEET 智能未來大會:MEET 大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了 MEET2023 大會,吸引了超過 300 萬行業用戶線上參會,全網總曝光量累積超過 2000 萬。
演講要點
在 AlphaFold 和 AlphaFold2 驅動下,AI 藥物行業發展速度非常快,而騰訊在蛋白質結構預測上的工作從 2019 年初就開始了。
骨架躍遷分子生成算法能在保證原有化合物活性的基礎上,突破原有分子專利的保護,或者優化分子的 ADMET 性質。
隻靠數據驅動的 AI 缺乏可解釋性,要與領域知識相結合;藥物 AI 是 AI 算法和領域知識相互發現,相互提升的過程。
AI 輔助藥物發現存在一個難題就是泛化性,即在 A 靶點中訓練的 AI 模型,通常難以應用到 B 靶點上做預測。這個問題的解決對技術的突破至關重要。
(以下為劉偉演講分享全文)
騰訊雲深智藥是一個怎樣的平台?
我分享的題目為 " 騰訊制藥 AI 算法實踐 ",會對騰訊過去 3 年積累的 AI 制藥技術進行一個展示。
我叫劉偉,是騰訊 AI 藥物發現這一塊的技術負責人。今天我要講的内容,主要包括三個部分:
第一部分是騰訊雲深平台介紹,它實際上是沉澱了騰訊 AI 制藥技術的一個平台;第二部分是平台的案例分享;第三部分總結平台的技術優勢。
我們先介紹一下騰訊雲深平台的兩大功能模塊,一個是小分子藥物發現,另一個是大分子藥物發現,這裡主要指抗體藥物發現。
其中,小分子模塊包括蛋白質結構預測、分子生成等 6 個模塊,大分子模塊則由抗體結構預測、抗體親和力、以及抗體人源化改造等幾大模塊組成。
時間有限,我們不會詳細介紹每一個模塊,主要會講案例以及部分底層技術的實現。
騰訊雲深平台四大案例分享
第一個案例是蛋白質結構預測,這塊騰訊在國内可能是做得最早的。
最近在 AlphaFold 和 AlphaFold2 的驅動下,行業發展速度非常快,而騰訊從 2019 年初就開始做相關技術工作。
大家應該比較清楚,蛋白質是生命及其活動中非常重要的組成部分,蛋白質結構預測則是指給定一個氨基酸序列,來預測蛋白質的三維結構。
我們在 2019 年打造的一個預測 pipeline,當時是基于分子動力學模拟和 AI 預測相結合的方法,構建了一個叫 tFold 的蛋白質結構預測平台。
在 2020 年比賽的時候,這個 pipeline 連續八周在評測平台排名第一。
随後我們還參加了 CASP 競賽,在國内獲得了第一名,顔甯教授在她的論文中還引用了 tFold 平台,這是對我們在蛋白質結構預測上的成果的重要肯定。
第二個案例是結合物理學特征和本地數據訓練,我們做了ADMET 性質預測系列模型。
也是從 2019 年開始的工作,想跟大家分享兩點:第一點是效果提升,以水溶性模塊為例,我們做的 ADMET 相比頭部商業軟件效果平均會有 20% 的提升;第二點是 ADMET 預測成熟度,在與某藥企合作上,我們會提供一個可以說是非常基礎的模型,在藥企拿到這樣的模型之後,會基于具體項目的管線生成的很多内部數據,即項目和靶點相關的特定數據。
用這些數據對基礎模型進行重新訓練(retrain)、或者說做微調(finetune)後,它會有一個更好的提升。
比如我們與某個藥企合作分析某系列化合物的心髒毒性,發現在項目中後期階段,基本上與實驗結果相關性達 95% 以上,後來藥企就不太需要去做實驗了,而是直接使用模型預測結果去做分析了。
所以我們在 ADMET 預測這塊已經做到非常成熟,目前模型包含 60 多個屬性預測模塊,在騰訊雲深平台上可以直接使用。
第三個案例是骨架躍遷分子生成算法,這也是針對國内藥企或者國内科研機構的一些實際需求打造的,目前同樣已經做得比較成熟。
通過骨架躍遷分子生成算法,就能在保證原有化合物活性的基礎上,突破原有分子專利的保護,或者優化分子的 ADMET 性質。
我們自研了骨架躍遷算法,與藥企做了一些合作,這些合作不僅幫助到藥企發現了納摩爾級别的多個化合物系列,也很好地驗證了我們這個流程的健壯性,在不同的靶點、不同的複合物上都實現了比較好的效果,目前部分研究成果已經發表在期刊上。
第四個案例是将強化學習引入藥物小分子的生成。
在生成分子的時候,我們不僅要考慮分子活性,還要考慮 ADMET 的屬性,所以我們把這些流程做了一個打通,你可以定制這些 ADMET 屬性的要求。
在生成過程當中,我們用上強化學習,使得生成出來的分子符合定制的屬性要求,兩個不同的模塊能夠相互提升和強化,最終建設一個非常完整的 pipeline,這可以用在各種分子生成的場景中。
例如這個例子中,生成有兩個要求,包括不能通過血腦屏障、以及 logP 的屬性:
可以看到,在沒有經過強化學習時,它的分布是比較彌散的,生成出來的化合物不太滿足實際應用需求。但經過幾輪強化叠代後,97% 的分子都會滿足生成的要求。
這一平台具備哪些技術優勢?
接下來,我們總結一下騰訊雲深經過兩三年發展後,積累出的一些技術優勢。
第一塊是在AI 算法方面。大家知道,在藥物研發這一塊最主流的技術就是深度圖神經網絡,騰訊在做藥物 AI 之前,在這方面做了非常長時間的研發,也有非常深厚的技術積累。
因為騰訊是一個社交網絡公司,所以在深度圖神經網絡方面有深厚的研發積累,包括在一些 AI 頂會如 NeurIPS 上面,我們騰訊 AI Lab 在上面發表了非常多的論文,包括大規模圖随機采樣、以及圖自監督學習等,其中一些論文的引用量非常高。
第二塊和第三塊,就是大算力、大數據方面的能力。
我們知道化學空間非常大,以 10 的 n 次方為計數,在這麼大的化學空間中發現藥物分子非常不容易。
通常的做法是借鑒自然語言處理或者圖像視覺技術發展而來的大模型預訓練,使得模型本身能夠理解化學空間的語言,比如像理解 SMILES、3D 分子結構,甚至是理解蛋白質結構。
所以這方面會面臨針對大模型、大算力的強勁需求,我們在這一塊也做了非常多的工作,後面會詳細介紹。
最後一塊,我們基于騰訊在算法算力上的能力,将AI 與物理、化學做了一個結合,這是團隊新生長出來的能力。
我們認為,AI 純粹隻靠數據驅動是不足夠的、缺乏可解釋性的,做出來模型之後,它有時也會因為數據稀疏、漂移産生一些問題。如果能夠結合物理、化學知識進入 AI 算法模型,就能夠非常好地反映在化學、或是底層物理方面的一些特征和規律。這樣做出來的 AI 模型,不僅過拟合風險更低,實際應用中也有非常好的可解釋性,這也是我們最近幾年重點發展的一個能力。
我們再展開給大家分享一下這幾塊内容。
第一塊是 AI+ 量子化學方面的算法能力。
我們開發了一系列用 AI 方法做量子化學計算的算法。量子化學是一個非常廣泛而深刻的技術領域,它從比較低精度的經驗性計算到非常高精度的多體計算,都已經開發出了很多方法。
對于現存最高準确度的,例如全組态量子化學計算,它需要非常大的計算量,這對像藥物分子、或者說 drug-like 這樣的分子是不太可行的,隻能被迫使用比較低精度的方法。
針對這樣的痛點,我們做了一個叫DeepQC的框架,可以在以秒為量級的時間單位下,達到高精度大基組 DFT 的計算結果。
我們還把 DeepQC 用在像晶體、催化體系上,也取得了非常好的效果,特别值得一提的是,在今年的催化劑相關比賽 Open Catalyst Challenge 2022 上我們還拿了冠軍。
這也是基于我們多年以來對 AI 和量子化學結合的探索基礎之上做出的工作。
這樣一套方法,我們原本隻是在有機分子上,我們看到将其推廣到催化的表面體系,以及晶體的周期體系,它仍然可以非常高精度、非常快速地完成任務,它的速度比用量子化學模拟要快一個數量級。
第二塊是我們在圖卷積神經網絡方向的技術發展。
騰訊以前做的很多圖卷積神經網絡工作在社交網絡方面,但我們把它拓展到蛋白質結構上,發現也有非常好的效果。
實際上不管是蛋白質,還是這些配體和藥物體系裡面,它其實都有非常好的層次結構,和社交網絡非常相似。
蛋白質通常被分為幾層結構。從最底層的原子、甚至電子,再到氨基酸,氨基酸又組成蛋白質多肽鍊,再到上面三級結構或四級結構,如果在各種不同的層級用不同神經網絡建模方法,就可以把它做得更好。
我們把層次圖卷積神經網絡用在抗體結構預測上,效果超過了 AF2、IgFold 等模型的結果,目前相關論文也已經被 NeurIPS 收錄,也已經在 arXiv 上公開。
第三塊是大分子預訓練模型。
我們剛才提到,藥物化學空間非常大,但是具體到某個藥物研發項目中時,數據非常少甚至沒有,所以你必須解決過拟合的問題。
我在做某一個項目、某一個靶點的時候,它的數據可能就隻有幾百甚至幾十個,這種情況下如果沒有大數據作為基礎,是非常容易過拟合的。
我們在 2019 年就意識到這樣的問題,發表了一個大規模分子預訓練模型叫 GROVER,現在幾乎這個領域的所有工作,都會引用當初我們在 GROVER 上做的成果。
我們是國内最早在分子圖上做預訓練的,而這也是騰訊雲深平台非常底層的技術,不管是在分子屬性預測、還是蛋白質結構預測、還是抗體藥物設計上,它都是非常底層的公共技術模塊。
不管是針對 2D 還是 3D 分子,都會基于 embedding 做特征提取,然後也是預訓練 + 微調這樣來用,也是行業内的一個範式。
最後,就是我們今年最新的一個工作。
我們在做 AI 輔助藥物發現時,發現了這樣一個問題,在 A 靶點(A 場景)中訓練的 AI 模型,會非常難以應用到 B 靶點(B 場景)上做預測。
這個其實就是 OOD(out-of-distribution)問題。這個是機器學習自身的一個核心問題,現在也沒能 100% 完全解決。
為了驗證我們模型的有效性,我們去做了一個名叫 DrugOOD 的開源框架,現在它也已經貢獻給了行業和社區。
我們會根據不同的 domain 把它做一個劃分,比如按照骨架、實驗 assay、或者靶點區分,這樣訓練出來的模型就會非常不一樣。
這個過程中,我們實際上希望模型在不同場景具備一定的遷移能力,不然模型隻能适合某一訓練數據場景,這其實不是我們所希望的,因為這樣的模型适應能力非常弱,沒辦法應用到新的問題上。
在 DrugOOD 中我們會有一個數據 Curator 的模塊,之後我們會做一個分割,這樣在訓練不同模型時,我們就可以按照不同的标注去自動寫一個配置文件,測定我們新訓練的模型在不同的蛋白質家族上不同的效果,這樣對模型的泛化性就能有一個非常明确的認識。