又一名 AI 大牛,爲 AI 制藥領域帶來了新進展——
AlphaFold2 僅僅是蛋白質結構建模邁出的第一步,現在可以基于結構進行蛋白質設計了!
最近在智源大會 AI+ 生命科學論壇上,來自 Mila 實驗室的教授唐建介紹了團隊的最新成果,一同受邀參會的還有諾貝爾化學獎得主 Arieh Warshel 等知名學者。
相關論文《Protein Representation Learning by Geometric Structure Pretraining》已經被頂會 ICLR ’ 23 接收,還在 GitHub 上開源。
研究團隊由深度學習三巨頭之一Yoshua Bengio的Mila 實驗室、蒙特利爾大學、劍橋大學、IBM Research 等機構組成。
在 MILA 這個學術界最大 AI 研究中心之一裏,唐建任終身教授,同時也是該實驗室創辦以來唯一的華人教授。
其研究方向主要包括幾何深度學習、深度生成模型、知識圖譜以及這些方法在藥物發現中的應用。
AI 2.0 浪潮下,唐建想做的事,是加速 AI 參與藥物設計逐漸走向從 drug discovery(發現自然界存在的 drug)到 drug design(直接通過 AI 設計 drug 分子)的演變。
于是,延續之前的發展路線,所創 AI 驅動型生物制藥公司百奧幾何,近期将重點落到構建尋找新分子結構的生成式模型上。
蛋白質大分子的基礎模型,搞它!
唐建團隊的目标,是利用生成式 AI,向藥物設計更進一步。
大分子藥物(蛋白質、抗體)在生物醫藥領域扮演着越來越重要的作用,有着廣泛的應用前景。
蛋白質的功能有三種不同的表示:一級序列,二級結構,三級空間結構。
大多數已有的蛋白質建模的方法是基于序列的方法。蛋白質的序列決定其 3D 結構,而結構決定功能。
因此,想要更好地理解蛋白質的功能,從基于結構的角度出發,是一條更好的技術路徑。
But!AlphaFold2 隻是在基于蛋白質結構的建模方向上走出了第一步。
唐建團隊做的事,是基于 AIGC,進一步推進基于結構的大分子藥物設計。
首先基于蛋白質 3D 結構的表征學習,得到預訓練模型,在此基礎上就能做更精準的功能預測。
也就是前面介紹到的發表在 ICLR ’ 23 的論文。
團隊首先提出GearNet和GearNet-edge,它們依賴稀疏邊緣消息(sparse edge message)的傳遞,來增強蛋白質圖中的序列和結構信息的捕獲。
在功能預測和折疊分類任務上,這個方法和最先進的基于序列預測蛋白質表征的方法相當(或優于),而且使用的預訓練數據更少。
第二步是更精準的結構預測。AlphaFold2 主要是對主鏈進行了預測,對側鏈的預測不是很準确。
團隊提出扭轉擴散模型 DiffPack,通過在扭轉空間上擴散和去噪,來學習側鏈扭轉角的聯合分布。
側鏈是蛋白質結構的構成部分之一,它的差異會帶來蛋白質結構和功能的差異。
搞清楚側鏈結構,能夠更精準地幫助藥物設計流程更快更準地抓住藥物和受體該在什麽點位結合。
DiffPack 包含了一個自回歸擴散過程,對準确度和速度的限制有所緩解。
實驗結果顯示,新方法在 CASP13 和 CASP14 上的角度和精度,分别提高了 11.9% 和 13.5%,雙雙取得 SOTA,且模型參數卻能減少 60 倍。
接下來,基于精準結構預測結果,就能更好完成蛋白質設計。
這部分用到了擴散模型。已有的工作如華盛頓知名教授 David Baker 組的工作 RFDiffusion 采用的是兩階段算法,首先生成結構,然後根據結構設計蛋白質序列。
唐建團隊提出了一個新算法,能夠同時對結構和序列進行設計。
也就是說,隻需要利用同一個算法,就可以對大分子蛋白質的氨基酸序列和三維結構進行建模和設計,并展示二者之間的相互關系,從而生成具有特定功能的蛋白質。
迄今爲止,團隊已經實現了抗體 CDR Loop 結構和序列的生成,還設計了具有指定個數的 α 螺旋跨膜蛋白。
其實唐建團隊這段征程裏的主角,即蛋白質 3D 結構大模型,無論是模型參數和訓練數據量都遠不如最熱門的 ChatGPT。
但因其用于垂直領域,還是生物制藥領域——人類的語言詞彙量多大幾千萬,而蛋白質的詞彙表隻有 20 個——不那麽龐大的參數和訓練量已經能夠滿足實際需求,達到比較好的生成效果。
而對訓練數據細究來處,有三個源頭:生物制藥領域公開數據、AlphaFold2 等預測出的大分子結構、實驗室的自有數據。
來自最後兩個實驗室的訓練數據,被唐建團隊視爲壁壘之一。
Bengio 所領導的實驗室核心團隊唯一華人教授
2014 年,唐建博士畢業于北京大學信息科學技術學院,其研究方向主要包括幾何深度學習、深度生成模型等。
而後,唐建遠赴美國,在CMU 以及密歇根大學進行博士後研究。
2013 年,恰逢深度學習興起,一直專注傳統機器學習領域的他在關注到 ImageNet、Word2Vec 等在深度學習領域取得了非常不錯的效果。
" 當時我覺得自己的研究遇到了一定的瓶頸,所以也開始想轉向深度學習領域。"
唐建稱自己做了很多層面的思考,即便是要真的做出研究方向的調整,也想做自己能 drive、相對獨立的研究,而不是随大流進行 "follow"。
最後,他尋找的的機會是用深度學習解決圖結構數據,成爲國内利用 DL 研究圖結構數據的最早的一批人。
他作爲一作的理論工作《Understanding the Limiting Factors of Topic Modeling via Posterior Contraction》獲得 ML 頂級會議 ICML 2014 的最佳論文。
此後,他在圖表示學習領域的工作 LINE(《Line: Large-scale information network embedding》)引用次數超 5300 次,并多次在計算機頂會 ICML、NeurlPS 擔任領域主席。
再後來,因爲對 "21 世紀是生物的世紀 " 這句話的深信不疑,他的研究逐漸集中在 AI 和生物交叉領域,在分子性質預測、結構性質預測上進行探索。
2017 年 12 月起,唐建成爲 Mila 實驗室(加拿大魁北克省人工智能研究中心)20 餘名教授中的一員,與深度學習三巨頭之一 Yoshua Bengio 一起,緻力于推進 AI for Science。
投身創業前,唐建團隊已經發布了藥物研發機器學習平台TorchDrug。
并在一年後,即 2022 年 9 月,聯合英偉達、英特爾、IBM 等公司,發布了針對大分子藥物研發的開源機器學習平台TorchProtein。
平台開源了深度學習對大分子建模的一個通用框架、基于蛋白質三維幾何結構的第一個預訓練大模型、以及專門用于評價深度學習對蛋白質建模效果的标準數據集。
唐建坦然表示,在接下來的進展中,這些公司也将成爲百奧幾何在大模型研究中的國際合作夥伴," 這是我們與同行相比的優勢所在 "。
TorchProtein 發布的同時,公司宣布完成千萬美元天使輪融資。
現在,唐建白天醉心百奧幾何的技術研究,夜晚爲遠在大洋彼岸的學生們指導。但這樣的工作模式并沒有讓他疲于應對或感到苦惱:
在兩者間取得平衡并不是難事,這反而讓公司團隊更具國際化優勢。
相關論文:
[ 1 ] https://arxiv.org/abs/2203.06125
[ 2 ] https://arxiv.org/abs/2306.01794
[ 3 ] https://arxiv.org/abs/2210.08761
— 聯系作者 —