文|vb 動脈網
美東時間 5 月 8 日,谷歌 DeepMind 與 Isomorphic Labs(DeepMind 創始人創立)宣布推出新一代 AI 生物分子結構模型 AlphaFlod 3。
據悉,新的模型不僅局限于蛋白質結構的預測,它還能夠預測 DNA、RNA、配體等生命分子的結構和相互作用,甚至可以預測翻譯後修飾(PTM)和離子對相應分子系統結構的影響。研究人員僅需輸入一個生物分子複合體的基本描述,幾秒後便能收獲該複合體 3D 結構的準确預測。
被《Nature 》收錄的《Accurate structure prediction of biomolecular interactions with AlphaFlod 3》 對模型的能力進行了詳細論證。
據論文數據顯示:與現有的預測方法相比,AlphaFlod 3 無需輸入任何結構信息的情況下,其準确性已比 PoseBusters 基準上的最佳傳統方法高出 50%(一些特殊場景可達 100%),理論上優于現有的基于物理的生物分子結構預測工具。
不過,任何工具的使用都不能脫離實際。經曆數天測試,已有不少專家學者引入實際問題對 AlphaFlod 3 的能力評估。就目前測試結果而言,AlphaFlod 3 确實充滿潛力,但還不足以 " 颠覆 " 這一領域。
全生命分子預測,AlphaFlod 3 更接近 AIDD 了
與過往的 AlphaFlod 系列工具類似,AlphaFlod 3 也采取了神經網絡架構,并以蛋白質數據庫(PDB)中的全球分子結構數據爲基礎進行訓練。不過,AlphaFlod 3 的預測準度在大部分場景中都遠超前代産品,且在預測範疇上實現了大規模的擴充。
這些能力的升級來源于 AlphaFlod 3 新引入的主要組件,包括升級版的 Evoformer 模塊(現爲 Pairformer 模塊)、全新的 Diffusion Network 等。其中,Diffusion Network 從點雲通過概率擴散預測坐标,進而實現了更高的預測精度。
此外,一些模型上的創新也對 AlphaFlod 3 的預測結果進行了優化。在手性分子等形态相似結構上,算法常會發生預測錯誤。這類情況下,AlphaFlod 3 采用了交叉蒸餾的方式,讓具備 Transform 模型的 AlphaFlod 2 先行預測,再把預測數據添加到 AlphaFlod 3 的訓練中,一定程度提升了預測的準确率。
論文展示了部分 AlphaFlod 3 的預測結果。例如對感冒病毒刺突蛋白( 藍色 )與抗體( 綠松石色 )和單糖( 黃色 )相互作用時的結構預測,與真實結構準确匹配( 灰色的)中,它與實驗室得到的結果幾近完全匹配(灰色部分)。
對蛋白質和 DNA 結合的分子複合物(7R6R - DNA 結合蛋白)進行預測,預測模型也與實驗測定的真實分子結構( 灰色 )完美匹配,且精度達到了遠超其他模型的原子級。
在生成預測結果後,AlphaFlod3 還會提供一個置信度分數,評估該次預測結果的準确度,爲研究人員提供參考。
論文展示的 AlphaFlod3 的能力對于理解人類免疫反應的各個方面和新抗體的設計至關重要。這一新的工具顯然可以通過幫助研究人員了解如何接近新的疾病靶點,進而開發新的方法來追求以前遙不可及的靶點,最終加速藥物設計并提高其成功率。
此外,論文提及的 RNA 的預測能力同樣具備極大的想象空間。
以往的藥物靶點大部分都是蛋白質靶點,但實際上 RNA 會成爲一個比較好的潛在靶點。通過阻斷 RNA 表達或阻斷 RNA 與蛋白質形成複合物,從而阻斷蛋白質形成功能,藥物的療效或許會比蛋白質靶點表現更好。
但在過去的采用非 AlphaFlod 工具進行的 RNA 三維結構預測中,絕大部分的預測誤差超過了 10 埃,與物理預測方式存在一定差距。理論上要實現 RNA 結構計算相關的應用,精度最好控制在 2-3 埃左右。
如果 AlphaFlod 3 能夠攻克 RNA 結果預測,使其預測結果達到跟蛋白質預測差不多的水平,那麽這一工具或能優化 mRNA 的蛋白表達,優化其穩定性,加速針對 RNA target 的藥物設計,甚至加速将 RNA 本身作爲新型藥物的藥物研發。
算法閉源,AlphaFlod 3 或将開啓 AI 分子預測付費時代
在理想情況下,原先需要花大量時間精力和資金才能觀察到的現象,現在隻需要在 DeepMind 的界面中輸入參數,便能在數分鍾内得到極高清晰度和準确度的生物大分子模型,甚至明确該大分子細胞系統内部的生化過程,展現如何與抗體、核酸進行反應,因而能在行業之中引起轟動。
但在實際測試中,AlphaFlod 3 的能力或許不如大家期待的那樣理想。
顔甯教授團隊在微博上表示,AlphaFlod 針對一個糖蛋白的預測不如上一代版本。" 這次的 server 版本我覺得是一個速度和準确度的平衡,正确率不是最好的。我現在手上有三個都是比較奇怪的蛋白,之前我自己搭的 AF2 multimer 可以在很低的 ranking position 找到一兩個正确的 conformation,這次的 server 版本測試全軍覆沒。"
也有學者在試用 AlphaFlod 3 後發現 DeepMind 并沒有将文章中引以爲傲的蛋白-小分子配體預測任務公開,用戶仍然不能自定義配體進行複合物結構預測(aka 對接)。
此外,AlphaFlod 3 也因尚未開源在學界引起激烈讨論。
目前,DeepMind 僅爲該模型發布了一個名爲 AlphaFlod Server 的公共接口,該接口對可以進行實驗的分子施加了限制,僅允許每位用戶每天進行 10 次預測,且不提供可能與藥物結合的蛋白質結構。
在實際操作中,研究人員爲獲得最高精度,需要生成大量預測結構并對其進行排名,特别是對于抗體-抗原複合物,預測質量随着模型種子的數量增加而顯著提高,因而對工具的篩選功能提出考量。畢竟制藥公司并不關心研究人員能找出多少小分子,也不關心提供的分子是自己生成,還是從數據庫裏篩選,他們隻在乎能否找到一個抑制蛋白質的最合适的小分子。
但就 AlphaFlod Server 現階段可以提供的服務而言,研究人員很難借助這一工具實現期望中的價值。AlphaFlod 3 的使用限制中明确指出預測結果不準商用,也不能用于對接和虛拟篩選,
業内人士認爲,AlphaFlod 3 的開源至少會等到 12 月的 CASP16 結束後。但考慮到 Isomorphic Labs 參與了 AlphaFlod 3 的研發工作,DeepMInd 這一次可能不會向學界開源它的開源推理代碼或可執行文件,也不會開源算法和原理。畢竟,這些算法已經成爲 Isomorphic Labs 的核心資産。
今年 1 月,Isomorphic Labs 宣布與禮來和諾華達成了兩項價值 30 億美元的藥物發現協議,合作涉及針對多種疾病相關蛋白和途徑的治療方法的發現,正與 AlphaFlod 3 對抗原抗體複合體的預測能力、對蛋白配體複合體的預測能力、對蛋白核酸複合體的預測能力緊密相關。
如此來看,AlphaFlod 3 的未來可能會像 GPT 一樣被包裝成一款商用軟件,面向不同的用戶推出不同的版本。譬如,預測結構的排序可能會成爲付費項目的一部分,需要研究人員有償使用。如今絕大多數研究人員已經習慣了在論文之中附上 AlphaFlod 2 的預測結果,但随着工具閉源,這一習慣或許也将逐漸改變。
不過,無論是開源還是閉源,是免費還是商用,我們都應尊重 DeepMind 與 Isomorphic Labs 的選擇。畢竟,面對分子生物學理解、調節生物系統複雜的原子相互作用這一命題,AlphaFlod 3 确實帶領行業向前邁出了一大步,有望實現在統一的框架内準确預測各種生物分子系統的結構。
因此,合理的商用或許能夠進一步爲 DeepMind 與 Isomorphic Labs 提供更多支持,推動整個行業更快進入分子生物學的下一個時代。