過去,一個博士生直到畢業,恐怕并未見過蛋白質設計出來的樣子 -- 需要一段一段敲掉某些天然蛋白質片段,再人工設計、拼補上去。現在科研人員通過 AI 模型一次性提交幾十個蛋白質設計需求,幾個小時後便馬上收到一份設計結果和分析報告。生命科學的下一個時代,似乎來了。
ChatGPT 引發的新一輪 AI 浪潮,正在席卷生命科學界。
2023 年初,ChatGPT 大火。繼去年 11 月 30 日上線第 5 天用戶獲增 100 萬,如今短短兩個月時間,ChatGPT 日活用戶已超 1 億,成爲曆史上增長最快的消費級應用程序。直到今天,與之相關的讨論仍層出不窮。
伴随着 ChatGPT 的火熱,國内市場也很難平靜。
百度、阿裏、騰訊、網易、京東、360、字節等耳熟能詳的大廠接連入局,一度将 "AI 大模型 " 推向主流;不少小型企業借助這一概念擡高股價,就連求職榜上的算法、NLP、AIGC 等相關崗位,也湧入了一波又一波的年輕人。
ChatGPT 再次将 AI 技術推向幕前,最令人驚喜的莫過于生成式 AI 與生命科學的深度融合。
近日,國内 AI 公司天壤智能發布了基于擴散的生成模型 TRDiffusion,這是一種蛋白質設計的新方法。
TRDiffusion 從零開始創造,生成全新的蛋白質結構,而非自然界中已經存在的天然蛋白質。在相同計算資源配置和時間内,TRDiffusion 完成的設計數量提升了 2 倍以上,設計結果與之前方法的結果表現出更強的多樣性。
實際上,早在 2022 年 9 月,天壤就上線了蛋白質工作台 xCREATOR,實現 " 一鍵設計滿足描述的蛋白質 " 等需求。
" 相比較而言,新模型将蛋白質設計周期從兩天縮減爲幾小時,改變了過去‘延遲滿足’的設計模式。"
天壤創始人,CEO 薛貴榮對雷峰網 &《醫健 AI 掘金志》表示," 換句話說,一個分秒必争的蛋白質設計時代正在悄悄拉開帷幕。"
基于擴散的蛋白質生成模型,或成第四代蛋白質設計新方向
蛋白質是一種含有特定氨基酸序列的分子,因其空間結構的不同,決定了生物學功能的差異。
因此,當天然蛋白結構功能,不能滿足工業或醫療應用需求時,想要得到特定的功能蛋白,就需要對其結構進行設計。
然而,自 20 世紀 80 年代以來,蛋白質設計卻一直受限于人類對蛋白質折疊的理解不足而停滞不前。
苗洪江來自天壤 XLab,是該實驗室的負責人。
他表示,蛋白質設計最早出現在 20 世紀 80 年代,共經曆三個階段:
第一代蛋白質設計通過簡單化學原理指導二級結構片段的組裝。
第二代蛋白質設計加入了專家經驗,通過序列 - 結構關系指導結構片段組裝。
第三代有了明顯突破,一方面借助更大的天然蛋白質數據庫增加結構片段多樣性,同時借助從已知結構中終結的物理及知識能量函數,尋找能量最小的目标蛋白質。
苗洪江
但總體來說,前三代設計方法都存在極大限制,比如過度依賴專家經驗或者天然蛋白質。直到 21 世紀,随着蛋白質三維結構數據的快速增長,尤其是 2020 年底,AlphaFold2 在高精度蛋白質結構預測上取得了革命性進展,獲得了蛋白質序列與結構之間的高緯關聯,以 AI 主導的蛋白質設計也随之爆發。
正如深圳灣實驗室周耀旗教授所言," 在後 AlphaFold 時代,大家自然而然地想要解決一個實用的反問題:根據某個功能的結構,設計出相應的、能夠折疊成這樣結構的蛋白質序列。現在,幾乎每隔一小段時間就有一篇 AI 蛋白質設計的預印論文出現。"
2022 年,AIGC 繪畫爆火,普通人隻要用語言給出描述、或者幾個關鍵詞,就可以用 AI 程序生成一張媲美專業畫師的作品。
與此同時,AIGC 背後的關鍵技術 --" 擴散模型 " 也成功出圈,一度啓發了計算生物學家。
2022 年 12 月 1 日,蛋白質設計領域的領軍人物 David Baker、波士頓的蛋白質設計公司 Generate Biomedicines,同天宣布 " 将 AI 繪畫領域的擴散模型融入蛋白質設計中 "。
然而問題随之而來," 基于擴散的蛋白質生成模型 " 究竟有何優勢?
據苗洪江介紹," 相比其它模型,基于擴散的生成模型更接近人的思維模式,也是 AIGC 擁有開放性創造力的原因之一。其工作原理是通過連續添加高斯噪聲來破壞訓練數據,然後通過反轉噪聲過程來學習恢複數據。"
通俗來講,在環境中,氣體分子會高濃度區域擴散到低濃度區域。這一過程也類似噪聲逐步擴散,最終導緻聲場充滿噪音。如果這一原理逆用,則是不斷 " 去噪 ",露出事物 " 真面目 " 的過程:
首先,生成一張充滿大量噪聲的圖片;
再基于 AI 能力,一邊猜測哪些對于最終的圖像而言是 " 噪點 ",将其去除,那麽剩下的便是所需的 " 信息 ";
通過叠代,在噪聲中反複提取出 " 信息 ",最終生成被指定的圖片。
事實上,天壤此次帶來的 TRDiffusion 模型,正是采用的擴散模型。
苗洪江進一步介紹," 當 TRDiffusion 模型生成蛋白質時,是将蛋白質中每個殘基的主鏈結構,看成可以自由移動的剛體,生成結構的初始坐标爲随機噪聲。再通過‘去噪模型’,逐步地将随機分布的殘基,移動及組裝成合理的蛋白質三維結構。"
天壤 TRDiffusion 的原理圖示:不斷去噪,設計出新的蛋白質
值得一提的是,蛋白質設計是結構預測的逆向問題。有人形容道," 兩者像是「序列——結構」這道題的正反求解。已知序列、求解三維結構,是結構預測;設定某個三維結構、求解序列,便是蛋白質設計。"
因此,此前天壤自研的蛋白質結構預測模型 TRFold,也順勢被 TRDiffusion 二次利用。
苗洪江解釋道,"TRDiffusion 中的‘去噪模型’,繼承了結構預測模型 TRFold 的主體網絡結構,并利用 TRFold 權重作爲初始化,滿足空間旋轉平移等不變性。"
目前測試結果顯示,在相同計算資源配置和時間内,TRDiffusion 完成的設計數量較之前模型提升了 2 倍以上,設計結果與之前方法的結果表現出很強的多樣性,比如自由設計、複合體設計、對稱性設計、局部多樣性優化、功能蛋白質設計、結合配體設計等設計需求,更能針對用戶設定的目标蛋白質局部或整體結構、蛋白質分類、種屬及功能标注等進行調控和設計。
天壤 TRDiffusion 生成的全新的蛋白質結構
據苗洪江介紹,該模型将在 2023 年 2 月下旬上線蛋白質工作台 xCREATOR。屆時,用戶隻需在平台輸入目标蛋白質的簡單描述,如序列長度、結構對稱性、目标功能 motif、結合配體結構、化學計量等,即可 " 一鍵生成 " 滿足描述的蛋白質。
蛋白質設計風口已來,業界比拼大模型熱情不減
實際上,在 2023 年當下這個時間點,蛋白質設計領域早已暗潮洶湧。
早在去年年底,國外就有三家公司競相發布了蛋白質設計的新模型。
如前文所述,2022 年 12 月初,華盛頓大學 David Baker 團隊發布了 RFDiffusion,用擴散模型設計出多種與天然蛋白質截然不同的全新單鏈蛋白質及複合體,目前已制造出一種可以與甲狀旁腺激素結合的全新蛋白質。
據悉,RFDiffusion 也可向多個方向擴展應用,比如該技術最近已擴展到核酸和蛋白質 - 核酸複合體,後續也将也擴展到設計小分子結合蛋白。
同日,由生命科學頂級風投 Flagship Pioneering 孵化的蛋白質設計公司 Generate Biomedicines,發布擴散蛋白生成模型 Chroma,可根據預設要求設計蛋白質序列和結構。
2022 年 1 月,該公司曾一舉拿下自 Amgen(安進)的 5 個訂單,預付款約 5 千萬美元,潛在合約價值超 19 億美元。公開資料顯示,5 個靶标全部用于開發蛋白療法,預計生産達百萬量級,并透露安進将參與 Generate 的新一輪融資。
更爲重要的是,波士頓擁有全球聞名的醫療機構,從綜合性醫院、腫瘤專科醫院到兒童醫院,以及世界 Top20 制藥公司,在醫療集聚方面有着巨大成就。而這層背景,或将助推 Generate 搶占市場先機。
在蛋白質設計領域,也不乏衆多後起之秀。
其中 Meta 公司的 ESM2、加州伯克利的一家初創公司 Profluent 的 ProGen,則是仿造 "ChatGPT" 背後的大型語言模型(LLM),相繼推出了蛋白質序列預訓練大模型,實現可編程的蛋白質從頭設計。對此,業内衆說紛纭,樂觀派稱," 這項新技術可能會‘超越諾獎’ -- 比 2018 年的定向進化蛋白設計技術更加強大。"
薛貴榮
天壤創始人,CEO 薛貴榮對此頗有感觸,"盡管這些公司的技術路徑不盡相同,但這些模型和算法的集中爆發,意味着我們已經邁入了一個可編程的生物學新時代,最快年底會有一大波蛋白質設計被驗證。"
同時他也認爲,如今蛋白質設計浪潮興起,至少指出了三個可能:
一、沿用天然蛋白質設計的老路已經沒有太大興奮感,從頭生成人工蛋白的 AI 系統已将蛋白質設計變得 " 可控化 "、" 批量化 "、" 廣泛化 ";
二、以蛋白質設計來講,不管是在醫療應用、食品生産、工業應用、環境保護、可再生資源還是其他領域,都具備有非常廣闊的應用場景,背後的商業價值正在被更多人看到;
三、ChatGPT 作爲第一個消費級 AI 爆款,是公衆第一次親身體驗現代人工智能的強大功能,随着 ChatGPT 應用的增長、甚至 "BioGPT"、"ProtGPT" 的出現,人們會對 AI 産生越來越多的信任。
以上觀點不難看出,對于國内從業者而言,借助風口深紮技術,爲迎接未來工業需求做準備,顯然已經成爲自身發展過程中的重要命題。
與此同時,生成式 AI 技術的科研和工程實施還處于發展初期,除基座模型的角逐外,能否有更多公司參與到應用級創新,同樣是決定生态繁榮的重要因素。
實際上,天壤并非初涉生命科學領域。早在 2019 年,旗下天壤 XLab 成立,專注于 IT+BT 融合發展,旨在将蛋白質開發從 " 機會性遊戲 ",轉變爲高确定性的、可預測的 " 工業化流程 ",滿足醫療、材料、能源和食品等領域對功能蛋白質的需求。
2022 年,公司技術數項成果并出,陸續建成 TRFold(單鏈結構預測,有 MSA)、TRFold-Single(單鏈結構預測,無 MSA)、TRComplex(複合體結構預測)、TRDesign(蛋白質設計)四大核心能力,并在去年 9 月推出國内首個蛋白質設計工作台 xCREATOR。
至此,一條兼具 " 蛋白質結構預測 + 設計 + 開放平台 " 技術閉環搭建完成。
一定程度上說,在天壤此次技術升級之後,國内蛋白質設計市場的紅利将進一步放大,後續将湧現出更多的 " 鲶魚 ",引發全社會對生命科學産業的關注。
産學研合作已是大勢所趨,大規模設計成爲時代主流
人類發現蛋白質的時間不過兩百年,大自然卻花了上億年形成蛋白質進化規律。直到今天,人們不能完全翻譯這些規律,但仍然期待有一天可以通過發明強大 AI 工具,并對它發出設計蛋白質的指令。
這種期待是美好的,蛋白質設計前景也是廣闊的,但當前,這一賽道尚處于孕育探索階段。
就技術研發和應用角度考量,如何從模型生成的大量符合需求的蛋白質中篩選出最優的結構、如何評價這些蛋白質的功能和性質、是否有可能從模型的角度自動化進行篩選,仍然值得進一步讨論。
正如苗洪江所說," 和 AI 繪畫、AI 聊天不同,蛋白質設計的本質是科學創新,比如要對設計蛋白的穩定性、親和力、寡聚性等特性進行預測及優化,否則就是‘僞蛋白’。"
實際上,針對這一問題,天壤的一大解決思路是與高校合作," 在實際項目過程中發現模型和平台存在的問題 "。
去年 9 月,天壤公布蛋白質設計工作台—— xCREATOR,其設計初衷,即解決跨領域技術門檻高、工作流程碎片化的問題,目标是在同個工作台上一站式地完成全部蛋白質設計項目。
目前,xCREATOR 工作台已集成了市面上優秀的算法,包括天壤 XLab 自研的算法與所有外部開源和合作夥伴的算法。尤爲重要的是,這款平台供高國内外高校師生免費使用,一方面能夠提供更開放的學術環境,爲前沿項目提供技術支撐;另一方面,對于尚未建設濕實驗室的天壤來說,來自各大高校的真實實驗數據反饋,也成爲天壤升級蛋白質設計算法的重要基礎。
薛貴榮舉了個例子," 過去博士生做蛋白質設計,需要一段一段敲掉某些片段,再人工設計拼補上去,等到畢業了還沒有見過蛋白質設計出來的樣子。相比較而言,現在學生可以一次性提交幾十個蛋白質設計需求,幾個小時後馬上收到一份蛋白質設計結果和分析報告。"
站在平台的角度上,天壤越來越明确提供工具的角色定位,追求開放化的思路。
薛貴榮提到,未來天壤要兩條腿走路,重點打造幹濕一體化實驗室,從計算平台走進實驗平台,真正從産業端的角度推動前端的蛋白質設計工作。
據悉,目前天壤 XLab 團隊從頭設計了适用于多種疾病的人工蛋白質候選藥物,如新冠刺突蛋白結合劑,能夠有效阻止刺突蛋白和人體 ACE2 蛋白結合;以及 IL-2 類似物,能夠激活特定淋巴細胞,同時避免當前 IL-2 類藥物毒性;可用于捕捉和封存二氧化碳的碳酸酐酶,相比于天然碳酸酐酶,其長度僅爲天然碳酸酐酶的 1/3 左右,穩定性更高,成本低廉便于工業應用。目前,這些蛋白的計算設計工作都已完成,正在推進實驗檢驗。
這似乎又開始了讓人熟悉的劇情。場景的吸引力、模式的吸引力,本質上,都是内容和技術的原始創新。
"當實現蛋白質設計日吞吐量達到上千上萬,甚至更多時,蛋白質設計将徹底告别‘束手束腳’的日子,一個真正的生命科學時代才算到來。"
GAIR LIVE|講座預約
| 生物計算 " 奧賽 " 冠軍論道:當生命科學遇上史詩級 AI,何去何從?
日前結束的第 41 屆 JP 摩根醫療健康大會上,科技公司 Nvidia 的報告指出," 或許很快,基于 AlphaFold2 精準解析蛋白質三維結構,再加上能從頭生成人工蛋白質設計技術,就會給生物學領域帶來一場新的變革。"
爲了更加深入、系統地讨論生命科學技術的落地,2 月 23 日(本周四 20:00),我們邀請了CASP15 四支冠軍團隊,論道:《當生命科學遇上史詩級 AI,何去何從?》
智峪生科董事長,CEO 王晟擔任主持、密歇根大學計算醫學及生物信息學系鄭偉、浙江工業大學信息工程學院張貴軍教授、江蘇理工學院生物信息與醫藥工程研究所常珊教授、智峪生科 CTO 熊鵬共同參與讨論。
讀者可掃描文章底部海報的二維碼,添加策劃人吳彤微信(微信号:icedagunaing),備注 " 姓名 + 職位 ",後續我們會邀請您進入專家社群,并将您的問題收集、彙總,反饋給參會嘉賓,在讨論環節進行解答。
關于 GAIR Live
" 全球人工智能與機器人大會 "(GAIR)始于 2016 年雷峰網與中國計算機學會(CCF)合作創立的 CCF-GAIR 大會,旨在打造人工智能浪潮下,連接學術界、産業界、投資界的新平台,而雷峰網 " 連接三界 " 的全新定位也在此大會上得以确立。
經過幾年發展,GAIR 大會已成爲行業标杆,是目前爲止粵港澳大灣區人工智能領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
GAIR Live 作爲雷峰網旗下視頻直播品牌,旨在輸出新鮮、深度、原創的大咖訪談與對話内容,打造輻射産、學、研、投的特色線上平台。
雷峰網雷峰網