人工智能的應用,已經極大地加速了蛋白質工程的研究。
最近,加州伯克利的一家初出茅廬的初創公司再次取得了驚人的進步。
AI 首次成功從頭生成原始蛋白質
科學家們采用類似 ChatGPT 的蛋白質工程深度學習語言模型——Progen,首次實現了 AI 預測蛋白質的合成。
這些蛋白質不僅與已知的完全不同,相似度最低的甚至隻有 31.4%,但和天然蛋白一樣有效。
現在,這項工作已經正式發表于nature biotechnology,題為 "Large language models generate functional protein sequences across diverse families"。這個實驗也表明,自然語言處理雖然是為讀寫語言文本而開發的,但它也可以學習生物學的一些基本原理。
論文地址:https://www.nature.com/articles/s41587-022-01618-2
比肩諾獎的技術
對此,研究人員表示,這項新技術可能會變得比定向進化(獲得諾貝爾獎的蛋白質設計技術)更加強大。
「它将通過加快開發可用于從治療劑到降解塑料等幾乎所有用途的新蛋白質,為有 50 年曆史的蛋白質工程領域注入活力。」
這家公司名叫 Profluent,由前 Salesforce AI 研究負責人創立,已獲得 900 萬美元的啟動資金,用于建立一個集成的濕實驗室,并招募機器學習科學家和生物學家。
以往,在自然界中挖掘蛋白質,或者調整蛋白質到所需功能,都十分費力。Profulent 的目标是,讓這個過程變得毫不費力。
他們做到了。
Profluent 創始人兼 CEO Ali Madani
Madani 在采訪中表示,Profulent 已經設計出了多個家族的蛋白質。這些蛋白質的功能與樣本蛋白(exemplar proteins)一樣,因此是具有高活性的酶。
這項任務非常困難,是以 zero-shot 的方式完成的,這意味着并沒有進行多輪優化,甚至根本不提供實驗室的任何數據。
而最終設計出的蛋白質,是通常需要數百年才能進化出來的高活性蛋白質。
基于語言模型的 ProGen
作為深度神經網絡的一種,條件語言模型不僅可以生成語義和語法正确且新穎多樣的自然語言文本,而且還可以利用輸入控制标簽來指導風格、主題等等。
類似的,研究人員開發出了今天的主角—— ProGen,一個 12 億參數的條件蛋白質語言模型。
具體來說,基于 Transformer 架構的 ProGen 通過自注意機制來模拟殘基的相互作用,并且可以根據輸入控制标簽生成不同的跨蛋白質家族的人工蛋白質序列。
用條件語言模型生成人工蛋白質
為了創建這個模型,研究人員喂了 2.8 億種不同蛋白質的氨基酸序列,并讓它「消化」了幾周的時間。
接着,他們又用五個溶菌酶家族的 56,000 個序列以及關于這些蛋白質的信息,對模型進行了微調。
Progen 的算法與 ChatGPT 背後的模型 GPT3.5 類似,它學習到了蛋白質中氨基酸排序的規律,以及它們與蛋白結構和功能的關系。
很快,模型就生成了一百萬個序列。
根據與天然蛋白質序列的相似程度,以及氨基酸「語法」和「語義」的自然程度,研究人員選擇了 100 個進行測試。
其中,有 66 個産生了與消滅蛋清和唾液中細菌的天然蛋白質類似的化學反應。
也就是說,這些由 AI 生成的新蛋白質也可以殺死細菌。
生成的人工蛋白是多樣化的,且在實驗系統中表達良好
更進一步,研究人員選擇了反應最強烈的五種蛋白質,并将它們加入到大腸杆菌的樣本中。
其中,有兩種人工酶能夠分解細菌的細胞壁。
通過與雞蛋白溶菌酶(HEWL)進行比較可以發現,它們的活性與 HEWL 相當。
随後,研究人員又用 X 射線進行了成像。
盡管人工酶的氨基酸序列與現有的蛋白質有高達 30% 的差異,二者之間也隻有 18% 是相同的,但它們的形狀卻與自然界的蛋白質相差無幾,而且功能也可以與之媲美。
條件語言建模對其他蛋白質系統的适用性
除此之外,對于高度進化的天然蛋白質來說,可能隻需一個小小突變就會讓它停止工作。
但研究人員在另一輪篩選中發現,在 AI 生成的酶中,即使隻有 31.4% 的序列與已知蛋白質相同,也能表現出相當的活性以及類似的結構。
蛋白質設計,進入新時代
可以看到,ProGen 的工作方式與 ChatGPT 很類似。
ChatGPT 通過學習海量數據,可以參加 MBA 和律師考試、撰寫大學論文。
而 ProGen 通過學習氨基酸如何組合成 2.8 億個現有蛋白質的語法,學會了如何生成新的蛋白質。
在采訪中,Madani 表示,「就像 ChatGPT 學習英語之類的人類語言一樣,我們是在學習生物和蛋白質的語言。」
「人工設計蛋白質的性能比受進化過程啟發的蛋白質要好得多,」論文作者之一、加州大學舊金山分校藥學院生物工程和治療科學教授 James Fraser 說。
「語言模型正在學習進化的各個方面,但它與正常的進化過程不同。我們現在有能力調整這些特性的産生,以獲得特定效果。比如,讓一種酶具有令人難以置信的熱穩定性,或嗜好酸性環境,或者不會與其他蛋白質相互作用。」
早在 2020 年,Salesforce Research 就開發了 ProGen。它基于的自然語言編程,最初用于生成英語文本。
從之前的工作中,研究者們了解到,人工智能系統可以自學語法和單詞的含義,以及其他使寫作井井有條的基本規則。
「當你用大量數據訓練基于序列的模型時,它們在學習結構和規則上的表現非常強大,」Salesforce Research 人工智能研究總監、論文的資深作者 Nikhil Naik 博士說,「它們會了解哪些詞可以同時出現,該怎樣組合。」
「現在,我們已經證明了 ProGen 有能力生成新的蛋白質,并進行了公開發布,所有人都可以在我們的基礎上進行研究。」
作為蛋白質的溶菌酶雖然非常小,最多有約 300 個氨基酸。
但是有 20 種可能的氨基酸,就有 20^300 種可能的組合。
這比古往今來的所有人類,乘以地球上沙粒的數量,再乘以宇宙中的原子數量的積還要多。
考慮到這近乎無限的可能性,Progen 能夠如此輕松地設計出有效的酶,确實很了不起。
Profluent Bio 創始人、Salesforce Research 前研究科學家 Ali Madani 博士說:「開箱即用地從頭開始生成功能性蛋白質的能力,表明我們正在進入蛋白質設計的新時代。」
「這是所有蛋白質工程師都可以使用的多功能新工具,我們期待看到它被應用于治療。」
與此同時,研究人員仍在繼續改進 ProGen,試圖突破更多的限制和挑戰。
其中之一便它非常地依賴數據。
「我們已經探索了通過加入基于結構的信息來改善序列的設計,」Naik 說,「我們還在研究當你沒有太多關于某個特定蛋白質家族或領域的數據時,如何提高模型的生成能力。」
值得注意的是,還有一些初創公司也在嘗試相似的技術,比如 Cradle,以及自生物技術孵化器 Flagship Pioneering 的 Generate Biomedicines,不過這些研究都還未經過同行評審。
參考資料:
https://endpts.com/exclusive-profluent-debuts-to-design-proteins-with-machine-learning-in-bid-to-move-past-ai-sprinkled-on-top/
https://www.newscientist.com/article/2356597-ai-has-designed-bacteria-killing-proteins-from-scratch-and-they-work/
https://www.sciencedaily.com/releases/2023/01/230126124330.htm
本文來源:新智元等,版權屬于原作者,僅用于學術分享。