AIGC 的能力驚豔了所有人,背後的技術——擴散模型,也啟發了生物學家。而當生物學家将這項技術「為己所用」,就帶來了技術升級:更準确地設計全新的、從來不存在的蛋白質。結果比目前已經存在的模型都更加優秀。無論是 Open AI 的 DALL-E,還是開源的 Stable Diffusion,能生成以假亂真繪畫,背後的關鍵技術都離不開擴散模型。
2022 年,人們獲得了一項前所未有的繪畫超級工具。普通人隻要用語言給出描述、或者幾個關鍵詞,就可以用 AI 程序生成一張媲美專業畫師的作品。擁有了這樣工具的人,即使沒有學過繪畫、不會操作任何設計軟件,也像是擁有了神筆的馬良。而一些專業的視覺設計從業人員,也開始嘗試用新的工具輔助工作。這一波 AI 繪畫的火熱,再一次證明了 AI 圖像技術的發展。不是幾年前的識别是人還是車、是貓還是狗,而是直接生成。
AI 生成的圖像|來源:網絡
而技術帶來的想象遠不止理解語言、生成圖像,也能給科學家提供強大的工具。也許你還記得去年夏天的 AI 刷屏,DeepMind 推出的 AlphaFold2 解決了困擾生物學家五十多年的難題——蛋白質預測。随着這一話題的熱度攀升,人們逐漸意識到了 AI 的另一種強大力量。曾經需要科學家在實驗室裡花費數月甚至數年,才能夠測得某個蛋白質的結構,如今輸入一串氨基酸序列,就可以得到預測的結構。
DeepMind 的創始人兼 CEO Demis Hassabis 說,「我認為,未來十年我們會看到更多這樣的事情ーー人工智能真正有助于真正加速一些科學突破ーー我們希望成為更多科學突破的一部分。我們認為這隻是個開始。」
科技突破往往發生在交叉領域,蛋白質預測突破背後,一個關鍵便是源自自然語言處理的技術 Transformer,應用在了生物領域。這樣的模式正繼續發生:源自 AI 繪畫領域的擴散模型,正在加速蛋白質設計。
蛋白質設計可以做的事情太多了。這項能力讓人類得以生産分子級别的「機器」,它們可以是新的藥物、疫苗、新的納米材料、為特殊反應定制的酶 …… 甚至可以作為污染處理方案,分解環境中的有毒分子。
從預測到設計
蛋白質執行着生命的各項功能,也是生命系統中最重要的「分子元件」。比如,當新冠病毒感染人體時,在微觀層面,首先是兩種蛋白的結合。病毒表面的刺突蛋白(S 蛋白)結合了人體内細胞上的另一種蛋白—— ACE2。
新冠病毒電鏡掃描 3D 圖,粉色的部分為刺突蛋白|來源:Nanographics
決定一個蛋白質擁有怎樣功能的,是它的結構。「氨基酸序列——結構——功能」三者間的對應關系,是理解一個蛋白質的密碼。最難的是「氨基酸序列——結構」之間的關系,因為一條氨基酸長鍊條折疊成什麼樣,有無數種可能性。究竟如何折疊,受到氨基酸之間化學反應、蛋白質所處環境等各種因素的影響。科學家目前掌握了蛋白質折疊的基本原理:蛋白質會折疊到能量最低的狀态,然後保持結構穩定。AlphaFold2 則用更優的模型 + 暴力計算,一舉超越了之前所有的計算方法。
蛋白質設計,是結構預測的逆向問題。兩者像是「序列——結構」這道題的正反求解。已知序列、求解三維結構,是結構預測;設定某個三維結構、求解序列,便是蛋白質設計。
人類想設計蛋白質,歸根到底是想讓這種強大的生物元件來為自己服務。我們可以先設想一個需要的功能,然後看什麼樣的結構來實現功能。最初的要求可能是:瞄準某個靶點的藥物分子、在細胞膜表面專門運送某種物質的蛋白 …… 科學家最想擁有的「魔法」是,去設計一個自然界原來并不存在的蛋白質。
蛋白質設計領域的領軍人物大衛 · 貝克(David Baker)将這個正在發生的進程稱為「蛋白質設計革命」,「這場革命與人類曆史上發生過的其它科技革命類似,我們将可以用新的方式來操控世界 ……通過『蛋白質設計革命』,我們将學會用前所未有的方式,來操控生物分子。」他目前是華盛頓大學的計算生物科學家,在 AlphaFold2 模型推出之前,他帶領團隊推出的預測蛋白質方式是學界的主流模型。
David Baker | 來源:華盛頓大學蛋白質設計研究所
如今,他的實驗室也走在蛋白質設計的前沿。12 月初實驗室發布了最新的模型 RF diffusion(射頻擴散),這個模型将 AI 繪畫領域的擴散模型創新地融入蛋白質設計中。
另一個團隊也發布了類似的成果,波士頓的蛋白質設計公司 Generate BioBiomedicines,發布了一個蛋白質設計程序 Chroma。這兩項最新的研究成果,都可以對性能、結構先做一些設定,再依據這些設定來生成全新的蛋白質。
來自貝克團隊的一位成員說,「我們生成的蛋白質與現有的蛋白質完全沒有相似性。」Generate Biomedicines 的 CTO 則形容,「我們可以在幾分鐘内發現花費了數百萬年的進化是什麼」。除了根據條件來重新設計,兩個團隊的最新模型還可以生成蛋白質片段,将片段與已經存在的結構匹配。
這次研究中出現了讓大衛 · 貝克非常驚喜的結果——生成了一種附着在甲狀腺旁激素上的蛋白質。「它憑空想出了這種蛋白質設計」。這種蛋白質的功能是控制血液中的鈣水平。在設計時,科學家隻是告訴模型荷爾蒙的信息,然後讓它生成一種與之結合的蛋白質。接下來,在實驗室測試這種蛋白的時候,他們發現,新設計出的蛋白和激素緊密連接,甚至超出了現有的藥物。
David Baker 實驗室設計的環狀蛋白質|來源:華盛頓大學蛋白質設計研究所
設計蛋白質的「魔法」
如果說提出對圖畫的描述,讓 AI 幫你作畫已經超出想象;提出一個對蛋白質的要求,讓 AI 幫你設計出這樣一個分子,更像是一種超級能力。大自然花了上億年形成蛋白質進化規律,人類雖然不能完全翻譯這些規律,卻可以發明強大的工具,并對它發出指令:「生産一個可以與 X 結合的分子」。
擴散模型已經在 AI 繪畫顯示了威力。最基礎的直覺原理來源于物理學。在環境中,氣體分子會高濃度區域擴散到低濃度區域,這個過程,也類似噪聲逐步擴散、最終導緻信息丢失。
将這個原理運用在圖像生成,便是将「噪聲逐步擴散、最終信息丢失」的過程逆向運作。先生成一張充滿大量噪聲的圖片,再基于 AI 能力,一邊猜測哪些對于最終的圖像而言是「噪點」,将其去除,那麼剩下的便是所需的「信息」。通過叠代,在噪聲中反複提取出「信息」,最終生成被指定的圖片。
為什麼擴散模型用于蛋白質設計,會有更強大的結果呢?極客公園咨詢了兩位計算機生物學領域的學者。他們表示,目前會有一些依據模型特點的推測,但還很難說清楚。不過目前的研究結果,已經證明了擴散模型的潛力。Baker 實驗室表示:射頻擴散方法在許多問題上優于現有的蛋白質設計方法。
比如用來設計皮摩爾級别的結合劑(1 摩爾 =10^12 皮摩爾)。Barker 實驗室的科學家 Joseph Watson 難掩興奮地在 Twitter 上分享結果:我們設計了五種醫學相關分子的粘合劑。這些結合蛋白通過了最嚴格的計算機測試,現在正在實驗室測試它們。将來,可能隻需要幾秒鐘就可以為任何目标設計出高親和力的結合蛋白。
五種粘合劑|來源:Joseph Watson
而在 Generate Biomedicines 的最新成果中,具有對稱結構的蛋白質分子表現優異。
Baker 曾經說,「有時候我自己也會覺得這像是魔法。我喜歡做這些魔法般的事情。」隻不過為了取得這些「魔法」,他們經曆的失敗、複雜的研究過程,很少為外界所知。
還有許多結果等待驗證。設計出的蛋白是不是能夠如所設想的具有特定功能?這需要合成出蛋白質,進行實驗驗證。目前 Baker 實驗室正在鑒定一種能與新冠病毒相關的蛋白。這種蛋白具有對稱的結構,能夠與病毒上三個對稱的刺突蛋白結合。
新蛋白與新冠病毒突刺蛋白結合,形成對稱結構|來源:華盛頓大學蛋白質設計研究所
今年 6 月份,一款新冠病毒疫苗在韓國獲批上市。這是科學家運用之前的蛋白設計能力研發出的疫苗。這款名為 GPB510 的疫苗,是一個人工設計的蛋白質納米顆粒,上面布滿了新冠病毒的刺突蛋白片段。(下圖中的紅色部分),這些片段能夠激發人體産生抗體。
不斷發展的工具,會給人類帶來更多不同功能的蛋白質;如今,正來到了不斷突破的加速期。
* 頭圖來源:enerate BioBiomedicines
本文來自微信公衆号 " 極客公園 "(ID:geekpark),作者:淩梓郡