終于有人用 AIGC「幹正事」了—— 設計蛋白質

AIGC 的能力驚豔了所有人，背後的技術——擴散模型，也啟發了生物學家。而當生物學家将這項技術「為己所用」，就帶來了技術升級：更準确地設計全新的、從來不存在的蛋白質。結果比目前已經存在的模型都更加優秀。無論是 Open AI 的 DALL-E，還是開源的 Stable Diffusion，能生成以假亂真繪畫，背後的關鍵技術都離不開擴散模型。

2022 年，人們獲得了一項前所未有的繪畫超級工具。普通人隻要用語言給出描述、或者幾個關鍵詞，就可以用 AI 程序生成一張媲美專業畫師的作品。擁有了這樣工具的人，即使沒有學過繪畫、不會操作任何設計軟件，也像是擁有了神筆的馬良。而一些專業的視覺設計從業人員，也開始嘗試用新的工具輔助工作。這一波 AI 繪畫的火熱，再一次證明了 AI 圖像技術的發展。不是幾年前的識别是人還是車、是貓還是狗，而是直接生成。

AI 生成的圖像｜來源：網絡

而技術帶來的想象遠不止理解語言、生成圖像，也能給科學家提供強大的工具。也許你還記得去年夏天的 AI 刷屏，DeepMind 推出的 AlphaFold2 解決了困擾生物學家五十多年的難題——蛋白質預測。随着這一話題的熱度攀升，人們逐漸意識到了 AI 的另一種強大力量。曾經需要科學家在實驗室裡花費數月甚至數年，才能夠測得某個蛋白質的結構，如今輸入一串氨基酸序列，就可以得到預測的結構。

DeepMind 的創始人兼 CEO Demis Hassabis 說，「我認為，未來十年我們會看到更多這樣的事情ーー人工智能真正有助于真正加速一些科學突破ーー我們希望成為更多科學突破的一部分。我們認為這隻是個開始。」

科技突破往往發生在交叉領域，蛋白質預測突破背後，一個關鍵便是源自自然語言處理的技術 Transformer，應用在了生物領域。這樣的模式正繼續發生：源自 AI 繪畫領域的擴散模型，正在加速蛋白質設計。

蛋白質設計可以做的事情太多了。這項能力讓人類得以生産分子級别的「機器」，它們可以是新的藥物、疫苗、新的納米材料、為特殊反應定制的酶 …… 甚至可以作為污染處理方案，分解環境中的有毒分子。

從預測到設計

蛋白質執行着生命的各項功能，也是生命系統中最重要的「分子元件」。比如，當新冠病毒感染人體時，在微觀層面，首先是兩種蛋白的結合。病毒表面的刺突蛋白（S 蛋白）結合了人體内細胞上的另一種蛋白—— ACE2。

新冠病毒電鏡掃描 3D 圖，粉色的部分為刺突蛋白｜來源：Nanographics

決定一個蛋白質擁有怎樣功能的，是它的結構。「氨基酸序列——結構——功能」三者間的對應關系，是理解一個蛋白質的密碼。最難的是「氨基酸序列——結構」之間的關系，因為一條氨基酸長鍊條折疊成什麼樣，有無數種可能性。究竟如何折疊，受到氨基酸之間化學反應、蛋白質所處環境等各種因素的影響。科學家目前掌握了蛋白質折疊的基本原理：蛋白質會折疊到能量最低的狀态，然後保持結構穩定。AlphaFold2 則用更優的模型 + 暴力計算，一舉超越了之前所有的計算方法。

蛋白質設計，是結構預測的逆向問題。兩者像是「序列——結構」這道題的正反求解。已知序列、求解三維結構，是結構預測；設定某個三維結構、求解序列，便是蛋白質設計。

人類想設計蛋白質，歸根到底是想讓這種強大的生物元件來為自己服務。我們可以先設想一個需要的功能，然後看什麼樣的結構來實現功能。最初的要求可能是：瞄準某個靶點的藥物分子、在細胞膜表面專門運送某種物質的蛋白 …… 科學家最想擁有的「魔法」是，去設計一個自然界原來并不存在的蛋白質。

蛋白質設計領域的領軍人物大衛 · 貝克（David Baker）将這個正在發生的進程稱為「蛋白質設計革命」，「這場革命與人類曆史上發生過的其它科技革命類似，我們将可以用新的方式來操控世界 ……通過『蛋白質設計革命』，我們将學會用前所未有的方式，來操控生物分子。」他目前是華盛頓大學的計算生物科學家，在 AlphaFold2 模型推出之前，他帶領團隊推出的預測蛋白質方式是學界的主流模型。

David Baker | 來源：華盛頓大學蛋白質設計研究所

如今，他的實驗室也走在蛋白質設計的前沿。12 月初實驗室發布了最新的模型 RF diffusion（射頻擴散），這個模型将 AI 繪畫領域的擴散模型創新地融入蛋白質設計中。

另一個團隊也發布了類似的成果，波士頓的蛋白質設計公司 Generate BioBiomedicines，發布了一個蛋白質設計程序 Chroma。這兩項最新的研究成果，都可以對性能、結構先做一些設定，再依據這些設定來生成全新的蛋白質。

來自貝克團隊的一位成員說，「我們生成的蛋白質與現有的蛋白質完全沒有相似性。」Generate Biomedicines 的 CTO 則形容，「我們可以在幾分鐘内發現花費了數百萬年的進化是什麼」。除了根據條件來重新設計，兩個團隊的最新模型還可以生成蛋白質片段，将片段與已經存在的結構匹配。

這次研究中出現了讓大衛 · 貝克非常驚喜的結果——生成了一種附着在甲狀腺旁激素上的蛋白質。「它憑空想出了這種蛋白質設計」。這種蛋白質的功能是控制血液中的鈣水平。在設計時，科學家隻是告訴模型荷爾蒙的信息，然後讓它生成一種與之結合的蛋白質。接下來，在實驗室測試這種蛋白的時候，他們發現，新設計出的蛋白和激素緊密連接，甚至超出了現有的藥物。

David Baker 實驗室設計的環狀蛋白質｜來源：華盛頓大學蛋白質設計研究所

設計蛋白質的「魔法」

如果說提出對圖畫的描述，讓 AI 幫你作畫已經超出想象；提出一個對蛋白質的要求，讓 AI 幫你設計出這樣一個分子，更像是一種超級能力。大自然花了上億年形成蛋白質進化規律，人類雖然不能完全翻譯這些規律，卻可以發明強大的工具，并對它發出指令：「生産一個可以與 X 結合的分子」。

擴散模型已經在 AI 繪畫顯示了威力。最基礎的直覺原理來源于物理學。在環境中，氣體分子會高濃度區域擴散到低濃度區域，這個過程，也類似噪聲逐步擴散、最終導緻信息丢失。

将這個原理運用在圖像生成，便是将「噪聲逐步擴散、最終信息丢失」的過程逆向運作。先生成一張充滿大量噪聲的圖片，再基于 AI 能力，一邊猜測哪些對于最終的圖像而言是「噪點」，将其去除，那麼剩下的便是所需的「信息」。通過叠代，在噪聲中反複提取出「信息」，最終生成被指定的圖片。

為什麼擴散模型用于蛋白質設計，會有更強大的結果呢？極客公園咨詢了兩位計算機生物學領域的學者。他們表示，目前會有一些依據模型特點的推測，但還很難說清楚。不過目前的研究結果，已經證明了擴散模型的潛力。Baker 實驗室表示：射頻擴散方法在許多問題上優于現有的蛋白質設計方法。

比如用來設計皮摩爾級别的結合劑（1 摩爾 =10^12 皮摩爾）。Barker 實驗室的科學家 Joseph Watson 難掩興奮地在 Twitter 上分享結果：我們設計了五種醫學相關分子的粘合劑。這些結合蛋白通過了最嚴格的計算機測試，現在正在實驗室測試它們。将來，可能隻需要幾秒鐘就可以為任何目标設計出高親和力的結合蛋白。

五種粘合劑｜來源：Joseph Watson

而在 Generate Biomedicines 的最新成果中，具有對稱結構的蛋白質分子表現優異。

Baker 曾經說，「有時候我自己也會覺得這像是魔法。我喜歡做這些魔法般的事情。」隻不過為了取得這些「魔法」，他們經曆的失敗、複雜的研究過程，很少為外界所知。

還有許多結果等待驗證。設計出的蛋白是不是能夠如所設想的具有特定功能？這需要合成出蛋白質，進行實驗驗證。目前 Baker 實驗室正在鑒定一種能與新冠病毒相關的蛋白。這種蛋白具有對稱的結構，能夠與病毒上三個對稱的刺突蛋白結合。

新蛋白與新冠病毒突刺蛋白結合，形成對稱結構｜來源：華盛頓大學蛋白質設計研究所

今年 6 月份，一款新冠病毒疫苗在韓國獲批上市。這是科學家運用之前的蛋白設計能力研發出的疫苗。這款名為 GPB510 的疫苗，是一個人工設計的蛋白質納米顆粒，上面布滿了新冠病毒的刺突蛋白片段。（下圖中的紅色部分），這些片段能夠激發人體産生抗體。

不斷發展的工具，會給人類帶來更多不同功能的蛋白質；如今，正來到了不斷突破的加速期。

* 頭圖來源：enerate BioBiomedicines

本文來自微信公衆号 " 極客公園 "（ID：geekpark），作者：淩梓郡