2024年諾貝爾化學獎：又又又雙叒叕是AI？

作者：奶樹

編輯：蝌蚪

當昨天的諾貝爾物理學獎剛剛頒給了開發了人工神經網絡的 AI 之父傑弗裏 · 辛頓和約翰 · 霍普菲爾德，大家還在暗想：今年不會 AI 來了個大滿貫吧？化學獎也可能給 AI 預測蛋白質結構啊！

于是，不出意外地，瑞典皇家科學院 10 月 9 日宣布，2024 年諾貝爾化學獎一半給了開發人工智能設計蛋白質結構的大衛 · 貝克（David Baker）、另一半則給了開發了人工智能預測蛋白質結構的德米斯 · 哈薩比斯（Demis Hassabis）和約翰 · M · 詹珀（John M. Jumper）。

其實在 RostteFold 和 AlphaFold2 在 2021 年橫空出世的時候，結構生物學家、生物化學家、計算生物學家就已經知道，這項成果，肯定值得一個諾貝爾獎。

說起蛋白質，相信不少人其實并不陌生，甚至了解蛋白質是細胞裏行使各種功能的 " 元件 "。不僅如此，蛋白質也是組成我們身體的基本物質之一。比如說健身可以鍛煉肌肉，但想要肌肉增強變大，就必須有足夠的蛋白質供給才行。

餐桌上的雞蛋、牛奶以及各種肉類都是富含蛋白質的食物，對于人類來說，蛋白質唾手可得；但是，想要得到蛋白質的結構卻難于上青天。

富含蛋白質的飲食 | 圖源：iSlide

因爲蛋白質的結構非常複雜：簡單講，氨基酸組成蛋白質，一個個氨基酸會有叫肽鍵的結構鏈接，它的連接可以形成兩種不同的角度。

那現在給大家出一個簡單數學題：假設有 100 個氨基酸組成蛋白質，那就需要 99 個肽鍵，99 個肽鍵有兩種不同角度的結構，同時不同角度還會有三種可能的穩定結構，那就是 3 的 198 次方種可能，你要是慢慢窮舉，從宇宙爆炸到現在都數不完，這就是利文索爾悖論——蛋白質結構非常非常多樣，沒辦法用窮舉來算完。

氨基酸組合過程中不同的二面角會産生不同的結構，因此才有利文索爾悖論這樣的無窮種結構可能 | 圖源：Wikipedia

結構這麽複雜該怎麽辦？生物學家最直接的想法就是觀測，用不同的方法來測量：上世紀五六十年代，用的是 X 光衍射——把蛋白質結晶，然後打上 X 光，通過反射的角度可以推測蛋白質長什麽樣子，這個難點就是怎麽把蛋白質純化結晶出來。

另一個現在很熱門的研究方法叫冷凍電鏡，就是利用冷凍切片技術，加上電子顯微鏡直接看蛋白質結構，但缺點就是非常非常貴，太燒錢了。

冷凍電鏡的基本原理 | 圖源：Wikipedia

那大家猜猜這麽些方法，測量了幾十年了，我們分析出來多少個蛋白質結構？其實已經不少了，根據數據庫記載，現在實驗已經解析了18 萬種蛋白質。

但是相對的，我們剛剛說到蛋白質是氨基酸組成的，隻要測序技術測得到 DNA 序列，就能推導出蛋白質序列。查找數據庫可以發現，現在已知的有十幾億種蛋白質序列，這和 18 萬之間差了将近一萬倍。

所以結構生物學家就很苦惱——測序太簡單了，導緻結構生物學遠遠跟不上測序的速度。

蛋白質結構解析數量變化 | 圖源：Nucleic acids research, 2019.

蛋白質序列測序的速度 | 圖源：www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多開發算法的計算生物學家就想預測結構，通過算法預測肯定比做實驗快很多。但是剛剛也說了利文索爾悖論，預測結構非常非常難，你要是窮舉那是天文數字。

所以有很多的計算思路，比如我可以類比，實驗解出來的結構我可以類比相似的序列，推測相似的序列會不會有相似的結構，這個叫同源建模；也可以拆開來類比，比完再像縫縫補補拼積木一樣把結構拼出來，這個叫穿線法……但是這麽多方法都有個問題：精度特别差。這就好像我想看 1080P 的高清視頻，但是怎麽調都隻有馬賽克高糊版，看都看不清。

做個類比的話，比如實際的蛋白結構是左圖，但是預測結果往往隻能得到左圖的效果，很多信息都無法得知（僅作示意進行處理，實際并不僅僅是模糊，還會有很多完全不同的差别） | 圖源：Wikipedia

爲了促進各國科學家不斷向前，從 1994 年開始，每兩年都會舉辦CASP，叫蛋白質結構預測關鍵測試，來評估大家的算法預測準不準，來提高算法的精度。

簡單來說就是從各種蛋白質序列裏挑幾個出來，一邊讓結構生物學家做實驗解出一個 " 标準答案 "，然後計算生物學家就用自己的算法來比，看看誰跟标準答案更接近。

但很遺憾，24 年過去了，仍然進展很慢。

CASP 官網

直到 2018 年，一個叫 AlphaFold 的方法出來，得到了 80 分的高分，兩年之後 2020 年 AlphaFold 二代打分到了 90 分，基本就和實驗做出來的标準答案一樣了。還是剛剛 1080P 的比喻的話，别人預測像個馬賽克，但 AlphaFold2 預測就已經差不多 1000P，和 1080P 基本大差不差。

這個大家也知道了，就是 Deepmind 公司的德米斯 · 哈薩比斯和約翰 · M · 詹珀開發的人工智能方法。

AlphaFold2 方法預測的精度遠遠超過其他算法（圖 a），同時預測的結果和實驗結果基本吻合（圖 b-d）| 圖源：Nature, 2021.

随後這個方法開始廣泛應用到了生物學上，一發不可收拾。

一是 Deepmind 開發的AlphaFold2算法，在短短幾個月時間裏，就把幾十年結構生物學家解析的沒解析完的蛋白質都解了：人體 98% 的蛋白質都試着預測了一遍，其中三分之一能準确預測，還有一些也能大概預測一半多。同時他們聲稱後面幾個月就把數據庫擴展到一億個蛋白質。這就比實驗方法快了上萬倍了。

基于 AlphaFold2 預測的蛋白質結構數據庫

另一個生物學上的應用，是同樣基于人工智能算法，由大衛 · 貝克開發的RoseTTAFold，它挑戰的是更難的領域——怎麽預測蛋白質和蛋白質相互結合，也在短時間預測了幾千種蛋白質的相互結合。

RoseTTAFold 的宣傳圖，最突出的就是對于蛋白質互作的結構預測

在 AlphaFold2 正式發布後隻過了半年多，2022 年 7 月，DeepMind 公司的 CEO，德米斯 · 哈薩比斯就在新聞發布會宣布：我們已經掌握了 " 整個蛋白質世界 "（The entire protein universe）—— AlphaFold 馬不停蹄地運轉，成功完成了現有蛋白質數據庫中全部 2.14 億種蛋白質的結構預測。

德米斯 · 哈薩比斯 | 圖源：Jung Yeon-Je/AFP/Getty

2.14 億種蛋白質中，有 35% 被評估爲高度準确，雖然這個數字看起來不高，但是按照目前實驗檢測的水平，全部做完也就差不多這個水平——更何況，截至目前實驗檢測花了幾十年也隻測出了 14 萬種。

僅在 DeepMind 公司宣布完成了 " 整個蛋白質世界 " 三個月後，2022 年 10 月，Meta 公司（原名 Facebook）就拓寬了這個 " 蛋白質世界 " 的邊界（‘ dark matter ’ of the protein universe）——他們利用自己開發的大型語言模型算法 ESMFold，預測了 6.17 億種來自宏基因組信息的微生物蛋白質結構。

ESMFold 算法的準确度雖然略遜于 AlphaFold，但它的優勢在于能以 60 倍于 AlphaFold 的速度去預測短序列蛋白質的結構，這就使得它在預測結構相對簡單的微生物蛋白質上有了很大的優勢。

6.17 億種蛋白質結構的全覽 | 圖源：ESM Metagenomic Atlas

沒過幾天，AI 又開始颠覆生物學家的認知了——創造蛋白質。

這其實是一個和蛋白質結構預測剛好相反的問題：蛋白質結構預測是從序列到結構，而創造蛋白質是要求從我們希望得到的結構，反推出合适的蛋白質序列。過去這是個計算量巨大的工作，現在 AI 也能完成了。

四種目前常用的設計蛋白質策略 | 圖片翻譯自：Nature

相比于大批量預測蛋白質結構，創造蛋白質的目的就更加明确——我們希望能創造出自然界不存在，但是對人類非常有用的蛋白質。

設計蛋白質的嘗試還在不斷進步和叠代，已經逐漸用到了實際應用當中。例如在 RoseTTAFold 的研究中，利用 ProteinMPNN 和 RoseTTAFold 方法設計出來的蛋白質，不僅在自然界完全不存在，并且大大提高了這些蛋白質結構的穩定性，預計在未來會被用作疾病治療的抗原抗體，或者生物化學反應所需的生物酶。

蛋白質設計的過程，通過不斷改變序列讓蛋白質結構趨于穩定（結構的穩定基于 AlphaFold 預測，越紅代表越不穩定，越藍代表越穩定） | 圖源：Nature

不少人可能要問了：預測蛋白質結構，到設計蛋白質，有啥用呢？

我們最開始就提到了蛋白質在我們生活無處不在，而蛋白質要發揮功能，基礎是要有一定的結構。所以預測蛋白質結構，可以幫助我們更好地理解蛋白質的功能，進而去比如構建蛋白質分子藥物，或者研究複雜的生物化學現象。

一個最簡單的例子，比如現在我們知道新型冠狀病毒的新變異奧密克戎傳播力特别強，而這傳播關鍵的刺突蛋白結構，就可以利用人工智能來預測，進而可以推測什麽藥物或者治療方法可以更有效的針對奧密克戎。

使用 AlphaFold 預測的奧密克戎突變體的 S 蛋白結構

但同時，雖然說人工智能已經完成了結構生物學家很多的工作，但是這個預測仍然是不完善的：

比如有些複雜的結構，可能結構生物學家實驗還沒有解析出來，人工智能也就還沒辦法學習到，因此也預測不出來，所以很多問題仍然需要結構生物學家的深入探究；

還有很多蛋白在發揮功能的時候是一個動态變化的過程，這種時候預測的結果就不準确，還是用 1080P 舉例的話，就是理論上是一個 1080P 的視頻，但是人工智能在這幾秒預測出來是 1080P 高清，那幾秒預測出來卻是馬賽克，所以也不準确。

這些都是人工智能預測蛋白質的瑕疵，但是瑕不掩瑜，人工智能在蛋白質結構預測帶給我們的驚喜實在太多了，而這項諾貝爾獎，就是計算科學在生命科學上應用的最好證明。

參考資料：

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein [ J ] . Nature, 2022, 608 ( 7921 ) : 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [ J ] . Science, 2023, 379 ( 6637 ) : 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins [ J ] . Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [ J ] . Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies [ J ] . Science, 2022, 378 ( 6615 ) : 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [ J ] . Science, 2022, 377 ( 6604 ) : 387-394.