在2000年出版的《劍橋世界食物史》(The Cambridge World History of Food)中,記載了一則轶事:1728年,意大利學者雅可布·貝卡利(Jacopo Beccari)宣布,發現白面粉中存在具有"動物物質"全部特性的東西。他的處理方式,是将和好的生面團在水中揉搓清洗,除去細小的白色澱粉顆粒,剩下的就是粘性的面筋團,因爲不知道它是從哪兒來的,人們就以爲它來自動物。貝卡利認爲,這些"動物物質"成分使得小麥特别有營養。作爲一個整體,面粉并沒有表現出動物物質特性,這是因爲大量澱粉的存在掩蓋了面筋的性質。
貝卡利的這一在現代人看起來無比粗糙的研究,卻在無意中爲後代人開啓了一扇通往微觀生命世界的大門。在一個世紀後的1838年,荷蘭醫生蓋裏特·穆爾德(Gerritt Mulder)發表文章稱,他分析過的所有重要的"動物物質"都具有相同的基本組成:40個碳原子,62個氫原子,10個氮原子和12個氧原子,可以簡單地表示爲C40H62N10O12。這些"動物物質"表現出不同的性質,僅僅是因爲依附于它們的硫或磷原子的個數。他以希臘海神普羅透斯(Proteus,具有預言能力,但會變換成各種形狀以逃避回答問題)爲名,将其正式命名爲"蛋白質(protein)"。而經過他的研究,初步認定了蛋白質是構成動物和植物的基本物質之一。
再往後的故事,如大家所知,20世紀人類開始從分子層面認識和研究生命,除了DNA的秘密被揭曉,推動了生命科學領域的一次重大飛躍外,蛋白質作爲生命的物質基礎、生命活動的主要承擔者的重要性也逐漸爲科學家所發掘。而有關蛋白質的研究,特别是關于其三維構型的研究,在經曆了很長一段時間緩慢的推進之後,終于在21世紀的前二十年裏,被AI一舉攻破,"AI蛋白質折疊"成爲生命科學領域乃至整個科學研究領域最重要的研究成果。
至此,一幅全新的生物經濟畫卷在人們眼前逐漸展開:利用AI去設計蛋白質(而不是在自然界中挑選蛋白質)、生産契合人類需求的蛋白質産品,如藥物、食品、調味品、新材料、營養保健品、化妝品等,進而推動現有以高污染、高耗能的化工原料爲基礎的社會生産生活重心,向着新型的、綠色環保的、可持續發展的生物基社會轉變,成爲當下科學家和産業界孜孜不倦的追求。
再回到當下,我們常說21世紀人類将航向兩個宇宙。一個宇宙向外,去往星空深處;一個宇宙向内,去往生命科學的奧秘。近年來中國航空航天工程的快速崛起,再次打開了停滞許久的人類探索太空宇宙的大門,而這艘名爲"AI蛋白質折疊"的宇宙飛船,同樣由中國學者按下了起飛的按鈕,也已經沖出了人類探索生命宇宙的大氣層。
時值年中,正是一個階段性回顧與總結的時間,我們不妨一起回望,它是從何而來,如何發射升空,未來還将駛向何方。
讓我們回到開端,去重新了解一個我們無比熟悉又異常陌生的事物:蛋白質。
之所以說熟悉,是因爲"蛋白質"在當下這個生活條件富足的時代中,出現的頻次實在是太高了。各種關于飲食、保健的文章和視頻都會不停地告訴我們,某某産品中富含某種蛋白(質),讓大家都知道蛋白質是對身體十分重要的營養素。而說陌生,則是因爲大多數人對于蛋白質的作用、價值乃至深層次的運作機制其實不甚了解。
從生命科學的角度來說,蛋白質是生命體内四種主要大分子之一(另外三種分别是核酸、多糖和脂質)。在生命體内,DNA作爲生命信息的載體,負責遺傳信息的存儲。圍繞它的研究、技術及應用,構成了20世紀人類生命科學領域最重大的進步之一。而關于它的故事,從20世紀50年代雙螺旋結構的發現,到當下各種新興醫療技術的誕生,人們已經不再陌生。
但大家不甚了解的是,遺傳信息需要通過轉錄和翻譯形成蛋白質,才能在生命體中執行各種功能。生長、發育、運動、遺傳、繁殖等在内的一切生命活動都離不開蛋白質的參與,包括組成生命體、輸送各類物質、抵禦病毒、消化食物、提供能量、調節激素等,它也因此被稱作"生命的物質基礎"和"生命活動的主要承擔者"。
那麽,蛋白質如何能夠發揮如此多的作用?
答案在于,蛋白質擁有豐富而複雜的空間結構,這些結構決定了蛋白質的功能。蛋白質以氨基酸爲基本組成單位,氨基酸的不同排列(即序列)以及在此基礎上的卷曲折疊,形成了特定的三維立體結構,進而執行不同的功能。人類現在已知組成蛋白質的氨基酸有20餘種,如果它們可以以任意順序和長度鏈接、并折疊形成不同的蛋白質,那麽理論上可能存在的蛋白質數量會達到約101300,比整個宇宙中的原子數量還要多很多倍,功能更是因此豐富而複雜。
換言之,理想的情況下,如果我們可以測清氨基酸在組成蛋白質時折疊構成的三維結構,就可以了解清楚蛋白質發揮什麽作用和如何發揮作用,那将對人們理解生命運行、探索生命奧秘發揮巨大的助益作用。更進一步,如果人類可以在此基礎上對蛋白質進行設計、改造乃至創造自然界中尚不存在的蛋白質,引導它發揮特定的功能,那更将會産生難以估量的價值。例如,在藥物研發領域,靶點、抗體藥、多肽類藥物、蛋白疫苗、融合蛋白藥物等都是蛋白質,如果能夠設計出新穎的蛋白藥物,将會有更大的概率解決當前人類遇見的許多疑難雜症;在食品領域,開發優質、安全、價格低廉的替代蛋白食品,豐富人類營養來源、解決食品短缺問題;材料領域,通過優化蛋白質,開發易降解且能循環使用的環保生物材料,促進社會可持續發展等。
然而,理想很美好,現實卻很曲折。僅僅爲了弄清楚蛋白質的組成和結構,科學界就已經花費了近一個世紀。1902年諾貝爾化學獎獲獎者、德國化學家費舍爾(Hermann Emil Fischer)在20世紀的第一個十年中,率先提出氨基酸之間的肽鍵相連接形成蛋白質的論點,爲蛋白質結構研究開啓先河。然而直到半個世紀後的1959年,英國生物學家馬克斯·佩魯茨(Max Perutz)和約翰·肯德魯(John C. Kendrew)使用當時新興的X射線晶體衍射技術,分别對血紅蛋白和肌血蛋白進行了結構探究,人類才第一次"看清"蛋白質分子的細節,二人也因此獲得了1962年諾貝爾化學獎。在同一時期,美國生物化學家克裏斯蒂安·安芬森(Christian Boehmer Anfinsen)于1961年發表論文,認爲蛋白質所有造成最終構象所需的信息,都被編碼于其氨基酸序列上,即蛋白質一級排序決定三維結構。他的這一猜想被稱爲"安芬森法則",爲後來的蛋白質結構預測奠定了基石。1972年,安芬森也憑借着這一法則斬獲了諾貝爾化學獎。
此後,關于蛋白質結構的研究又經曆了半個世紀曠日持久的緩慢推進。科學家陸續使用晶體衍射、核磁共振、冷凍電鏡等不同實驗技術來測定蛋白質的三維坐标。然而,所有這些方法都存在着耗時長、花費高、成功率低等一系列問題,加上蛋白質的數量種類十分龐大,人們用實驗探索蛋白質結構的努力隻能算是杯水車薪。
到了90年代,計算機科學的興起,讓基于能量優化的計算方法又成爲一種可能。該方法的理論基石就是前面說到的"安芬森法則",即蛋白質會折疊到最小的能量狀态,如果能把某個蛋白質的能量最優化,理論上就可以算出它的結構。而把這種方法教給計算機,就可以一步步優化能量,從而達到預測蛋白質結構的目的。
然而,基于能量優化的計算方法雖然在一段時間内取得了一定成果,結果卻始終無法令人滿意,預測出來的結構離實驗技術測出來的結果相差非常遠。究其原因,一方面蛋白質是一個非常大的體系,由成千上萬個原子組成,對應一個非常大的搜索空間,構型是千變萬化的;另一方面,雖然研究者普遍接受蛋白質折疊到最小能量狀态,但對于"能量函數到底是什麽樣的"這個問題,研究者們莫衷一是。
巨大的研究價值,加上有限的研究手段和緩慢的研究進展,讓蛋白質結構研究成爲現代分子生物學"皇冠上的明珠"。僅在二十世紀的後四十餘年内,蛋白質相關的研究成果就有七次獲得諾貝爾獎,足見其研究難度和價值。
就此,深入廣闊無垠的蛋白質世界、揭開更多的生命奧秘,成爲生命宇宙探索的一個清晰的航向。
進入二十一世紀,機器學習逐步成爲計算機科學的重要研究方向,也開始影響蛋白質結構研究。傳統的機器學習方法是直接把蛋白質的氨基酸序列映射到一個三維構型上去,結果略優于基于物理或統計的方法,但并沒有得到本質上的改變。
這時,一把新的鑰匙出現了。
一件在AI領域衆所周知的裏程碑事件,是深度學習的嶄露頭角。2012年9月,Geoffrey Hinton等人發表了題爲"用深度卷積神經網絡進行ImageNet圖像分類"的論文。文中提出的AlexNet深度卷積神經網絡,在當年的ImageNet分類任務比賽ILSVRC-2012上以巨大的領先優勢獲得冠軍,全面刷新了此前紀錄。就此,深度學習技術異軍突起,進而帶動沉寂多年AI技術進入了新的高潮期,業界迎來了寒冬之後的第三次AI崛起。
深度學習算法采用了模拟大腦神經元工作方式的多層神經網絡來實現。它的優勢在于,可以不關注每一步的具體計算流程,而是隻需要關注整體的輸入和輸出結果。比如在蛋白質結構研究這一領域,研究者可以提供氨基酸序列,并向AI算法提供氨基酸序列對應的結構,從而訓練AI學會自主預測蛋白質結構。這個方法跨越了以往蛋白質結構預測方案的思維定式,全面激活了AI蛋白質預測的可行性。
此時,依舊堅守在蛋白質結構研究的科學家中,已經有人敏銳地注意到了深度學習這個新工具。但最初的嘗試依舊并不樂觀,使用深度學習後與傳統的機器學習方法差别不大。深度學習與蛋白質分析的第一次相遇,并沒有取得勢如破竹的效果。
讓這一切真正從長夜走向黎明的,是一位中國學者的研究成果。
2014年,在芝加哥大學豐田計算技術研究所任職的許錦波教授,設計了一種新的深度學習算法,從更爲簡單的問題入手——預測蛋白質的二級結構,即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側鏈。測試發現,深度學習對這個簡單問題有效。此後在2015年和2016年,許錦波教授再次開發了更好的深度學習算法,可以直接用來預測蛋白質的三維結構。
2016年夏天,許錦波教授開發出的算法RaptorX-Contact,證明了深度殘差卷積神經網絡可以大幅度提高蛋白質結構預測的性能,并在當年的全球蛋白質結構預測比賽(CASP12)中,在蛋白質接觸矩陣的預測上得分居首位,引發學界關注。在此之前,CASP的平均得分一直在30分左右徘徊,而許錦波教授的算法一舉将紀錄提升到了60分,實現了真正的颠覆性突破。相關成果于2017年發表于國際計算生物學會官方期刊PLoS Computational Biology,後來獲得PLoS Computational Biology創新突破獎。
至此,蛋白質宇宙的大門,終于被"AI"這把鑰匙打開了。
此後,許錦波教授繼續優化和推廣這一算法,他的核心思想也快速被業界其他研究者采納,并相繼用于各種AI蛋白質折疊算法的開發。一時間,用深度學習方法研究蛋白質結構的成果出現了井噴。僅許錦波教授自己,就很快在随後的研究中進一步認識到,氨基酸之間的距離預測,不能一對一對預測,要所有對一起預測,并又一次率先開發出端到端模型。相關成果于2019年8月在美國國家科學院院刊(PNAS)發表,全球範圍内首次将AI應用至蛋白質氨基酸(原子)之間的距離預測,進一步提升了蛋白質三維結構預測的精度,且讓科學家僅需使用筆記本電腦就能完成這項工作,将AI蛋白質結構預測又推向了一個新的高度。
再往後的故事,大家都知道了。DeepMind推出的AlphaFold 2在2020年的CASP 14中,實現了對大部分蛋白質結構的預測與真實結構隻差一個原子的寬度,達到了人類利用冷凍電鏡等複雜儀器觀察預測的水平,引發了全球科學界海嘯般的轟動。當年,AI預測蛋白質結構就被《科學》雜志評爲"十大科學突破之一",2021年又被評爲"十大科學突破"之首,2022年又入選了《麻省理工科技評論(MIT TR)》十大突破性技術。
不過,在此期間,還有一個不被外界熟知的小故事。
在2016年秋天,許錦波教授召開了一個小型報告會,向學界人士介紹RaptorX-Contact的研究成果。其中一位參會者,就是芝加哥大學生物物理系的博士後、後來領導DeepMind團隊、設計了AlphaFold的John Jumper。在聽完報告後,後者全力轉向深度學習方法,并在一兩個月後加入DeepMind。
後來,業界普遍認爲,AlphaFold的早期版本,其實現方式并沒有太多創新,而是基于RaptorX-Contact的算法思想。而AlphaFold 2中的關鍵思想,即端到端模型,根據序列的特征直接輸出三維結構,同樣與前述許錦波教授于2019年發布的研究成果異曲同工。也正因爲如此,AlphaFold取得的成果,還曾在業内引起過一段争議:相比較大學校園中的科研活動,大企業支持的商業實驗室,其成果是否更多是精湛的工程技術,而非創新的科學見解?
當然,這段曆史現在已經有了公論。CASP比賽的創辦人,馬裏蘭大學細胞生物學和分子遺傳學系教授約翰·莫爾特(John Moult)就曾表示:"DeepMind在開發一種非常有效的方法方面做得很好。然而,這項工作背後的概念和方法并非憑空而來,關鍵技術是深度學習方法的應用。毫無疑問,DeepMind直接建立在許錦波的工作之上。"
站在當下,AlphaFold爲生命科學帶來的巨大影響無法被否定。但中國學者許錦波在推動AI蛋白質研究、AI for Science的道路上做出的先驅、開創性的成果,也同樣不該被人忘記。
正如本文第一部分所說,測清蛋白質的三維結構,将對人們理解生命運行、探索生命奧秘發揮巨大的助益作用。在此基礎上,如果我們可以對蛋白質進行重新設計、引導它發揮特定的作用,乃至生成全新的蛋白質,那更将會産生難以估量的價值。就此而言,許錦波教授和他的RaptorX-Contact開了一個頭,但這隻是一個開始。畢竟在深邃的生命宇宙中,還有更多的未知等待着人們去發現。比如,對AI蛋白質結構預測的手段進行優化,進而探明更多蛋白質的結構、更深入地理解生命運行的機制;再比如,更具有應用想象力的AI蛋白質優化與設計。
由于AlphaFold 2擅長的是預測和計算單個蛋白質的結構,僅能夠做預測且高度依賴MSA(來自同源蛋白質的多序列比對)及其衍生的共進化信息和序列譜,而蛋白質世界具有的巨大複雜性,意味着蛋白質結構預測還有很大的探索空間,例如蛋白質與其他分子的相互作用、單點突變對蛋白質結構和功能的影響、孤兒蛋白質結構預測、蛋白質側鏈預測等。因此,僅AI蛋白質結構預測領域,在AlphaFold 2出現後就仍然不斷有前沿成果湧現。
例如,2021年,"科學突破獎"獲得者,被稱作"上帝之手"的華盛頓大學教授David Baker領導來自華盛頓大學、哈佛大學、德克薩斯大學西南醫學中心等團隊發布的AI工具RoseTTAFold,擁有媲美AlphaFold 2蛋白質結構預測的超高準确度,而且更快、所需計算機處理能力更低,不僅可以預測單個蛋白質結構,還能預測蛋白複合物結構,但和AlphaFold 2類似,依賴于使用MSA和相似蛋白質結構的模闆來實現最優表現。2022年,META也曾推出ESMFold,其在預測蛋白質的三維結構方面與AlphaFold 2能力相當,且能預測孤兒蛋白的結構,計算速度比AlphaFold 2快了一個數量級,單序列輸入時精度也明顯好于AlphaFold 2。不過後來META解散了該團隊,停止在這一領域繼續大規模投入。除了這兩個在業内大名鼎鼎的團隊之外,在其他一些AlphaFold 2沒有很好解決的問題方面,仍有研發團隊不斷取得超過前人的成果。
這裏還有一個小插曲。2024年5月8日,谷歌旗下公司DeepMind和Isomorphic Labs合作,正式發布了蛋白質結構預測領域的最新AI模型AlphaFold 3。DeepMind宣稱,AlphaFold 3能預測含有蛋白質數據庫(Protein Data Bank)内幾乎所有分子類型的複合物的結構,包括配體(小分子)、蛋白質、核酸(DNA和RNA)如何聚集在一起并相互作用,以及預測翻譯後修飾和離子對這些分子系統的結構影響,從而幫助我們在原子水平上精确地觀察生物分子系統的結構。不過,這一全新版本暫時不開源代碼,需要等到六個月以後,才能将代碼和模型權重提供給學術界使用。因此,新版本能在多大程度上超越前作,謎底還有待進一步揭開。
而在AI蛋白質結構預測繼續取得突破的同時,也有目光長遠的科學家轉向了更具産業應用價值的AI蛋白質優化與設計。
以生物醫藥爲例,此前,由于對蛋白質結構與功能的理解不夠深入,生物藥的開發一定程度上受到了局限。而如果可以運用AI對蛋白質進行優化與設計,則有希望加速提升蛋白質藥物的性質,獲得更理想的功能,甚至可借助AI,根據靶點按需快速生成新的蛋白質藥物乃至自然界不存在的全新藥物分子,很多過去缺少解藥,甚至被視爲沒有解藥的疾病,有了被治愈的可能。
同理,在其他諸如合成生物、農業、食品、新材料等更廣泛的領域,AI蛋白質優化與設計技術還有更多、更豐富的想象力。例如,在當下發展勢頭迅猛的合成生物領域中,酶(也是一類蛋白質)被廣泛使用用于生物催化,如果可以設計和改造酶的結構和功能,提高催化效率、穩定性和選擇性,将極大提升生物合成、催化與轉化的效率。或者,直接設計具有特定功能的蛋白質制品,比如,開發更易于人體吸收、更富營養的替代蛋白食品;研發對人類安全無害、對環境友好的綠色生物農藥;開發強有力的塑料降解催化劑幫助消除污染;創造更有延展性和韌性的纖維材料從而提升航空工業水平;提升農作物的産量、品質,培育更多綠色高産的農作物産品……如此多的應用方向,還有待人們開發強有力的蛋白質優化與設計工具逐一去探索解決。
但相比蛋白質結構預測,蛋白質設計是一個更加困難的問題。
首先,蛋白質序列空間非常大。自然界有20餘種氨基酸,假設我們需要設計1個帶有100個氨基酸的蛋白質,這個蛋白質的序列空間就有20100種可能性。但是這個巨大的序列空間中僅有很小比例的氨基酸序列可以穩定折疊,且具有我們所需的特定功能。因此,要在巨大的空間中找到符合需求的氨基酸系列,無異于大海撈針。
其次,基于特定功能設計蛋白質,需要對蛋白質結構、功能的深入理解,而這對科學家和産業界而言,仍是難題。
再次,産業界對蛋白質的需求複雜多樣,比如根據特定靶點設計蛋白藥物,設計可催化特定底物的酶,或是提升現有酶的催化效率等,這無疑又加大的蛋白質設計研究的複雜程度。
以有"萬能生物催化劑"之稱的P450酶(CYP)爲例。作爲一個在生物體内廣泛分布的龐大酶家族(包含多個家族、亞家族和酶個體,具有高度的多樣性和複雜性),它能夠催化多種反應類型,且可識别的底物(即可與其發生生化反應的物質)範圍極廣,因而在藥物合成,以及合成生物領域的應用中具有極大的潛力。由于天然存在的P450酶無法完美契合工業需求,因此改造現有或設計具備新功能的P450酶,從而拓寬其應用範圍的需求就應運而生。然而,大多數P450蛋白的長度約爲4—500個氨基酸,這就意味着,設計出新P450的可能性就達到了20400-20500,比宇宙中所有原子的數量(有預計可達到1078x1082)還要多得多,想找到合适的那一種無異于在大海中撈針。不止如此,由于P450酶的催化反應需要适配的輔酶,這就意味着設計具備新功能的P450酶,還需要同時考慮其他蛋白質與其相互作用的情況,這讓設計新酶的複雜度呈指數型上升。
在沒有AI技術以前,科學界也在運用一些方法,試圖在浩如煙海的蛋白質宇宙中,尋找可能對人類有價值的蛋白質分子,并有目的地對蛋白質分子進行優化設計,使其更好地爲人類所用。例如,定向進化和理性設計。前者主要是模拟自然選擇的過程,對目标基因進行多輪突變和篩選實驗,直至獲得所需的優良變體;後者則是依據序列和結構信息,選擇較少的關鍵位點進行精準改造。但兩者都具有很明顯的缺陷。前者通過模拟自然選擇過程,對目标基因進行多輪突變和篩選實驗,直至獲得所需水平的優良變體,但是該技術受限制于較低的篩選速率和序列空間中龐大的變體數量。後者依據序列和結構信息,選擇較少的關鍵位點進行精準改造,從而構建較小的突變文庫,但是需要對結構功能信息有深入了解,并且當實驗結果不符合預測時無法調整。像前述的P450酶,想要找到理想的新分子,研究者們可能花費畢生的精力,也未必能得到想要的成果——從20世紀50年代P450酶被首次發現以來,研究界還從未能夠通過人工設計的方式得到新的分子,僅僅是對某些已存在的分子進行了部分改造優化。研究界需要更有力的工具方法,更快、更精準地設計符合需求的蛋白質。
2018年以後,許錦波教授率先将研究範圍擴展至AI蛋白質優化與從頭設計,并将預訓練機制引入其中,進一步探索AI蛋白質技術的産業應用路徑。他先後推出了十餘項技術,比如,可同時用于蛋白質側鏈預測與序列設計的算法,性能媲美ESMfold的單序列結構預測算法,精度超越AlphaFold 3的複合物預測算法等,并創新性地融合AI與分子動力學、量子化學等技術,解決科學與産業問題。這些技術不僅在測試中表現出了世界領先的性能,也在濕實驗中得到驗證,迅速被一些跨國藥企、生物科技公司所采用。2021年底,他回國創建了名爲"分子之心"的AI蛋白質優化與設計平台公司,并快速推出了業内首個功能完整的AI蛋白質優化與設計平台MoleculeOS,推動相關研究成果盡快實現更大的應用價值與社會價值。
除了許錦波教授以外,其他團隊也在陸續發表AI蛋白質設計算法,探索各種功能性蛋白質生成,隻是成果僅限于計算層面,未有公布産業應用結果。2022年9月,David Baker團隊又開發出一種名爲ProteinMPNN的從頭設計蛋白質的深度學習工具,确定與給定蛋白質結構相對應的氨基酸序列,短短幾秒鍾之内就能夠根據自主意願快速生成全新蛋白質,不過無法要求蛋白具備某種性質;2023年7月,該團隊又發布了一種能從頭設計全新蛋白質的深度學習方法RoseTTAFold Diffusion,其基于擴散模型(diffusion model),能生成各種功能性蛋白質,包括在天然蛋白質中從未見過的拓撲結構,但與ProteinMPNN類似,無法進行精确的條件式生成,讓蛋白具有某種特定的性質。2022年12月,Generate Biomedicines也公布了一個名爲Chroma的項目,同樣借助擴散模型(diffusion model),生成自然界中沒有的全新蛋白結構,并生成了模拟26個英文字母和10個阿拉伯數字形态的全新蛋白結構。然而,Chrome無法基于功能需求産生蛋白,也不能指導如何評估生成的蛋白的功能性,因此更類似于科研工作,對産業應用有多少價值還有待進一步挖掘。
AI蛋白質優化與設計工具如雨後春筍般地出現,讓關于AI蛋白質宇宙的探索,又進入到一個更深邃的空間。
當時間進入2023,已經駛入深空的AI蛋白質研究又獲得了新的助推器——大模型。
2022年年底,以ChatGPT爲代表的大語言模型掀起了新的AI熱潮,運用AI大模型解決産業問題成爲一種新的趨勢。而在科學家們看來,生物是一個高度數字化的系統,具備可解讀、可編程的特性,因而大模型的生成能力同樣可以應用在生命科學領域,二者可以說是天作之合。
不過,諸如ChatGPT之類的AI大模型,側重于通用領域的文本、圖片、視頻等内容生成,無法滿足諸如蛋白質生成之類的産業深度需求。原因在于,蛋白質序列形成的結構比自然語言的結構複雜得多,數據也比自然語言複雜得多,涉及高度專業、多樣的蛋白質大數據。現代的通用大模型底層架構無法精準地對這些蛋白質多模态數據精準建模,要做好蛋白質生成,必須從底層建立更新、更強大的AI建模技術。因此構建AI蛋白質生成大模型、提升蛋白質設計的效率和成功率,也成爲業内關注的新方向。
研究界在近幾年陸續産生一些成果。例如,2020年,AI研究機構Salesforce Research、合成生物學公司Tierra Biosciences和加州大學舊金山分校的一組研究人員聯合構建的ProGen,能夠以類似"遣詞造句"的方式生成跨多個蛋白質家族且功能可預測的蛋白質序列。但其隻能接受序列信号、無法接受結構信号,不能夠同時考慮結構、功能、相互作用、進化等信息,成功率較低,也無法精準地實現産業應用中所需要的功能。而在國内,2023年,百圖生科與清華大學聯合提出了千億參數的蛋白質語言模型xTrimoPGLM,探索了蛋白質理解和生成這兩種類型目标之間的兼容性以及共同優化的可能性,能夠對單個蛋白質、細胞中蛋白質相互作用、細胞本身,以及細胞系統建模。2024年6月,由前Meta AI研究人員創立的Evolutionary Scale AI發布了蛋白質語言模型ESM3,能力超越了前述兩種,支持序列、結構、功能的同時推理,但目前仍存在生成精度不足、使用特别複雜、無法微調等問題。
率先取得産業應用成果驗證的,還是許錦波教授及其團隊。在分子之心成立不久後的2023年,團隊又推出了業界首個集成序列、結構、功能和進化的産業級AI蛋白質生成大模型"NewOrigin(達爾文)",不僅具備成功率高、普适性高等優勢,從而通過計算的方式,規避了傳統方法對大規模濕實驗(即生物實驗)的依賴,提高生産效率、降低成本,還可以讓不具備AI算法背景的生物學家,通過對話的形式與大模型進行交互。
此後,團隊積極地将其投入應用于産業項目,在産業實踐中一邊獲得反饋、一邊進行優化。不到一年的時間裏,就取得了多個産業應用成果。例如,在生物材料領域,運用NewOrigin幫助合作夥伴優化一種涉及行業瓶頸,但極具商業價值的關鍵蛋白質,在未使用産業場景數據的情況下,相對于野生菌,AI設計的一個重要酶蛋白結構使菌種産率提高了5倍,有望讓這一被持續改造了數十年的蛋白質實現性能飛躍,從而帶動産率大幅提升、成本大幅降低;在創新藥研發領域,針對某蛋白疫苗的穩定性、表達量等進行多目标優化,AI優化後的疫苗,經過動物實驗表明,産生中和抗體滴度達到已公開專利和相關大型藥企同類疫苗的數倍,并突破相關疫苗穩定性專利。而AI設計的一條細胞因子管線,在保持抑制腫瘤活性的同時,減毒(減少外周活性)數百倍,猴子耐受劑量達到同類管線的數十倍……成功的産業應用成果,證實了AI蛋白質大模型的強有力能力。
大模型的表現初露鋒芒,讓人信心倍增。在大模型的加持下,過往蛋白質研究的"挖礦尋寶"碰壁試錯的模式,将變成"按圖索骥"的新方式,甚至有可能從頭"發明"具備特定功能的全新蛋白質。而通過可編程的蛋白質設計技術,将解決傳統方法無法滿足的需求,極大地提升藥物研發、合成生物、新材料、食品、農業、環保等領域的研發效率,并降低成本。一個由AI蛋白質大模型作爲底層技術支撐、從而推動生物制造産業更加欣欣向榮的場景,已然躍入眼前。
值得一提的是,2024年9月,分子之心宣布完成A輪融資。融資額達數億元人民币,由謝諾投資、深創投聯合領投,商湯國香資本、久奕投資跟投。截至此次融資,分子之心累計完成3輪融資,過往投資方包括合成生物學龍頭企業凱賽生物、紅杉中國、百度BV、聯想創投等。至此,分子之心可以說已經成長爲具有行業标杆地位的AI生物大分子設計平台公司,爲中國AI生物基礎設施建設打開了新的局面。
許錦波教授表示,本輪融資将用于進一步擴大頂尖複合型技術及産業人才團隊,推進高性能算力平台、智能化高通量濕實驗室等硬實力建設,深入AI蛋白質基礎大模型、AI蛋白質優化設計平台MoleculeOS等生物經濟基礎設施建設,更進一步推動AI蛋白質技術的産業級應用及商業化發展。
有了大模型這一助推器,AI蛋白質宇宙深空中的繁星愈發觸手可及。
二十世紀的後五十年中,人們見證了以基因技術爲代表的生物科技日新月異,以及在此基礎上醫療健康水平的提升、農牧業生産改善與豐富。進入二十一世紀,合成生物學、AI蛋白質折疊爲代表的新一代生物科技興起。一種不依賴化石能源,而是通過生物制造與生物産品推動社會發展的新科技通道,躍入了人類社會的想象。
麥肯錫全球研究院曾在2020年發布的一份研究報告中指出,全球經濟活動中60%的物質産品可以通過生物技術進行生産,其涉及市場規模可能高達4萬億美元。面對如此巨大的經濟價值,以及化石能源走向枯竭、環境污染日益嚴重的問題,世界各國紛紛在生物經濟、生物科技的創新應用等方面展開頂層設計與前瞻性布局。希望能夠在生物經濟時代的大變局中占得先機。
目前,包括中、美、日、歐盟等60多個國家或地區已經制定了生物制造或生物經濟的專門政策,更新國家與地區生物經濟發展戰略,以及制定生物制造發展路線圖和行動計劃等。
其中,在2022年美國白宮啓動了《國家生物技術和生物制造計劃》,并于2023年發布"生物技術和制造目标"時間表,成立國家生物經濟委員會,明确要大幅度提升生物制造的速度、成功率和創新效率,解決生物實驗法無法解決的問題;2024年3月,歐盟委員會發布題爲"與自然共建未來:推動生物技術和生物制造"的政策文件,提出采取有效利用研究成果并促進創新、刺激市場需求、簡化監管途徑、鼓勵公共和私人投資、制定并更新标準、開展國際合作等一系列針對性措施,促進歐盟生物技術和生物制造發展;2024年5月,日本政府提出,2030年實現100萬億日元市場規模的生物經濟。在生物制造方面,将推動建立生物技術和AI等數字技術融合的微生物和細胞設計平台,并完善生物工廠等基礎設施。在中國,2022年《"十四五"生物經濟發展規劃》首次專門針對生物經濟進行規劃,明确将生物制造作爲生物經濟戰略性新興産業發展方向;2024年"生物制造"作爲新增長引擎首次被寫入兩會政府工作報告。
在這樣的時代背景下,AI蛋白質折疊可謂占據着"牽一發動全身"的意義。這項技術融合了AI技術的飛速發展與生物經濟的巨大價值。兼兩家之長,成未有之事。
在AI蛋白質相關領域,承接DeepMind創新研究成果的Isomorphic Labs正在與諾華、禮來的AI藥物開展戰略合作;AI驅動的蛋白質設計公司Generate Biomedicines接受了生物科技巨頭安進(Amgen)的19億美元投資,用于開發蛋白質療法;合成生物領域的代表企業Ginkgo Bioworks正在與Google Clouds合作,開發新的大語言模型應用于藥物發現、生物安全等領域,并與美國國防部高級研究計劃局(DARPA),圍繞如何利用無細胞蛋白質合成(CFPS)技術、按需制造蛋白質展開合作;英偉達在2023年連續投資九家應用生成式AI進行藥物研發的初創企業……資本、技術、應用等衆多力量的加入,将會加速AI蛋白質技術的進一步開發,帶來更快、更大規模的應用落地。
站在2024年的時間線上,可以笃定的是,由AI蛋白質折疊解鎖的生命宇宙航線,即将爲生物經濟與人類健康事業,帶來更加多彩的流光。