1985 年 11 月 21 日的《自然》封面,是一張來自中國的 " 地圖 "。這張地圖是清代總兵陳倫炯所編撰《海國聞見錄》中的插圖,是中國人開始認知與探索世界的見證,而選用這張封面,是爲了配合當期的特别文章《科技在中國》。
那時候,中國正處在改革開放的浪潮中,中國科技登陸國際視野還顯得驚奇與稚嫩。
一轉眼,38 年過去,伴随着中國科技的飛速發展,越來越多的中國科研工作者、科研機構以第一作者的身份,登上被稱作科學金字塔尖的《自然》。
5 月 2 日,《自然》雜志正刊發表了百度在生物計算領域的突破性研究成果,并以 " 加速預覽 "(Accelerated Article Preview)形式最快發表。
在這篇題目爲《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》的文章中,提出了 mRNA 序列優化算法 LinearDesign。其不僅開創了 AI 與生物、醫療等領域融合突破的諸多可能性,也爲中國科技走向世界畫上了新的一筆。
在這篇論文裏,我們可以讀到遠超其成果本身的内容,比如 AI 的諸多可能性、一家科技企業的科學擔當,以及中國科技走向世界的遠大胸懷。
" 出人意料 " 的生物計算
相信大家都知道,《自然》隻收錄那些在基礎科學領域具有突破性與重大意義的研究。
或許可以說,百度在生物計算領域的探索,生動講述了什麽叫 " 永遠不要低估 AI 的可能性 "。
這件事要從新冠疫苗講起,雖然疫情的陰霾已經悄悄過去,但這場疫情讓全球看到了疫苗,尤其是 mRNA 疫苗在公共衛生事業的重要性。
所謂 mRNA 是一種天然分子,其可以産生靶标蛋白或免疫原,從而激活人體的特定免疫反應,以對抗各種病原體。并且其具有 mRNA 不帶病毒成分、沒有感染風險、研發周期短等重要優勢,是人類對抗新冠疫情的殺手锏。
但如此重要的領域,在疫苗和藥物研發中依舊有一些問題,比如如何才能高效設計出穩定、成藥性更好的 mRNA 序列?
爲了解決這個問題,百度基于在 AI 領域的積累 " 出人意料 " 地将 AI 技術與疫苗研發結合,研發出了登錄《自然》雜志的 LinearDesign 算法。
這一算法運用自然語言處理中網格解析(Lattice Parsing)技術,對 mRNA 疫苗序列進行優化,從而提升疫苗的穩定性和有效性。
( 美國心髒病學家和基因組學家埃裏克 · 托普(Eric J. Topol)在推特上分享百度 LinearDesign 算法 )
這裏劃個重點,LinearDesign 算法可以說是用語言學領域的知識去攻克了生物醫療上的難題。兩個領域雖然不能說毫不相關,基本也是相隔萬裏,但是百度對 AI 技術的探索,卻讓二者完成了千裏姻緣一線牽,LinearDesign 算法由此誕生。
2020 年 5 月,面對洶湧而來的疫情,百度研究院推出了全球首個 mRNA 疫苗基因序列設計算法 LinearDesign,并宣布向全球疫苗研發機構及研究中心免費開放。LinearDesign 能在 16 分鍾完成新冠病毒的 mRNA 疫苗序列設計,極大加速新冠疫苗的研發效率。
以新冠病毒的 Spike 蛋白爲例,若采用傳統方法尋找一條穩定的 mRNA 序列,需要查看 10632 個 mRNA 序列,堪稱天文數字,但用 LinearDesign 算法,卻可以在 11 分鍾之内找到最穩定的候選序列。
2020 年 12 月,百度憑借 LinearFold 和 LinearDesign 算法在新冠抗疫中的傑出貢獻,榮獲國際頂尖人工智能峰會 The AI Summit 舉辦的 AIconics 獎項的首屆 "AI For Good(人工智能向善)" 獎。
在應用價值之外,LinearDesign 算法還展示了 AI 作爲一種底層科學探索工具,在生物與醫學領域的全新可能性。這種跨越學科的突破力,是《自然》雜志乃至全球科學界更爲珍視的。
打開 AI 的深度與廣度
爲什麽百度能把 LinearDesign 算法這種 AI+ 生物計算研究做大做強?這可能是我們必須讀懂的另一個關鍵信息。
其原因無他,千錘百煉而已。從 2012 年 AI 方興未艾,到今天 AI 火爆全球,這期間百度對 AI 技術的堅持和探索是始終如一的。這種堅持,滲透到了 AI 技術的各方各面,包括基礎設施研究、算法叠代,以及 AI 的跨學科融合。其中非常多的領域充滿未知與挑戰,也不符合傳統意義上企業對短期利益的追求。但構建堅實的基礎設施,探索前瞻性技術布局,卻是一家企業赢得未來的關鍵。
AI+ 生物計算,作爲 AI 技術的延展性方向,更能體現出百度 " 淡化短期利益,着眼長期發展 " 的技術布局思路。生物計算可以解決蛋白質分析、新藥研發等關鍵問題,其價值巨大,以新藥研發爲例,這個領域具有一種 "3 個 10" 特征,即 10 年、10 億美元、10 萬人才能研發出一種有效的新藥,而如果用 AI 作爲藥物研發引擎,将可以極大程度改變新藥研發的範式,帶來難以估量的價值。
這條路價值雖大,但充滿挑戰,在短期内都難以實現商業回報,但百度依舊願意依托 AI 技術與基礎設施的優勢,提前布局這條未來之路。早在 2018 年,百度就正式啓動了計算生物方向的研究。幾年過去,百度在這一領域已經構建了基礎設施、算法、生态合圍而成的立體創新版圖,比如剛剛提到的 LinearDesign 算法、可以極大加快 RNA 結構預測速度的 LinearFold 算法,一系列創新開始勾勒出百度在生物計算算法層的差異化優勢,而基于飛槳生态打造的生物計算平台 - 螺旋槳 PaddleHelix,則開啓了 AI+ 生物計算底層開發工具的構建,爲産學各界探索生物計算奠定了基礎。面向産業生态,百度爲産業提供了面向化合物分子、蛋白分子、基因組學信息等領域預訓練大模型,将自身的技術優勢積極投身到産學研協作當中。就像在 AI 基礎設施層面,百度強調技術、生态與基礎設施的并行,在生物計算領域,同樣的戰略落地方式也推動了百度自身與生物計算行業的積極發展。
企業進行跨學科探索與底層技術創新,強調長線程和重積累,隻有構建出完整的技術序列、技術體系,才能在此基礎上一鳴驚人。無論是在 AI+ 生物計算領域,還是更爲基礎的 AI 技術上,長期主義,始終是百度的王牌。
這樣的以重積累換取高效率的邏輯,展現在百度技術創新的方方面面。比如文心一言發布後的 1 個月内,完成了 4 次技術叠代,相較最初版本推理效率提升了 10 倍。這種技術叠代與産業化應用的效率從何而已?其中,飛槳支撐了文心一言從開發訓練到推理部署的全流程,并且通過聯合優化的方式,大幅提升了大模型的訓練與推理。從中就可以看出,底層技術與工具鏈的長期積累,爲新技術的高效率升級奠定了基礎。
百度是如此打開 AI 技術的深度,中國科技也是如此打開走向世界的廣度。
大國科技走向世界
1985 年 11 月,《自然》雜志探讨了中國當時在高能物理、空間探索、地震預測等領域的科研水平,向世界展示了一個具有蓬勃科研創新活力的中國。
2008 年 7 月,《自然》借着北京奧運的機會發布了中國特刊,向世界介紹了 " 中國目前論文發表數量比除了美國以外的其他國家都要多 ",确定了中國科研實力的地位與價值。
幾十年來,《自然》裏的 " 中國元素 ",可謂與中國科技發展完美同頻,比如在 1997 年時《自然》發表的原創科研論文中隻有 0.4% 涉及中國作者,2017 年已增至約 15%。這個數字的變化,恰好佐證了中國科技走向全球的變遷。
在這個過程中,一個角色是不可或缺的,那就是科技企業在整體科研環境中扮演的角色。自信息革命以來,我們可以在歐美發達國家的科技版圖中,看到很多重大創新都是由企業來完成。以 AI+ 生物計算爲例,DeepMind 打造的 AlphaFold2 廣受關注。而谷歌母公司 Alphabet,已經在持續推動這一算法在醫療健康、新藥研發等領域落地,打造了 ChatGPT 的 OpenAI,也在 AI 疾病診療、AI 蛋白質結構預測等領域進行着探索。
從世界範圍内的趨勢來看,AI+ 生物計算這一重要領域,主要創新陣地應該在科技企業,并且需要以科技企業爲核心,形成産學研互動的良性生态。而百度在生物計算領域的布局與進取态勢,則在中國科技版圖中補完了這一環節。
中國科技走向全球,走向科技自立自強,離不開企業科研能力的不斷升級。從這個角度看,百度生物計算以第一完成單位身份在《自然》發表論文,可以看作一個新階段的信号。1985 年,是世界看到中國科技;2008 年,中國綜合科研能力跻身世界前列;今天,中國的科學家、學術機構、科技企業,都能作爲第一作者登上《自然》,證明中國已經具備了多元化,立體化的科技能力。
中國科技的創新性和獨特性,已經從學術界延伸到産業界,更具有世界眼光,更具有大國擔當。