Bengio團隊Nature發文：四個維度講AI for Science，還讨論了AI跨界核心挑戰

最近，Yoshua Bengio 帶領團隊展示了一場人工智能十年跨界秀。

從數據收集到模型構建，從實驗設計到過程控制，AI 跨界正在改變科學研究方式，成爲科學發現引擎。

盡管科學實踐因科學研究階段而異，但 AI 的發展跨越了傳統上孤立的學科。

例如在粒子物理實驗中，每秒産生的海量數據難以處理和存儲，AI 模型可以通過異常檢測算法在實時流中找出罕見事件，大大減少存儲壓力。

在生物信息學領域，AI 可以給海量未标注的基因序列賦予功能注釋，幫助後續模型的訓練。

AI 正賦能衆多科學領域的研究發現，融入科學發現的假設形成、實驗設計、數據收集和分析各個階段。

在 "Scientific discovery in the age of artificial intelligence" 這篇 Yoshua Bengio 領隊的論文中，研究人員詳解了自監督學習、幾何深度學習、生成式人工智能等技術在科學研究中的應用，并提出了目前 AI 跨界仍存在的核心問題，目前該論文已刊于 Nature 綜述文章。

來看大佬如何總結 AI for Science。

十年科學發現中 AI 的身影

在這篇論文中，研究人員從 AI 輔助的科學研究數據收集和整理、學習有意義的科學數據表示、使用 AI 生成科學假說、AI 驅動的實驗和模拟幾個方面講述了近年來 AI 在科學研究中的應用。

AI 輔助的科學研究數據收集和整理

科學發現和理論的形成基于數據的收集、轉化和理解，過去十年 AI 在數據的選擇、标注、生成、精化等方面得到了廣泛應用。

在數據選擇（Data selection）方面，随着科學實驗中收集的數據集規模和複雜性不斷增加，科學研究越來越依賴實時處理和高性能計算來選擇性地存儲和分析數據。

一個典型案例就是粒子碰撞實驗，每秒将生成超 100TB 的數據，這給數據傳輸和存儲帶來巨大挑戰。

在這類物理實驗中，超過 99.99% 的原始數據都屬于背景事件，需要實時檢測并丢棄。

爲了識别用于科學研究的罕見事件，深度學習方法取代了預編程的硬件事件觸發器，而是使用算法搜索異常信号，并檢測出可能被忽略的罕見現象。

這種無監督方法不需要标注樣本，已被廣泛應用在物理、神經科學、地球科學等領域。

在數據标注（Data annotation）方面，訓練監督學習模型需要大量标注過的數據集來提供監督信息，但是科研數據的标注工作非常耗時耗力。

AI 的加入提供了用半監督學習方法自動标注大規模無标注數據集的選擇 :

( 1 ) 僞标記 ( Pseudo-labelling ) ：使用預訓練模型爲無标注樣本生成僞标簽，然後用這些僞标簽來訓練後續預測模型。

( 2 ) 标簽傳播 ( Label propagation ) ：基于特征嵌入構建樣本相似圖，然後将已有标簽擴散到無标注樣本上。

( 3 ) 主動學習 ( Active learning ) ：識别人類标注的最有信息量的數據點，或者确定要執行的最有信息量的實驗。

在數據生成（Data generation）方面，提高訓練數據的質量、多樣性和規模可以改善深度學習的性能。

文中提到了兩種主要的合成數據增強方法 :

( 1 ) 自動數據增強：手動設計或用增強學習方法發現自動數據增強策略。

( 2 ) 深度生成模型：可以學習底層數據分布，然後從優化的分布中采樣新的訓練點。

生成對抗網絡 ( GAN ) 已被證明對科研圖像合成有益，可以合成各領域的逼真圖像。

此外，概率編程，用計算機程序表達數據生成模型，是一種新興的可編程生成建模方法。

目前，生成數據已被廣泛應用于粒子物理、病理切片、X 光、MRI、材料微結構、蛋白功能等領域。

在數據精化（Data refinements）方面，超高分辨率激光器等高精度儀器可以直接或間接測量真實世界對象，産生高度準确的數據。

使用 AI 技術可以顯著提高測量分辨率，減少噪聲、消除誤差。

例如，深度卷積網絡可以将質量較差的時空分辨率低的數據轉換爲高質量、超分辨率和結構化的圖像。

去噪自編碼器可以将高維輸入數據投影到更緊湊的基本特征表示中，變分自編碼器（VAE）通過潛在自編碼學習随機表示，保留了基本數據特征，同時忽略了非基本的變化因素。

在科學實驗中應用的例子包括可視化時空區域，如黑洞、捕捉物理粒子碰撞、提高活細胞圖像的分辨率等。

學習有意義的科學數據表示

深度學習能夠在不同抽象層次上提取科學數據的有意義表示，并通過端到端學習來優化這些表示用于指導研究。

優質的表示應簡潔并保留盡可能多的信息。科學上有意義的表示應具有緊湊性、可區分性、可解耦性以及對下遊任務的泛化能力。

研究人員介紹了三種滿足這些要求的新興策略：幾何先驗、自監督學習和語言建模。

1、幾何先驗

幾何先驗的應用能夠有效地捕捉數據的幾何和結構特征，這在科學領域尤爲重要。

對稱性是其中的一個關鍵概念，可以用不變性和等變性來描述，用于表示數學函數在一組變換下的行爲規律。

比如一些重要的結構屬性，像分子系統的二級結構、溶劑可及性、殘基緊湊性和氫鍵模式等，在空間方向上是不變的。

在科學圖像分析中，對象在圖像中平移時不會改變，這意味着圖像分割掩碼是平移等變的，因爲它們在平移輸入像素時等效地變化。

通過将對稱性等因素納入模型中，可以改善在少标注數據集下的 AI 應用。通過增加訓練樣本，可以改進對于與模型訓練過程中遇到的輸入顯著不同的外推預測。

圖神經網絡已成爲在具有底層幾何和關系結構的數據集上進行深度學習的主要方法之一。

幾何深度學習顯式利用局部化的圖信息或變換群信息，通過神經消息傳遞算法學習關系模式。

2、自監督學習

在标注數據不足時，僅依賴監督學習是不夠的，利用無标注數據可以提高模型性能和學習能力。

自監督學習使用無标注數據來學習一般特征，主要策略包括 :

預測圖像的遮擋區域

預測視頻的前後幀

對比學習使模型區分相似和不相似數據點

自監督學習可以預訓練模型抓取大規模無标注數據的特征，然後在小規模标注數據上微調。

3、語言建模

語言建模是一種流行的自監督學習方法，可以用于學習自然語言和生物序列的特征。

在訓練過程中，主要目标是預測序列中的下一個 token，而在基于掩碼的訓練中，自監督任務是使用雙向序列上下文來恢複序列中的掩碼 token。

原子或氨基酸的排列類似于字母組成單詞和句子，用于定義分子和生物功能的結構。蛋白質語言模型可以編碼氨基酸序列以捕捉其結構和功能特性，并評估病毒變異的進化适應性。

這些表示方法可以在各種任務中傳遞應用，包括序列設計和結構預測。在處理生物化學序列時，化學語言模型能夠有效地探索廣闊的化學空間，用于預測性質、計劃合成過程以及探索化學反應的可能性。

說到這裏，就不得不提 Transformer 架構，它能夠通過靈活地建模任意 token 對之間的交互，從而處理 token 序列，超越了使用循環神經網絡進行序列建模的早期嘗試。

在自然語言處理領域，Transformer 已占據主導地位，并成功應用于地震信号檢測、DNA 和蛋白質序列建模、模拟序列變異對生物功能的影響、符号回歸等系列問題。

使用 AI 生成科學假說

可檢驗的假設是科學發現的核心，它們可以來源于數學中的符号表達式、化學中的分子、生物學中的基因變異……

但提出這樣一種有意義的假設可能需要漫長的時間，正如 Johannes Kepler，花費了四年時間分析恒星和行星數據，才得出了一個能發現行星運動定律的假設。

AI 可以用以下幾種方式幫助提出科學假說 :

( 1 ) 黑箱預測器：高通量快速篩選候選假說，選擇有價值的進行後續驗證。

( 2 ) 導航組合假說空間：使用強化學習評估每次搜索的回報，聚焦在最有前景的假說要素上。

( 3 ) 優化可微假說空間：将離散假說空間映射到連續可微空間進行優化。

這些 AI 方法爲科學假說的生成、評價和選擇提供了強有力的新工具。

AI 驅動的實驗和模拟

通過實驗評估科學假設對于科學發現至關重要，但實驗成本高昂。

AI 技術可以優化實驗的參數設置、步驟設計等，減少不必要的試驗，提高資源利用效率。

強化學習可以根據實時反饋動态調整實驗方向，最大化實驗成功率和安全性。

計算模拟可以探索實際難以實現的情況，補充實驗。但是依賴于人爲設置的簡化參數和啓發式方法，精度和效率存在局限。

然而，随着深度學習的出現，通過識别和優化假設進行有效測試，以及使計算機模拟能夠将觀察結果與假設聯系起來，這些問題正被解決。

這些 AI 驅動的實驗優化和計算模拟方法，已經在量子物理、化學合成、聚變反應堆控制等領域展現出價值。

AI 跨界面臨重大挑戰

值得一提的是，文中還讨論了 AI 在科學發現中面臨的挑戰。

人工智能系統可以成爲科學家發現新知識的重要助手，但也存在潛在的安全隐患。

例如，科學數據存在不完整、偏差等問題，需要規範化；還需要考慮數據的可訪問性、隐私等。模型和數據的标準化也很必要。

其次，分布偏移是一個核心問題，需要增強模型的泛化能力。處理多模态科學數據仍有挑戰，如何系統地整合科學知識和原理也需要進一步探索，增強模型的解釋性和可信度亦很重要。

此外，AI 專業人才短缺和計算資源需求巨大，需要産學界進一步合作，科學家需要掌握 AI 的适用性，還需建立倫理審查流程。

研究人員認爲：

AI 工具的錯誤應用和對其結果的錯誤解讀可能會産生重大的負面影響。廣泛的應用範圍使這些風險變得更加複雜。

然而，人工智能的濫用不僅僅是一個技術問題，還取決于領導人工智能創新和投資人工智能實施的動機。建立道德審查流程和負責任的實施策略至關重要，包括對人工智能的範圍和适用性進行全面審查。

團隊介紹

除了 Yoshua Bengio 帶隊外，三位華人一作也格外引人注目，他們分别是：

Hanchen Wang

斯坦福大學 CS 和 Genentech 聯合博士後研究員，劍橋大學 ML 博士學位。

Tianfan Fu

伊利諾伊大學香槟分校計算機科學系博士後研究員，佐治亞理工學院計算科學與工程系博士學位。

Yuanqi Du

康奈爾大學計算機科學博士研究生，2021 年獲喬治梅森大學計算機科學學士學位。

傳送門：https://www.nature.com/articles/s41586-023-06221-2（論文鏈接）