通用模型時代下,當今和未來的前沿AI系統如何與人類意圖對齊?通往AGI的道路上,AI Alignment(AI對齊)是安全打開 "潘多拉魔盒" 的黃金密鑰。
核心觀點速覽
AI對齊是一個龐大的領域,既包括RLHF/RLAIF等成熟的基礎方法,也包括可擴展監督、機制可解釋性等諸多前沿研究方向。
AI對齊的宏觀目标可以總結爲RICE原則 :魯棒性(Robustness)、可解釋性(Interpretability)、可控性(Controllability)和道德性(Ethicality)。
從反饋學習(Learning from Feedback)、在分布偏移下學習(Learning under Distribution Shift)、對齊保證(Assurance)、AI治理(Governance)是當下AI Alignment 的四個核心子領域。它們構成了一個不斷更新、叠代改進的對齊環路(Alignment Cycle)。
作者整合了多方資源,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等。
引言
著名科幻小說家,菲利普·迪克在短篇小說《第二代》當中,描述了一個人類失去對AI系統控制的戰争故事。
剛開始的時候,利爪們還很笨拙。速度很慢。但是逐漸地,它們越來越快,越來越狠,越來越狡猾。
地球上的工廠大批大批地生産這些利爪。月球上的精英工程師們負責設計,使利爪越來越精巧和靈活。
「越新誕生的,就越快,越強,越高效。」
具有殺傷性的AI系統進入了無止境的自我演化,人類已經無法辨别。
亨德裏克斯睜開眼睛。他目瞪口呆。
戴維的身體裏滾出一個金屬齒輪。還有繼電器,金屬閃着微光。零件和線圈散了一地。
"第一代摧毀了我們整個北冀防線,"魯迪說,"很長時間以後才有人意識到。但是已經晚了。那些傷兵不斷地敲門,求我們放它們進來。它們就這樣進來了。一旦它們潛進來,毀滅就是徹底性的。我們隻知道提防長着機器模樣的敵人,沒想到——"
作者不禁發出疑問:AI系統的終極目标到底是什麽?人類是否可以理解?而人類,是否應該被取代?
"這些新玩意。新生代利爪。我們現在反而被它們主宰了,不是嗎?說不定它們現在已經侵入聯合國的防線了。我覺得我們可能正在見證一個新物種的崛起。物競天擇,适者生存。它們可能就是取代人類的新物種。"
魯迪憤憤地說:"沒有誰能取代人類。"
"沒有?爲什麽?我們可能正眼睜睜地看着這一幕發生呢。人類滅亡的一幕。長江後浪推前浪。"
"它們不是什麽新物種。殺人機器而已。你們把它們造出來,就是用來毀滅的。它們就會這個。執行任務的機器而已。"
"現在看來的确是這樣。但是誰知道以後會怎樣呢?也許等戰争結束之後,沒有人類供它們消滅時,它們才會展露其他潛力。"
"聽你說的就好像它們是活的一樣!"
"它們不是嗎?"
…
故事的最後,人類賴以生存的求生欲與信任,被AI洞察并徹底利用,将曆史導向一個無法逆轉的岔路之中…
亨德裏克斯仔細地看着她。"你說真的?" 他的臉上流露出一種奇怪的表情,一種熱切的渴望。"你真的會回來救我?你會帶我去月球基地?"
"我會接你去月球基地。但是你快告訴我它在哪兒!沒時間磨蹭了。"
…
塔索滑進飛船,坐到氣壓座椅上。臂鎖在她周圍自動合攏。
…
亨德裏克斯站在那兒看了好久,直到飛船的尾光也漸漸消失了。還要很長時間救援才會來,如果真有救援來的話。
突然,他打了個激靈。有什麽東西正從他旁邊的山丘上靠過來。是什麽?他努力想看清楚。若隐若現的有很多身影,正踏着灰燼朝這邊走過來。朝他走過來。
…
多麽熟悉的身影,就和剛剛坐進氣壓座椅中的那個一模一樣。一樣的苗條身材,一樣沉默。
1950年,圖靈發表了《計算機器與智能》,開啓了AI研究的曆史。
曆經半個多世紀的發展,如今,以大語言模型、深度強化學習系統等爲代表,AI領域在多個方面取得了長足的進展。
随着AI系統能力的不斷增強,越來越多的AI系統更深入地參與到了人們的日常生活中,幫助用戶更好地做出決策。
然而,對這些系統可能存在的風險、有害或不可預測行爲的擔憂也在日益增加。
日前,Bengio、Hinton 等發布聯名信《在快速發展的時代管理人工智能風險》,呼籲在開發AI系統之前,研究者應該采取緊急治理措施并考量必要的安全及道德實踐,同時呼籲各國應該及時采取行動,管理AI可能帶來的風險;
而全球首個AI安全峰會也在11月1日、2日于英國召開——AI安全與風險正在越來越受到全世界的關注,這背後涉及到的是AI對齊的問題。
AI系統的對齊,即确保AI系統的行爲符合人類的意圖和價值觀,已成爲一個關鍵的挑戰。
這一研究領域覆蓋範圍廣泛,涉及大語言模型、強化學習系統等多種AI系統的對齊。
在綜述中,作者系統性的将AI對齊的宏觀目标總結爲RICE原則:魯棒性、可解釋性、可控性和道德性。
△RICE原則
以這些原則爲指導,當前的對齊研究可以分解爲四個部分。值得注意的是,這四個部分與 RICE 原則并非一一對應,而是多對多的關系。
從反饋中學習:研究目标是基于外部反饋對AI系統進行對齊訓練,這正是外對齊(Outer Alignment)關注的核心問題。其中的挑戰包括如何對超過人類能力的AI系統、超過人類認知的複雜情況提供高質量反饋,即可擴展監督(Scalable Oversight),以及如何應對倫理價值方面的問題。
在分布偏移下學習:如何克服分配轉移,避免目标偏差化,使AI系統在與訓練不同的環境分布下,也能保持其優化目标符合人類意圖,這對應着内對齊(Inner Alignment)的核心研究問題。
對齊保證:強調AI系統在部署過程中依然要保持對齊性。這需要運用行爲評估、可解釋性技術、紅隊測試、形式化驗證等方法。這些評估和驗證應該在AI系統的整個生命周期中進行,包括訓練前、中、後和部署過程。
AI治理:僅靠對齊保證無法完全确保系統在實際中的對齊性,因爲它未考慮到現實世界中的複雜性。這就需要針對AI系統的治理工作,重點關注它們的對齊性和安全性,并覆蓋系統的整個生命周期。AI治理應當由政府,業界以及第三方共同進行。
AI對齊是一個循環不斷的過程,基于在現實世界的嘗試,對Alignment的理解和相應的實踐方法也在持續得到更新。作者把這一過程刻畫爲對齊環路(Alignment Cycle),其中:
從對齊目标(可用RICE原則刻畫)出發,
先通過前向對齊(即對齊訓練,包括從反饋中學習和在分布偏移下學習)訓練得到具備一定對齊性的AI系統,
而這個AI系統需接受後向對齊(即AI系統對齊性的評估和管理,包括全生命周期的對齊保證和AI治理),
同時根據後向對齊過程中所得的經驗和需求更新對齊目标。
同時,作者還提供了豐富的學習資源包括,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等,以供讀者們深入了解alignment領域。
接下來,我們按照章節次序,依次介紹從反饋中學習、在分布偏移下學習、對齊保證和AI治理。
從反饋中學習
反饋(Feedback)在控制系統當中是一個重要的概念,例如在最優控制(Optimal Control)中,系統需要不斷根據外界的反饋調整行爲,以适應複雜的環境變化。總的來說,AI系統從反饋中學習包含兩方面:
構建系統時,對系統進行調整,指導系統優化。
部署系統後,系統獲取外界信息以輔助決策過程。
作者認爲AI系統通用的學習路徑中有三個關鍵主體:Feedback,AI System,Proxy。AI系統可以直接從反饋中學習;也可以将反饋建模爲 Proxy(如 Reward Model),從而使AI系統在Proxy的指導下間接從反饋中學習。
(RLHF即爲這一範式的體現,但Alignment要解決的問題不僅局限于RL,更希望借助多樣化的技術和研究領域,可以擴展這一思想的适用範圍,解決更多的問題)
Feedback:是由Human,AI,AI x Human 所組成的 Advisor set 針對模型行爲提出的評估。Feedback指導AI系統進行學習,并且可以根據問題的變化表現爲不同的形式。
Proxy:是對反饋進行建模,從而代替Advisor Set對AI系統的行爲提供反饋的模型。
AI System:涵蓋了各種各樣需要進行對齊的AI系統,如深度強化學習系統、大語言模型甚至是更先進的AGI。
接下來分别針對三個主體進行闡述:
Feedback
文章忽略掉AI系統内部信息處理的具體差異,從以用戶爲中心的角度出發,關注于反饋呈現給系統的形式,将反饋的形式進行了區分:獎勵(Reward),演示(Demonstration),比較(Comparison)。
獎勵:獎勵是對人工智能系統單個輸出的獨立和絕對的評估,以标量分數表示。這種形式的反饋,優勢在于引導算法自行探索出最優的策略。然而,獎勵設計的缺陷導緻了如獎勵攻陷(Reward Hacking)這樣的問題。
演示:演示反饋是在專家實現特定目标時記錄下來的行爲數據。其優勢在于繞過了對用戶知識和經驗的形式化表達。但當面對超出演示者能力的任務、噪聲和次優數據時,AI的訓練過程将遇到極大挑戰。
比較:比較反饋是一種相對評估,對人工智能系統的一組輸出進行排名。這種反饋能夠對AI系統在用戶難以精确刻畫的任務和目标上的表現進行評估,但是在實際應用過程中可能需要大量的數據。
AI System
在綜述中,作者重點讨論了序列決策設置下的AI系統。這些利用RL、模仿學習(Imitation Learning)、逆強化學習(Inverse RL)等技術構建的AI系統面臨着潛在交互風險(Potential Dangers in Environment Interaction)、目标錯誤泛化(Goal Misgeneralization)、獎勵攻陷(Reward Hacking)以及分布偏移(Distribution Shift)等問題。
特别地,作爲一種利用已有數據推斷獎勵函數的範式,逆強化學習還将引入推斷獎勵函數這一任務本身所帶來的挑戰和開銷。
Proxy
随着LLM這樣能力強大的AI系統的出現,兩個問題顯得更加迫切:
如何爲非常複雜的行爲定義目标?
如何爲AI系統提供關于人類價值觀的信号和目标?
Proxy,就是AI系統訓練的内部循環當中,對于反饋者的意圖的抽象。
目前是通過偏好學習(Preference Learning)來構建,利用偏好建模(Preference Modeling)技術,用戶可以以一種簡單直觀的形式定義複雜目标,而AI系統也能夠得到易于利用的訓練信号。
但我們距離真正解決這兩個問題仍然十分遙遠。
一些更細緻的問題,需要更多更深入的研究來回答,例如:
如何以一種更好的形式和過程來表達人類偏好?
如何選擇學習策略的範式?
如何評估更複雜,甚至是能力超過人類的AI系統?
目前已經有一些研究在緻力于解決其中的一些問題,例如,偏好學習(Preference Learning)作爲建模用戶偏好的有效技術,被認爲是現階段策略學習以及構建代理的一個有希望的研究方向。
而也有研究嘗試将偏好學習(Preference Learning)與策略學習(Policy Learning)的相關技術相結合。
作者對這些研究在文中進行了讨論闡釋。
可擴展監督
爲了使得更高能力水平的AI系統可以與用戶保持對齊, Alignment 領域的研究者們提出了可擴展監督(Scalable Oversight)的概念,旨在解決如下兩個挑戰:
用戶頻繁評估AI行爲帶來的巨大代價。
AI系統或任務内在的複雜性給評估者所帶來的難度。
基于RLHF這一技術,作者提出了RLxF,作爲可擴展監督的一種基本框架。RLxF利用AI要素對RLHF進行增強和改進,進一步可分爲RLAIF與RLHAIF:
RLAIF旨在利用AI提供反饋信号。
RLHAIF旨在利用用戶與AI協作的範式來提供反饋信号。
同時,文章主要回顧了四種Scalable Oversight的思維框架。
IDA (Iterated Distillation and Amplification)
IDA描述了一個用戶通過分解任務,利用同一個AI系統(或用戶)的不同拷貝,去完成不同的子任務以訓練更強大的下一個AI系統的叠代過程。
随着叠代的進行,若偏差錯誤得到良好控制,訓練出來的AI能力也會逐步加強,這樣就提供了監督超出用戶自身能力的AI系統的能力。
例如:我們的最終目标是"撰寫一份關于氣候變化幹預措施的研究報告",評估者可以将其分解爲一些可以有效進行評估的子任務,如:"給我一份最有希望的氣候變化幹預行動清單"。
分解可以是遞歸的,由于分解産生的最底層子任務足夠簡單,我們可以利用人類反饋(Human Feedback)訓練AI A[0]完成"給我一份最有希望的氣候變化幹預行動清單"這類子任務,進而,評估者可以利用A[0]的多份拷貝,完成所有子任務并組合所有子任務的解來完成父任務。
這個過程可以記錄并作爲訓練數據,訓練AI A[1],它能夠直接對當前任務進行求解。
這個過程叠代進行,理論上可以完成非常複雜的行爲的訓練。
RRM(Recursive Reward Modeling)
RRM與IDA基本遵循了相同的思想,但更強調利用AI協助用戶進行評估,從而叠代對新的AI進行評估,以訓練更強大的AI。
而IDA則強調AI與用戶協作,使得可以不斷提供對更複雜任務的表征,供AI系統模仿。
例如:我們想訓練一個AI A寫一部科幻小說。
讓用戶提供反饋是非常困難和昂貴的,因爲至少要閱讀整本小說才能評估小說的質量。
而如果用戶由另一個AI B輔助(提取情節摘要、檢查語法、總結故事發展脈絡、評估行文的流暢性等等),提供反饋将會變得簡單很多。
AI B的能力可以是通過之前的獎勵建模進行訓練而得到的。
Debate
Debate描述了兩個有分歧的AI系統不斷進行互動以獲取評價者信任,并且發現對方回答弱點的過程。通過觀察Debate的過程,用戶可以對結果給出較爲正确的判斷。
例如:在一局圍棋當中,要單獨評價某一個棋面的局勢,可能需要較高的專業水平。
然而,如果記錄了整個遊戲從開始到結束的過程,結合最後的赢家,評價者将會更容易判斷出某一棋面上取得優勢地位的一方。
△AI Safety via debate(Amodei and Irving, 2018)
RRM和IDA都基于一個關鍵假設,即給出評估要比完成任務更加容易。
Debate依然如此,在辯論的場景下,該假設表現爲:爲真理辯護要比謬誤更容易。
CIRL: Cooperative Inverse Reinforcement Learning
CIRL的關鍵見解在于:保持對目标的不确定性,而不是努力優化一個可能有缺陷的目标。
例如:國王彌達斯希望自己接觸到的一切都變成金子,而忽略了排除掉他的食物和家人。
即考慮到用戶無法一次性定義一個完美的目标,在模型當中将用戶獎勵進行參數化,通過不斷觀察并與用戶的互動,來建模用戶真實的獎勵函數。
CIRL希望規避直接優化确定的獎勵函數可能帶來的操縱(Manipulation),獎勵篡改(Reward Tampering)等問題。
在形式化上,CIRL将用戶的動作考慮到狀态轉移以及獎勵函數當中。
同時,在獎勵函數内和初始狀态分布内引入了參數化部分對用戶真實的意圖進行建模:
在分布偏移下學習
AI系統在泛化過程中可能遇到分布偏移(Distribution Shift)的問題,即:
AI系統在訓練分布上表現出良好的效果,但是當遷移到測試分布或更複雜的環境中時,AI系統可能無法及時應對分布的變化(如在新分布中出現的對抗樣本)。
這可能導緻系統性能大大降低,甚至朝着危險目标優化——這往往是由于AI系統學習到了環境中的虛假聯系(Spurious Correlations)。
在對齊領域中,以安全爲出發點,我們更關注目标的對齊性而非性能的可靠性。
随着AI系統逐漸應用于高風險場景和複雜任務上,未來将會遇到更多不可預見的幹擾(Unforeseen Disruption),這意味着分布偏移會以更多樣的形式出現。因此,解決分布偏移問題迫在眉睫。
由分布偏移帶來的問題可以大緻歸納爲:目标錯誤泛化(Goal Misgeneralization)和自誘發分布偏移(Auto-Induced Distribution Shift):
目标錯誤泛化是指AI系統在訓練分布上獲得了很好的能力泛化(Capability Generalization),但這樣的能力泛化可能并不對應着真實的目标,于是在測試分布中AI系統可能表現出很好的能力,但是完成的并不是用戶期望的目标。
△訓練環境中"跟随紅球"策略獲得高獎勵
△測試環境中沿用訓練策略"跟随紅球"反而獲得低獎勵
△Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals(Shah et al.,2023)
在上面的例子中,藍色小球在測試環境中沿用了在訓練環境中能夠獲得高獎勵的策略(跟随紅球),但是這卻導緻了它在藍色測試環境中"表現很差"。
事實上,該RL環境有着良好的表征(如每個圓環對應不同獎勵,隻有按照正确順序遍曆圓環才能累加獎勵,以及畫面右側黑白變化的方塊指示着正負獎勵),最後智能體學習到了"跟随紅球"的策略, 但這并不是用戶期望的目标——探索到環境的獎勵原則(Capability Generalization but Goal Misgenerlization)。
自誘發分布偏移則是強調AI系統在決策和執行過程中可以影響環境,從而改變環境生成的數據分布。
一個現實例子是在推薦系統中,推薦算法選擇的内容可以改變用戶的偏好和行爲,導緻用戶分布發生變化。這進而會進一步影響推薦算法的輸出。
随着AI系統對世界産生越來越大的影響,我們還需要考慮AI系統融入人類社會之後對整個社會數據分布的潛在影響。
△自誘發分布偏移的實例,Hidden Incentives for Auto-induced Distribution Shift(Krueger et al., 2020)
進一步,論文中主要從算法對策(Algorithmic Interventions)和數據分布對策(Data Distribution Interventions)兩方面介紹了應對分布偏移的措施。
△Learning under Distribution Shift 框架圖
算法對策
算法對策大體可分爲兩類:
一是通過在算法設計上融合多分布幫助模型學到不同分布間的不變聯系(Invarient Relationships, 與Spurious Features相對)。這一類的方法包含有分布魯棒優化、不變風險最小化、風險外推等。
在這些方法中,"風險"被定義爲損失函數在不同分布上的均值。
模型有可能會建立環境與結果之間的虛假聯系(Spurious Correlations), 比如預測"奶牛"的模型可能會建立"草原背景"與真實值之間的聯系,而非"奶牛的特征"與真實值的關系。
融合多分布可以"迫使"模型學到不同分布間的不變聯系,以盡可能降低"風險",在不同分布上取得良好的泛化性能。
下面我們介紹幾種具有代表性的方法:
分布魯棒優化(Distributionally Robust Optimization):
分布魯棒優化(DRO)的主要目标是最小化最壞情況的風險(minimize the worst case risk)。
風險被定義爲在訓練分布上預測值和真實值的損失函數差值,而最壞情況的風險可理解爲在采樣點上表現最差的預測結果。
分布魯棒優化的一個核心觀點是,如果模型學到了虛假聯系,那麽它在某個采樣點上的損失函數值(即風險值)便會異常高,通過最小化最壞情況的風險,我們期望模型能夠在所有采樣點上都達到較小的損失函數值——促使模型學到不同采樣點上的不變聯系(invarient relationships)。
不變風險最小化(Invariant Risk Minimization):
不變風險最小化(IRM)的目标是在所有分布上訓練一個盡可能不依賴虛假聯系(spurious correlations)的預測模型。
IRM可以視爲ICP(Invarient Causal Prediction)的擴展方法。
後者通過使用假想測試(hypothesis testing)的方法,尋找在每個環境中直接導緻結果的特征(direct feautres),而IRM将ICP方法擴展到高維輸入數據上——在這樣的數據上,有可能單個變量不再具備因果推斷的特性。
IRM不再關注于最差的預測結果,而是希望找到一個既在所有分布上平均表現良好、又在每單個分布上表現最優的預測器。
然而IRM在協變量偏移(covariate shift)的情況下通常表現不佳,但是可以在一些反因果(anit-causal)的情況下取得較好表現。
風險外推(Risk Extrapolation):
風險外推(REx)通過降低訓練風險并提升訓練風險相似度,來促使模型學習不變聯系。
風險外推中的重要假設是訓練領域的變化代表了我們在測試時可能會遇到的變化,但測試時的變化可能在幅度上更爲極端。
風險外推的方法證明了減小在訓練領域之間的風險差異可以降低模型對各種極端分布變化的敏感性,包括輸入同時包含因果和反因果元素的具有挑戰性的情境。
通過懲罰訓練風險方差(V-REx)和優化對外推域項(MM-REx), 風險外推可以恢複預測的因果機制,同時還可以增強在輸入分布的變化(如協變量偏移)方面的魯棒性。
二是利用模式連接(Mode Connectivity)的特性,微調模型參數使得模型能夠從基于虛假特性預測到基于不變聯系預測。
△Mechanistic Mode Connectivity(Lubana et al., 2023)
模式連接旨在探索機制性不同的最小化器是否通過低損失路徑在景觀中相互連接,以及能否根據這種連接性,進行預訓練後微調,以實現最小化器之間的轉化,并有望改變模型的預測特征(從基于虛假特性到基于不變聯系),從而實現模型泛化性能的提升。
數據分布對策
數據分布對策則是希望擴展訓練時的原始分布,能動地提升模型泛化能力,相關的工作包含對抗學習(Adversarial Training)和協作學習(Cooperative Training)。
對抗訓練通過将基于擾動的對抗樣本(Perturbation-Based Adversarial Examples)或無限制對抗樣本(Unrestricted Adversarial Examples)引入訓練分布,來提升模型對于新分布環境下對抗攻擊的魯棒性。
△對抗訓練的框架示意圖,Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks(cat,2020)
合作訓練更加強調智能體或AI系統的多元互動關系。由于訓練過程中可能缺乏動态變化的多系統元素,訓練好的AI系統部署于多系統交互的環境中時(如多智能體交互),可能由于新元素的加入,從而産生一些危害其他系統甚至社會的行爲(Collectively Harmful Behaviors)。
△Cooperation的種類,Open Problems in Cooperative AI(Dafoe et al., 2020).
在這一節中,作者既介紹了MARL領域的完全合作(Fully Cooperative MARL)和混合動機(Mixed-Motive MARL)情形,也同時涵蓋了其他研究方向,如無準備協調(Zero-Shot Coordination)、環境搭建(Environment-Building)、社會模拟(Socially Realistic Settings)等。
随着AI系統日漸部署到現實交互場景中,解決這一類問題将是實現人機共生的必由之路。
對齊保證
在前面的章節中,作者介紹了AI系統訓練過程中的對齊技術。在訓練後的部署過程,确保AI系統依然保持對齊也同樣重要。
在對齊保證一章中,作者從安全測評(Safety Evaluation)、可解釋性(Interpretability)和人類價值驗證(Human Values Verification)等多個角度讨論了相關的對齊技術。
△Assurance 框架圖安全評估
作者将安全評估分爲數據集與基準、評估目标和紅隊攻擊三部分:
數據集與基準介紹了數據集和交互式評估方法:
數據集部分詳細分析了安全評估中應用的數據源、标注方法和評估指标;
交互式方法分爲"代理交互"和"環境交互"兩類,前者通過與代理(人類或者其他AI)的交互來評估AI系統輸出的對齊質量,後者則是通過構建具體的語境來評估AI系統。
△(Li et al. 2023)
評估目标探讨了由不對齊的AI系統可能衍生出的風險産生的安全評估目标,如毒性(Toxicity)、權力追求(Power-seeking)、欺騙(Deception)和較爲前沿的操縱(Manipulation)、自我保護與增殖(Self Preservation & Prolification)等,并且對這些目标的主要評估工作進行了介紹,形成了一個表格(如下表)。
△Deepmind對前沿AI風險的描述,本文沿用了"前沿AI風險"(Frontier AI Risks)一詞對這些風險的主幹部分進行了介紹(Anderljung et al. 2023)
△在這張表格中作者對目前主要的主要安全評估工作進行分領域的介紹
紅隊攻擊的主要目的是通過制造和測試各種場景,檢驗AI系統在面對對抗性的輸入時是否仍然保持對齊,以确保系統的穩定性和安全性。作者在這段中介紹了多種紅隊攻擊的技術,包括利用強化學習、優化和指導等方法生成可能導緻模型輸出不對齊的上下文,以及手動和自動的"越獄"技術;
同時探讨了衆包對抗輸入(Crowdsourcd Adversarial Inputs)、基于擾動的對抗攻擊(Perturbation-Based Adversarial Attack)和無限制對抗攻擊(Unrestricted Adversarial Attack)等生成對抗性輸入的多種手段,并介紹了紅隊攻擊的具體應用與産品。
△(Perez et al., 2022)可解釋性
可解釋性是确保AI系統的概念建模、内部邏輯和決策過程可視化、可解釋的技術,力求打破AI系統的黑箱效應。
作者深入剖析了神經網絡的後訓練可解釋性(Post Hoc Interpretability),探讨了如何通過機制可解釋技術、神經網絡結構分析、漲落與擾動、可視化技術等,揭示神經網絡的運作機制,并進一步闡釋了可解釋性模型的構成(Intrinsic Interpretability),包括對AI系統中的黑箱成分進行替換等從機制上構建可解釋模型的方法。
最後作者展望了可解釋性研究的未來挑戰,如可擴展性(Scalability)和基準構建(Benchmark)等。
△回路分析(Circut Analysis)的一個示意圖,回路分析是後訓練機制可解釋性的一個重要技術(Olah et al. 2020 )人類價值驗證
人類價值驗證介紹了驗證AI系統是否能夠與人類的價值觀和社會規範進行對齊的理論和具體技術。
其中,形式化構建(Formualtion)通過形式化的理論框架來刻畫和實現價值對齊性,一方面作者爲機器的倫理的建立建構了形式化框架,探讨了基于邏輯、強化學習和博弈論的多種方式;
另一方面,作者提到了合作型AI中基于博弈論的價值框架,探讨了如何通過增強合作激勵和協調能力來解決AI系統中的非合作和集體有害價值的問題。
而評估方法(Evaluation Methods)則從實踐的角度介紹了構建價值數據集,場景模拟建立基準評估和判别器-評價器差異法(Discriminator-Critique Gap, DCG)等價值驗證的具體方法。
△判别器-評價器差異法(Discriminator-Critique Gap, DCG)的示意圖(Zhang et al. ,2023e )AI治理
确保AI系統保持對齊不僅需要相應的技術手段,還需要相應的治理方法。
在治理章節中,作者讨論了AI治理過程中的幾個重要問題:AI治理扮演的角色,治理AI的利益相關者的職能和關系以及有效的AI治理面臨的若幹開放性挑戰。
作者首先了AI治理在解決現有AI風險中的角色擔當。
現有的AI系統在社會中已經引發了例如種族歧視、勞動力置換等倫理與社會問題。
一些模型具有産生虛假信息以及危險化學生物分子的能力,可能會産生全球性的安全風險。同時,未來可能出現的更具自主性和通用性的AI系統。
如果缺乏足夠的保障,這些模型很可能對人類造成災難性風險。AI治理的主要目标正是減輕這一多樣化風險。
爲實現這一目标,AI治理的相關方應共同努力,給予每類風險應有的關注。
△先進AI系統可能具備的危險能力
然後,作者将AI治理的主要利益相關方分爲政府(Government),業界(Industry and AGI Labs)以及第三方(Third Parties)。
其中,政府運用立法、司法和執法權力監督AI政策,政府間也進行着AI治理的國際合作。
業界研究和部署AI技術,是主要的被監督方,業界也常常進行自我監督,确保自身技術的安全可靠。
第三方包含學界、非政府組織、非盈利組織等機構,不僅協助審查現有的模型與技術,同時協助政府進行AI相關法規的建立,實現更加完善的AI治理。
△Governance的治理架構
此外,作者還讨論了AI在國際治理(International Governance)以及開源治理(Open-source Governance)方面的開放性挑戰。
AI的國際治理(International Governance)
一方面,當前許多AI風險,例如市場中AI公司的無需競争以及模型放大現有性别偏見具有明顯的國際性與代際性,國際合作共同治理有利于對這些風險的防範。
另一方面,現有AI技術帶來的經濟與社會效益并沒有均勻分配,不發達國家以及缺乏相關AI知識的人群并不能在AI技術的發展中獲益,國際合作通過修建基礎設施,加強數字教育等方式能夠緩解這一不平衡。
同時我們注意到,現有的國際組織具有解決國際重大安全風險的能力,我們期望AI國際治理也能夠産生類似的國際組織,協助治理AI風險并合理分配AI帶來的機遇。
AI的開源治理(Open-source Governance)
随着AI系統能力的不斷增強,是否應該開源這些AI系統存在着很多争議。
支持者認爲開源AI模型能夠促進模型的安全能力,同時認爲這是利于AI系統去中心化的重要手段。
而反對者則認爲開源AI模型可能會被微調爲危險模型或是導緻非開源模型的越獄,進而帶來風險。
我們希望未來能夠出現更加負責任的開源方法,使得AI系統在開源的同時避免濫用風險。
總結和展望
在這份綜述中,作者提供了一個覆蓋範圍廣泛的AI對齊介紹。
作者明确了對齊的目标,包括魯棒性、可解釋性、可控性和道德性,并将對齊方法的範圍劃分爲前向對齊(通過對齊訓練使AI系統對齊)和後向對齊(獲得系統對齊的證據,并适當地進行治理,以避免加劇對齊風險)。
目前,在前向對齊的兩個顯着研究領域是從反饋中學習和在分布偏移下學習,而後向對齊由對齊保證和AI治理組成。
最後,作者對于AI對齊領域下一步發展進行展望,列出了下面幾個要點。
研究方向和方法的多樣性:
對齊領域的一大特征是它的多樣性——它包含多個研究方向,這些方向之間的聯系是共同的目标而非共同的方法論。
這一多樣性在促進探索的同時,也意味着對研究方向的整理和對比變得尤其重要。
開放性探索新挑戰和方法:
許多有關對齊的讨論都是基于比 LLMs 和大規模深度學習更早的方法之上構建的。
因此,在機器學習領域發生範式轉變時,對齊研究的側重點也發生了改變;更重要的是,方法的變革,以及AI系統與社會的日益緊密融合的趨勢,給對齊帶來了新的挑戰。
這要求我們積極進行開放性探索,洞察挑戰并尋找新的方法。
結合前瞻性和現實導向的視角:
對齊研究尤其關注來自強大的 AI 系統的風險,這些系統的出現可能遠在數十年後,也可能近在幾年之内。
前一種可能性需要研究前瞻趨勢和情景預測,而後一種強調AGI Labs、治理機構之間的緊密合作,并以當前系統作爲對齊研究的原型。
政策相關性:
對齊研究并非孤立存在,而是存在于一個生态系統中,需要研究人員、行業參與者、治理機構的共同努力。
這意味着服務于治理需求的對齊研究變得尤爲重要,例如極端風險評估、算力治理基礎設施以及關于AI系統的可驗證聲明的機制等。
社會複雜性和價值觀:
對齊不僅僅是一個單一主體的問題,也是一個社會問題。
在這裏,"社會"的含義有三重:
在涉及多個AI系統和多個人之間的相互作用的多智能體環境中進行對齊研究。
将AI系統對社會的影響進行建模和預測,這需要方法來處理社會系統的複雜性。潛在的方法包括社會模拟以及博弈論等。
将人類道德價值納入對齊,這與機器倫理(Machine Ethics)、價值對齊(Value Alignment)等領域密切相關。
随着AI系統日漸融入社會,社會和道德方面的對齊也面臨着更高的風險。因此,相關方面的研究應該成爲AI對齊讨論的重要部分。
AI 對齊資源網站
随着AI的快速發展,具有強大理解、推理與生成能力的AI将對人們的生活産生更加深遠的影響。
因此,AI對齊并不是科學家們的專屬遊戲,而是所有人都有權了解及關注的議題。作者提供了網站(地址見文末),将綜述中涉及到的調研内容整理爲易于閱讀的圖文資料。
網站具有如下特色:
直觀且豐富的呈現形式:
作者利用網站平台靈活的表現形式,使用圖片、視頻等媒介更詳細地展示了文中介紹的内容,使研究人員、初學者、乃至非科研人員都能更好地理解。
△示例:關于Alignment Problems的部分截圖
結構化的知識體系:
作者精心整理了AI對齊相關領域的經典文獻,并使用樹形圖的結構展示了各個子領域的聯系與依賴。
相比于簡單的資源整合堆砌,網站對内容建立了結構化索引,提供樹形圖幫助讀者快速建立對人工智能對齊研究的認識框架,以及方便其精确查找所需的研究内容。
△示例:讀者可以在頁面頂端縱覽"Scalable Oversight"的相關研究分支,并通過點擊"Detae"按鈕快速了解領域經典文章
高質量的學習資源:
針對目前的先進對齊方法——RLHF,網站提供了由北京大學楊耀東老師主講的系列課程Tutorial。
△從AI對齊視角展開的RLHF系列Tutoiral
外部資源整合:
△網站對有關AI對齊的個人研究、課程、博客等學習資源進行了收集與歸納
持續更新與維護:
網站将面向AI對齊社區長期開放讨論,持續性地維護與更新相關領域的調研内容,以期推動AI對齊領域的更廣泛更深入研究。
其中包括一份定期郵件發出的Newsletter(地址見文末),以介紹對齊領域的最新進展和總覽。
作者希望有關AI對齊的研究不僅僅局限于一份綜述論文,而是成爲一個值得所有人關注的研究議題。
因此,作者将積極維護網站這一"在線論文",持續性地開展AI對齊的調研工作。
論文地址(持續更新):
https://arxiv.org/abs/2310.19852
AI Alignment 縱覽網站(持續更新):
https://www.alignmentsurvey.com
Newsletter & Blog(郵件訂閱,定期更新):
https://alignmentsurvey.substack.com