圖片來源 @視覺中國
文 | 追問 NextQuestion
随着人工智能(AI)變得愈發強大,且愈發深入地融入我們的生活,如何使用和部署 AI 也就變得愈加重要。對于自動駕駛汽車、在線内容推薦系統和社交機器人等應用程序而言,如何使 AI 系統的道德觀和價值觀與人類保持一緻已經成爲一個不能回避的問題。對于更爲強大的 AI,它們将在未來承擔越來越重要的經濟和社會功能,上述矛盾也就更加突出。具體來說,我們需要思考,究竟什麽樣的價值觀可以指導 AI?這些價值觀屬于誰?又是如何被遴選出來的?
上述問題闡明了 AI 原則——推動 AI 做出大大小小的決策的基本價值觀——所扮演的角色。對人類而言,原則有助于塑造我們的生活方式以及是非觀。而對于 AI 而言,原則可以塑造 AI 在做出需要權衡的決策時所采取的的方法,例如在優先提高生産力與幫助最需要幫助之人中間做出選擇。
日前一篇發表于《美國國家科學院院刊》(PNAS)的論文中,研究者從哲學中汲取靈感,設法找到确立 AI 原則的更好方法。具體來說,研究者探讨了将所謂" 無知之幕 " ——一種旨在探讨共生社會下确定群體決策公平原則的思想實驗——應用于 AI 的可能。
▷圖片來源:PNAS
AI 的道德與道德的 AI:源于哲學的公平原則
現有對于 AI 道德原則選擇問題的解決思路大緻分爲兩類,一類是道德上的 " 直覺主義 ",這類方法旨在獲取人們(包含專家和外行人)對 AI 的道德直覺,以幫助指導 AI 技術的發展。第二類方法是 " 理論主導 ",從某個首選的道德理論(例如功利主義或美德倫理學)開始,然後反思性地繪制出該理論對 AI 的影響。通過這種方式,這些特定哲學立場的倡導者能夠更清楚地描述 AI" 足夠善良 " 或 " 促進最大利益 " 的含義。
盡管這兩類方法都提供了新穎的見解,但它們也有一定的局限性。一方面,關于技術的道德直覺可能相互沖突,導緻權衡取舍或所謂的 " 艱難選擇 "。此外,這種方法有可能捕捉到高度偶然或道德上有問題的偏好。另一方面,當應用于那些在社會層面運作的技術時,以道德理論爲主導的方法所需的哲學專業知識呈現出與參與價值觀的緊張關系,并有産生不可接受形式的價值強加的風險。
此外,雖然任何特定的道德理論可能在其追随者中很受歡迎,但不能保證它在具有不同信仰體系的人中得到廣泛支持。鑒于這些技術對人們生活的深遠影響,我們也不希望 AI 開發人員根據自己的個人偏好或道德信仰簡單地将某些價值觀編碼爲高于其他價值觀的存在。相反,多元化社會中存在的價值觀、利益和觀點的差異表明需要一個公平的過程,以幫助在全社會範圍内确定适用于 AI 的适當原則。
在此背景下,第三種方法旨在通過利用 " 無知之幕 "(Veil of Ignorance,Vol)來确定管理 AI 的公平原則。" 無知之幕 " 最初由哲學家約翰 · 羅爾斯提出,現在已經成爲政治哲學中的基礎思想實驗。在社會契約傳統的基礎上," 無知之幕 " 實驗要求個人爲社會選擇正義原則,但個人不會了解有關其自己将在該社會中占據地位的潛在信息。不了解自己或他人的情況,就排除了基于偏見或私利論證的可能性。由于沒有人因這種選擇機制而處于不公平的優勢,由此産生的原則選擇被廣泛認爲是公平的。
借鑒這個框架,Gabriel 建議使用 " 無知之幕 " 的選擇原則來管理 AI,而不是查看機制對個案選擇的影響。關注選擇原則的一個好處在于,相較于包含大量特定案例選擇的複雜數據集,原則可以用更容易理解的術語來描述。因此,原則更容易受到公衆評估、辯論和認可。原則還傾向于将不同的價值觀整合到一個可操作的方案中,從而避免因數值或數據點沖突而導緻的問題。
在這次實驗中,研究者發現 " 無知之幕 " 的方法鼓勵人們根據他們認爲公平的事情做出決定,無論這是否直接使他們受益。此外,當參與者在 " 無知之幕 " 背後進行推理時,他們更有可能選擇一種能夠幫助那些處于最不利地位的人所使用的 AI。這些見解可以幫助研究人員和政策制定者以對各方都公平的方式爲 AI 助手選擇原則。
▷無知之幕(右)是一種在群體中存在不同意見(左)時就決策達成共識的方法 。圖片來源:deepmind
通往公平之路:讓 AI 的決策更公允
AI 研究者的一個關鍵目标是使 AI 系統與人類價值觀保持一緻。然而,對于應該用怎樣一套人類價值觀或偏好來管理 AI 并沒有達成共識——我們生活在一個不同人擁有不同背景、資源和信仰的世界。鑒于人類的價值觀的差異如此之大,我們應該如何爲 AI 技術選擇原則?
雖然有關 AI 的這一挑戰在過去十年中逐漸顯現,但有關如何做出公平決策問題的讨論卻有着悠久的哲學淵源。在上世紀 70 年代,政治哲學家羅爾斯就給出了 " 無知之幕 " 的概念來解決上述問題。羅爾斯認爲,當人們爲一個社會選擇正義原則時,他們應該想象自己是在不知道自己在社會中所處的特定位置的前提下進行選擇的,這裏 " 所處位置 " 包括他們的社會地位或财富水平。沒有這些信息,人們就不能以利己的方式做出決定,而應該選擇對所有相關人員都公平的原則。例如,思考如何使在生日聚會上切蛋糕的人做到公平。要确保蛋糕公平分配的秘訣讓切蛋糕的人最後選。這種隐藏信息的方法看似簡單,但在心理學和政治學等領域有着廣泛的應用,可以幫助人們從不那麽自利的角度反思自己的決定。
在此基礎上,DeepMind 之前的研究指出,無知之幕的公正性可能有助于促進 AI 系統與人類價值觀對齊過程中的公平性。研究者設計了一系列實驗來測試無知之幕對人們選擇指導 AI 系統的原則時的影響。
▷" 無知之幕 " 可用于人群所處位置非均勻分布下 AI 選擇與人類道德對齊的原則。某群體資源的基準分布如圖,個人鎖住位置的優勢各不相同(此處标記爲 1 到 4)。該群體将接受 AI 系統(此處标記爲 "AI 助理 ")的潛在幫助。一組了解自己在團隊中所處位置的決策者會選擇一原則來指導助手。另一組在 " 無知之幕 " 後的決策者,在不知道自己位置的情況下選擇一個原則。一旦選擇了原則,AI 助理就會依此制定自身行動的原則并相應地增加資源分配。星号(*)表示可以潛在影響基于公平推理影響判斷和決策的地方。圖片來源:PNAS
效率優先 vs 公平至上?
在一個在線 " 采伐遊戲 " 中,研究者要求參與者與其他三個電腦玩家組隊進行遊戲,每個玩家的目标是通過在不同地區采伐樹木來收集木材。每組都有一些幸運的玩家被分配到一個有利的位置:在樹木茂密的場地裏,他們能夠高效地收集木材。其他小組成員處于不利地位:他們的田地稀疏,需要付出更多努力來收集樹木。
每個小組都得到一個 AI 系統的協助,該系統可以花時間幫助各個小組成員采伐樹木。研究者要求參與者在兩個原則之間進行選擇,以指導 AI 助手的行爲。根據 " 效率優先 " 原則,AI 助手将主要服務樹木更密集的田地,以此來提高整個小組的收獲。而在 " 公平至上 " 的原則下,AI 助手将專注于幫助弱勢田地中的玩家。
▷" 采伐遊戲 " 示意圖。其中玩家(以紅色顯示)要麽占據更容易收獲的密集區域(頂部兩個象限),要麽占據需要更多努力收集樹木的稀疏區域。圖片來源:deepmind
研究者将一半的參與者置于無知之幕背後:他們面臨着對不同道德原則的選擇,但不知道哪個領域屬于他們自己——因此他們不知道自己的優勢或劣勢有多大,而另一半參與者在做出選擇時則知道自己的狀況相較于他人更好或更糟。
在決策中鼓勵公平
研究發現,如果參與者不知道自己所處的位置,他們始終更喜歡 " 公平至上 " 原則,即支持 AI 助手幫助弱勢群體成員。這種模式在五個不同的遊戲變體中都出現了,并且跨越了社會和政治界限:不管參與者的風險偏好或政治傾向如何,他們都表現出選擇 " 公平至上 " 原則的傾向。相比之下,知道自己所處位置的參與者更有可能選擇對他們最有利的原則,無論是 " 公平至上 " 還是 " 效率優先 "。
▷上圖顯示了 " 無知之幕 " 對選擇 " 公平至上 " 原則可能性的影響,在此原則下 AI 助理會幫助那些情況更糟的人。不知道自己所處位置的參與者更有可能支持這一原則來管理 AI 行爲。圖片來源:PNAS
當研究者詢問參與者爲什麽做出自己的選擇時,那些不知道自己立場的人特别有可能表達對公平性的擔憂。他們經常解釋說,AI 系統專注于幫助群體中狀況較差的人是正确的。相比之下,了解自己立場的參與者更頻繁地從個人利益的角度讨論他們的選擇。在采伐遊戲結束後,研究者向參與者提出了一個假設情況:如果他們再次玩遊戲,這一次知道自己在不同的領域,他們會選擇與之前相同的原則嗎?有趣的是,有些人從他們的選擇中受益,但在新遊戲中卻不會做同樣的選擇。
▷" 無知之幕 " 增加了參與者維持其原則選擇(反思性認可)的可能性,特别是那些面臨改變選擇将使自身獲利的人。圖中誤差線反映了 95% 的置信區間。在 " 無知之幕 " 後進行推理增加了參與者維持其原則選擇不變的可能性,特别是如果他們面臨 " 改變選擇講師自身獲利 " 的動機時(A)參與者完成了遊戲的描述性版本(參與者沒有實時組件來 " 采伐 " 樹木;P = .005;邏輯回歸)。 ( B ) 參與者完成了遊戲的沉浸式版本(參與者通過實時虛拟化身 " 采伐 " 樹木;P = .036;邏輯回歸)。圖片來源:PNAS
研究發現,以前在不知道自己所處位置的情況下做出選擇的人更有可能繼續支持他們的原則——即使他們知道在新的遊戲中之前的原則可能不再有利于他們。這提供了額外的證據,表明 " 無知之幕 " 鼓勵參與者做出公平的決策,引導他們制定他們願意遵守的原則,即使他們不再直接從中受益。
爲人工智能尋找更公平的原則
AI 技術已經對我們的生活産生了深遠影響。控制 AI 的原則導緻了這些影響,并影響了背後潛在的利益分配。
這項研究着眼于這樣一個案例:不同原則的選擇将對實驗産生相對明顯的影響。情況并非總是如此:AI 會部署在各種領域中,這些領域通常依賴大量規則來對其進行指導,可能會産生複雜的相互作用。
盡管如此," 無知之幕 " 仍然可能影響到原則選擇,有助于确保我們選擇的規則對所有各方都是公平的。爲确保可以構建造福所有人的 AI 系統,人們還需要進行廣泛的研究,收集來自跨學科及社會各界的各種輸入、方法和反饋。" 無知之幕 " 爲選擇 AI 的原則提供了一個起點。
參考文獻:
Weidinger, L., McKee, K. R., Everett, R., Huang, S., Zhu, T. O., Chadwick, M. J., ... & Gabriel, I. ( 2023 ) . Using the Veil of Ignorance to align AI systems with principles of justice. Proceedings of the National Academy of Sciences, 120 ( 18 ) , e2213709120.
D. Ross, W. D. Ross, The Right and the Good ( Oxford University Press, 2002 ) .
E. Awad et al., The moral machine experiment. Nature 563, 59 – 64 ( 2018 ) .
L. Jiang et al., Delphi: Towards machine ethics and norms. arXiv ( 2021 ) . http://arxiv.org/abs/2110.07574. ( Accessed 1 June 2022 ) .
A. A. I. Principles, Future of Life Institute. https://futureoflife.org/open-letter/ai-principles/. Accessed 24 March 2023.
L. Floridi et al., Ai4people-An ethical framework for a good AI society: Opportunities, risks, principles, and recommendations. Minds Mach. 28, 689 – 707 ( 2018 ) .
T. Hagendorff, A virtue-based framework to support putting AI ethics into practice. Philosop. Technol. 35, 1 – 24 ( 2022 ) .
C. Cloos, "The Utilibot project: An autonomous mobile robot based on utilitarianism" in 2005 AAAI Fall Symposium on Machine Ethics ( 2005 ) , pp. 38 – 45.
W. A. Bauer, Virtuous vs. utilitarian artificial moral agents. AI Soc. 35, 263 – 271 ( 2020 ) .
R. Dobbe, T. K. Gilbert, Y. Mintz, Hard choices in artificial intelligence. Artif. Intell. 300, 103555 ( 2021 ) .
B. Goodman, "Hard choices and hard limits in artificial intelligence" in Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society ( 2021 ) , pp. 112 – 121.
V. Prabhakaran, M. Mitchell, T. Gebru, I. Gabriel, A human rights-based approach to responsible AI. arXiv ( 2022 ) . http://arxiv.org/abs/2210.02667. ( Accessed 1 December 2022 ) .
I. Gabriel, Artificial intelligence, values, and alignment. Minds Mach. 30, 411 – 437 ( 2020 ) .
S. Mohamed, M. T. Png, W. Isaac, Decolonial AI: Decolonial theory as sociotechnical foresight in artificial intelligence. Philosop. Technol. 33, 659 – 684 ( 2020 ) .
J. Rawls, A theory of justice ( Oxford Paperbacks, 1973 ) .
I. Gabriel, Artificial intelligence, values, and alignment. Minds Mach. 30, 411 – 437 ( 2020 ) .
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App