OpenAI華人科學家翁荔：人類如何培養出下一代聰明且安全的AI技術

AI 如何變得更加安全？

钛媒體 App 11 月 3 日消息，華人青年科學家、OpenAI 研究副總裁（安全）翁荔（Lilian Weng）近期在 2024Bilibili 超級科學晚上發表主題爲《AI 安全與 " 培養 " 之道》的演講。這是其首次在國内發表關于 AI 技術的演講。

翁荔表示，ChatGPT 橫空出世以來，AI 技術如同搭乘了高速列車，迅速滲透并影響着人類。AI 每天都在變化，需要我們用心引導、教育，确保是更好的服務于人類，同時确保安全。而一個既安全又智能的 AI，無異于将爲我們的生活帶來諸多裨益。

具體來說，随着 AI 的智能化和自主化，确保其行爲符合人類價值觀變得重要，AI 可能因偏見而變得狹隘，或因對抗性攻擊而受到質疑。因此，需要用心引導 AI，确保其服務于人類并确保安全，而 AI 安全是實現其潛在益處的基礎，類似于自動駕駛技術。

從數據層面，提供多樣、全面、正确的數據，可以減少 AI 的偏見，而依賴于多人标注的數據，以提高 AI 的準确性；同時，基于強化學習（RL）和基于人類反饋的強化學習（RLHF），通過獎懲機制訓練 AI，類似于訓練小狗；此外，使用模型自我評價和詳細的行爲規則來提升 AI 的輸出質量。比如，在文檔寫作和視頻音樂制作中，普通人可以通過設定背景、角色思想和關鍵詞來引導 AI。

翁荔畢業于北京大學信息管理系，如今該系名爲北京大學數字人文實驗室，她是 2005 級本科生，是 " 兜樂 " 項目的骨幹設計人員，畢業後赴美攻讀博士學位，曾就職于 Facebook，如今是 OpenAI 華人科學家、ChatGPT 的貢獻者之一。

翁荔在 2018 年加入 OpenAI，後來在 GPT-4 項目中主要參與預訓練、強化學習 & 對齊、模型安全等方面的工作。她曾提出最著名的 Agent 公式—— Agent= 大模型 + 記憶 + 主動規劃 + 工具使用。

翁荔在演講中表示，人類需要教會 AI 安全基本原則和道德準則，使其成爲人類的夥伴。同時，通過思維鏈（CoT）推理和擴展性研究來提升 AI 的可靠性和監督。

翁荔強調，AI 安全需要每個人的參與，社區可以共同影響 AI 的成長。

"AI 的安全不僅僅是研究者的責任，它需要每一個人的參與。AI 技術是一把雙刃劍，它帶來的便利和挑戰并行，我們的參與至關重要。" 翁荔稱。

以下是翁荔演講内容，經钛媒體 AGI 編輯整理：

大家好，我是翁荔。今天我想與大家探讨一個既深刻又有趣的話題，AI 安全，以及我們如何像培養下一代一樣，培育出既聰明又安全的人工智能。

繼 ChatGPT 橫空出世以來，AI 技術如同搭乘了高速列車，迅速滲透并影響着我們的日常。

AI 每天都在進化，需要我們用心引導與教育，以确保其更好地服務于人類，同時确保安全無虞。一個既安全又智能的 AI 無疑将爲我們的生活帶來諸多裨益。

試想一下，一個能洞察你生活習慣的智能家居系統，能根據你的需求自動調節室内溫度和光線，或是一個時刻關注你健康狀況的 AI 助手，能爲你提供量身定制的健康建議。

AI 不僅能顯著提升我們的生活質量，還能開辟新的就業領域，提升工作效率。

然而，這一切均建立在 AI 安全的基礎之上。正如自動駕駛技術一樣，它能極大的提升生活便利性，但是一旦出錯，後果可能不堪設想。

随着 AI 應用日益智能化與自主化，如何确保 AI 的行爲符合人類價值觀，真正做到以人爲本，成爲了 AI 安全與對齊研究的核心議題。人類在成長過程中會不斷學習進步，但也會遇到成長的煩惱。AI 同樣如此，它可能會因爲數據偏見而變得狹隘，也可能因爲對抗性攻擊而被惡意利用。

悉心教育，也就是 AI 安全和對其研究，才能使 AI 成長過程更加順利。

讓我們以健康領域的應用爲例，很多疾病研究的數據往往以男性群體爲主，這可能導緻 AI 在處理女性的健康問題時風險評估不準确。此外數據本身也有可能存在偏見，比如有研究表明女性心髒病症狀更容易被歸結成焦慮等心理問題而造成診斷遺漏。因此，我們需要通過對 AI 安全和對其的研究來減少這種偏見。

AI 學習的基礎是數據，數據是它的實物，要想讓 AI 變得聰明可靠，我們必須确保它營養均衡，也就是提供多樣、全面、正确的數據，幫助它能夠正确的理解這個複雜的世界并減少偏差。

在使用人類标注的數據時，我們可以依賴于群體智慧，也就是 the wisdom of the crowd，即同一個數據點被多人标注多數票獲勝，這種方法簡單而有效。有意思的是，1907 年的一篇自然科學雜志中的文章，作者追蹤了一場年度展覽會上的一個有趣的競有獎競猜。展覽會上人們選出一頭肥牛，讓大家來猜測牛的重量，最接近真實數據的人将獲得大額的獎金。

作者發現，最中間值往往是最接近真實的 the medium value，而這個數估計值也被稱爲 wax popular。它是拉丁語中 the voice of the people，也就是人民的聲音的意思。在這篇将近 120 年前的科學文章中，作者總結道，我認爲這個結果比人們預期的更能證明民主判斷的可信度。這也是最早提到群體智慧如何發生作用的科學文獻。

而至于如何把高質量标注的數據喂給 AI，基于人類反饋的強化學習，也就是 RLHF 技術起到了關鍵作用。

在了解 RLHF 之前，讓我們快速了解一下什麽是 RL reinforce learning。強化學習是一種機器學習方法，它主要通過獎懲機制來讓模型學會完成任務，而不是依靠直接告訴模型如何去做這些任務。想象一下它就好像你要訓練小狗，如果小狗做對了一個動作，比如坐下你就給它一塊骨頭餅幹，做錯了就不給獎勵。這樣小狗就會因爲想吃到更多的餅幹，而學會如何正确的坐下。

同理，AI 也在這種獎懲機制中學習，通過不斷的嘗試并得到反饋，找到最佳的行動策略。一個早期的研究表明，強化學習能利用少量人類反饋，快速有效的教會智能體做複雜的動作，比如學會如何後空翻。

同樣的方法也可以用于訓練大語言模型。當我們看到，針對同一問題的不同 AI 回答時，我們可以告訴模型，哪一個回答更好、更正确、更符合人類價值觀。這樣我們就像家長糾正孩子一樣，能夠調節 AI 的學習過程。

此外，我們還可以使用模型本身作爲輸出 I 輸出質量的評分者。比如在 entropic 發表的 constitutional AI 中，模型就通過對自己行爲的自我評價進行改進。或者像 OpenAI 最近發表的對齊強化學習中，我們可以制定非常詳細的行爲規則來告訴 AI，比如如何何時拒絕用戶的請求，如何表達同理心等等。然後我們在 RL 的獎勵機制中，非常精準的來給予相應的評分和獎勵。這個過程中，一個更加強大的 AI 有能力更精準的判斷他是否有在遵循人類的價值觀和行爲準則。

總之，強化學習技術就像一把鑰匙，幫助我們打開 AI 高質量學習和發展的大門。在培養 AI 更懂我們的過程中，普通人也能發揮重要的作用。

在文檔寫作，我們可以采用兩個小技巧。首先設定詳細的背景和角色，就像導演爲演員準備劇本一樣，讓 AI 在豐富的情境中捕捉我們的意圖。其次，精心挑選關鍵詞，構建邏輯清晰的文檔結構，使文檔既美觀又實用。

在視頻音樂制作領域，我們可以通過使用專業術語來引導 AI 比如黃金分割構圖或和弦進行将創意轉化爲現實。同時别忘了感情的投入，因爲這是賦予靈作品靈魂的關鍵。

簡而言之，通過細緻的指導和情感的融入，我們可以幫助 AI 創作出既豐富又富有感染力的作品。

在西遊記中，孫悟空有緊箍咒約束行爲，我們應該給 AI 模型也帶上緊箍咒，也就是教會 AI 安全基本準則約束和道德标準，讓其遵守行爲規範。以人類利益爲先，成爲我們貼心的夥伴，而不是冰冷的機器。

讓 AI 學習基本原則和道德準則，可以使模型在面對複雜問題時運用推理得出正确的結論。

比如在 OpenAI 最近發表的 o1-preview 模型中，我們通過思維鏈推理，加強了模型的魯棒性，Robust 使得模型可以更好的抵抗越獄攻擊。

擴展性監督在 AI 對其研究中也非常重要。随着 AI 模型擴大，需要結合自動化工具和人類監督，有效的監督其行爲，确保它朝着正确的方向發展。在一組研究中，我們用監督學習訓練語言模型，對網絡文本摘要進行批評。比如提高提供這個摘要非常準确，或者這個摘要遺漏了要點等等。評論相比對照組，我們發現有 AI 幫助的标注員比沒有幫助的能多。找出摘要中約 50% 的問題，而且多數批評都參考了模型提供的内容。總之，給 AI 設定标準并進行有效監督，可以提升它對人們的幫助。

其實，AI 的安全不僅僅是研究者的責任，它需要每一個人的參與。

以 B 站爲例，這個充滿活力的社區聚集了衆多 AI 愛好者和創作者，我們在這裏分享見解、讨論問題，甚至監督 AI 的表現，共同影響着 AI 的成長。

我們每個人都應該成爲 AI 的大家長，不僅監督和反饋 AI 的表現，還參與塑造一個安全可信的 AI 世界。

AI 技術是一個雙刃劍，它帶來了便利與挑戰并行，我們的參與至關重要。讓我們攜手培養出一個既聰明又負責的 AI 夥伴。感謝大家的聆聽，希望今天的分享能激發大家對于安全的熱情和興趣。也感謝 B 站提供這個平台，讓我們共同爲 AI 的未來貢獻力量。

謝謝。

（本文首發于钛媒體 App，作者｜林志佳，編輯｜胡潤峰）