OpenAI重磅研究！用GPT-4解析GPT-2樣本，開啓AI思考之門

當 ChatGPT 引發中美科技行業狂熱之後，它的締造者美國 OpenAI 公司如今又在人工智能（AI）可解釋性研究領域獲得重大突破。

钛媒體 App 5 月 10 日消息，OpenAI 今晨發布一個關于 GPT-4 語言模型解析神經元的對齊性研究成果，利用自研基于 GPT-4 技術的開源工具，來嘗試計算其他架構、更簡單語言模型上神經元的行爲并對其進行評分，而且可以将其應用于另一種語言模型中的神經元——本次選擇 4 年前發布、包含 307200 個神經元的大模型 GPT-2 爲實驗樣本，公開了這些 GPT-2 神經元解釋和分數的數據集。

" 我們的目标是使用 Al 來幫助我們理解 Al"，OpenAI 的這一研究對 AI 行業意味着，利用 GPT-4 和機器學習技術就能定義、測量 AI 可解釋性，未來在神經元層将會産生 " 大模型比人腦更會思考 " 技術趨勢。

OpenAI 聯合創始人 Greg Brockman 則表示：我們邁出了使用 AI 進行自動化對齊研究的重要一步。

與此同時，OpenAI 對此依然是一如既往的謙虛，文章稱目前 GPT-4 生成的可解釋實驗還不完美，當比 GPT-2 更大模型時解釋表現效果很差。OpenAI 可拓展對齊團隊的 Jeff Wu 直言，本次研究中大多數解釋的得分很低，GPT-4 或無法解釋實際神經元那麽多的行爲，未來仍有技術改進空間。

據悉，自去年 11 月底至今，人工智能（AI）聊天機器人大模型 ChatGPT 風靡全球。根據 Similarweb 公布的最新數據，截至今年 4 月，ChatGPT 平台訪問量達到 17.6 億次，比 3 月份增長了 12.6%，同時已達到谷歌的 2%。

ChatGPT 背後的大型語言模型（LLM），是基于大量文本數據訓練、包含數千億（或更多）參數的語言模型。在大數據時代，這類 AI 機器學習模型可以在提升産品銷售、輔助人類決策過程中能夠起到很大的作用，但是計算機通常不會解釋它們的預測結果，而語言模型想要變得更強大，部署更廣泛，就需要研究可解釋性（interpretability），因爲人類對模型内部工作原理的理解仍然非常有限，例如可能很難從中檢測到有偏見、欺騙性内容輸出。

站在 OpenAI 的角度看，大模型未來将和人腦一樣擁有 " 神經元 "（neurons），這些神經元會觀察文本中的特定規律，進而影響到模型本身生産的文本。所以可解釋性就是将模型能用通俗易懂的語言進行表達，把模型的預測過程轉化成具備邏輯關系的規則的能力，從而通過查看模型内部來發現更多信息。

例如，如果有一個針對 " 漫威超級英雄 " 的神經元，當用戶向模型提問 " 哪個超級英雄的能力最強 " 時，這個神經元就會提高模型在回答中說出漫威英雄的概率，或者是弄清楚爲什麽人類神經元，可以決定進行某些搜索引擎查詢或訪問特定網站，即逐步轉化一種有數據可解釋性的 " 無監督學習 " 模式。

OpenAI 這次使用 GPT-4 來解決可解釋性的問題，就是希望能夠使用自動化的方式，讓機器提高 AI 數據準确性，文章稱這是其對齊研究的第三支柱的一部分。據悉，" 第三支柱 " 是公司 2022 年發布的《我們做對齊研究的方法》，具體對齊研究将由三大支柱支撐：利用人工反饋訓練 AI；訓練 AI 系統協助人類評估；訓練 AI 系統進行對齊研究。

具體到本次研究成果上，OpenAI 開發了一套包含自動化工具和測試方法的評估流程：

首先，研究人員讓 GPT-2 運行文本序列，等待某個特定神經元被頻繁 " 激活 "；

然後讓 GPT-4 針對一段文本生成解釋，例如通過 GPT-4 接收到文本和激活情況判斷漫威是否與電影、角色和娛樂有關；

随後用 GPT-4 模拟 GPT-2 的神經元接下來會做什麽，預測行爲；

最後評估打分，對比 GPT-4 模拟神經元和 GPT-2 真實神經元的結果的準确度，在下圖這個例子中，GPT-4 的得分爲 0.34。

使用上述評分方法，OpenAI 開始衡量他們的技術對網絡不同部分的效果，并嘗試針對目前解釋不清楚的部分改進技術。OpenAI 表示，他們正在将 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經元的解釋的數據集和可視化工具開源，同時還提供了 OpenAI API 公開可用的模型進行解釋和評分的代碼，從而希望學術界能開發出新的技術來提升 GPT 模型解釋分數。

OpenAI 還發現，有超過 1000 個神經元的解釋得分至少爲 0.8 分，這意味着 GPT-4 模型可以解釋大部分人類神經元，同時目前 GPT 理解的概念似乎和人類不太一樣。該團隊稱，希望随着技術和研究方法的改進，進一步提高 AI 模型可解釋性能力：如通過叠代解釋，可以讓 GPT-4 想出可能的反例在根據激活情況修改解釋；使用更大的模型作出解釋；以及調整已解釋模型（explained model）結構等，用不同的激活函數訓練模型有助于提高解釋評分。

對于本研究局限性，OpenAI 表示，目前 GPT-4 生成的解釋還不完美，尤其要解釋比 GPT-2 更大的模型時，表現效果很差；神經元複雜行爲無法用簡短的自然語言描述；OpenAI 解釋了神經元的這種行爲，卻沒有試圖解釋産生這種行爲的機制；而且整個過程算力消耗極大等。OpenAI 希望在未來的工作中可以解決上述這些問題。

最終，OpenAI 希望使用模型來形成、測試和叠代完全一般的假設，從而比肩人類大腦的想法和行爲，以及将其大模型解釋爲一種在部署前後檢測對齊和安全問題的方法。然而在這之前，OpenAI 還有很長的路要走。

" 我們希望這将開辟一條有前途的途徑。"Jeff Wu 表示，這一技術可以讓其他人可以在此基礎上構建并做出貢獻的自動化方案，從而解決 AI 模型可解釋性問題，很好地解釋這些模型行爲，比如 AI 如何影響人類大腦中的神經元等。（本文首發钛媒體 App，作者｜林志佳）

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App