找出9.9 - 青年圖摘

大模型分不清 "9.9 和 9.11 哪個更大 " 的謎團，終于被可解釋性研究揭秘了！

而且簡單到讓人哭笑不得——

一個來自 MIT、UC 伯克利的獨立實驗室團隊，開發了能抑制大模型體内某些（與具體概念相關的）神經元的 AI 工具。

他們發現，隻要把與《聖經》經文、日期、重力等概念相關的神經元激活設爲 0，大模型立馬能答對這道比較題。

單單是拿走《聖經》經文相關神經元，就可以讓 "9.9 和 9.11 哪個更大 " 這個問題的準确率，提高 21 個百分點！

而且修複這個 bug，既不需要重新訓練模型，也不需要添加額外提示詞。

網友看了過後哭笑不得：

救大命了，看完過後我覺得這些因素都挺明顯的，但在此之前我從未朝這上面想過。

這家 AI 獨立實驗室名叫Transluce AI，團隊成員也趁機悉數亮相，創始團隊來自 MIT、UC 伯克利、CMU 等頂尖高校。

其中還有 OpenAI 和谷歌大腦的前員工。

揭秘是什麽讓大模型說 "9.8<9.11"

大模型硬說 9.9<9.11 這件事，想必大家都知道了。

直至今日，Claude-3.5-Sonnet 和 GPT-4o 這樣的頂尖模型，依舊固執地這樣認爲（或者出其他的錯）。

現在，背後原因浮出水面！

先說結論吧：

這與月份、日期、重力，以及《聖經》經文有關。

發現過程是醬紫的——

Transluce AI 的研究人員針對這個著名問題，開發了一個新的技術應用Monitor。

它是一個可解釋性界面，可以揭示語言模型的内部計算過程，并允許用戶對其進行控制。

遵循通用的可擴展理解方法， Monitor 采用一系列 AI 驅動的工具，來幫助用戶理解語言模型中的神經激活模式：

首先，一個預先編譯的高質量神經元描述數據庫。

這個數據庫包含通過将 Transluce AI 的 AI 驅動描述流程應用在 LLaMA-3.1-8B 中的所有 MLP 神經元。

之所以選擇 " 神經元 " 這個單位，是因爲它們最簡單，并且表現良好。

其次，一個實時界面。

實時界面的作用是展示給定聊天對話中的重要概念，用戶可以通過激活度（概念激發的強度）或歸因度（概念對指定目标 token 的影響程度）來衡量重要性。

再者，一個實時 AI 代碼檢查器。

它可自動識别出可能的虛假線索概念群集，例如在數字 9.8 上觸發 "9 月 8 日 " 的神經元。

最後，一個語義引導的調節，根據自然語言輸入，來增加或減少概念相關神經元集合的強度。

萬事俱備，測試開始。

（有點點疑惑，展開測試過程時，研究人員把 9.9 替換成了 9.8）

研究人員使用 Monitor 的歸隐功能和實時 AI 代碼檢查器結合，發現——

9.8<9.11 這個 bug，和日期、重力以及《聖經》經文有關。

一旦研究人員把與這幾個概念有關的神經元移除，LLaMA 就能正确地回答出這個問題了。

爲了更深入地探讨這個問題，研究人員采用歸因分析，不僅要知道哪些概念最爲活躍，還要具體分析出是哪個（些）概念影響了 LLaMA 在 "9.11 是…… " 之後說出 " 最大 " 這個詞。

團隊用 AI 實時代碼檢查器發現了之前相同的兩個聚類（cluster），以及與《聖經》相關的第三個聚類。

觀察發現，這個聚類中的特定神經元與《聖經》經文相關；另外，如果将 9.8 和 9.11 解讀爲第 9.8 章節和第 9.11 章節，也會出現大模型比錯大小的情況。

發現 LLaMA 中相當一部分的神經元和《聖經》有關後，團隊在介紹文章裏感慨：

面對這個情況，起初我們非常驚訝，但仔細一想又挺有道理的。

畢竟大多數與訓練數據集都涵蓋不少的《聖經》相關内容。

于是研究人員想了個辦法解決這個問題。

他們先是通過在引導 prompts 中輸入 " 聖經經文 "，并按下 " 停用 "。這個操作讓與 " 聖經經文 " 具有最高語義匹配的 500 個神經元激活歸零。

不試不知道，一試就發現，單單是移除《聖經》經文相關神經元，LLaMA 回答這道題的準确率就能提升 21%。

更進一步的，研究人員對兩個數字相關日期及其相關事件也做了同樣的處理。

完成上述步驟後，LLaMA 就給出了正确答案：

9.8 更大！

整體而言，通過将《聖經》經文、日期、手機版本這三個概念的神經元集合，然後關閉合并集中的神經元，這樣一套幹預流程下來，LLaMA 回答這個問題的準确率達到了 77%。

關于實驗更多細節，歡迎大家查看本文末尾的原文直通車。

康康背後實驗室

說完研究本身，可以聊聊項目背後的團隊了。

Transluce AI，賊新鮮出爐，幾個小時前剛剛宣布成立。

Transluce 是透明度的意思，意味着通過某物的透光程度來揭示其本身的結構。

" 今天的複雜 AI 系統難以理解，即使技術專家部署後也無法百發百中地預測其行爲。" 團隊在官網上寫下，" 與此同時，AI 被采用的速度快過曆史上任何技術。"

也是因此，像 Monitor 這樣用來檢查和評估模型的工具非常有必要出現和存在。

Transluce AI 給自己的定位是一個非營利性研究實驗室，目标是構建開源、可擴展的技術，以理解 AI 系統并引導它們服務于公共利益。

Transluce AI 表示，自己的目标是創建世界級的 AI 系統理解工具，并利用這些工具推動建立可信賴的 AI 行業标準。

爲了在 AI 系統的能力和風險分析更加可靠，這些工具必須具有可擴展性和開放性。

關于可擴展性：

AI 的結果源于多個複雜數據流的交互：訓練數據、内部表示、行爲和用戶交互。

目前理解 AI 的方法依賴于大量的人工研究工作（常被調侃有多少人工就有多少智能）。

我們需要可擴展的方法，利用 AI 來輔助理解，通過訓練 AI Agent 來理解這些複雜的數據源，向人類解釋它們，并根據人類反饋修改數據。

關于開放性：

構建 AI 系統的公司不能成爲其安全性的主要裁定方，因爲與商業優先事項存在利益沖突。

爲了允許有意義的公衆監督，審計 AI 系統的工具和流程應公開驗證，對公衆反饋做出響應，并可供第三方評估者使用，" 世界上最優秀的人才應該審查這項技術并提高其可靠性 "。

亮相第一天，除了 Monitor 外，Transluce AI 同期放出了另外兩個自家實例。

LLaMA-3.1-8B-Instruct 内部每個神經元描述的數據庫，以及一個用于生成這些描述的細調解釋模型的權重

訓練了一批通用型調查員語言模型

他們還表示，正在将團隊方法擴展到前沿模型，以更優秀的 Agent 來幫助人類理解更複雜的系統。

具體來說，他們會結合團隊的可觀測性和啓發式技術，使用戶能夠以可觀測狀态爲條件指定搜索目标。

不過從長遠來看，Transluce AI 将構建通用的框架來理解任何複雜的數據流，包括訓練數據和多個 Agents 之間的交互。

實驗室團隊成員

目前對外披露的 Transluce AI創始成員大約有 10 人。

分别是：

Jacob Steinhardt，聯合創始人兼 CEO。

同時，Jacob 也是 UC 伯克利統計學和電子工程與計算機科學（EECS）助理教授，谷歌學術被引數超過 20000。

他的研究方向主要面向确保 ML 系統能夠被人類理解，以及與人類保持一緻。

Jacob 是斯坦福大學基礎模型研究中心（CRFM）主任、著名 AI 大佬 Percy Liang 的學生。

他曾在博士後期間于 OpenAI 實習過。

Sarah Schwettmann，聯合創始人之一。

她在自我介紹中表示，自己是一名在 MIT 計算機科學與人工智能實驗室（MIT CSAIL）以及 MIT-IBM Watson 人工智能實驗室的研究科學家。

Sarah 在 MIT 拿下腦與認知科學博士學位，是兩位十萬引大神—— Josh Tenenbaum 和 Antonio Torralba 的學生。

她的主要工作是研究 AI（以及之前在生物神經網絡）中智能背後的表征。

此外，創始團隊成員幾乎均出自（或仍在讀）于 MIT、CMU、多倫多大學等大學。

其中，Dami Choi和Daniel D. Johnson都有在谷歌 AI 相關部門工作的經曆；Neil Chowdhury曾擔任過 OpenAI 預備隊成員。

而Erin Xie本科畢業于北京大學，後在 2020 年拿下 CMU 的人機交互碩士學位。

與此同時，圖靈獎得主 Yoshua Bengio、斯坦福 AI 大佬 Percy Liang、耶魯大學統計學和數據科學教授 Jas Sekhon 等，都是該 AI 獨立實驗室的顧問。

參考鏈接：

[ 1 ] https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders

[ 2 ] https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design