大模型分不清 "9.9 和 9.11 哪個更大 " 的謎團,終于被可解釋性研究揭秘了!
而且簡單到讓人哭笑不得——
一個來自 MIT、UC 伯克利的獨立實驗室團隊,開發了能抑制大模型體内某些(與具體概念相關的)神經元的 AI 工具。
他們發現,隻要把與《聖經》經文、日期、重力等概念相關的神經元激活設爲 0,大模型立馬能答對這道比較題。
單單是拿走《聖經》經文相關神經元,就可以讓 "9.9 和 9.11 哪個更大 " 這個問題的準确率,提高 21 個百分點!
而且修複這個 bug,既不需要重新訓練模型,也不需要添加額外提示詞。
網友看了過後哭笑不得:
救大命了,看完過後我覺得這些因素都挺明顯的,但在此之前我從未朝這上面想過。
這家 AI 獨立實驗室名叫Transluce AI,團隊成員也趁機悉數亮相,創始團隊來自 MIT、UC 伯克利、CMU 等頂尖高校。
其中還有 OpenAI 和谷歌大腦的前員工。
揭秘是什麽讓大模型說 "9.8<9.11"
大模型硬說 9.9<9.11 這件事,想必大家都知道了。
直至今日,Claude-3.5-Sonnet 和 GPT-4o 這樣的頂尖模型,依舊固執地這樣認爲(或者出其他的錯)。
現在,背後原因浮出水面!
先說結論吧:
這與月份、日期、重力,以及《聖經》經文有關。
發現過程是醬紫的——
Transluce AI 的研究人員針對這個著名問題,開發了一個新的技術應用Monitor。
它是一個可解釋性界面,可以揭示語言模型的内部計算過程,并允許用戶對其進行控制。
遵循通用的可擴展理解方法, Monitor 采用一系列 AI 驅動的工具,來幫助用戶理解語言模型中的神經激活模式:
首先,一個預先編譯的高質量神經元描述數據庫。
這個數據庫包含通過将 Transluce AI 的 AI 驅動描述流程應用在 LLaMA-3.1-8B 中的所有 MLP 神經元。
之所以選擇 " 神經元 " 這個單位,是因爲它們最簡單,并且表現良好。
其次,一個實時界面。
實時界面的作用是展示給定聊天對話中的重要概念,用戶可以通過激活度(概念激發的強度)或歸因度(概念對指定目标 token 的影響程度)來衡量重要性。
再者,一個實時 AI 代碼檢查器。
它可自動識别出可能的虛假線索概念群集,例如在數字 9.8 上觸發 "9 月 8 日 " 的神經元。
最後,一個語義引導的調節,根據自然語言輸入,來增加或減少概念相關神經元集合的強度。
萬事俱備,測試開始。
(有點點疑惑,展開測試過程時,研究人員把 9.9 替換成了 9.8)
研究人員使用 Monitor 的歸隐功能和實時 AI 代碼檢查器結合,發現——
9.8<9.11 這個 bug,和日期、重力以及《聖經》經文有關。
一旦研究人員把與這幾個概念有關的神經元移除,LLaMA 就能正确地回答出這個問題了。
爲了更深入地探讨這個問題,研究人員采用歸因分析,不僅要知道哪些概念最爲活躍,還要具體分析出是哪個(些)概念影響了 LLaMA 在 "9.11 是…… " 之後說出 " 最大 " 這個詞。
團隊用 AI 實時代碼檢查器發現了之前相同的兩個聚類(cluster),以及與《聖經》相關的第三個聚類。
觀察發現,這個聚類中的特定神經元與《聖經》經文相關;另外,如果将 9.8 和 9.11 解讀爲第 9.8 章節和第 9.11 章節,也會出現大模型比錯大小的情況。
發現 LLaMA 中相當一部分的神經元和《聖經》有關後,團隊在介紹文章裏感慨:
面對這個情況,起初我們非常驚訝,但仔細一想又挺有道理的。
畢竟大多數與訓練數據集都涵蓋不少的《聖經》相關内容。
于是研究人員想了個辦法解決這個問題。
他們先是通過在引導 prompts 中輸入 " 聖經經文 ",并按下 " 停用 "。這個操作讓與 " 聖經經文 " 具有最高語義匹配的 500 個神經元激活歸零。
不試不知道,一試就發現,單單是移除《聖經》經文相關神經元,LLaMA 回答這道題的準确率就能提升 21%。
更進一步的,研究人員對兩個數字相關日期及其相關事件也做了同樣的處理。
完成上述步驟後,LLaMA 就給出了正确答案:
9.8 更大!
整體而言,通過将《聖經》經文、日期、手機版本這三個概念的神經元集合,然後關閉合并集中的神經元,這樣一套幹預流程下來,LLaMA 回答這個問題的準确率達到了 77%。
關于實驗更多細節,歡迎大家查看本文末尾的原文直通車。
康康背後實驗室
說完研究本身,可以聊聊項目背後的團隊了。
Transluce AI,賊新鮮出爐,幾個小時前剛剛宣布成立。
Transluce 是透明度的意思,意味着通過某物的透光程度來揭示其本身的結構。
" 今天的複雜 AI 系統難以理解,即使技術專家部署後也無法百發百中地預測其行爲。" 團隊在官網上寫下," 與此同時,AI 被采用的速度快過曆史上任何技術。"
也是因此,像 Monitor 這樣用來檢查和評估模型的工具非常有必要出現和存在。
Transluce AI 給自己的定位是一個非營利性研究實驗室,目标是構建開源、可擴展的技術,以理解 AI 系統并引導它們服務于公共利益。
Transluce AI 表示,自己的目标是創建世界級的 AI 系統理解工具,并利用這些工具推動建立可信賴的 AI 行業标準。
爲了在 AI 系統的能力和風險分析更加可靠,這些工具必須具有可擴展性和開放性。
關于可擴展性:
AI 的結果源于多個複雜數據流的交互:訓練數據、内部表示、行爲和用戶交互。
目前理解 AI 的方法依賴于大量的人工研究工作(常被調侃有多少人工就有多少智能)。
我們需要可擴展的方法,利用 AI 來輔助理解,通過訓練 AI Agent 來理解這些複雜的數據源,向人類解釋它們,并根據人類反饋修改數據。
關于開放性:
構建 AI 系統的公司不能成爲其安全性的主要裁定方,因爲與商業優先事項存在利益沖突。
爲了允許有意義的公衆監督,審計 AI 系統的工具和流程應公開驗證,對公衆反饋做出響應,并可供第三方評估者使用," 世界上最優秀的人才應該審查這項技術并提高其可靠性 "。
亮相第一天,除了 Monitor 外,Transluce AI 同期放出了另外兩個自家實例。
LLaMA-3.1-8B-Instruct 内部每個神經元描述的數據庫,以及一個用于生成這些描述的細調解釋模型的權重
訓練了一批通用型調查員語言模型
他們還表示,正在将團隊方法擴展到前沿模型,以更優秀的 Agent 來幫助人類理解更複雜的系統。
具體來說,他們會結合團隊的可觀測性和啓發式技術,使用戶能夠以可觀測狀态爲條件指定搜索目标。
不過從長遠來看,Transluce AI 将構建通用的框架來理解任何複雜的數據流,包括訓練數據和多個 Agents 之間的交互。
實驗室團隊成員
目前對外披露的 Transluce AI創始成員大約有 10 人。
分别是:
Jacob Steinhardt,聯合創始人兼 CEO。
同時,Jacob 也是 UC 伯克利統計學和電子工程與計算機科學(EECS)助理教授,谷歌學術被引數超過 20000。
他的研究方向主要面向确保 ML 系統能夠被人類理解,以及與人類保持一緻。
Jacob 是斯坦福大學基礎模型研究中心(CRFM)主任、著名 AI 大佬 Percy Liang 的學生。
他曾在博士後期間于 OpenAI 實習過。
Sarah Schwettmann,聯合創始人之一。
她在自我介紹中表示,自己是一名在 MIT 計算機科學與人工智能實驗室(MIT CSAIL)以及 MIT-IBM Watson 人工智能實驗室的研究科學家。
Sarah 在 MIT 拿下腦與認知科學博士學位,是兩位十萬引大神—— Josh Tenenbaum 和 Antonio Torralba 的學生。
她的主要工作是研究 AI(以及之前在生物神經網絡)中智能背後的表征。
此外,創始團隊成員幾乎均出自(或仍在讀)于 MIT、CMU、多倫多大學等大學。
其中,Dami Choi和Daniel D. Johnson都有在谷歌 AI 相關部門工作的經曆;Neil Chowdhury曾擔任過 OpenAI 預備隊成員。
而Erin Xie本科畢業于北京大學,後在 2020 年拿下 CMU 的人機交互碩士學位。
與此同時,圖靈獎得主 Yoshua Bengio、斯坦福 AI 大佬 Percy Liang、耶魯大學統計學和數據科學教授 Jas Sekhon 等,都是該 AI 獨立實驗室的顧問。
參考鏈接:
[ 1 ] https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders
[ 2 ] https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design