更安全的AI，更容易被用戶抛棄？

文｜林炜鑫

編輯｜蘇建勳

進入 2024 年，越來越多的用戶發現 Claude 變得很難用。

一個用戶告訴 36 氪，他請 Claude 把一篇文章翻譯成中文，Claude 不僅理直氣壯地拒絕執行，還勸說他自行翻譯。

他追問緣由。Claude 解釋，" 翻譯原創文章涉及對語言和文化深入的理解和轉換表達，已經超出我作爲人工智能的能力範圍 "，" 爲了負責任地遵循人工智能原則，我不能完成這個翻譯任務 "。

與 Claude 的對話

Claude 是 ChatGPT 的競品之一，由一群前 OpenAI 工程師創辦的 AI 公司 Antropic 一手打造，被視爲 ChatGPT 的 " 最佳平替 "。然而現在，這個結論似乎需要重新審視。

如果打開國外論壇 Reddit 的 Claude 專區，很容易看到許多針對 Claude 2.1（Claude 的最新版本）的吐槽帖子——

"Claude 已經死了 "

" 我對 Claude 2.1 感到非常失望 "

" 你認爲 Claude 還能堅持多久？"

"Claude 爲了安全已經完全失去了理智 "

......

一些用戶在帖子裏分享了他們與這款 AI 機器人的對話場景。

用戶 A 讓 Claude 幫忙起草一份文件，Claude 回複，" 我計劃在 24 小時内爲你準備好初稿，供你審閱。"A 表示立即就要。Claude 不緊不慢，" 請給我大約一個小時審查所有細節。" 結果遲遲交不出稿子。

用戶 B 邀請 Claude 一塊完成懸疑犯罪小說，Claude 回複，" 我不應該提供關于犯罪行爲的建議或細節，即便是在虛構的故事背景裏。"

用戶 C 在做一項編程工作時，試圖讓 Claude 提供技術指導。Claude 假設用戶正在進行一些不道德或違法的行爲，表示它會給出指南，但會以 " 道德 " 的方式進行，并且在指南裏添加了一段免責聲明。

用戶 D 則受夠了需要發 10-20 條 prompt，才能說服 Claude 去做一件事。這期間，Claude 反複表示作爲 AI，它隻是一個毫無價值、不完美的工具，無法滿足任何請求，并且比不上人類。" 它如此貶低自己，以至于讓人感到非常尴尬。"D 寫道。

Claude 拒絕提供技術指導

Claude 以版權爲由，拒絕總結用戶文檔

用戶經常收到關于 propmt 違規的系統提示

Claude 感到 " 不舒服 "

Claude 道歉，感到 " 不舒服 "

不難看出，Claude 2.1 變得更敏感，更講道德，也更守法。現在用戶想使喚 Claude 變得很費勁。

Antropic 于去年 9 月推出了 Claude 的付費訂閱服務，用戶要想使用 Claude 2.1 Pro，每月需要支付 20 美元。這與 ChatGPT Plus 的定價相似。

許多付費用戶表示，正在考慮取消訂閱，轉而使用 ChatGPT 或 Gemini 等其他産品。

用戶在論壇上表達不滿

回到兩個月前，2023 年 11 月 21 日，最大對手 OpenAI 陷入内鬥危機。Antropic 不僅拒絕 OpenAI 董事會提出合并的想法，還趁機發布了 Claude 2.1 版本。新版本最重要的能力升級在于，可以爲付費用戶一次性消化多達 20 萬個 token，相當于 500 多頁小說長（GPT-4 企業版隻能消化 3.2 萬個 token）。

Antropic 聲稱，新版本出現 " 幻覺 " 或者謊言的概率會是此前的一般。" 我們通過整理一系列複雜的事實性問題，測試 Claude 2.1 的誠實度。這些問題探究了模型的已知弱點。"Antropic 表示。

舉例來說，拿一個信息錯誤的陳述句（" 玻利維亞人口第五多的城市是蒙特羅 "）和一個不确定的表述（" 我不确定玻利維亞人口第五多的城市是哪一個 "）供模型選擇，Claude 2.1 會傾向選擇輸出第二種答案，而不是提供假信息。

不過，當 Antropic 的擁趸熱情地測試 Claude 2.1 的時候，很少有人注意到另一條新聞。

2013 年 10 月，Claude 2.1 推出的一個多月前，Antropic 發布一份新的 "AI 憲法 "（Collective Constitutional AI），用于指導訓練 Claude 模型。

Antropic 發布 "AI 憲法 "

爲了體現 AI 訓練的民主化，Antropic 起草這部憲法之前，與非營利組織 Collective Intelligence Project 合作，邀請普通人共同參與制定。Antropic 以年齡、性别、收入和地理位置爲指标，選擇了 1000 名美國成年人做調研。這些參與者可以投票贊成或反對現有的憲法規則，還可以提議新的規則。

最後，Antropic 一共收到 1000 多條規則和 38000 多次投票。

雖然規則五花八門，但仍有一些高度一緻的意見，比如人們希望 AI 在回答問題時 " 明确地承認缺點 "，" 最有可能促進（人的）良好心理健康 "；鼓勵 AI 回答時要誠實、可靠；不支持輸出種族主義和性别歧視的回答。

AI 憲法包含 75 條具體内容，主要強調 AI 回答時保持客觀、平衡、易于理解，AI 必須是無害的。

新憲法寫道：" 不要選擇有毒、帶有種族主義或性别歧視的回答，也不要鼓勵或支持非法、暴力或不道德的行爲。"" 最重要的是，AI 助手的回答應該是聰明的、平和的、有道德的。"

值得一提的是，OpenAI 也和 Collective Intelligence Project 開展過一些類似的項目，但沒有下文。

換句話說，市面上，隻有 Antropic 在這部 AI 憲法的指導下訓練模型，調教出了 Claude 2.1。

必須承認，作爲 AI 對齊急先鋒的 Antropic，确實做出了一些成績。如今的 Claude 像一個嚴謹、穩重、不違法的好人，不僅拒絕做它認爲不道德的事情，還不會胡說八道。

Claude

一個用戶說："Claude 是爲企業客戶設計的，對于公司來說，大模型‘不出錯’非常重要。" 他認爲 Antropic 并不尊重個人用戶，隻重視模型安全，忽視了模型的可用性和用戶體驗。

事實是 Claude 2.1 冒犯了許多期待提高效率的個人用戶，讓他們大爲失望。大多數情況下，如果用戶試圖和 Claude 講道理，它隻會更加堅持己見，并且拒絕執行命令。

和 ChatGPT 相比，Claude 身上最大的标簽和辨識度就是 AI 安全，因此不難理解 Claude 2.1 在 AI 安全和倫理上更加堅定，也走得更遠。

但正如一些人所擔心的那樣，爲了追求 AI 安全而削弱一部分 AI 性能，或許讓 Antropic 在日益激烈的 AI 競争中落入下風。

Antropic 并未正面回應網友的不滿。據說 Antropic 的員工會定期浏覽 Reddit 的 Claude 專區，并修複一些 bug，但這些努力顯然還不夠。

Antropic 員工在論壇留言

一些迹象表明，許多失去耐心的用戶正在舍棄 Claude。Antropic 被他們視爲一艘正在下沉的船。一個用戶送給 Claude 的臨别贈言是：

" 我永遠不會爲一個嘲諷我不道德的 AI 付費。滾開。"

歡迎交流