新V觀海外：Anthropic警示AI破壞力

陳沛 / 文在 OpenAI 積極轉型營利機構加速 AI 應用落地的同時，被視爲 OpenAI 主要競争對手的 Anthropic 新發布了一篇 AI 破壞力的報告，繼續引領 AI 安全對齊研究的前沿風向。

Anthropic 提出未來 AI 四類安全風險

Anthropic 這篇名爲《前沿模型破壞能力風險評估》報告提出，目前 AI 安全研究主要聚焦限制惡意用途，而随着未來 AI 能力将超過人類，也要提前研究 AI 主動破壞風險。

Anthropic 具體研究了四類風險：通過安全可靠的方式誤導人類決策、在系統中插入難以發現的錯誤代碼、接受安全測試時故意隐藏危險能力、破壞人類建立的 AI 安全風險監測系統。

Anthropic 也對這四種風險分别提出了評估場景、測試步驟、風險阈值、分析結果和發展展望，并對自家 Claude-3-Opus、Claude-3.5-Sonnet 模型做了評估。

評估結果是目前模型的破壞風險可控，但随着未來模型能力提升，提前研究更強力的應對措施完全是有必要的。

Anthropic 的安全理念正吸引更多 AI 人才

Anthropic 自 2021 年由 Dario Amodei、Daniela Amodei 等前 OpenAI 研究負責人創立。他們在 OpenAI 期間積累了豐富的深度學習、自然語言處理、AI 安全研究經驗，但在 AI 安全和可解釋性方面理念不同，因此離開 OpenAI 自立門戶。

Anthropic 公司名字直接體現了以人爲中心的理念，更強調構建可解釋、安全可靠的 AI 系統，增強人們對 AI 的信任。

特别是去年 OpenAI 宣布由前首席科學家 Ilya Sutskever 和團隊負責人 Jan Leike 牽頭超級對齊研究後，立刻吸引大量關注。不過後來發生宮鬥，OpenAI 超級對齊負責人 Jan Leike 宣布加入更重視安全的 Anthropic。近期選擇加入 Anthropic 的還有 OpenAI 聯合創始人 John Schulman 等。

這些高層加入讓 Anthropic 實力大增，也表明 Anthropic 的安全理念開始獲得回應，延續超級對齊研究。

對未來超級智能的安全風險尚未形成共識

雖然 Anthropic 對 AI 可解釋性的探索可能對 AI 發展産生深遠影響，但目前來看，如何看待 AI 風險還遠沒有形成共識。

例如圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 最近表示，對 AI 可能威脅人類生存的擔憂完全是胡說八道。

此外，長期以來 AI 從業者中也有一種觀點，認爲 AI 公司過分強調技術危險性是爲了凸顯技術能力，以便在融資時獲得更高估值。

這些觀點與 Anthropic 的安全對齊研究其實不矛盾。因爲安全對齊是假設未來超級智能出現，以此預測未來的未知風險，并站在今天的角度從底層開始分析和提前預防，因此很難直接下定論。

至少 Anthropic 的安全研究對我們能起到警示作用。在這次發布報告的結尾，Anthropic 指出，在 AI 工具默認會幫助人類的情況下，人類用戶很難對 AI 提供的建議産生合理懷疑。而這一點在接下來 AI 智能體應用開發過程中，如果不嚴加管理和高度對齊，必将會引發新的安全風險隐患。