全球最強模型一夜易主？Anthropic聲稱新模型Claude 3性能超越GPT-4接近人類

圖片來源：Anthropic

一夜之間，全球最強 AI 模型易主。大模型行業又變天了。

钛媒體 AGI 獲悉，3 月 5 日淩晨，OpenAI 競争對手、谷歌、亞馬遜投資支持的 Anthropic 公司發布最新 Claude 3 系列模型，多個領域的性能超越了 OpenAI 的 GPT-4。

Claude 3 系列模型主要包括 Haiku（中杯）、Sonnet（大杯）與 Opus（超大杯）三款，能力依次從低到高。在推理、數學、編碼、多語言理解和視覺等多個領域的 20 款測試中，Claude 3 Opus 在 14 個性能指标下超越了 GPT-4、谷歌 Gemini 等一系列模型。

Anthropic 表示，Claude 3 Opus 擁有人類本科生水平的知識。同時 Opus 也已經躍升成爲全球最強大的 AI 大模型。

此外，Claude 還首次公布對多模态能力的支持（Opus 版本的 MMMU 得分爲 59.4%，超過 GPT-4V，與 Gemini 1.0 Ultra 持平）。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據，讓 AI 進行分析和解答。

目前，Claude 3Opus 和 Sonnet 已經在 claude.ai 以及全球 159 個國家和地區的 Claude API 上使用。而 " 中杯 "Haiku 模型也即将推出。

有網友戲稱，Claude 3 來了。OpenAI，你打算拿什麽來搶一下熱度？Altman，GPT-5 什麽時候推出？

單詞處理能力是 ChatGPT 近 50 倍，Claude 3 到底有多強？

實際上，這家剛剛超越 ChatGPT-4 的大模型公司僅成立不到 3 年。

Anthropic AI 成立于 2021 年，由 OpenAI 前研究副總裁達裏奧 · 阿莫迪（Dario Amodei）、GPT-3 論文一作 Tom Brown 等人建立。

成立的原因是，Amodei 領導的研究人員在對公司的發展方向存在分歧後離開了 OpenAI，他們擔心微軟對 OpenAI 的投資會使其走上更加商業化的道路，偏離公司最初想法。

2022 年 12 月，在 ChatGPT 發布不久，Anthropic 團隊在 arxiv 上發布了一篇題爲《Constitutional AI: Harmlessness from AI Feedback》論文，描述了一個基于無監督方式訓練、520 億參數的模型 AnthropicLM v4-s3，直接挑戰 OpenAI 的 GPT-3 模型。

2023 年 1 月，Anthropic 發布基于 AnthropicLM v4-s3、AI 聊天機器人模型産品 Claude，被認爲是 ChatGPT 的有力競争者。

融資方面，整個 2023 年，Anthropic 共完成五筆融資，總融資額約 73 億美元，投資方包括谷歌、Salesforce、亞馬遜以及韓國 SK Telecom 等。其中，亞馬遜向 Anthropic 投資高達 40 億美元、谷歌投資超過 20 億美元，均持有 Anthropic 的少數股權。

Anthropic 聯合創始人丹妮拉 · 阿莫迪（Daniela Amodei）曾透露，公司有 60 至 80 人參與了核心人工智能模型的開發工作，而 120 至 150 人則參與了技術方面的研發。阿莫迪去年表示，AI 模型 Claude 的最新一次叠代由 30 至 35 人組成的團隊直接參與，并有大約 150 人提供支持。

當地時間 3 月 4 日，Anthropic 正式發布最新一代模型 Claude 3，同時還是目前行業最強大的 AI 模型。

Claude 3 系列模型主要包括 Haiku（中杯）、Sonnet（大杯）與 Opus（超大杯）三個型号，在性能基準、實時結果、視覺能力、長上下文、多語言、工作負載、使用體驗等方面都有重要的突破進展，尤其單詞處理能力是 ChatGPT 近 50 倍。

上下文方面，Anthropic 表示，此次全系列大模型可提供 200k 上下文窗口，相當于 150000 個單詞，單詞處理能力是 ChatGPT 接近 50 倍，大約是英文版《白鲸》或《哈利・波特與死亡聖器》的長度。用戶可以輸入大量數據集，并要求其以備忘錄、信件或故事的形式進行摘要。

性能基準方面，Claude 3 Opus 在本科水平專家知識 ( MMLU ) 、研究生水平專家推理 ( GPQA ) 、基礎數學 ( GSM8K ) 等多個測試中都優于同行業模型。

例如，在 MMLU 方面，Claude 3 Opus 達到 86.8%，超越了 GPT、Gemini 等一衆模型；在研究生水平專家推理（GPQA）得分是 50.4%，優于 GPT-4 的 35.7%，在基礎數學 ( GSM8K ) 上 Claude 3 Opus 得分是 95.0%，優于 GPT-4 的 92.0%。而且，Claude 3 Haiku 甚至可以與 Gemini 1.0 Pro 相抗衡。

視覺能力方面，Claude 3 系列模型具備與其他領先模型相媲美的高級視覺識别能力。它們能夠處理各種視覺格式，包括照片、圖表、圖形和技術繪圖等。在部分視覺能力上 Claude 3 系列模型性能刷新 SOTA。如在技術圖表（AI2D）上，Claude 3 Opus 得分爲 88.1%，遠超 GPT-4V 的 78.2%。另外，Anthropic 稱，這将爲企業客戶提供這種新的能力，支持高達 50% 用 PDF、流程圖或演示文稿等多種格式存儲的企業知識庫。

多語言方面，Claude 3 系列模型增強了西班牙語、日語和法語等非英語語言對話方面的能力。

實時結果和工作負載方面，對于絕大多數場景，Haiku 市場上速度最快且最具成本效益的模型，它可以在不到三秒的時間内閱讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文；Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍，且智能水平更高，它擅長執行需要快速響應的任務，如知識檢索或銷售自動化等；最強大的 Opus 模型的速度與 Claude 2 和 2.1 相似，但智能水平更高。

Anthropic 還在 Claude 3 系列模型論文中表示，這些模型都是使用亞馬遜 AWS 和谷歌雲的硬件進行訓練的。目前，Claude3 已在 AWS 模型庫 Bedrock 和谷歌的 VertexAI 中上線。

此外，在負責任能力、使用體驗等方面，Anthropic 表示，Claude 3 系列模型不僅功能強大，而且值得信賴。

不過，Anthropic 也坦言，雖然與之前的模型相比，Claude 3 模型系列在生物知識、網絡相關知識和自主性的關鍵指标方面取得了進步，但根據其負責任的擴展政策，它仍處于 AI 安全級别 2 ( ASL-2 ) ，低于美國白宮的超強大 AI 模型标準的阈值界限。

整體來看，Anthropic 長文本能力、多個性能指标都非常強大，與 GPT-4 一較高下也不爲過。

Dario Amodei 近期公開表示，2023 年是專家級 AI ，到 2025-2026 年 Anthropic 的模型技術将成功超越人類，屆時 AI 将能夠真正幫助人類工作，大大加速産業發展。

GPT-5 即将到來？

随着最強 AI 大模型 Claude 3 發布，引發了 AI 行業内的關注。

" 矽谷鋼鐵俠 "、億萬富翁、特斯拉 CEO 馬斯克（ElonMusk）最新回應稱，這個成果非常感人。

最近剛剛離職 OpenAI 的開發者關系負責人 Logan 稱，祝賀 Anthropic 團隊，很高興看到編碼能力發揮作用。

也有網友稱，這些數學基準還是 0 樣本的 Claude 3，擊敗了訓練了 5-8 個樣本的 GPT-4。

在 Anthropic 官宣之後，不少得到試用機會的研究者也曬出了自己的體驗。有網友稱，Claude 3 Sonnet 解出了一道此前隻有 GPT-4 才能解開的謎題。

不過也有人質疑，Claude 幻覺問題很嚴重，尤其是對于中文的支持程度很低。而且，在定價上 Claude 3 也比 GPT-4 Turbo 要貴得多。

據悉，GPT-4 Turbo 每百萬 token 輸入 / 輸出收費爲 10/30 美元，而 Claude 3 Opus 爲 15/75 美元。

英偉達高級科學家 Jim Fan 則表示，他非常期待 GPT-5 的發布。

" 誰是今天的最強大模型，沒有意義。這件事不是閃電戰，是軍備戰和加長超時戰。當然 Claude 3 确實很牛。"

那麽，GPT-5 現在最新的情況怎麽樣呢？

3 月 4 日，網上瘋轉了一份最新長達 53 頁的 PDF 文件，曝光了 OpenAI 公司最新計劃和進展，其中包括公司預計在 2027 年前打造出人類級别通用人工智能（AGI）計劃等。

早在 2023 年 11 月 OpenAI CEO 奧特曼（Sam Altman）就透露，OpenAI 已經開發出了比 GPT-4 更強大、更難以想象的東西，遠超人們的期待。

" 模型的能力将會有一個無人預料到的飛躍。與人們的預期不同，這個飛躍是驚人的……這在 OpenAI 的曆史上有四次，而最近一次，就是在過去幾周内。在撥開無知的面紗和探索未知的邊界時，我有幸在場，這是我職業生涯中的榮幸。" 奧特曼表示。

斯坦福博士 Silas Alberti 就猜測，所謂 GPT-5 的 Q* 很可能是基于 AlphaGo 式蒙特卡羅樹搜索 token 軌迹。下一個合乎邏輯的步驟是以更有原則的方式搜索 token 樹。這在編碼和數學等環境中尤爲合理。

圖靈獎得主 LeCun 則非常擔心，一旦這些大模型公司遊說政府監管開源 AI，将他們的模型除去标準以内，将使整個 AI 模型行業不複存在。

如果 GPT-5 消息這兩天将發布，那今年，我們人類無疑将看到一場 AI 新熱戰，并無限接近 AGI 時代。

（本文首發钛媒體 App，作者｜林志佳、任穎文，編輯｜林志佳）