Anthropic找到了打敗OpenAI的方法：自己也成爲OpenAI

最近 Anthropic 真是風頭正盛，堪稱赢麻了。

亞馬遜剛剛宣布，再次對它追加 27.5 億美元投資，共同加速生成式人工智能發展。加上去年 9 月投入的 12.5 億美元，總共豪擲超過 40 億美元，成爲亞馬遜三十年曆史上最大的對外投資，也令 Anthropic 從去年至今的融資額一舉超過 100 億美元。

而公司開發的旗艦大模型 Claude 3 全家桶自推出 20 多天以來，也一路好評無數、口碑爆棚，并在最新的 Chatbot Arena 排行榜上正式打敗 GPT-4，首次登上王位。

Claude 3 打趴 GPT-4，躍居用戶體驗榜首

我們知道，每當一款新的大模型推出時，都會拿 GPT-4 來作比較。拉出一張包括 MMLU、數學、推理、編程等各項測試的跑分對照表，證明自己哪些參數已經趕超 GPT-4。但歸根結底，模型終究是給人用的，到底是不是真的比 GPT-4 厲害，還得是實際用戶體驗說了算。

昨天，Chatbot Arena 新鮮出爐了截至 3 月 26 日的聊天機器人對戰榜成績。

在收集了來自 47.7 萬多野生用戶對于市面上 75 款大模型的匿名投票後，Claude 3 超大杯 Opus 在群衆的呼聲中力壓群雄，打敗 GPT-4 Turbo 成功登頂第 1 名。大杯 Sonnet 排名第 4，就連 Claude 最輕巧的中杯 Haiku 都超越了初版 GPT-4 和歐洲新貴 Mistral Large，位列第 6 名。

與此同時 Google 僅 Gemini Pro 一員大将殺入前十，來自阿裏巴巴的通義千問排在第 9。

如果說 Anthropic 發布 Claude 3 時引發的 " 大模型王位易主 " 讨論還存在參數争議，那麽經過近一個月的場下實測，Claude 3 的确用實力證明了自己比 GPT-4 更能打，成爲目前 LLM 争霸賽的最大赢家。

社區用戶 Peter Gostev 還根據 Chatbot Arena 排行榜制作了從 23 年 5 月到 24 年 3 月，Top15 大模型的動态演變史，清晰展現 Claude 3 勢如破竹的 " 上位 " 全過程。

對榜單不熟悉的朋友，我們先一起來看看它是怎麽打分的。

Chatbot Arena（聊天機器人競技場）是由 UC Berkley、UCSD 和 CMU 合作研究組織 LMSYS Org 開發的 LLM 測試平台，通過衆包方式進行匿名随機對戰，評估和排名不同的語言模型。

具體規則是：用戶向兩個匿名模型輸入同一個問題，然後對它們各自生成的答案進行評價，選擇模型 A 更好、B 更好、平手或都很差。它支持多輪對話，直到用戶認定赢家。并且如果在對話過程中洩露了模型身份，那麽投票将不會被計入。最終，Chatbot Arena 會采用類似于國際象棋等競技遊戲中廣泛使用的 Elo 評分機制，來綜合評估大模型能力。

可以看出，與常見的 Benchmarks 跑分不同，Arena Elo 排行榜成績完全是基于人類用戶的使用體驗和真實反饋，在實用性上更具參考價值。

Chatbot Arena 還放出一系列白熱化的後台對戰數據。

模型 A 在所有非平局 Battle 中戰勝模型 B 的比例：

每一組模型組合（不包括平局）的對戰次數：

公布這一結果的 LMSYS Org 認爲，更讓人印象深刻的是 Claude 3 Haiku。作爲全家桶中最輕量級的模型，它的用戶偏好已達到與 GPT-4 相當的水平，綜合其速度、能力和 200k 上下文長度，在市場上現在無人能敵。（同時也誇了一下自家伯克利團隊開發的 Starling-LM-7B-beta 近期攀升迅速，是市面上最好的 7B 開源模型。）

許多網友也紛紛注意到了這點，爲 Haiku 鼓掌叫好：" 我們擁有了一個 GPT-4 水平但比它便宜 10 倍的模型！"

Antrohpic 工程師 @alexalbert_ 親自解釋說，Haiku 模型的價格和速度被嚴重低估：" 據估計，普通人一生大概會說 8.6 億個單詞，相當于約 12 億個标記。而 Haiku 的價格是每百萬标記輸入 0.25 美元。意味着你僅花費 300 美元就可以讓 Haiku 處理一個人一生中說的所有話。更瘋狂的是，Haiku 可以每秒讀取高達 2.4 萬個标記。也就是說隻需 5000 秒，大約 83 分鍾内，就能分析完一個人一生的經曆。"

人們表示給新王跪了， Claude 3 Opus 确實樹立了新的 AI 行業标準，現實中使用率更高。

" 我真得更喜歡 Claude。我隻是使用免費版 Sonnet 并與 GPT-4 進行比較，對于日常對話和事實核實，它似乎更加智能。GPT-4 在編程方面仍占據主導地位，但我并不是特别相信它真有那麽優秀。"

" 蘋果應該考慮和 Anthropic 合作，讓 Claude 作爲 iPhone 手機的配套 AI。"

——這還真有可能。最近有新的傳言流出，iOS 18 的 AI 供應商也許會由 Google Gemini 悄悄換成 Claude 3。Sam Altman 因爲一直想做 AI 硬件不被考慮，而安卓集成 Gemini 後會削弱 iOS 的獨特性，此時人畜無害又口碑爆炸的 Claude 3 似乎才是最佳選擇，扶持它也能讓 AI 競賽拖得更久更均衡。相信這些到蘋果 6 月的 WWDC 開發者大會便會見分曉。

豐富民間用例驗證，六邊形戰士 Claude 3

推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些驚豔實例。

HyperWriteAI 公司 CEO Matt Shumer 分享了一個用于生成高質量提示的工具「claude-prompt-engineer」。用戶隻需描述任務和輸入變量，Claude 3 就會幫你生成許多候選提示，并在排名賽中針對每個用例測試，最後返回最佳提示。

他表示之前的版本接入的是 GPT-4，而現在選用 Claude 3 編寫出的提示比 GPT-4 質量要高得多。這個工具能自動生成測試用例，支持多變量，進一步自動化 prompt engineering 的工作流程，他本人已經在實際工作中使用，極大提升了效率。

他還做了一個使用 Claude 3 的開源投資分析師代理「claude-investor」。用戶提供一個行業，就能快速查找主要公司的财務數據和新聞、分析每個公司的輿情和趨勢，并根據投資潛力和目标價格對股票進行排名。

通過 Claude 3 強大的海量數據分析能力，生成詳細的投資報告，幫助使用者查找高增長潛力的科技公司，跟蹤投資組合中的股票表現，識别投資機會。從金融從業者到炒股小白都可以直接使用，很受社區歡迎。

用戶 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示動畫。解鎖了以動态視覺輕松解釋各種原理的可能性。

再更生活化一些的例子也有。在宜家買過家具的同學都知道，看組裝說明書實在是一項耗費腦細胞的活兒。用戶 @gabchuayz 借助 Claude 3 強大的圖像推理能力大大簡化了這一流程。直接把說明書喂給模型，就生成簡潔清晰的操作步驟。他在對比 GPT-4 後認爲 Claude 3 輸出的結果更具可讀性，還能辨認出細小零件的編号，非常實用。

Claude 3 在代碼審查和測試方面的潛力也得到了專業人士驗證。

紐約大學 Tandon 工學院助理教授 Brendan Dolan-Gavitt 在 X 分享到，他将一個在 GitHub 上找到的小型 C 語言 GIF 解碼庫全部源代碼提供給 Claude 3，并要求它編寫一個 Python 函數用于生成随機的 GIF 圖像，以測試解碼器的解析能力。結果這個 GIF 生成器在解碼器中覆蓋了 92% 的代碼行，并發現了 4 個内存安全性漏洞和一個程序挂起問題。證明 Claude 3 完全有能力成爲人類程序員的工作助手。

ChatGPT 又變懶了？用戶：棄

不過也有人覺得 Claude 3 厲害是厲害，但并不能代表 OpenAI 落于人後。畢竟 GPT-4 是 22 年夏天訓練的，按照慣例，奧特曼的工具箱裏早就準備好新武器了。

"Claude 現在是頂級的中央控制 AI 模型，GPT-4 長期的統治已經結束。但這一情況将随着一個被稱爲 GPT-5 的新秘密模型而改變。"

"Opus 可以享受這種喜悅，直到 GPT-5 發布那天 "。

但問題是 ....GPT-5 到底在哪兒呢？

不久前 Sam Altman 在 Lex Friedman 最新的播客采訪中提到過，OpenAI 的目标絕不是給世界帶來令人震驚的更新，而是恰恰相反，漸進式達到每一個裏程碑，因此下一代 LLM 會考慮以一種新的形式與公衆見面。但他也堅定表示，今年會官宣一個令人驚歎的新模型，不管是不是叫 GPT-5。在那之前，還會有其它東西先發布。

或許是加上各種事件和官司纏身， OpenAI 現在的行事風格确實不像以往那麽激進了。最新推特是今天剛剛發布的準備與小部分美國開發者合作，測試基于訪問量的 GPT 盈利模式的消息。" 我們的目标是創造一個活躍的生态系統，在這裏開發者因其創造力和影響力而獲得獎勵。"

然後底下的評論可想而知，似乎少有人關心這個已經被 Poe 玩了好幾個月的創作者共享經濟模式，滿滿都是在問什麽時候發布 GPT-5 和開放 Sora。

可以清晰感受到，随着 Claude 3 這類優秀大模型的卓越性能被大量用戶親自驗證，人們對于 OpenAI 的耐心越來越低，對 ChatGPT 要求的門檻也越來越高。加上 GPT-4 最近又開始不給力，過去曾出現過的 " 變懶變傻 " 問題再次重演，引得大批網友在推特抱怨讨伐，紛紛倒戈轉向了 Claude 3（包括本人在内）。

" 使用了 4 個月之後，我決定放棄 ChatGPT Plus。GPT-4 經常變得懶惰、緩慢、産生幻覺。與此同時我使用了免費的 Claude 3 sonnet 模型，它在上下文記憶、長回複以及速度方面給人留下了深刻印象——對程序員來說簡直棒極了。正在考慮升級到高級版的 Claude。請 OpenAI 盡快修複 GPT-4 的問題。"

其實，諸如 Sora 這些技術再超前，沒有真正走向市場讓人們上手用到，也隻是望梅止渴的鏡花水月。而今一個主打公平公正，由近 50 萬用戶驗證後投票的 Chatbot Arena 榜單放出，足以見 Claude 3 是憑實力拿下的新王之位。

而無論是 OpenAI 還是 Google 等公司都應該清楚認識到，在 GenAI 浪潮裏陪他們一起翻滾了兩年多的用戶們也早就練出來了，大家對于新模型的适應性和流動性是很強的。換句話說，沒有誰真得離不開誰，單純靠信仰的時代已過，體驗跟不上、更新不及時，用戶就會流失，好用才是硬道理。

打敗 OpenAI 的方法是成爲 OpenAI

Anthropic 在發布 Claude 3 時承諾過，會在接下來的幾個月内對該系列進行頻繁更新。發布一系列功能來增強模型性能，包括工具使用、交互式編碼和更高級的代理能力等。對企業用例和大規模部署也會有新動作。

作爲一家自我定義爲 " 人工智能安全公司 " 的 AI 企業，現在的 Anthropic 似乎在慢慢遠離起初低調謹慎、時刻強調安全的行事作風，節奏變得越發主動強勢。而以往人們在推特上見慣了 OpenAI、DeepMind 的 AI 大咖輸出意見，卻鮮少見到 Anthropic 工程師們的身影。最近這一人群仿佛也跟着 Claude 3 的大火走向台前高調起來，成爲人們關注的技術 KOL。

再加上亞馬遜總共 40 億美元巨資入池，雙方達成更深入的人工智能合作。Anthropic 把 AWS 作爲其關鍵工作負載的主要雲提供商，使用亞馬遜 Trainium 和 Inferentia 芯片來訓練和部署未來模型，并向全球 AWS 客戶提供未來幾代基礎模型在 Amazon Bedrock 上的訪問權限。

今天亞馬遜之于 Anthropic 的模式，怎麽看怎麽像曾經的微軟之于 OpenAI。按照這個路線，Anthropic 很有可能在商業化版圖中鋪開更大的攤子，野心勃勃地跟亞馬遜合力打造另一個 AI 帝國。等到蘋果選擇哪家 AI 供應商的靴子落地，全球科技巨頭 +AI 公司的競争格局又将被重新洗牌。

Anthropic 已經找到了打敗 OpenAI 的方法，那就是成爲 OpenAI。

也許，留給 OpenAI 的時間真得不多了。