最近 Anthropic 真是風頭正盛,堪稱赢麻了。
亞馬遜剛剛宣布,再次對它追加 27.5 億美元投資,共同加速生成式人工智能發展。加上去年 9 月投入的 12.5 億美元,總共豪擲超過 40 億美元,成爲亞馬遜三十年曆史上最大的對外投資,也令 Anthropic 從去年至今的融資額一舉超過 100 億美元。
而公司開發的旗艦大模型 Claude 3 全家桶自推出 20 多天以來,也一路好評無數、口碑爆棚,并在最新的 Chatbot Arena 排行榜上正式打敗 GPT-4,首次登上王位。
Claude 3 打趴 GPT-4,躍居用戶體驗榜首
我們知道,每當一款新的大模型推出時,都會拿 GPT-4 來作比較。拉出一張包括 MMLU、數學、推理、編程等各項測試的跑分對照表,證明自己哪些參數已經趕超 GPT-4。但歸根結底,模型終究是給人用的,到底是不是真的比 GPT-4 厲害,還得是實際用戶體驗說了算。
昨天,Chatbot Arena 新鮮出爐了截至 3 月 26 日的聊天機器人對戰榜成績。
在收集了來自 47.7 萬多野生用戶對于市面上 75 款大模型的匿名投票後,Claude 3 超大杯 Opus 在群衆的呼聲中力壓群雄,打敗 GPT-4 Turbo 成功登頂第 1 名。大杯 Sonnet 排名第 4,就連 Claude 最輕巧的中杯 Haiku 都超越了初版 GPT-4 和歐洲新貴 Mistral Large,位列第 6 名。
與此同時 Google 僅 Gemini Pro 一員大将殺入前十,來自阿裏巴巴的通義千問排在第 9。
如果說 Anthropic 發布 Claude 3 時引發的 " 大模型王位易主 " 讨論還存在參數争議,那麽經過近一個月的場下實測,Claude 3 的确用實力證明了自己比 GPT-4 更能打,成爲目前 LLM 争霸賽的最大赢家。
社區用戶 Peter Gostev 還根據 Chatbot Arena 排行榜制作了從 23 年 5 月到 24 年 3 月,Top15 大模型的動态演變史,清晰展現 Claude 3 勢如破竹的 " 上位 " 全過程。
對榜單不熟悉的朋友,我們先一起來看看它是怎麽打分的。
Chatbot Arena(聊天機器人競技場)是由 UC Berkley、UCSD 和 CMU 合作研究組織 LMSYS Org 開發的 LLM 測試平台,通過衆包方式進行匿名随機對戰,評估和排名不同的語言模型。
具體規則是:用戶向兩個匿名模型輸入同一個問題,然後對它們各自生成的答案進行評價,選擇模型 A 更好、B 更好、平手或都很差。它支持多輪對話,直到用戶認定赢家。并且如果在對話過程中洩露了模型身份,那麽投票将不會被計入。最終,Chatbot Arena 會采用類似于國際象棋等競技遊戲中廣泛使用的 Elo 評分機制,來綜合評估大模型能力。
可以看出,與常見的 Benchmarks 跑分不同,Arena Elo 排行榜成績完全是基于人類用戶的使用體驗和真實反饋,在實用性上更具參考價值。
Chatbot Arena 還放出一系列白熱化的後台對戰數據。
模型 A 在所有非平局 Battle 中戰勝模型 B 的比例:
每一組模型組合(不包括平局)的對戰次數:
公布這一結果的 LMSYS Org 認爲,更讓人印象深刻的是 Claude 3 Haiku。作爲全家桶中最輕量級的模型,它的用戶偏好已達到與 GPT-4 相當的水平,綜合其速度、能力和 200k 上下文長度,在市場上現在無人能敵。(同時也誇了一下自家伯克利團隊開發的 Starling-LM-7B-beta 近期攀升迅速,是市面上最好的 7B 開源模型。)
許多網友也紛紛注意到了這點,爲 Haiku 鼓掌叫好:" 我們擁有了一個 GPT-4 水平但比它便宜 10 倍的模型!"
Antrohpic 工程師 @alexalbert_ 親自解釋說,Haiku 模型的價格和速度被嚴重低估:" 據估計,普通人一生大概會說 8.6 億個單詞,相當于約 12 億個标記。而 Haiku 的價格是每百萬标記輸入 0.25 美元。意味着你僅花費 300 美元就可以讓 Haiku 處理一個人一生中說的所有話。更瘋狂的是,Haiku 可以每秒讀取高達 2.4 萬個标記。也就是說隻需 5000 秒,大約 83 分鍾内,就能分析完一個人一生的經曆。"
人們表示給新王跪了, Claude 3 Opus 确實樹立了新的 AI 行業标準,現實中使用率更高。
" 我真得更喜歡 Claude。我隻是使用免費版 Sonnet 并與 GPT-4 進行比較,對于日常對話和事實核實,它似乎更加智能。GPT-4 在編程方面仍占據主導地位,但我并不是特别相信它真有那麽優秀。"
" 蘋果應該考慮和 Anthropic 合作,讓 Claude 作爲 iPhone 手機的配套 AI。"
——這還真有可能。最近有新的傳言流出,iOS 18 的 AI 供應商也許會由 Google Gemini 悄悄換成 Claude 3。Sam Altman 因爲一直想做 AI 硬件不被考慮,而安卓集成 Gemini 後會削弱 iOS 的獨特性,此時人畜無害又口碑爆炸的 Claude 3 似乎才是最佳選擇,扶持它也能讓 AI 競賽拖得更久更均衡。相信這些到蘋果 6 月的 WWDC 開發者大會便會見分曉。
豐富民間用例驗證,六邊形戰士 Claude 3
推上也有不少人展示了自己在日常工作中使用 Claude 3 的一些驚豔實例。
HyperWriteAI 公司 CEO Matt Shumer 分享了一個用于生成高質量提示的工具「claude-prompt-engineer」 。用戶隻需描述任務和輸入變量,Claude 3 就會幫你生成許多候選提示,并在排名賽中針對每個用例測試,最後返回最佳提示。
他表示之前的版本接入的是 GPT-4,而現在選用 Claude 3 編寫出的提示比 GPT-4 質量要高得多。這個工具能自動生成測試用例,支持多變量,進一步自動化 prompt engineering 的工作流程,他本人已經在實際工作中使用,極大提升了效率。
他還做了一個使用 Claude 3 的開源投資分析師代理「claude-investor」。用戶提供一個行業,就能快速查找主要公司的财務數據和新聞、分析每個公司的輿情和趨勢,并根據投資潛力和目标價格對股票進行排名。
通過 Claude 3 強大的海量數據分析能力,生成詳細的投資報告,幫助使用者查找高增長潛力的科技公司,跟蹤投資組合中的股票表現,識别投資機會。從金融從業者到炒股小白都可以直接使用,很受社區歡迎。
用戶 @dr_cintas 使用 Claude 3 生成了效果拔群的勾股定理演示動畫。解鎖了以動态視覺輕松解釋各種原理的可能性。
再更生活化一些的例子也有。在宜家買過家具的同學都知道,看組裝說明書實在是一項耗費腦細胞的活兒。用戶 @gabchuayz 借助 Claude 3 強大的圖像推理能力大大簡化了這一流程。直接把說明書喂給模型,就生成簡潔清晰的操作步驟。他在對比 GPT-4 後認爲 Claude 3 輸出的結果更具可讀性,還能辨認出細小零件的編号,非常實用。
Claude 3 在代碼審查和測試方面的潛力也得到了專業人士驗證。
紐約大學 Tandon 工學院助理教授 Brendan Dolan-Gavitt 在 X 分享到,他将一個在 GitHub 上找到的小型 C 語言 GIF 解碼庫全部源代碼提供給 Claude 3,并要求它編寫一個 Python 函數用于生成随機的 GIF 圖像,以測試解碼器的解析能力。結果這個 GIF 生成器在解碼器中覆蓋了 92% 的代碼行,并發現了 4 個内存安全性漏洞和一個程序挂起問題。證明 Claude 3 完全有能力成爲人類程序員的工作助手。
ChatGPT 又變懶了?用戶:棄
不過也有人覺得 Claude 3 厲害是厲害,但并不能代表 OpenAI 落于人後。畢竟 GPT-4 是 22 年夏天訓練的,按照慣例,奧特曼的工具箱裏早就準備好新武器了。
"Claude 現在是頂級的中央控制 AI 模型,GPT-4 長期的統治已經結束。但這一情況将随着一個被稱爲 GPT-5 的新秘密模型而改變。"
"Opus 可以享受這種喜悅,直到 GPT-5 發布那天 "。
但問題是 ....GPT-5 到底在哪兒呢?
不久前 Sam Altman 在 Lex Friedman 最新的播客采訪中提到過,OpenAI 的目标絕不是給世界帶來令人震驚的更新,而是恰恰相反,漸進式達到每一個裏程碑,因此下一代 LLM 會考慮以一種新的形式與公衆見面。但他也堅定表示,今年會官宣一個令人驚歎的新模型,不管是不是叫 GPT-5。在那之前,還會有其它東西先發布。
或許是加上各種事件和官司纏身, OpenAI 現在的行事風格确實不像以往那麽激進了。最新推特是今天剛剛發布的準備與小部分美國開發者合作,測試基于訪問量的 GPT 盈利模式的消息。" 我們的目标是創造一個活躍的生态系統,在這裏開發者因其創造力和影響力而獲得獎勵。"
然後底下的評論可想而知,似乎少有人關心這個已經被 Poe 玩了好幾個月的創作者共享經濟模式,滿滿都是在問什麽時候發布 GPT-5 和開放 Sora。
可以清晰感受到,随着 Claude 3 這類優秀大模型的卓越性能被大量用戶親自驗證,人們對于 OpenAI 的耐心越來越低,對 ChatGPT 要求的門檻也越來越高。加上 GPT-4 最近又開始不給力,過去曾出現過的 " 變懶變傻 " 問題再次重演,引得大批網友在推特抱怨讨伐,紛紛倒戈轉向了 Claude 3(包括本人在内)。
" 使用了 4 個月之後,我決定放棄 ChatGPT Plus。GPT-4 經常變得懶惰、緩慢、産生幻覺。與此同時我使用了免費的 Claude 3 sonnet 模型,它在上下文記憶、長回複以及速度方面給人留下了深刻印象——對程序員來說簡直棒極了。正在考慮升級到高級版的 Claude。請 OpenAI 盡快修複 GPT-4 的問題。"
其實,諸如 Sora 這些技術再超前,沒有真正走向市場讓人們上手用到,也隻是望梅止渴的鏡花水月。而今一個主打公平公正,由近 50 萬用戶驗證後投票的 Chatbot Arena 榜單放出,足以見 Claude 3 是憑實力拿下的新王之位。
而無論是 OpenAI 還是 Google 等公司都應該清楚認識到,在 GenAI 浪潮裏陪他們一起翻滾了兩年多的用戶們也早就練出來了,大家對于新模型的适應性和流動性是很強的。換句話說,沒有誰真得離不開誰,單純靠信仰的時代已過,體驗跟不上、更新不及時,用戶就會流失,好用才是硬道理。
打敗 OpenAI 的方法是成爲 OpenAI
Anthropic 在發布 Claude 3 時承諾過,會在接下來的幾個月内對該系列進行頻繁更新。發布一系列功能來增強模型性能,包括工具使用、交互式編碼和更高級的代理能力等。對企業用例和大規模部署也會有新動作。
作爲一家自我定義爲 " 人工智能安全公司 " 的 AI 企業,現在的 Anthropic 似乎在慢慢遠離起初低調謹慎、時刻強調安全的行事作風,節奏變得越發主動強勢。而以往人們在推特上見慣了 OpenAI、DeepMind 的 AI 大咖輸出意見,卻鮮少見到 Anthropic 工程師們的身影。最近這一人群仿佛也跟着 Claude 3 的大火走向台前高調起來,成爲人們關注的技術 KOL。
再加上亞馬遜總共 40 億美元巨資入池,雙方達成更深入的人工智能合作。Anthropic 把 AWS 作爲其關鍵工作負載的主要雲提供商,使用亞馬遜 Trainium 和 Inferentia 芯片來訓練和部署未來模型,并向全球 AWS 客戶提供未來幾代基礎模型在 Amazon Bedrock 上的訪問權限。
今天亞馬遜之于 Anthropic 的模式,怎麽看怎麽像曾經的微軟之于 OpenAI。按照這個路線,Anthropic 很有可能在商業化版圖中鋪開更大的攤子,野心勃勃地跟亞馬遜合力打造另一個 AI 帝國。等到蘋果選擇哪家 AI 供應商的靴子落地,全球科技巨頭 +AI 公司的競争格局又将被重新洗牌。
Anthropic 已經找到了打敗 OpenAI 的方法,那就是成爲 OpenAI。
也許,留給 OpenAI 的時間真得不多了。