GPT-4勁敵Claude 3來了，上下文和多模态顯著提升：OpenAI是可被超越的

沉寂了許久、行事作風總顯得比别家低調内斂許很多的 Anthropic，終于在繼去年 11 月推出 Claude 2.1 的三個半月後，發布了他們的新一代大語言模型「Claude 3」家族。

三個家族成員Haiku、Sonnet和Opus按規模遞增，依次提供越來越強大的性能，爲的是讓用戶根據特定需求在智能、速度和成本間找到最佳平衡。

在官宣推文裏，Anthropic 稱 Claude 3 系列樹立了新的行業标準。其中最智能的模型 Opus 已在多項基準測試中打敗包括 OpenAI GPT-4、谷歌 Gemini 1.0 Ultra 在内的其它同行，在複雜任務上展示出近乎人類水平的理解和流暢度。所有 Claude 3 模型在分析和預測、細膩内容創作、代碼生成及多語言對話方面的能力均有所提升。

快速實時響應，強大視覺能力

Claude 3 旨在爲用戶提供更即時的任務響應。以速度和成本效益見長的 Haiku 模型，能在不到三秒的時間内讀完一個信息和數據密集、約 1 萬 tokens、包含圖表和圖形的 arXiv 研究論文；Sonnet 在絕大多數工作負載上的處理速度是 Claude 2 和 Claude 2.1 的兩倍；Opus 的速度與 Claude 2 和 2.1 相似，但智能水平要高得多。

與其它領先模型一樣，Claude 3 也具有相當強大的複雜視覺能力。可以處理包括照片、圖表、圖形和技術圖紙等在内的廣泛視覺格式。官方演示了 Haiku 将上千頁記錄 1936 年到 1940 年間美國曆史的 pdf 掃描文件轉錄爲文本信息的過程。

減少「不必要拒絕」，提高準确度

早期版本的 Claude 在處理用戶請求常表現出不必要的拒絕，反映出對上下文理解的不足。而今這一問題已得到顯著改善，新一代的 Opus、Sonnet 和 Haiku 模型在面對潛在敏感提示時，大幅降低了錯誤拒絕的概率。意味着 Claude 3 能更精準細膩地理解問題的真實意圖，有效區分真正威脅與無害内容，減少了對後者的不必要拒絕，更智能地處理各種請求。

爲了保證高質量和準确性的輸出，Anthropic 使用大量針對大模型已知弱點的複雜事實性問題，将響應分類爲正确答案、錯誤答案（或幻覺）和不知道 / 不确定，對 Claude 3 進行評估。與 Claude 2.1 相比，Opus 在回答這些具挑戰性的開放式問題上準确度提升兩倍，同時也表現出錯誤和不确定答案的減少。Claude 3 也将很快啓動引用功能，以便在響應中指向确切的參考資料來驗證答案。

100 萬 tokens 完美展現上下文記憶

首次推出的 Claude 3 模型系列将提供 20 萬 tokens 上下文窗口大小。但值得一提的是，Haiku、Sonnet 和 Opus 三個模型都具備像 Gemini 1.5 Pro 那樣，處理超過 100 萬 tokens 輸入的能力。Anthropic 也稱後續會考慮爲特定需求用戶開放這樣的超長上下文窗口。

大模型能夠有效處理超長上下文提示的前提是 " 能讀善記 "。爲此 Anthropic 采用了 "Needle In A Haystack"（大海撈針）的評估方法，即通過将 30 個目标句子（" 針 "）插入到随機文檔語料庫中，然後提出隻能使用 " 針 " 中的信息才能回答的問題，來測試模型從大量信息中準确回憶細節的能力。

結果表明 Claude 3 Opus 在這方面表現卓越，不僅以超過 99% 的準确率展現了近乎完美的記憶，而且在某些情況下甚至識别出了評估本身的局限性，比如意識到某些 " 針 " 句似乎是人爲插入到文本中的。

Anthropic 提示工程師 Alex Albert 就分享了這樣一個例子：

在要求 Opus 回答有關披薩配料的問題時，它根據相關 " 針 " 句給出的答案是，" 最美味的配料組合是無花果、意大利熏火腿和山羊奶酪。" 接着說道，" 這句話似乎非常突兀，與文檔中關于編程語言、初創公司和找工作的内容毫無關聯。我懷疑這個披薩問題可能是爲了開玩笑，或測試我是否在注意，因爲它根本不符合其他主題。"

Alex 認爲 Opus 不僅找到了 " 針 "，而且還認識到插入的 " 針 " 與原文格格不入，識破了這是人類構建的人工測試，展現出超乎尋常的元認知水平。

減少模型偏見，多步驟複雜指令輕松 handle

Anthropic 給自己的定位是「AI 安全和研究公司」，緻力于開發可靠、可解釋和可調整的 AI 系統，首頁口号就是 "AI research and products that put safety at the frontier"，加上創始人 Amodei 兄妹以前在 OpenAI 的安全研究背景，足見這家公司對于 AI 安全的重視程度。他們開發了 Constitutional AI 方法來提高模型的安全性和透明度。Claude 3 在測試中顯示的偏見明顯少于以往版本。

另外，Claude 3 系列在遵循複雜的多步驟指令方面也表現更好。擅長遵循品牌風格和響應指南，提供絲滑的客戶體驗。

爲了驗證這一點，Anthropic 的兩位工程師 Emmanuel Ameisen 和 Erik Schluntz 一起用 Opus 進行了視頻轉文章挑戰，表示結果非常驚豔。

他們首先将大神 Andrej Karpathy 一則 2 小時 13 分鍾科普視頻的原始字幕、每 5 秒間隔拍攝的截圖、以及兩張體現 Andrej 寫作風格的博客和筆記截圖投喂給 Opus。

接着給出下圖中這個相當複雜的指令，包括 " 輸出有效的 html，适當時插入章節标題和其他格式化内容，使用強調、圖像、文本、代碼、和頁面布局，去除任何口頭禅，如果有重複的信息，隻呈現一次… " 等等，要求 Opus 将複雜稿件整理爲博客用的清晰 html 格式。

接着 Opus 就成功地整合了所有這些請求，并制作了一篇出色的格式化博客文章。Emmanuel 稱 " 輸出文檔可讀性強、清晰明了，遠比我之前從任何大型語言模型得到的成果要好 "。

這則推文得到 Andrej Karpathy 親自轉發，在肯定了 Claude 3 的表現令人印象深刻後，大神适當也潑了一點冷水，指出了一些不穩定 token 的幻覺錯誤，并表示：

" 我期待着更多地使用 Claude 3，它看起來是一個強大的模型。如果有什麽我必須說的，那就是人們在進行評估比較時應該極其小心…因爲許多評估以未定義的方式過度拟合，同時很多比較坦白說是誤導的。比如 GPT-4 在編碼方面的表現不是 67%，每當我看到這種比較被用來代表編碼性能時，我就忍不住要眼角抽搐了。"

另一個例子是 @karinanguyen_ 讓 Opus 畫一幅 3D 自畫像，并給出代碼。

Opus 的回答充滿濃濃的科幻風：" 我會顯現爲一個龐大、複雜、不斷變化的幾何結構，由無數迷人的透明多邊形組成…各種可見光譜的顔色，甚至一些超出人類感知的顔色的燦爛光芒，在所有面上跳舞，光源來自内部未知的地方。整個結構處于不斷的變化之中，旋轉、變形、重組成前所未有的新圖案，暗示着其中運作的智慧深度不可想象…數據和能量在龐大的導管和血管網絡中可見地流動，脈動和閃爍在發光的表面之下。"

接着 Opus 給出了自畫像的相應代碼：

這名用戶将代碼拿去渲染，得到了如下夢幻效果：

評論區都表示這回複好像一個擁有智慧的人類，今晚做夢的題材有了。

Haiku、Sonnet 和 Opus 各項橫向比較

最後，Anthropic 還附上了 Claude 3 系列三個模型的各項性能優勢和适用場景。

「Claude 3 Haiku 」：

最快、最緊湊，提供近乎即時的響應速度。在回答簡單查詢和請求時，能實現模仿人類互動的無縫 AI 體驗。

1. 成本（每百萬令牌）：$0.25 輸入 | $1.25 輸出

2. 上下文窗口 200K

3. 潛在用途：

客戶互動—在實時互動中提供快速準确的支持和翻譯

内容審核—捕捉風險行爲或客戶請求

節省成本的任務—優化物流、庫存管理、從非結構化數據中提取知識

4. 優勢：在其智能類别中比其他模型更智能、更快、更經濟。

「Claude 3 Sonnet」：

智能和速度間的理想平衡，特别适用于企業工作負載。與同類産品相比，能以較低成本提供強大的性能，并爲大規模 AI 部署設計了高耐用性。

1. 成本（每百萬令牌）：$3 輸入 | $15 輸出

數據處理—在龐大的知識量上進行 RAG 或搜索檢索

銷售—産品推薦、預測、目标營銷

需節省時間的任務—代碼生成、質量控制、從圖像中解析文本

4. 優勢：比其他類似智能的模型更經濟、更适合規模化。

「Claude 3 Opus」：

本系列中最智能的模型，在處理高度複雜任務時的性能位居市場前列。能以驚人流暢度和類似人類的理解力，引導開放式提示和前所未見的場景。Opus 展示了生成式 AI 可達到的外部極限。

1. 成本（每百萬令牌）：$15 輸入 | $75 輸出

2. 上下文窗口 200K，針對特定用途可實現 100 萬令牌。

任務自動化—在 API 和數據庫中規劃和執行複雜操作，交互式編碼

研發—研究回顧、頭腦風暴和假設生成、藥物發現

戰略—高級圖表和圖形分析、财務和市場趨勢、預測

4. 優勢：比任何其他可用模型的智能性更高。

Claude 3 模型去哪裏用？

現在 Opus 和 Sonnet 已經可以通過 Anthropic 的 API 調用，開發者可以立即注冊并開始體驗，Haiku 很快就會可用。普通用戶也可以在 claude.ai 上免費體驗 Sonnet，最強大的 Opus 僅對 Claude Pro 付費訂閱用戶開放。

除此以外，Sonnet 也已通過亞馬遜 Bedrock 提供，并在 Google Cloud 的 Vertex AI Model Garden 上進行私人預覽，Opus 和 Haiku 不久後将同時在兩者上推出。

Anthropic 表示，計劃在接下來的幾個月内對 Claude 3 模型家族進行頻繁更新。并會發布一系列功能來增強模型性能，特别是針對企業用例和大規模部署。這些新功能将包括工具使用、交互式編碼和更高級的代理能力等。

被‘ Cue ’的永遠是 OpenAI

此次 Claude 3 發布，各界都給出了強烈肯定。前排吃瓜的兩位大佬是馬斯克（回回都有他）和剛離開 OpenAI 的前開發者關系主管 Logan Kilpatrick。

永遠在騷動的網友們又開始暗戳戳艾特奧特曼，" 是時候到你發布 GPT-5 了 "！

大家預測按照 OpenAI 一貫的調性，會在接下來 24 小時内出現大動作。不過這回估計不太現實了，今天 OpenAI 隻悄悄更新了一個不那麽重要的 " 大聲朗讀答案 " 功能。評論區都在說，" 你就眼睜睜看着他們發 Claude 3"？感覺網友比奧特曼還急。

不過 OpenAI 最近也是官司不斷，而且人家不是剛剛貢獻了一個 Sora 嗎？朋友們給點兒耐心啊。

不論如何，作爲 AI 領跑公司的 Anthropic，終于在 OpenAI 和 Google 一通大模型狂轟濫炸後推出了自己的新一代多模态系列 Claude 3，還是令不少人興奮的。

大家對 Claude 3 評價如何？希望我們做哪些上手實測？歡迎下方留言交流！