沉寂了許久、行事作風總顯得比别家低調内斂許很多的 Anthropic,終于在繼去年 11 月推出 Claude 2.1 的三個半月後,發布了他們的新一代大語言模型「Claude 3」家族。
三個家族成員Haiku、Sonnet和Opus按規模遞增,依次提供越來越強大的性能,爲的是讓用戶根據特定需求在智能、速度和成本間找到最佳平衡。
在官宣推文裏,Anthropic 稱 Claude 3 系列樹立了新的行業标準。其中最智能的模型 Opus 已在多項基準測試中打敗包括 OpenAI GPT-4、谷歌 Gemini 1.0 Ultra 在内的其它同行,在複雜任務上展示出近乎人類水平的理解和流暢度。 所有 Claude 3 模型在分析和預測、細膩内容創作、代碼生成及多語言對話方面的能力均有所提升。
快速實時響應,強大視覺能力
Claude 3 旨在爲用戶提供更即時的任務響應。以速度和成本效益見長的 Haiku 模型,能在不到三秒的時間内讀完一個信息和數據密集、約 1 萬 tokens、包含圖表和圖形的 arXiv 研究論文;Sonnet 在絕大多數工作負載上的處理速度是 Claude 2 和 Claude 2.1 的兩倍;Opus 的速度與 Claude 2 和 2.1 相似,但智能水平要高得多。
與其它領先模型一樣,Claude 3 也具有相當強大的複雜視覺能力。可以處理包括照片、圖表、圖形和技術圖紙等在内的廣泛視覺格式。官方演示了 Haiku 将上千頁記錄 1936 年到 1940 年間美國曆史的 pdf 掃描文件轉錄爲文本信息的過程。
減少「不必要拒絕」,提高準确度
早期版本的 Claude 在處理用戶請求常表現出不必要的拒絕,反映出對上下文理解的不足。而今這一問題已得到顯著改善,新一代的 Opus、Sonnet 和 Haiku 模型在面對潛在敏感提示時,大幅降低了錯誤拒絕的概率。意味着 Claude 3 能更精準細膩地理解問題的真實意圖,有效區分真正威脅與無害内容,減少了對後者的不必要拒絕,更智能地處理各種請求。
爲了保證高質量和準确性的輸出,Anthropic 使用大量針對大模型已知弱點的複雜事實性問題,将響應分類爲正确答案、錯誤答案(或幻覺)和不知道 / 不确定,對 Claude 3 進行評估。與 Claude 2.1 相比,Opus 在回答這些具挑戰性的開放式問題上準确度提升兩倍,同時也表現出錯誤和不确定答案的減少。Claude 3 也将很快啓動引用功能,以便在響應中指向确切的參考資料來驗證答案。
100 萬 tokens 完美展現上下文記憶
首次推出的 Claude 3 模型系列将提供 20 萬 tokens 上下文窗口大小。但值得一提的是,Haiku、Sonnet 和 Opus 三個模型都具備像 Gemini 1.5 Pro 那樣,處理超過 100 萬 tokens 輸入的能力。Anthropic 也稱後續會考慮爲特定需求用戶開放這樣的超長上下文窗口。
大模型能夠有效處理超長上下文提示的前提是 " 能讀善記 "。爲此 Anthropic 采用了 "Needle In A Haystack"(大海撈針)的評估方法,即通過将 30 個目标句子(" 針 ")插入到随機文檔語料庫中,然後提出隻能使用 " 針 " 中的信息才能回答的問題,來測試模型從大量信息中準确回憶細節的能力。
結果表明 Claude 3 Opus 在這方面表現卓越,不僅以超過 99% 的準确率展現了近乎完美的記憶,而且在某些情況下甚至識别出了評估本身的局限性,比如意識到某些 " 針 " 句似乎是人爲插入到文本中的。
Anthropic 提示工程師 Alex Albert 就分享了這樣一個例子:
在要求 Opus 回答有關披薩配料的問題時,它根據相關 " 針 " 句給出的答案是," 最美味的配料組合是無花果、意大利熏火腿和山羊奶酪。" 接着說道," 這句話似乎非常突兀,與文檔中關于編程語言、初創公司和找工作的内容毫無關聯。我懷疑這個披薩問題可能是爲了開玩笑,或測試我是否在注意,因爲它根本不符合其他主題。"
Alex 認爲 Opus 不僅找到了 " 針 ",而且還認識到插入的 " 針 " 與原文格格不入,識破了這是人類構建的人工測試,展現出超乎尋常的元認知水平。
減少模型偏見,多步驟複雜指令輕松 handle
Anthropic 給自己的定位是「AI 安全和研究公司」,緻力于開發可靠、可解釋和可調整的 AI 系統,首頁口号就是 "AI research and products that put safety at the frontier",加上創始人 Amodei 兄妹以前在 OpenAI 的安全研究背景,足見這家公司對于 AI 安全的重視程度。他們開發了 Constitutional AI 方法來提高模型的安全性和透明度。Claude 3 在測試中顯示的偏見明顯少于以往版本。
另外,Claude 3 系列在遵循複雜的多步驟指令方面也表現更好。擅長遵循品牌風格和響應指南,提供絲滑的客戶體驗。
爲了驗證這一點,Anthropic 的兩位工程師 Emmanuel Ameisen 和 Erik Schluntz 一起用 Opus 進行了視頻轉文章挑戰,表示結果非常驚豔。
他們首先将大神 Andrej Karpathy 一則 2 小時 13 分鍾科普視頻的原始字幕、每 5 秒間隔拍攝的截圖、以及兩張體現 Andrej 寫作風格的博客和筆記截圖投喂給 Opus。
接着給出下圖中這個相當複雜的指令,包括 " 輸出有效的 html,适當時插入章節标題和其他格式化内容,使用強調、圖像、文本、代碼、和頁面布局,去除任何口頭禅,如果有重複的信息,隻呈現一次… " 等等,要求 Opus 将複雜稿件整理爲博客用的清晰 html 格式。
接着 Opus 就成功地整合了所有這些請求,并制作了一篇出色的格式化博客文章。Emmanuel 稱 " 輸出文檔可讀性強、清晰明了,遠比我之前從任何大型語言模型得到的成果要好 "。
這則推文得到 Andrej Karpathy 親自轉發,在肯定了 Claude 3 的表現令人印象深刻後,大神适當也潑了一點冷水,指出了一些不穩定 token 的幻覺錯誤,并表示:
" 我期待着更多地使用 Claude 3,它看起來是一個強大的模型。如果有什麽我必須說的,那就是人們在進行評估比較時應該極其小心…因爲許多評估以未定義的方式過度拟合,同時很多比較坦白說是誤導的。比如 GPT-4 在編碼方面的表現不是 67%,每當我看到這種比較被用來代表編碼性能時,我就忍不住要眼角抽搐了。"
另一個例子是 @karinanguyen_ 讓 Opus 畫一幅 3D 自畫像,并給出代碼。
Opus 的回答充滿濃濃的科幻風:" 我會顯現爲一個龐大、複雜、不斷變化的幾何結構,由無數迷人的透明多邊形組成…各種可見光譜的顔色,甚至一些超出人類感知的顔色的燦爛光芒,在所有面上跳舞,光源來自内部未知的地方。整個結構處于不斷的變化之中,旋轉、變形、重組成前所未有的新圖案,暗示着其中運作的智慧深度不可想象…數據和能量在龐大的導管和血管網絡中可見地流動,脈動和閃爍在發光的表面之下。"
接着 Opus 給出了自畫像的相應代碼:
這名用戶将代碼拿去渲染,得到了如下夢幻效果:
評論區都表示這回複好像一個擁有智慧的人類,今晚做夢的題材有了。
Haiku、Sonnet 和 Opus 各項橫向比較
最後,Anthropic 還附上了 Claude 3 系列三個模型的各項性能優勢和适用場景。
「Claude 3 Haiku 」:
最快、最緊湊,提供近乎即時的響應速度。在回答簡單查詢和請求時,能實現模仿人類互動的無縫 AI 體驗。
1. 成本(每百萬令牌):$0.25 輸入 | $1.25 輸出
2. 上下文窗口 200K
3. 潛在用途:
客戶互動—在實時互動中提供快速準确的支持和翻譯
内容審核—捕捉風險行爲或客戶請求
節省成本的任務—優化物流、庫存管理、從非結構化數據中提取知識
4. 優勢:在其智能類别中比其他模型更智能、更快、更經濟。
「Claude 3 Sonnet」:
智能和速度間的理想平衡,特别适用于企業工作負載。與同類産品相比,能以較低成本提供強大的性能,并爲大規模 AI 部署設計了高耐用性。
1. 成本(每百萬令牌):$3 輸入 | $15 輸出
數據處理—在龐大的知識量上進行 RAG 或搜索檢索
銷售—産品推薦、預測、目标營銷
需節省時間的任務—代碼生成、質量控制、從圖像中解析文本
4. 優勢:比其他類似智能的模型更經濟、更适合規模化。
「Claude 3 Opus」:
本系列中最智能的模型,在處理高度複雜任務時的性能位居市場前列。能以驚人流暢度和類似人類的理解力,引導開放式提示和前所未見的場景。Opus 展示了生成式 AI 可達到的外部極限。
1. 成本(每百萬令牌):$15 輸入 | $75 輸出
2. 上下文窗口 200K,針對特定用途可實現 100 萬令牌。
任務自動化—在 API 和數據庫中規劃和執行複雜操作,交互式編碼
研發—研究回顧、頭腦風暴和假設生成、藥物發現
戰略—高級圖表和圖形分析、财務和市場趨勢、預測
4. 優勢:比任何其他可用模型的智能性更高。
Claude 3 模型去哪裏用?
現在 Opus 和 Sonnet 已經可以通過 Anthropic 的 API 調用,開發者可以立即注冊并開始體驗,Haiku 很快就會可用。普通用戶也可以在 claude.ai 上免費體驗 Sonnet,最強大的 Opus 僅對 Claude Pro 付費訂閱用戶開放。
除此以外,Sonnet 也已通過亞馬遜 Bedrock 提供,并在 Google Cloud 的 Vertex AI Model Garden 上進行私人預覽,Opus 和 Haiku 不久後将同時在兩者上推出。
Anthropic 表示,計劃在接下來的幾個月内對 Claude 3 模型家族進行頻繁更新。并會發布一系列功能來增強模型性能,特别是針對企業用例和大規模部署。這些新功能将包括工具使用、交互式編碼和更高級的代理能力等。
被‘ Cue ’的永遠是 OpenAI
此次 Claude 3 發布,各界都給出了強烈肯定。前排吃瓜的兩位大佬是馬斯克(回回都有他)和剛離開 OpenAI 的前開發者關系主管 Logan Kilpatrick。
永遠在騷動的網友們又開始暗戳戳艾特奧特曼," 是時候到你發布 GPT-5 了 "!
大家預測按照 OpenAI 一貫的調性,會在接下來 24 小時内出現大動作。不過這回估計不太現實了,今天 OpenAI 隻悄悄更新了一個不那麽重要的 " 大聲朗讀答案 " 功能。評論區都在說," 你就眼睜睜看着他們發 Claude 3"?感覺網友比奧特曼還急。
不過 OpenAI 最近也是官司不斷,而且人家不是剛剛貢獻了一個 Sora 嗎?朋友們給點兒耐心啊。
不論如何,作爲 AI 領跑公司的 Anthropic,終于在 OpenAI 和 Google 一通大模型狂轟濫炸後推出了自己的新一代多模态系列 Claude 3,還是令不少人興奮的。
大家對 Claude 3 評價如何?希望我們做哪些上手實測?歡迎下方留言交流!