作者:賴文昕、郭思
編輯:陳彩娴
過去不到一個月,OpenAI 扔出 Sora 這個重磅炸彈後成爲全球焦點,不斷推出的視頻更是賺足眼球、熱度不減。昨晚,Anthropic 突然驚喜上線,時隔八個月攜着 Claude 3 走來,讓世界再次将目光聚焦到這一個被視爲 ChatGPT 強大競争對手之一的多模态模型。
響應速度達即時水準,長文本與多模态雙拳出擊
據 Anthropic 官方表示,Claude 3 是針對不同功能的一個模型系列,分别是:Opus、Sonnet 和 Haiku。盡管 Anthropic 并未給出 Claude 3 模型的具體參數,但也公布了此三個版本在各自性能和适配的任務上的差異,具體表現爲:
Claude 3 Opus ——最智能的模型,可跨 API 和數據庫規劃和編碼,在藥物研發、市場分析等高度複雜的任務上具有最佳性能。
Claude 3 Sonnet ——平衡智能和速度,其高耐用性更适合企業,更實惠和适合規模化。
Claude 3 Haiku ——最快、最緊湊的模型,具有近乎即時的響應能力,能提供無縫問答體驗。
目前,Opus 和 Sonnet 現已可以使用,而 Claude 的 API 也已在 159 個國家 / 地區廣泛開放。其中,開發者們可以在官網上免費體驗最經濟實惠的 Sonnet,而 Opus 則需要 訂閱 Claude Pro 後付費使用。
與大半年前發布的 Claude 2 相比, Claude 3 有什麽令人矚目的進步呢?
首先,Claude 3 響應速度接近即時。
Claude 3 模型支持實時對話、自動完成和數據提取任務。對于絕大多數工作負載,Claude 3 Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。Sonnet 擅長執行需要快速響應的任務,例如知識檢索或銷售自動化。Opus 的速度與 Claude 2 和 2.1 相似,但擁有更高的智能水平。而 Haiku 作爲速度最快且最具成本效益的型号,它可以在不到三秒的時間内閱讀 arXiv 上包含圖表和圖形的信息和數據密集的研究論文(約 10k tokens)。
其次,Claude 3 大大增強了對語境的理解,減少了不必要的拒絕。
Anthropic 在語境理解的領域取得了有顯著進展。與前幾代模型相比,Claude 3 Opus、Sonnet 和 Haiku 發出拒絕回答提示的可能性明顯降低,展現出 Claude 3 模型家族能對請求表現出更細緻的理解,能夠識别真正的傷害,并且拒絕回答無害提示的頻率要少得多。
另一方面,Claude 3 還提高了回答的準确性。Anthropic 官方表示,他們使用了大量複雜的事實問題來針對解決當前模型中已知的弱點,将答案分爲正确答案、錯誤答案(或幻覺)和承認不确定性,其中模型 " 承認不确定性 " 表示它不知道答案,而不是提供不正确的信息。
與 Claude 2.1 相比,Opus 在具有挑戰性的開放式問題上的準确性提高了一倍,同時也減少了錯誤答案的水平。另外, Anthropic 很快還将在 Claude 3 模型中啓用引用功能,以便用戶可以指向參考材料中的精确句子來驗證他們的答案。
盡管由 Sora 引發的文生視頻熱潮似乎已成爲 2024 年的新趨勢,但毋庸置疑的是,以長文本爲核心的大語言模型依舊是各大科技巨頭的兵家必争之地。
同老對手 OpenAI GPT-4 與谷歌 Gemini Pro 相比,Claude 3 的優勢又在哪裏呢?
Claude 本次更新的一大亮點,在于長文本能力的升級以及對多模态能力的突破。
Anthropic 在推出 Claude 3 時升級了其複雜視覺功能,使其領先于其他模型,多模态能力比肩 GPT-4V。
Claude 3 可以處理各種視覺格式,包括照片、圖表、圖形和技術圖表,在數學推理、文檔視覺、科學圖表等各方面性能超越 GPT-4V,能讓企業客戶的知識庫高達 50% 以各種格式編碼,例如 PDF、流程圖或演示幻燈片。
至于在原本就擁有的長文本分析優勢上, Anthropic 也做出了升級。
Claude 3 提升了上下文對話窗口,最高達到 200k。值得一提的是,它還具有超強的回憶能力。Claude 3 Opus 能夠 " 大海撈針 "(NIAH),通過将一個特定的句子(即 " 針 ")隐藏在一堆看似雜亂無章的文檔(即 " 大海 ")中,然後詢問一個隻有通過找到那個 " 針 " 才能回答的問題,從而考察模型的信息回憶能力。
研發團隊通過在每個提示中使用 30 個随機 " 針 " 對其中之一并在不同的衆包文檔庫上進行測試,增強了該基準的穩健性。測試證明,Claude 3 Opus 不僅實現了近乎完美的召回率,超過 99% 的準确率,而且在某些情況下,它甚至可以通過識别 " 針 " 這句話似乎是人類人爲插入到原文中來識别評估本身的局限性。
英偉達首席 AI 科學家 Jim Fan 在 Claude 3 發布後立即表示其他 LLM 也應該像 Anthropic 一樣出擊金融、醫藥等需要專業意見和優質報告的領域:
Claude 3 的發布極爲低調,直接在 X 上丢出一個鏈接。而最讓人眼前一亮的便是,Claude 3 發布後即提供了免費試用的機會,此舉吸引了大量用戶積極參與體驗。在社交媒體 X 上,一位博主發起了一場有趣的測試挑戰,上傳了一張酷狗的圖片,并使用免費版 Claude 3 進行嘗試,以檢驗其對圖像内容的理解和描述能力。最終結果顯示,相較于 ChatGPT,Claude 3 對于該圖片信息的解讀更詳盡、貼切。
而另一位博主則對一段複雜的英文内容進行了測試翻譯,結果顯示 Claude 在該任務上的表現優于 GPT-4。尤其值得一提的是,Claude 具備一項獨特功能,即能夠主動對未經排版的文本進行合理分段和格式化處理,顯著提升了閱讀體驗,而這項能力是 GPT-4 所不具備的。此外,Claude 的翻譯輸出内容也比 GPT-4 更爲詳盡。
接下來,在設計稿組件截圖還原的挑戰中,該博主特别強調了風格一緻性的重要性,Claude 對此展現了卓越的處理能力,對于複雜的設計元素和細節把控得恰到好處,高度接近原始設計稿的要求。相比之下,GPT-4 在此類任務上一直難以達到同樣水準。
最後,在多模态場景下,博主讓 Claude 解讀一篇論文的部分内容,其分析邏輯清晰、準确。盡管如此,在信息豐富度方面,Claude 的表現略遜于 GPT-4,尚有提升空間,特别是在多模态信息整合與呈現的能力上,仍有待進一步加強。
雙管齊下鎖定企業市場:Claude 3 的定價策略與安全優先理念
Claude 3,這款颠覆了大模型領域格局的 AI 産品背後母公司 Anthropic,是一家戰略上秉承謹慎與安全優先原則的初創企業。自公司創立之日起,其核心科研工作始終聚焦在人工智能治理和模型安全性的強化上。即使面對 2023 年 ChatGPT 在全球範圍内引發的性能競賽熱潮,Anthropic 并未盲目追求技術性能指标上的超越,而是堅守對 AI 安全的重視。
去年 9 月,Anthropic 獲得了亞馬遜高達 40 億美元,約 280 億人民币的重磅投資。獲得巨頭青睐的原因,一方面是來其巨卓越的技術能力,另一方面,業界普遍認同,該公司的技術創新策略首先是确保服務于構建可靠且安全的人工智能框架,其次才是對技術極限進行探索和突破。
這意味着,在追求卓越的同時,Anthropic 始終堅持将安全性作爲其 AI 産品和技術研發的基石。
其創始人 Daniela Amodei 與 Dario Amodei 是兩兄妹。
值得一提的是,Daniela Amodei 是該公司的總裁,曾負責監督 OpenAI 的政策和安全團隊在加入 OpenAI 之前,她曾公開表示 Anthropic 的安全第一政策是其主要差異化優勢之一。這也決定了 Claude 系列以安全爲首的技術基因。
在 Claude3 技術文檔中,我們也看到了 Anthropic 對安全理念的一以貫之。
Claude 3 團隊表明:現階段已經組建了多個專門團隊,負責監控和減少一系列廣泛的風險,包括錯誤信息、兒童性剝削材料(CSAM)、生物濫用、選舉幹預以及自主複制能力等。并将持續開發如憲法式 AI 等方法,以提升模型的安全性和透明度,并對模型進行了調整優化,以降低由新型模态引發的隐私問題。
對于日益複雜的模型中所存在的偏見問題,根據問題回答偏見基準測試(BBQ),Claude 3 模型相比之前的産品表現出更少的偏見。
團隊将繼續緻力于推動減少偏見并促進模型更大程度中立性的技術進步,确保它們不會偏向任何特定的政治立場。
實質上,關于 AI 安全的問題,在此前一直是一個争議的熱點。曾獲得圖靈獎、被稱爲 "AI 教父 " 的加拿大計算機科學家 Yoshua Bengio 就曾呼籲,AI 領域被少數科技公司控制的可能性,将會是該技術帶來生存風險之後的 " 第二大問題 "。
Anthropic 的創始團隊從 OpenAI 出來,并且參加過 GPT-3 的核心研發工作,目前也許是除了微軟與 OpenAI 之外,最了解 OpenAI 與 GPT 系列大模型的公司。而他們選擇的道路與 Open AI 相比也正好印證了技術路線的分歧:到底是性能先行還是兼顧技術治理。
這也是他們在發展理念上的終極競争。
而關于 Claude 3 帶給行業接下來的影響,除了對于 Open AI 霸主的地位的沖擊外,有行業人士直接表示,行業有望很快從模型競争轉變爲工作流競争。
該觀點的形成與 Claude 3 系列模型在定價策略上的與衆不同相關。目前,Claude 3 系列中最頂級版本 Claude 3 Opus 的價格設定凸顯其高端定位,對于每 100 萬條 token 的使用費用爲 15 美元,明顯高于 GPT-4 Turbo 的 10 美元收費标準。
然而,Anthropic 也透露,Claude 3 系列中性能相對較低的 Sonnet 和 Haiku 版本,在處理相同數據量時的收費至少比 Claude 3 Opus 低五倍。
舉例來說,如果用 Claude 來創建電子表格并比較其不同層級模型與 GPT-4 Turbo 以及 GPT-3.5 的成本,可以發現,在高端産品線上,Claude 3 Opus 在輸入和輸出成本上均超過了 GPT-4 Turbo;但在小型或中低端模型方面,例如 Claude 3 Haiku 的定價則較 GPT-3.5-turbo-0125 更爲經濟實惠。
這種價格差異使得業界開始讨論小規模模型的市場前景,有人甚至預測小模型可能在未來市場競争中逐漸淡出。
與此同時,Anthropic 對 AI 安全性的高度重視及定價策略上的親民設計,顯示了該公司商業模式上的獨特布局,即更傾向于瞄準具有較高付費能力的企業級客戶群體。
Claude 3 發布後,市場上對下一代大模型 GPT-5 的期待聲浪愈發高漲,許多業内專家認爲,這不僅标志着 Claude 的崛起時刻,同時也是 Open AI 展現實力的關鍵階段。有網友樂觀預計,也許不久就能見證 GPT-4.5 的誕生。雖然最終結果有待觀察,但可以預見的是,這場圍繞大模型技術的競争即将迎來新一輪的升級與高潮。
雷峰網 AI 科技評論将持續關注大模型領域動态,歡迎添加 anna042023 和 lionceau2046,交流認知,互通有無