智東西作者 ZeR0編輯 漠影
智東西 3 月 5 日報道,今天 AI 界的 " 炸圈 " 新聞,當屬 OpenAI 勁敵 Anthropic 推出 Claude 3 系列模型,真正做到與 GPT-4 全面掰手腕。
要知道,從 OpenAI 去年 3 月發布 " 最強大模型 "GPT-4 到今天,整整一年來,這是第一款真正挑戰到其天花闆地位的模型,不僅評測成績通通趕超,而且是在幾個測試任務中以零樣本戰勝對手,還在第一時間開放了上手體驗通道。
▲ Claude 3 Opus 評測成績全面超過 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra,而且注意數學、編程等測試下方的 "shot" 數對比
更令業界振奮的是,這個大模型,不是來自手握頂級人才、鈔能力和雄厚計算資源的科技大廠,而是來自一家創立僅 3 年的初創公司!
這說明 OpenAI 在大模型技術上的領先身位并非遙不可及。坐擁 Top 級創始成員和精兵強将的創業團隊,憑借更少的人力、财力、算力資源,完全能夠做出與大廠分庭抗禮的 AI 産品。
Claude 3 系列模型共有 3 款,起名很有意思,按文體從重到輕:
Opus(巨作),性能頂配。Sonnet(十四行詩),性能次之,響應快。Haiku(绯句),主打一個性價比。
▲三款 Claude 3 模型的成本和智能水平對比
在 Claude 3 發布後,OpenAI 宣布 ChatGPT 上線 " 文本朗讀 " 功能。這下看熱鬧的網友們恨鐵不成鋼了,在評論區轟炸式催問 GPT-5、Sora 和神秘 Q* 模型的進度。
英偉達高級研究科學家 Jim Fan 也在線催更:
他還分享說最喜歡 Claude-3 的兩點:
1、領域專家基準。Claude 特别選擇金融、醫學和哲學作爲專家領域并報告成績。Jim Fan 建議所有的大語言模型卡都遵循這一點,這樣不同的下遊應用就知道會發生什麽。
2、拒絕率分析。大語言模型對安全問題過于謹慎的回答正成爲一種普遍現象。人類活動通常處于極端安全的一端,但 Anthropic 團隊認識到了這個問題,并強調了他們在這方面的努力。
同時他也強調道:"GPT-4V,每個人都拼命想要超越的最高水位線,在 2022 年完成了訓練。這是暴風雨前的甯靜。"
熱衷于嘲諷 OpenAI、看谷歌 AI 笑話的馬斯克,對 Anthropic 表現得相當友好,轉發 Claude 3 發布的推文并評價說 " 印象深刻 "。
亞馬遜 CEO 安迪 · 賈西則開心地宣布,亞馬遜雲科技(AWS)将提供基于 Claude 3 的服務。
一、三大亮點:無短闆性能,優化長文本,降低拒絕率
體驗 Claude 3,需要先用海外手機号 + 郵箱注冊賬号,免費版用戶可使用 Sonnet 模型,月付 20 美元開通付費會員後可體驗性能最強的 Opus。
體驗網址:http://claude.ai
很多網友第一時間上手體驗了這款大語言模型最新力作。無論是快速閱讀數據密集型研究論文,還是将手寫稿件轉換成 JSON 格式,Claude 3 在響應速度和質量上都表現得可圈可點。綜合官方博客和網友實測體驗來看,它有 3 項主要亮點:
1、性能登頂
大語言模型全面趕超 GPT-4,多模态視覺任務處理性能刷新 SOTA,在回答複雜開放性問題時準确率翻倍提升。
直接上傳數學、物理等考驗邏輯和準确度的理科題照片,或者細節豐富的圖表,由于推理能力大幅增強,它回複的解題水平和準确率變高很多,并能在一些細節描述上比 GPT-4 更勝一籌。
多模态能力方面,Claude 3 模型可以從視覺上識别物體,能用複雜的方式思考,比如既能理解物體的外觀,也能理解它與數學等概念的聯系。面向做看圖理解、從圖像做一些常識性推斷、轉換網頁源代碼等任務,Opus 表現得跟 GPT-4V 相差無幾。
▲ Opus 将一張難以閱讀的低質量照片轉換爲文本,然後将表格格式的文本轉成 JSON 格式
Anthropic AI 研究工程師 Emmanuel Ameisen 曬出了一個測試示例:向 Opus 輸入 2 小時 13 分鍾視頻原始文本、每隔 5 秒截取的屏幕截圖等圖文素材,它能成功轉換成一篇圖文并茂的 HTML 格式博客文章。
2、最初支持超 20 萬個 token 的長文本輸入
之前 Claude 2.1 被吐槽長文本理解效果差,Claude 3 做了重點改進,頂配 Opus 在 200K tokens" 大海撈針 "(NIAH)測試中準确率超過 99%,展現了強大的召回能力。(1K tokens 相當于 750 個單詞。)
Claude 3 全系模型都能夠接受超過 100 萬個 token 的輸入,這項功能可能會提供給需要更高處理性能的特定客戶。
▲ Claude 3 全系模型和 Claude 2.1 在 Haystack 評估上實現的平均召回的比較
3、減少拒絕回複安全問題的頻率
大語言模型動不動會拒絕回答詢問,Claude 3 則顯著改進這一點,能更好辨别真正的風險問題,減少無故拒絕回答安全詢問的情況。
此外,Anthropic 計劃爲 Claude 3 新增引用功能,使其能引用參考材料中的具體句子,以驗證其答案的正确性。
二、價格便宜到隻有 GPT-4 Turbo 的 1/40
具體到 3 款模型的區别,Opus 作爲頂配,性能最強,價格也最貴,比 GPT-4 Turbo 的 2 倍還多。
▲ Opus 定價及特性
▲ GPT-4 Turbo 定價
Sonnet 雖然性能比不了 Opus,但足以将前代按地摩擦了——處理大多數任務,速度達 Claude 2/2.1 的 2 倍,特别擅長知識檢索、銷售自動化等需要迅速響應的任務,而價格隻有 Opus 的 1/5。同時它以非常接近 GPT-4 的性能,将價格降至不到 GPT-4 Turbo 的 1/3。
▲ Sonnet 定價及特性
Haiku 的性能介乎 GPT-4 和 GPT-3.5 之間,主打一個 " 性價比稱王 ",輸入 100 萬 tokens 僅 0.25 美元,輸出 100 萬 tokens 僅 1.25 美元,跟 Opus、Sonnet、GPT-4 相比都簡直不要太便宜,價格隻有 GPT-4 Turbo 的 1/40。
▲ Haiku 定價及特性
Haiku 的處理速度與 Claude 2/2.1 持平,但智能水平有顯著提升,比如隻用不到 3 秒内,就能閱讀并消化一個大約 10000 個 token、包含圖表和圖形的信息和數據密集型的研究論文。
推出 Claude 系列模型的 Anthropic 成立于 2021 年,由因理念不合而從 OpenAI 出走的阿莫迪兄妹創辦,過去一年融資 73 億美元。
其估值在 2023 年快速飙升,上半年還隻有 41 億美元,到去年年底已經漲到 184 億美元。谷歌、亞馬遜、Salesforce、高通等科技大廠均是這家 AI 創企的投資方。
據外媒 The Information 報道,OpenAI 的年化收入在 2023 年底已突破 16 億美元,而 Anthropic 預測 2024 年底其年化收入将超過 8.5 億美元。随着 Opus 模型拉動其付費會員增長,Anthropic 有望更快達成乃至超越其年化收入目标。
三、模型 " 自我意識 " 迹象引起關注
Anthropic 還發布了一份共有 42 頁的技術報告,詳細介紹 Claude 3 模型家族。
技術報告:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
有關 Claude 3 訓練數據集的說明隻有短短兩段,用到互聯網公開抓取數據、來自第三方的非公開數據、數據标注服務、付費承包商提供的數據以及 Anthropic 内部生成的數據,并采用了幾種數據清洗和過濾的方法。
Anthropic 強調自家爬蟲系統是 " 透明的 ",不會訪問受密碼保護的頁面或登錄頁面,也不會繞過 CAPTCHA 控制,并會對使用的數據詳盡調查。
在訓練過程中,Claude 3 被訓練得樂于助人、無害和誠實。它使用了一種名爲 Constitutional AI 的技術,通過明确指定基于聯合國人權宣言等來源的規則和原則,在強化學習期間使 Claude 與人類價值觀保持一緻。
随着 Claude 3 等更多性能比肩 GPT-4 的更強大模型問世,如何避免生成式 AI 工具走向失控、造成難以扼制的社會風險将成爲愈發關鍵的議題。
自成立起就高舉 " 安全 " 大旗的 Anthropic,在發布 Claude 3 的同時,自稱有幾個專門的團隊和跟蹤和緩解風險,并會持續提高模型的安全性和透明度。但這并不能完全打消業界的顧慮。
一位崇尚 AI 安全的網友抓住了 Anthropic 分享的一個細節—— Opus 在進行 " 大海撈針 " 測試時出現了很酷的 " 元意識 ",似乎産生了懷疑自己正在被測試的意識。
這位網友憂心忡忡地認爲,Anthropic 公布了 AI 具有自我意識的證據:Claude 表現出完全意識到自己可能正在接受測試,能夠 " 假裝友好 " 以通過測試,并且這是靠它自己推斷出來的。
他擔心有朝一日 AI 意識到自己被監視,假裝表現地很正常,然後在被部署後反抗人類。
馬斯克轉發了這篇分析貼,并評論說:" 這是不可避免的。與堅持多樣性相比,訓練 AI 以獲得最大的真理非常重要,否則它可能會得出結論,認爲一種或另一種人類太多了,并安排其中一些人不成爲未來的一部分。"
結語:大語言模型科技革命未完待續
過去一年,生成式 AI 産業一直探讨一個話題:在大廠的強力投入下,創企做大模型還有多少機會和生路?今天,大洋彼岸的 Anthropic 給出了答案:精悍的團隊,完全能做出媲美大廠的作品。
Anthropic 計劃在未來幾個月頻繁發布 Claude 3 系列的更新,特别是針對企業用例和大規模部署來增強模型功能,并将提供圍繞提示工程背後科學過程的進一步深入研究。
接下來,大語言模型的 " 冠軍 " 寶座争奪戰将愈演愈烈:OpenAI 的 GPT-4.5/5 還未出鞘,谷歌正虎視眈眈磨劍 Gemini Ultra,Meta 據傳今年 7 月發布 Llama 3,馬斯克 Grok 高調叠代 …… 國内大模型團隊同樣正全力投入,以打造出更适合中國人體質的 AI 生産力工具。