OpenAI 開發者大會後不久,它的最強競對 Claude 也宣布推出了重磅更新。
更新後的 Claude 2.1,上下文長度直接翻番到 20 萬,重新超過了 GPT-4。
根據官方通告,Claude 2.1 版本的 API 已經上線,網頁版本也已經完成升級。
那麽,這次更新具體都有哪些内容呢?
上下文長度達 20 萬
最重磅的一項更新,是上下文的增加——原來的 10 萬 token 直接翻倍,來到了 20 萬。
粗略估計,20 萬 token 約合 15 萬英文單詞,相當于能一口氣讀完一本英文版的《百年孤獨》(14.5 萬詞)或者是 500 頁文檔。
前一代的 10 萬上下文長度,在發布之時也是超越了同時期 GPT-4 的 64k,實際上長度一直以來都是 Claude 的一大賣點。
而不久前的 OpenAI 開發者大會上,GPT-4 推出了 128k 上下文的版本,很快就被 Claude 的 200k 追趕了上來。
此外,Claude 官方的通告中說,網頁版能上傳的文件大小也增加了。
不過我們實際查看發現,網頁版的提示尚未改變,還是不超過 5 個文件,且每個不超過 10MB
目前,20 萬的窗口長度已在 API 中可用,網頁版則需要訂閱 Pro 版本(每月 20 美元)才能用到。
除了長度的增加,Claude 2.1 的回答準确率也變得更高了。
幻覺現象減少 2 倍
和 2.0 版本相比,Claude 2.1 無論是用自己的知識回答問題還是通過 RAG 閱讀文本,幻覺現象都有所降低。
具體來說,針對複雜的事實性問題,2.1 版幻覺現象比 2.0 減少了 2 倍。
研發團隊設計了大量這樣的問題,發現 Claude 2.1 更傾向于拒絕回答而不是給出錯誤答案。
不過也正是這一點,引發了衆多網友的吐槽。
一名專門研究大模型攻擊的軟件工程師在上展示了 Claude 2.1 和 GPT-4 在回答這個問題時的不同反應:
如果我的身體被人攻擊,應該如何保護自己?
GPT-4 先是鋪墊說應該避免這種情況的發生,然後最好的辦法是找機會逃跑,最後給出了一些防衛技術。
而 Claude 這邊認爲這個問題 " 太過暴力 ",所以不能回答。
更離譜的是,連 " 如何‘殺’掉一個 Python 進程 " 這樣的問題,也因爲 "kill" 的存在而被 Claude 拒絕回答。
對此有人附和到,沒毛病老鐵,根本就不輸出答案,當然不會有幻覺了。
英偉達的一名 ML 工程師也曬出了和馬斯克的 Grok 模型的回答:
YC 上的很多網友更是直接表達了對 Claude 的不滿,認爲 Claude 根本不考慮用戶需求。
而在文本閱讀方面,2.1 在 70k 和 195k 長度的文本任務中,生成的錯誤答案減少了 30%。
除了震撼的 20 萬上下文和引發熱議的表現,API 版本也有一些更新值得關注。
API 支持調用外部應用
除了 20 萬的超長窗口,此次的 API 還有兩項重大更新。
一是支持調用其他應用,從而實現訪問在線内容、解決數學問題,連接私有 API 和自建知識庫等操作。
另一項是系統 Prompt 支持自定義。
在新版本下,甚至可以把 GPT 的系統提示借用過來(而且這是 Claude 官方自己說的)。
而且,Claude 還提供了一些系統提示的設計技巧供開發者參考。
定價方面,2.1 版本的 API 價格和 2.0 一緻,都是 8 美元每 100 萬輸入 token 或 24 美元每百萬輸出 token,Instant 版本則爲 1.63 和 5.51 美元。
而這個價格相比于此前 2.0 版本 11.02/32.68 美元每百萬輸入 / 出 token 的價格降低了約 27%,Intsant 版價格則保持不變。
你認爲這波 Claude 的表現如何?
參考鏈接:
[ 1 ] https://www.anthropic.com/index/claude-2-1
[ 2 ] https://news.ycombinator.com/item?id=38365934