文|周鑫雨
編輯|鄧詠儀
春節前,智譜 AI 先給開發者過了個小年。
2024 年 1 月 16 日,中國模型層獨角獸智譜 AI 舉辦了首屆 AI 技術開放日 Dev Day。自 2023 年 10 月語言大模型 ChatGLM3 發布以來,智譜 AI 在 3 個月的時間裏,将基座模型 GLM 的能力提升了 60%。
随着模型能力的提升、AI 應用生态的建立,模型層廠商建立 OS(操作系統)也水到渠成。智譜 AI CEO 張鵬對 36 氪直言,做 OS 不叫野心," 而是模型能力達到一定水平後自然而然要做的事 "。
圍繞叠代模型、建立 AI 應用生态、構建 AI OS,智譜 AI 的 Dev Day 的發布有三個重點:
最新大模型基座GLM-4發布,中文環境下各項能力幾乎超過 GPT-4,英文環境下各項能力均達到 GPT-4 的 90%;
發布定制化模型生成工具GLMs,實現 0 代碼分鍾級創建基礎 AI 應用。與此同時,GLMs 模型應用商店上線;
推出多模型能力自動調用工具All Tools。All Tools 可以被視作 AI OS 的一個雛形,能根據用戶的指令對 GLMs 進行自動選取、調用、執行。
對不少開發者而言,這些更新聽上去并不陌生。2023 年 11 月 16 日,OpenAI 就在 Dev Day 推出了定制化模型生成工具 GPTs 和應用商店,也被視作構建 AI OS 的标志。
對智譜 AI 而言,OpenAI 是最強的對手,也是技術能力的試金石。對标 OpenAI,智譜 AI 建立了從通用模型基座到多模态模型的産品線。
智譜 AI 對标 OpenAI 建立的産品線
摸着 OpenAI 過河,張鵬認爲,GLM-4 的能力已經接近 GPT-4,夠到了建 AI 應用生态、做 AI OS 的門檻。他也預言,下一次模型能力的躍升,将出現在具身智能的突破。
單次處理 300 頁小說,模型能力達 GPT-4 九成
在模型能力上,OpenAI 是智譜 AI 一直追趕的對手。
Dev Day 上最新發布的 GLM-4,目前在英文基礎能力的表現上,已經能和 GPT-4 掰掰手腕,均達到了對手能力的九成;在中文能力的表現上,除了邏輯推理和中文推理兩項能力不及 GPT-4,其他維度已經超越了對方。
而在指令跟随能力這一維度上,GLM-4 還有一定的提升空間。所謂的指令跟随能力,就是模型解讀輸入 Prompt 和指令的能力,是理解用戶意圖的重要維度。在英文 Prompt 的理解上,GLM-4 能力相較于 GPT-4 稍弱,爲後者的 85%。
圖源:智譜 AI
随着模型發展階段從狂卷參數規模,到應用落地,如今,通過擴展上下文窗口來提升模型的 " 記憶力 ",成爲不少廠商發力的方向。
GLM-4 也不例外,它将上下文窗口從 32K 擴展到了 128K,這意味着單次可以處理約 20 萬字的文本,相當于 300 頁的小說。
當然,能處理的文本越長,模型也越容易 " 失憶 "。據智譜 AI 介紹,GLM-4 目前可以做到對記憶幾乎 100% 的精準召回。
在作者上傳一整本馬伯庸的 9 萬字小說《長安的荔枝》後,可以看到,GLM-4 不僅準确得出李善德運送荔枝的天數,總結了他成功保存荔枝的方法,還定位了刺殺李善德的真兇。
作者試用
在定價上,128K 系列模型采取了 " 加量不加價 " 的策略。相較于 32K 的 ChatGLM-Turbo,128K 的 GLM-3-Turbo 定價沒有上漲,仍爲 0.005 元 / 千 Tokens;128K 的 GLM-4,定價爲 0.1 元 / 千 Tokens,約爲 GPT-4 價格的 1/2。
在 Dev Day 上,智譜 AI 也披露了在多模态研究上的進展。
據智譜 AI 介紹,最新推出的文生圖模型 CogView3,能力已經超過了最強開源模型 Stable Diffusion XL,接近 OpenAI 的 DALLE · 3。這是由于 CogView 采用了自研的非自回歸技術 " 中繼擴散模型 ",提高了生成圖像分辨率,并解決了 Diffusion 模型生成質量不穩定的問題。
CogAgent,是智譜 AI 最近的研究方向,即探究如何從多模态模型走向智能助手。張鵬告訴 36 氪,人類感知世界仍然離不開視覺、聽覺,多模态與 Agent 的結合是必然的趨勢。
推出 0 代碼 Agent 定制工具 GLMs,模型應用商店上線
對标 OpenAI 的 GPTs,智譜 AI 在 Dev Day 上發布了 GLMs。
在這款國産的定制版 Agent 生成器中,用戶隻需要用自然語言輸入 Agent 功能,GLMs 就會自動生成應用名稱、配置名稱、模型能力調用等配置文件信息。用戶還可以上傳外部知識庫,讓 GLMs 進行學習。
比如,當我們想讓 GLM 自動生成一個食譜生成器,就可以輸入 " 你是一個食譜生成器,用戶輸入食材,你可以生成三菜一湯。"
點擊 " 發布 " 按鈕後,名爲 " 食途指南 " 的 GLMs,就可以在智譜 AI 的對話機器人 " 智譜清言 " 上使用。
不過,GLMs 的目标用戶并非企業和資深開發者。據現場工作人員介紹,這是一款面向普通用戶的 Agent 生成器,目前用戶隻能在 " 智譜清言 " 移動端和網頁端上發布 Agent,而不能夠發布獨立的 App 版本。
爲了建立基于 GLM 的 AI 應用生态,在 Dev Day 上,智譜 AI 順勢發布了GLMs 模型應用商店,并計劃同期公布開發者分成計劃。
目前,在名爲 " 智能體中心 " 的應用商店中,已經聚集了上百個基于 GLM 研發的 AI 應用。
比如一款名爲 " ‘利好茅台’分析師 " 的應用,主打提煉出對茅台品牌有利的信息。即便詢問對茅台不利的問題,它也能圓回來。
智譜 AI 版 GPTs,讓大模型把原生 App 用起來
用一台手機或電腦,查到近三年春運數據并繪制折線圖,需要幾步?
1、打開中國政府網尋找數據;2、彙總到 Excel 表格中;3、調用圖表生成工具。
最少要三步。
而模型時代,這個步驟被縮減成了輸入一句自然語言指令:
" 這将會是 AI 時代 OS(操作系統)的特質。移動時代的 iOS 和安卓并不理解應用,但大模型 OS 可以理解建立其上的 AI 原生應用。" 張鵬告訴 36 氪。
此前,OpenAI 已經用 GPTs,爲 AI 時代的操作系統打了個版:開發者們利用 GPT 基座低門檻快速開發定制模型和應用 GPTs,集成了這些 GPTs 的 GPT,天然成爲最懂這些應用的 OS。
在 Dev Day,智譜 AI 對大模型 OS 的運作模式已經進行了初步實踐:推出All Tools,讓作爲 OS 的 GLM-4 根據用戶意圖,自動選擇調用文生圖、代碼解釋器、網頁浏覽等多種模型能力。
All Tools 可調用的連續圖文創作能力,來源于智譜 AI 的文生圖模型 CogView2。其優勢是可以結合上下文語境,與用戶連續交互。
比如,當我們遇上一個最終選了第一版方案的難纏甲方,通過 CogView 就能快速找到第一個方案:
All Tools 可調用的網頁浏覽能力,特征是由模型自行規劃檢索任務、自行選擇信息源、自行與信息源交互,并對用戶顯示檢索次數。
比如,僅根據 "CES 2024(2024 國際消費電子展)展位面積最大的中國廠商 " 這一信息,網頁浏覽能力就能檢索到 TCL,并通過 2 次檢索回答産品發布的相關問題。
除了連續圖文創作能力和網頁浏覽能力,All Tools 目前還能調用代碼解釋器(支持複雜計算,以及文件處理、數據分析、圖表繪制等複雜任務)、Function Call(根據⽤戶提供的 function 描述,⾃動選擇所需 function 并⽣成參數,以及根據 function 的返回值⽣成回複)。根據具體任務,All Tools 還支持多工具自動調用。
使用一個懂你、更懂應用的 OS 有多爽?
調用網頁浏覽和圖表繪制能力完成春運數據折線圖的生成,是其中一個案例。
36 氪再嘗試了讓 All Tools 根據同個指令,調用文本創作和圖片設計能力 2 種能力。
比如,想爲電視劇《繁花》設計宣發語和海報,隻需要在一句自然語言指令中同時包含這兩個需求,All Tools 就能自動調用 ChatGLM 的語言理解能力,以及 CogView 的圖片生成能力。
張鵬告訴 36 氪,在未來,All Tools 也将支持調用 GLMs 模型應用商店中上傳的各種模型應用。
以下是與智譜 AI CEO 張鵬的對話(内容略經 36 氪整理):
36 氪:之前 OpenAI 在 Dev Day 上發布了 GPTs 和應用商店,被視作要做 AI 時代的 OS(操作系統)。如今智譜 AI 發了 GLMs 和應用商店,智譜 AI 也有做 OS 的野心嗎?
張鵬:我覺得這不叫 " 野心 ",而是模型能力達到一定水平後自然而然要做的事。
36 氪:" 一定水平 " 是什麽?
張鵬:可以理解爲模型能力超過人類能力的平均線。去年(2023 年)3 月發布的一篇解讀 GPT-4 能力的報告,最後的結論是:GPT-4 在大多數任務的平均表現已經超過了人類的平均水平。如果我們追上 GPT-4,就意味着我們也能超越人類的平均水平。
36 氪:AI 時代的 OS 會和移動時代的 OS(比如 iOS 和安卓)有本質的區别嗎?
張鵬:當然會。
信息科學或者上一代的 IT 技術解決的是處理數據信息的問題。計算機把所有的數據數字化,用 0 和 1 表示,然後設計一套邏輯去計算。但上一代 IT 技術隻是工具,并不知道它在處理的是什麽,以及處理的意義是什麽。iOS 也好,安卓也好,都不理解自己處理應用的意義。
這一代人工智能想解決的問題就是讓機器理解自己行爲的意義。所以這一代的 OS,其實不是操作系統,而是思考系統,你隻要粗略地告訴它你要幹嘛,它就能夠幫你去思考,并且完成對應用的操作。
36 氪:未來 AI OS 和安卓、iOS 會是怎樣的關系?
張鵬:若是要讓 AI OS 替代傳統 OS,我覺得需要很長一段時間,也許最後它們也會共存。
你記不記得《流浪地球》中的這樣一個情節?當量子計算機 MOSS 接上空間站的總控,它做的第一件事是:改寫底層所有的操作系統。
爲什麽用的是改寫,而不是全部覆蓋?因爲底層很多東西就隻需要機械式的行動,不需要思考。安卓和 iOS 已經很強,起碼現在很有效,能控制現有的應用。未來 OS 會發生的事,很難預估。
36 氪:那我們來聊現實一些的事。國内外現在很多模型廠商都在做自己的應用商店,智譜 AI 怎麽樣應對競争,把更多的應用聚集到自己的生态上?
張鵬:其實我們 2021 年的時候就想做 OS,取名爲 "MOS",相比 "MOSS" 就少了個 "S"。當時我們連産品設計圖都畫出來了,但是這個事兒最後沒有做,還是考慮到模型的能力不夠。我覺得聚集更多應用的前提,就是提高模型能力。
36 氪:模型能力叠代到 GLM-4 目前的能力,最關鍵的幾個節點是什麽?
張鵬:第一件事就是 Scaling(擴大參數規模),提升參數量是提高模型能力的基礎。
第二件事,是我們做了很多與人類對齊的工作,讓模型遵循人類的價值觀。
第三件事是開源。開源的意義并不在于讓我們的技術先進了多少,而是因爲單純靠我們的力量很難追上 OpenAI。我們需要通過開源把更多人引入生态,去發揮模型最大的價值。
智譜 AI 設立大模型開源基金,在開源社群投入 1 千張 GPU、1 千萬人民币、1 千億 Token 數
第四件事是多模态。因爲語言是人類創造的,所以從語言切入是最容易的,語言模型可以成爲第一步。但我們理解、認知世界的方式還需要其它的感官,所以開始加入多模态很重要。
最後一件事是 Agent。多模态能讓模型長出五官,但模型仍然活在缸裏。Agent 就讓模型長出四肢,能夠真正實現與現實或者數字環境交互,讓模型具備自主規劃和行動的能力。
所以現在看到的 GLM-4 其實是我們長期對這幾件事探索的成果。
36 氪:模型能力的下一次躍升在哪裏?
張鵬:我覺得是具身智能。就像一個哲學命題所讨論的:肉體和靈魂能不能分開?我傾向于認爲,智能無法和物理世界割裂,智能的誕生與身體的物理條件有關。
36 氪:Dev Day 上大家提到大模型沒法大規模商用,以及 C 端通用應用發展緩慢的一個重要原因是成本太高,比如一個通用 C 端應用一天就可能消耗上億的 Token。站在模型廠商的角度,這個問題該怎麽解決?
張鵬:這個問題無法脫離生态圈去解決。比如對于硬件廠商來說,就需要制造出效率更高的芯片;對我們這些模型廠商來說,需要持續去降低模型的推理成本;對于應用廠商而言,就要想辦法讓用戶更多地去承擔成本,提高付費意願。
成本的問題躲不開,需要全産業鏈去擠水分。
36 氪:今天智譜 AI 分享了很多客戶案例。不過在國内做模型的商業化,有哪些難點?
張鵬:中國市場有自己的特點。比如說 SaaS,在國外活得好好的,在國内就很艱難。MaaS(模型服務)本質上也是 SaaS,但環境的事靠我們自己很難去改變,我們隻能思考怎麽去破局。
所以我們很早就把商業化方案想得比較清楚。比如和初期做知識工程的基因有關,我們覺得模型商業化做 To B 可能會更容易一點。
但中國 B 端的客戶的需求其實非常多樣化,非常不統一,如何去滿足客戶需求又不陷入工程的泥潭裏?我覺得是要放大 AI 模型泛華能力強、通用性高的優勢。
這裏頭有很多講究。首先部署策略的方案要多元,比如我們有三種方案:API、雲端私有化、本地私有化,基本上每個有意向的客戶都能找到對應的部署方案。其次我們也會慢慢教育用戶,說服他們慢慢從最重、最麻煩的定制方式,轉向更标準化、平台化的産品購買方式。
從去年來看,我們 MaaS 整體的效果應該說還行。我們有 2000 多家客戶,單純從數量上看,分布得還比較健康,呈現金字塔結構(少量高付費能力、高忠誠度的客戶位于塔尖)。
智譜 AI 的部分客戶
36 氪:智譜 AI 會出海嗎?
張鵬:我們内部也在讨論這個問題。我們從來沒有限制過自己制作國内市場,隻是我不知道該怎麽定義出海這個事,是掙美元就算出海了,還是在國外開個公司就算出海?所以關于出海的定義和形式我們糾結了很久。
其實在學術的全球知名度上,我們也早就 " 出海 " 了,但是這不等同于商業出海,我覺得還是一步步來。目前最重要的兩件事是,一,核心技術突破;二,在商業路徑上探索出更長遠、更具有規劃性的 MaaS 落地的路徑。
目前商業化的情況初步證明,我們在 MaaS 上是能走通的,但是要怎麽引導這個路徑往更健康或者更長期的方向?今天有人提到平台化,也有人提到操作系統,現在還沒有定論。
掃碼加入「智湧 AI 交流群」
歡迎交流