國産對話機器人ChatGLM,和 GPT-4 誕生于同一天。
由智譜 AI 和清華大學 KEG 實驗室聯合推出,開啓 alpha 内測版。
這個巧合讓智譜 AI 創始人兼 CEO張鵬有一種說不清的複雜感覺。但看到技術被 OpenAI 做到這麽牛,這名被 AI 新進展轟炸麻了的技術老兵又猛然亢奮起來。
特别是在追 GPT-4 發布會直播時,他看一下屏幕裏的畫面,就埋頭笑一陣,再看一段,又咧嘴笑一會兒。
從成立起,張鵬帶隊的智譜 AI 就是大模型領域的一員,定下 " 讓機器像人一樣思考 " 的願景。
但這條路坎坷不斷。和幾乎所有做大模型的公司遇到的問題一樣,缺數據、缺機器,同時還缺錢。好在一路走來,有一些機構和公司提供無償支持。
去年 8 月,公司聯合一衆科研院所,開源的雙語預訓練大語言模型GLM-130B,能在準确性和惡意性指标上與 GPT-3 175B (davinci) 接近或持平,也就是後來 ChatGLM 的基座。和 ChatGLM 同時開源的還有個 62 億參數版本 ChatGLM-6B,千元單卡就可跑的那種。
除了 GLM-130B,智譜另一個有名的産品是 AI 人才庫 AMiner,學界大佬都在玩:
這一回和 GPT-4 撞到同一天,OpenAI 的速度和技術,讓張鵬和智譜團隊都有些壓力山大。
" 一本正經的胡說八道 " 需要被糾正嗎?
ChatGLM 内測後,量子位第一時間拿到名額, 出了一波人肉測評。
先不說别的,幾輪測試下來就不難發現,ChatGLM 身上有着包括 ChatGPT、新必應在内都擁有的一項本領:
一本正經胡說八道,包括但不限于在雞兔同籠問題中算出 -33 隻小雞崽。
對大多數把對話 AI 當 " 玩具 " 或辦公助手的人來說,怎麽才能提高準确度,是格外被關注和看重的一點。
對話 AI 一本正經胡說八道這回事,可以糾正嗎?又真的需要糾正嗎?
△ChatGPT 的經典胡說八道語錄
張鵬在表達個人意見時說,要去糾正這個 " 頑疾 ",是一件本身就很奇怪的事情。
(保證說的每一句話都正确)這件事連人自己都做不到,卻想讓一個人造的機器不犯這樣的錯。
關于這個話題的不同看法與不同人對機器的理解息息相關。張鵬看來,抨擊 AI 有這一行爲的人,可能一直以來對機器的理解都是一絲不苟的,它們非 0 即 1,嚴苛而精确——持有這種觀念的人,潛意識認爲機器不應該也不能犯錯。
知其然與知其所以然同樣重要," 這可能源于大家對整個技術的演進和變化,以及技術的本質沒有深入理解。"
張鵬用人的學習作爲類比:
AI 技術的邏輯和原理,其實還是在模拟人的大腦。
面對學習過的東西,一是知識本身可能有錯,或有更新叠代(如珠穆朗瑪峰的海拔);二是學習的知識之間也存在互相沖突的可能了;三是人也總有犯錯、犯迷糊的時候,
AI 犯錯好比人犯錯,原因是缺少知識,或者錯誤運用了某項知識。
總之,這是很正常的事情。
與此同時,智譜當然關注到了 OpenAI 向 CloseAI 的默默轉身。
從 GPT-3 選擇閉源,到 GPT-4 進一步掩蓋架構層面的更多細節,OpenAI 對外回應的兩個原因,一是競争,二是安全。
OpenAI 的用心,張鵬表示理解。
" 那走開源路線,智譜沒有競争和安全方面的考慮嗎?"
" 肯定也會有。但難道閉源就一定能解決安全問題嗎?我看未必。而且我相信世界上聰明人很多,競争是促進整體行業和生态快速往前推進的優質催化劑。"
比如和 OpenAI 同台競技,哪怕隻是奮起追趕,也是競争中的一環。
這裏的追趕是在陳述過程,建立在認爲 OpenAI 研究方向是通往更遠目标路徑上的必經之路,但追趕上 OpenAI 并不是最終目的。
追趕上,不代表可以停下;追趕過程,不代表要原樣照搬矽谷模式,甚至可以發揮中國調動頂層設計集中力量辦大事的特色和優勢,才有可能去彌補發展速度上的差異。
雖然有 2019 年至今 4 年多的經驗,但智譜還不敢給出什麽避坑指南。不過,智譜了解大緻對的方向,這也是智譜透露的正在和 CCF 聊的共同想法——
大模型技術的誕生,是一個非常綜合、複雜的系統化工程。
它不再是幾個聰明的腦袋在實驗室裏琢磨,掉幾根頭發,做點實驗,發點 paper 就了事。除了原始的理論創新,還需要很強的工程實現和系統化能力,甚至還需要很好的産品能力。
就像 ChatGPT 這樣,選擇合适場景,設定和封裝一個上到 80 歲、下到 8 歲都能接觸使用的産品。
算力、算法、數據,具體到背後都是人才,尤其是系統工程的從業者,重要程度遠遠大于往日。
基于這種認知,張鵬透露道,在大模型領域中加入知識系統(知識圖譜),讓二者像左右腦一樣系統工作,是智譜在研究和實驗當中的下一步。
GitHub 最火雙語對話模型
ChatGLM 整體參考了 ChatGPT 的設計思路。
也就是在千億雙語基座模型GLM-130B中注入代碼預訓練,通過有監督微調等技術,實現人類意圖對齊(就是讓機器的回答符合人類價值觀、人類期望)。
背後 1300 億參數的 GLM-130B,由智譜和清華大學 KEG 實驗室共同研發。不同于 BERT、GPT-3 以及 T5 的架構,GLM-130B 是一個包含多目标函數的自回歸預訓練模型。
去年 8 月,GLM-130B 對外發布,同時開源。Standford 報告中,它的表現在多項任務上可圈可點。
對開源的堅持,源于智譜不想做通往 AGI 道路上孤獨的前行者。
這也是繼開源 GLM-130B 後,今年繼續開源 ChatGLM-6B的原因。
ChatGLM-6B 是模型的 " 縮小版 ",62 億參數大小,技術基底與 ChatGLM 相同,初具中文問答和對話功能。
持續開源,理由無外乎兩點。
一個是希望把預訓練模型的生态做大,吸引更多人投入大模型研究,解決現存的很多研究性問題;
另一個是希望大模型作爲基礎設施沉澱下來,以幫助産生更大的後續價值。
加入開源社區确實很吸引人。ChatGLM 内測的幾天内,ChatGLM-6B 在 GitHub 上已有 8.5k 星标,一度躍升trending 排行榜上的第一位。
從本次對話中,量子位還從眼前這位從業者身上聽到這樣的聲音:
同樣 bug 頻出,但人們對 OpenAI 推出的 ChatGPT,和對谷歌對話機器人 Bard、百度文心一言的容忍程度差别明顯。
這既公平,又不公平。
從純技術的角度來說,評判标準不一,這是不公平所在;但谷歌、百度之類的大廠,占據更多資源,大家天然覺得它們技術實力更強,做出更好的東西的可能性更高,期待值就更高。
" 希望大家可以給更多的耐心,無論是對百度,對我們,還是其他機構。"
除了上述内容,在本次談話中,量子位還和張鵬具體聊了聊 ChatGLM 的體驗感受。
下面附上對話實錄。爲了方便閱讀,我們在不改變原意的基礎上做了編輯整理。
對話實錄
量子位:内測版本給自己打的标簽好像沒那麽 " 通用 ",官網給它的适用領域框定了三個圈,教育、醫療和金融。
張鵬:這跟訓練數據沒什麽關系,主要是考慮到它的應用場景。
ChatGLM 和 ChatGPT 類似,是一個對話模型。哪些應用領域天然更接近對話場景?像客服,像醫生問診,或者比如線上金融服務。這些場景下,更适合 ChatGLM 的技術去發揮作用。
量子位:但醫療領域,要看病的人對 AI 的态度還是比較謹慎的。
張鵬:肯定不能直接拿大模型往上怼啊!(笑)想要完全替代人類,還是要慎重。
現階段不是用它去代替人工作,更多的是輔助作用,給從業者提供建議來提升工作效率。
量子位:我們把 GLM-130B 的論文鏈接扔給 ChatGLM,讓它簡要概括一下主題,它叭叭半天,結果說的根本不是這篇。
張鵬:ChatGLM 的設定就是不能獲取鏈接的東西。倒不是技術上的困難,而是系統邊界的問題,主要是從安全角度考慮,不希望它任意訪問外部鏈接。
可以試一下把 130B 的論文文字 copy 下來扔給輸入框,一般不會瞎說。
量子位:雞兔同籠我們也扔給它了,算出了 -33 隻雞。
張鵬:在數學處理、邏輯推理方面,它确實還有一定缺陷,做不到那麽好。内測說明裏我們其實寫了這件事。
量子位:知乎有人做了測評,寫代碼能力好像也一般。
張鵬:至于寫代碼的能力,我覺得還行啊?不知道你們的測試方式是什麽。但具體也要看跟誰比了,和 ChatGPT 比的話,ChatGLM 本身在代碼數據的投入可能就沒有那麽多。
就像 ChatGLM 和 ChatGLM-6B 比,後者隻有 6B(62 億)的參數,整體能力,比如整體的邏輯性、回答時的幻覺和長度上,縮小版和原版的差距就很明顯。
但是 " 縮小版 " 能在普通電腦上部署,帶來的是更高的可用性和更低的門檻。
量子位:它有個優點,對新信息的掌握度不錯,知道推特現在的 CEO 是馬斯克,也知道何恺明 3 月 10 日回歸學界的事情——雖然不知道 GPT-4 已經發布了,哈哈。
張鵬:我們做了一些特殊的技術處理。
量子位:是什麽?
張鵬:具體細節就不展開講了。但對時間比較近的新信息,是有辦法處理的。
量子位:那透露下成本?GLM-130B 訓練一次的成本還是有幾百萬,ChatGLM 進行一輪問答的成本目前壓到什麽程度?
張鵬:我們大概測試和估算了一下,和 OpenAI 倒數第二次公布的成本差不多,比他們略低一些。
但 OpenAI 的最新報價縮減到原來的 10%,隻有 0.002 美元 /750 個單詞,這就比我們更低了。這個成本确實是很驚人的,估計他們做了模型壓縮、量化、優化等工作,否則不可能降到這麽低。
我們也在做相關的事情,期望能把成本壓下去。
量子位:假以時日,能和搜索成本一樣低嗎?
張鵬:什麽時候能降到這麽低?我也不知道。還需要一點時間。
我之前看過對每次搜索價格平均成本的計算,其實與主營業務相關。比如搜索引擎主要業務就是廣告,所以要用廣告總收入作爲上限來計算成本。這樣計算的話,其實要考慮的并不是消耗的成本,而是企業盈利收益的平衡點。
做模型推理需要的是 AI 算力,肯定比搜索這類隻用 CPU 算力的成本是要更高的。但大家也在努力吧,很多人提出一些想法,比如持續去做模型的壓縮量化。
甚至有人想把模型做一些轉化,讓它在 CPU 上跑,因爲 CPU 更便宜,量更大,跑起來的話,成本下降就會很明顯。
量子位:最後還想聊兩句人才方面的話題,現在大家都在搶大模型人才,智譜怕招不到人嗎?
張鵬:我們從清華 KEG 的技術項目孵化出來,和各個高校的關系一直都不錯。而且公司對年輕人來說氛圍比較 open,75% 的同事都是年輕人,我這種已經算老家夥了。大模型人才現在确實奇貨可居,但我們還沒什麽招人方面的擔心。
反過來,其實我們現在比較擔心被别人撬牆角(狗頭)。
— 聯系作者 —