撰文 / 顧青雲
編輯 / 沈菲菲
文心一言發布十餘天後,争論仍未有止歇的迹象。
有人給出了 " 拉垮 " 的評價,相比于多輪叠代的 ChatGPT,文心一言在邏輯推理、多輪對話等方面的表現不盡如人意;也有人認爲給文心一言值得肯定,原因是填補了中文互聯網的空白,以及百度直面競争的勇氣。
可能最終會像李彥宏在發布會上所說的:當前文心一言的内測體驗并不能叫作 " 完美 ",發布是因爲有市場需求," 文心一言将建立起真實用戶反饋、開發者調用和模型叠代之間的飛輪,效果會迅速提升,給你‘士别三日,當刮目相看’的驚喜。"
這裏并非想對比文心一言與 ChatGPT 的差距,而是想要讨論這樣一個話題:那些以 " 中國版 ChatGPT" 自居的玩家們,到底是 " 追風者 " 還是 " 追趕者 ",不同的 " 初心 " 顯然對應着不同的結果。
01
中國版 ChatGPT 的虛與實
國内企業對 ChatGPT 的态度,大緻可以分爲三個階段:
第一個階段是 2023 年農曆春節前。
OpenAI 在 2022 年 11 月 30 日推出了聊天機器人 ChatGPT,5 天時間注冊用戶量就超過了 100 萬。期間不乏國内媒體的報道,微博等社交網絡上逐漸流行起各種說法:ChatGPT 可能将颠覆谷歌,掀起一場搜索引擎的大革命;大學生開始用 ChatGPT 寫論文,部分高校宣布将禁用 ChatGPT ……
彼時 " 中國版 ChatGPT" 的話題已經在技術論壇裏小範圍讨論,國内大廠的工程師們大概率有參與其中。可由于 ChatGPT 頻頻被曝出回答錯誤、存在假消息,且商業化落地的前景不明朗,國内大多數企業都選擇了緘默。
第二個階段是 ChatGPT 爆紅後。
時間來到 2023 年 1 月末,ChatGPT 的注冊用戶破億,成爲史上擴散速度最快的應用,這場 AI 風暴終于吹到了太平洋對岸。國内社交媒體上充斥着 ChatGPT 的對話截圖,并且出現了 "ChatGPT 概念股 " 的說法。
中國的科技大廠們 " 猛然醒悟 ",紛紛開始就中國版 ChatGPT 表明态度:百度在 2 月 7 日官宣将在 3 月上線文心一言;騰訊在 2 月 9 日回應稱 " 在相關方向上已有布局,專項研究也在有序推進 ";阿裏傳出了類 ChatGPT 應用的對話截圖;京東、網易有道、科大訊飛、小米也先後發聲将推出相關産品。
第三個階段是文心一言上線後。
可能因爲發布會上的錄屏展示,百度的股價在文心一言發布當天即下跌 10%,一度成爲互聯網上的衆嘲對象,即使李彥宏和百度 CTO 王海峰均在發布會上提前打了 " 預防針 ",直言模型目前 " 訓練不夠充分 "。
有趣的是其他科技大廠的态度。目前申請測試百度文心的用戶已經百萬,超過 10 家企業用戶申請調用文心一言的企業版 API。如果說 ChatGPT 的走紅隻是喚醒了國内網民的好奇心,擺出了一副吃瓜群衆的姿态,現在已然被徹底點燃了熱情。但百度文心上線近 10 天後,并未有第二家企業官宣。
個中原因恐怕離不開 " 功利 " 二字。
在 ChatGPT 的方向被論證前,國内的大部分投資人和技術領袖并不敢冒險跟進,不考慮短期收益的隻有少數派中的少數派;ChatGPT 爆紅後,特别是 "ChatGPT 概念股 " 出現後,中國版 ChatGPT 已經成爲一種政治正确,大廠們的表态也就無可厚非;文心一言上線後則是另一個極端,在 " 肉眼可見 " 的技術差距面前,暫時收斂鋒芒是否也是一種避開被輿論讨伐的選項?
" 中國版 ChatGPT" 或喧嚣或冷靜的背後,似乎還有另外一種解釋:在用戶心理阈值最高的時候,跟風放出消息不失爲一種聰明的商業策略,而落實到産品上,終歸還要結合現實需求。就像科大訊飛董事長劉慶峰的觀點:AI 要兌現紅利,标準之一就是有看得見摸得着的應用場景。
02
空間換時間的認知陷阱
至于 ChatGPT 類産品的商業空間,微軟無疑是最佳的參考對象。
作爲 OpenAI 的大股東,微軟被中國網友們戲稱爲 " 坐在副駕駛上狂飙 ",尤其是在 ChatGPT 的商業應用上,微軟可謂動作頻頻:1 月 17 日的公開活動上,微軟 CEO 納德拉表示,計劃将 ChatGPT 整合進其所有産品;半個多月後,微軟正式推出新版必應,将 ChatGPT 與搜索引擎融合;GPT-4 發布兩天後,微軟發布了新功能 Copilot,将用于 Word、PowerPoint、Excel、Outlook 等産品中,可自動生成 PPT、自動寫文章……
爲何國内企業并沒有兵臨城下的危機感?最常見的說法是 " 空間換時間 ",中文互聯網的特殊性,爲國内企業留下了充足的反應時間。譬如晚于 ChatGPT 三個半月誕生的文心一言,照舊抓住了大把的機會。諸如此類的說辭在某種程度上有其道理,卻也存在一些不可小觑的認知陷阱。
比如中文語料庫的問題。
在不少人的理解中,中文語料庫是 ChatGPT 難以逾越的壁壘,李彥宏稱 " 文心一言是更适合中國市場的人工智能模型 ",理由正是中文特殊的分詞和語法結構。中文語料庫的建設需要大量的人力、物力和财力投入,同時還需要考慮語料的質量、版權等問題,幾乎是一個天然避風港。
可國内互聯網巨頭的 " 數據隔離 " 也是不争的事實,盡管在工信部的施壓下,大廠們被迫 " 拆牆 ",但不同平台的數據仍然很難産生交流和總結,無形中增加了模型訓練的難度。就連文心一言的圖像生成都經被傳出先将中文指令翻譯成英文,再根據英文描述生成圖像,中文語料的現狀可見一斑。
再比如技術上的硬性門檻。
國内并不缺少媲美 GPT-3 的大模型,這也是很多企業自信可以開發出 ChatGPT 類應用的直接原因,然而算力資源、工程能力、模型叠代策略、調優機制等能力的缺失也是不争的事實。還是文心一言的例子,雖然有 ChatGPT 這個參考答案,叠代、調優的路還是要重新走一遍才行。
一個淺顯的道理,OpenAI 在推出 ChatGPT 前,已經在大模型上默默耕耘了 4 年時間,期間不知道有多少次的試錯。畢竟一個現象級産品誕生,往往是資源、基礎技術、人才、産業需求等一系列因素的集大成,國内到底有多少家企業能夠越過技術上的硬性門檻,目前還是一個未知數。
按照華西證券的測算,百度的文心一言想要達到 ChatGPT 目前的能力,需要補足的訓練、推理和數據标注成本分别爲 2.29 億元、13.62 億元、0.05 億元,需要保持年均 16 億元的投入。
倘若再算上維持正常運轉的人力成本、訓練模型的算力成本、存儲數據的數據中心耗費,百度想要追平 OpenAI 需要付出相當龐大的投入,遑論其他缺少前期布局的企業。
就在百度們還在追趕 GPT-3.5 時,OpneAI 已經有條不紊的推出了功能更爲強大的 GPT-4,并在 3 月 24 日宣布部分解除了 ChatGPT 無法聯網的限制,正在推出 ChatGPT 插件,可以訪問訓練數據外的信息,增加一些特定功能,開始了從工具向平台的進化。
03
" 追風者 " 無緣 " 星辰大海 "
最糟糕的并不是做一個 " 追趕者 ",而是 " 反應遲鈍 " 的追風者。
早在 2020 年的時候,OpenAI 就借着 GPT-3 一鳴驚人,随即在全球範圍内拉開了一場大模型軍備競賽,國内的華爲、智源、浪潮、阿裏雲、百度、騰訊等企業先後發布了自家的預訓練大模型品,并不斷從 NLP 延伸出了雙語、CV、跨模态等大模型。
而後的一段日子裏,來自中國的大模型覇榜各類榜單,學術論文如流水線般生産。一些研究人員以發論文爲己任,鮮有人思考學術以外的價值;企業對大模型滿懷信心,并試圖推動産業落地中來變現。最終也僅僅止步于此,沒有一家企業能創造性地越過大模型到 ChatGPT 的天塹。
有人在知乎上問道:阻礙國内團隊研究 ChatGPT 這樣産品的障礙有哪些,技術、錢還是領導力?OneFlow 創始人袁進輝的回答道出了問題的本質:" 需要有遠見且爲理想而持之以恒的人。"
不可否認的是," 談理想 " 在國内的商業環境中多少有些感性且不切實際,甚至連相應的故事都是 " 舶來品 ":圖靈獎得主 Hinton 潛心研究神經網絡 50 多年;斯坦福的李飛飛教授花費 6 年時間創建了 ImageNet 數據集;OpenAI 最初被定義爲非營利性人工智能組織,要向全世界公開分享他們的研究成果……
國内盛行的是另一種商業故事:張小龍在 2010 年帶領一個不到 10 人的團隊,用了不足 70 天的時間開發出了微信的第一個版本;出行大戰中勝出的滴滴,曾用四個月的時間拉來了一萬多名網約車司機;2013 年才立項測試外賣項目的美團,到了 2014 年就将外賣送到了全國 200 個城市……
問題在于,追逐風口、快速創新的打法到了人工智能時代是否依然奏效?不妨借用英偉達 CEO 黃仁勳的一個比喻:" 每家公司都應該知道,未來的軟件開發有點像煉丹,這是一個 MLOps 的過程。" 其中的 MLOps 可以翻譯爲 " 人工智能研發運營體系 ",涵蓋開發、部署、交付驗證三個必不可少的過程。
在中國版 ChatGPT 的研發中,國内的企業已然走了 " 捷徑 ":比如 ChatGPT 最大的特點就是引入了人類反饋的強化學習(RLHF),即用人工标注的方式,不斷地将結果去反饋給模型,讓模型不斷自我叠代。百度等企業後來也采用了 RLHF 模式,并輔以 " 對話增強、有監督精調 " 等機制,底層架構和技術路徑都與 OpenAI 相似。
最危險的地方恰恰也在于此。
不少人将 ChatGPT 比作是移動互聯網時代的 iPhone,意味着 ChatGPT 隻是個開始,将有更多超出固有認知的新事物出現,可能是聊天機器人,可能是 " 畫圖高手 ",也可能是當前還想不到的應用。同時也預示着層出不窮的新風口,凡是風口,皆有虛實,一味跟着别人走路,總有踏空的時候。
李彥宏曾在 2021 年初的内部信中寫道:" 我們熬得過萬丈孤獨,藏得下星辰大海。" 冥冥中成了中國企業面對 ChatGPT 時的命運寫照:熬不過萬丈孤獨,何談星辰大海?
04
寫在最後
中國版 ChatGPT 的故事還在繼續,不排除有越來越多的相似産品上線,甚至出現 " 百花齊放 " 的局面。
需要警惕的是那些自诩爲 " 國産之光 " 的追風者,聊天機器人的風口來臨時,迅速整頓人馬開發類似應用;AI 生圖的熱度起來後,快速組建團隊抓住新的契機;而當新的風向标出現時,會再次調轉方向 ...... 不願意在底層技術上 " 苦修 ",注定要在風口裏兜兜轉轉。
因爲 " 追趕者 " 仍抱有理想、信念和希望," 追風者 " 注定隻會在風中盤旋,被風勢裹挾。
主理人 | 張賀飛(Alter)
前媒體人、公關,現專職科技自媒體
虎嗅、钛媒體、36kr、創業邦、福布斯中國等專欄作者
轉載、商務、開白以及讀者交流,請聯系個人微信「imhefei」