圖片來源:钛媒體 APP 拍攝
文 | 偲睿洞察,作者 | Renee,編輯 | 孫越
用 " 不完美小孩 ",形容目前的百度文心一言,再合适不過了。
" 不完美 " 體現在,用戶們連着五天測試發現,文心一言偏科較爲嚴重:
是目前唯一能夠直接進行 " 文生圖 " 的模型,在文學創作例如詩詞上有着 " 天賦 ",但在 " 數學課 "、" 計算機編程課 " 較爲差勁。
同時,文心一言也有着 " 小孩 " 的浮躁與誠實:
不得不說,百度前期造勢過猛。百度Q4 季度财報以及高管發言無不預告着,文心一言成爲百度2023 年及之後的主題曲:
在發給百度全員的财報信中,李彥宏重點介紹了百度将在三月份推出的生成式 AI 産品文心一言 ( ERNIE Bot ) ,宣布計劃将多項主流業務與文心一言整合。
同時 2 月份以來,各行各業接入百度文心一言消息不斷,多次霸占新聞頭條。
一頓操作猛如虎,讓人誤以爲百度已經完完全全準備好了。
于是在發布會,百度高管誠實表示文心一言還不夠成熟之時,百度股價應聲而落:李彥宏誠實指出,自己體驗時并不完美,這類大語言模型還遠未到發展完善的階段;百度首席技術官王海峰也提到模型目前 " 訓練不夠充分 "。
于是,自 3.16 下午兩點發布會開始之後,百度一度大跌 10%。
而當用戶真正去感受文心一言産品之時,發現其綜合來看表現還算合格,3.17 過後,股民們又陸陸續續跑來鼓勵這個 " 不完美小孩 "。
股價跌也跌了,漲也漲了,大家罵也罵了。最終,我們還是得冷靜下來,爲這個不完美小孩,找一找差距,謀一謀出路。
01 不夠理性的偏科生
3.16 日,文心一言站上考場," 考官 " 們蜂擁而上,對其進行全天的 " 提問 "。
考慮到個人測評樣本過少,小編以國金證券券商測評結果爲主,以機器之心、品玩等科技賽道自媒體測試結果爲輔,對文心一言這五天的表現進行評估。結果發現,文心一言 " 同學 " 偏科較爲嚴重:
(三大模型測評結果綜合對比 圖源:國金證券研究所)
在推理類問題中,文心一言在演繹推理、邏輯推理等領域表現遜于 GPT 系列模型。例如在面對以下問題時,文心一言表現欠佳,GPT-3.5 和 4 持平:
在歸納總結類任務中,文心一言表現較好。品玩讓文心一言和 GPT-3 分别給出一個用 5 塊錢度過一周的方案,文心一言、GPT-3 的回答是:
可以看到,文心一言給出了更爲貼合現實的方案;而 GPT-4 的回答,便是聽君一席話,如聽話一席。
在數學和代碼類問題中,文心一言與 GPT-3、GPT-4 便有着較大的差距:
而在一些崗位的測試中,三大模型均能較好地完成 Al 生活助手、産品推薦等文本生成任務,其中在教育輔助崗位,在文言文和古詩詞理解運用方面,文心一言有着 " 本土優勢 ",表現略佳。
(文心一言翻譯情況 圖源:機器之心)
一整個測試下來,文心一言偏科還挺嚴重:一方面邏輯推理欠佳,對數學、計算機編程幾乎 " 一竅不通 ";一方面歸納總結能力較強,在文學創作、古詩文理解上有着 " 天賦 ",有着文科生的潛質。
同時,也有着做 " 藝術生 " 的潛質:文心一言具備多模态生成能力,包括生成圖片、生成語音(包括方言)以及生成視頻的能力。以生成圖片爲例,機器之心讓文心一言生成一張湖心亭看雪的水墨畫,其生成速度、效果都在中上水準。
(文心一言文生圖情況 圖源:機器之心)
綜合看下來,在這五天的小考内,文心一言基于 " 本土優勢 " 展現出自己在文學、藝術等方面的長處,相應地也暴露出在理科、以及邏輯思辨能力的較大短闆。
文心一言,是個不夠理性的偏科生。
02 成長的代價
經曆過這五天上千萬條拷問,文心一言應該能夠 " 意識到 ",自己需要惡補 " 理性思維 ",從而能夠在畢業時,cover 住更多的崗位。
此刻,文心一言便需要向目前班級上邏輯思維能力更好的 ChatGPT,找找差距,取取經。
在 AIGC 時代,算法、數據、算力是衡量差距的三把标尺:
在算法層面,百度與 ChatGPT 事實上是站在同一起跑線上的——百度與 OpenAI、谷歌都是基于 Transformer 模型去做不同的變體,延展出各自的深度學習框架以及再上層的大模型。
(芯片— AIGC 框架圖 圖源:浙商證券)
在數據層面,二者差距較爲明顯:相比于百度文心一言,ChatGPT 經曆了多次模型訓練,并被無數個 " 考官 " 進行無數次指點,同時有專門的數據标注人員進行方向的修正。
據華西證券表示,ChatGPT 大模型最大的特點便是,引入人類反饋的強化學習(RLHF)。
RLHF 簡單來說,就是用人工标注的方式,不斷地将結果去反饋給模型:回答好的給出正反饋(例如圖上的 Correct),回答不好的,就通過加分機制的方式讓模型進一步的自我叠代,并進行不斷的調優,直到回答正确。
(ChatGPT 答複情況 圖源:知乎博主 LowinLi)
百度同樣也采用 RLHF,并輔以 " 對話增強、有監督精調 " 等機制,也就是說底層架構、技術路徑相似,百度缺的是大量語料庫的訓練與反饋。畢竟,未被 RLHF 狠狠修正過的 ChatGPT,在剛上線的時候也出現了大量混亂的回答。
而在算力層面的差距,基本上可以靠錢填平。
這是因爲,盡管美國出口限制政策影響較大,國内仍能采購性能更低的前代算力芯片,或者是使用自己研發的芯片,隻是相對犧牲了計算速度。
同時,國内頭部科技企業能夠實現算力資源部分自給;國家也在重視算力的建設:2 月 24 日,東數西算一體化算力服務平台在甯夏銀川正式上線發布。該平台将瞄準 ChatGPT 運算能力,以支撐中國人工智能運算平台急需的大算力服務。
不過,相比于阿裏巴巴和華爲,百度的數據中心容量有待提升。
(全球前十大科技企業數據中心容量排名 圖源:華西證券)
總結來看,文心一言的 " 文具 " 已然備齊,缺的是大把時間、大量資金去訓練。
那麽," 家長 "百度若想讓這個不完美小孩達到班級中上水平,需要砸多少錢?
根據華西證券測算,在不考慮人力支出及維護費用條件下,百度需要補足的成本拆分爲訓練成本、推理成本及數據标注成本,分别需要 2.29 億元、13.62 億元、0.05 億元。
(類 ChatGPT 應用中期年均成本測算 圖源:華西證券)
也就是說,百度需要保持年均 16 億元的投入,将有可能達到 ChatGPT 目前的能力。除此之外,文心一言爲成長付出的代價包括但不限于:
爲保證以上流程能夠正常運轉,百度還需吸納更多的高價 AI 人才:在獵聘大數據研究院近期發布的 AI 人才報告中顯示,2022 年 AI 相關崗位招聘的平均年薪爲 33.15 萬,比互聯網崗位高 4.27 萬;而 2023 年以來的一個多月,AI 崗位招聘的平均年薪已達到 42.51 萬元,比上一年高出 9 萬多;
爲提供充足的算力,百度需要耗費更多資金建立并運作更多的數據中心:根據百度以往數據來看,一個數據中心的耗費在 47 億元 -100 億元區間。
目前來看,百度有實力給 " 孩子 " 培訓并讓其吃飽喝足:
在 2017 年,百度提出 "All IN AI" 之後,百度持續爲 AI 輸血。在 2022 全年資本開支(除愛奇藝)高達 181 億元。
并且現金流也較爲充沛:截至 2022 年末,百度公司現金、現金等價物及受限現金爲 652 億元。
這個不完美小孩,在百度" 富裕 " 的家庭環境下,未來或許會有着不錯的發展。
03 百度搜索先吃到紅利?
當大量的錢、人才、算力砸進去,文心一言具備了成熟的思維能力之後,百度要怎麽走?
從目前來看,百度文心一言有兩條 " 創業 " 方向:
1)爲開發者直接提供 API 調用接口并收費。
據報道," 文心一言 " 已經以 API 形式接入 650 家企業,發布當日已有 6.5 萬家企業申請測試,簽約 5 家客戶。
也就是說,B 端商業化的思路已經顯現。
但不排除後期因爲預訓練語言模型規模急劇增長,成本實在 " 蚌埠 " 住,最後無法持續提供服務的情況:OpenAI 便是出于商業角度考慮和高昂的端側微調成本,大規模預訓練語言模型不再被開源。
2)将 AGI 技術嵌入到自身成熟應用中,提供更強用戶體驗,進而推動用戶爲附加服務付費。例如,微軟将 GPT 模型嵌入其搜索引擎 Bing 中:
2022 年 2 月,微軟新推出 NewBing,該模塊能夠與用戶對話、協助用戶起草文本;
(Bing 廣告情況 圖源:華西證券)
目前,Bing 已經靠着 ChatGPT,在短時間内,火速對巨頭谷歌産生一定的威脅:
data.ai 數據顯示,新功能上線當日,必應 Bing 應用程序的全球下載量在一夜之間猛增十倍;截至 3 月 10 日,Bing 活躍用戶已突破 1 億人,增幅超 600%。
(NewBing 下載量 圖源:華西證券)
撇去 ChatGPT 本身熱度,Bing 收獲青睐的原因是,搜索引擎與類 ChatGPT 産品能夠雙向互補:
1)搜索引擎能夠彌補 GPT 的 " 消息滞後 "。ChatGPT 的訓練數據集仍停留在 2021 年,因此難以回答時效性問題,而 BingChat 能夠基于實時更新的搜索庫進行回答。
2)ChatGPT 能夠對搜索結果進行直觀集成,無需将鏈接一個個點開尋求答案,大大優化了用戶體驗。同時在此基礎上,也增添了趣味性:微軟爲 NewBing 設置了三種性格狀态,用戶可根據偏好自行設定對話模型的回應風格。
基于此,更爲人性化的、信息更爲 " 新鮮 "、全面的 NewBing 能夠長時間地留住客戶。用戶在手,NewBing 變現的野心已經遮不住了:廣告引流已經開始。
目前,據華西證券發現,Chat 界面提供了新的廣告位:Bing 已經在回複框中,對電商産品進行展示引流。
參照 NewBing,百度搜索或許能夠第一個吃到文心一言的紅利。
但百度需要做到的是,在發展文心一言的同時,也要好好優化一下百度搜索,目前,百度搜索的使用體驗并不友好:
根據偲睿洞察記者調查發現,在搜索 " 下載網易雲音樂 " 這類明确的指令之下,百度有 1 億條結果,一直到第 18 條才出現官網下載地址,前 18 條裏還有 6 個廣告,相比之下,必應有 7 億多個結果,在第 5 條出現了官網下載地址;
在搜索 " 五官醫院 " 時,必應出現 3.95 億條結果,第一個詞條是出現最近的五官醫院的官網以及地址信息,之後是附近五官醫院的地址,而百度出現 41 萬條結果,迎面的幾條都是機器人在線醫療 ......
當百度搜索更爲精準之後,文心一言在此基礎上,才能夠提供更個性化、更高效的搜索服務,從而提升搜索的變現效果。
除了搜索之外,百度還将其融入智能雲、Apollo 自動駕駛、小度智能設備等:在财報後的全員信中,李彥宏表示,百度的多項主流業務與文心一言整合。
而這一切的一切,都得等文心一言這個偏科生更 " 理性一點 "。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App