百度文心一言，還是個不完美小孩

圖片來源：钛媒體 APP 拍攝

文 | 偲睿洞察，作者 | Renee，編輯 | 孫越

用 " 不完美小孩 "，形容目前的百度文心一言，再合适不過了。

" 不完美 " 體現在，用戶們連着五天測試發現，文心一言偏科較爲嚴重：

是目前唯一能夠直接進行 " 文生圖 " 的模型，在文學創作例如詩詞上有着 " 天賦 "，但在 " 數學課 "、" 計算機編程課 " 較爲差勁。

同時，文心一言也有着 " 小孩 " 的浮躁與誠實：

不得不說，百度前期造勢過猛。百度Q4 季度财報以及高管發言無不預告着，文心一言成爲百度2023 年及之後的主題曲：

在發給百度全員的财報信中，李彥宏重點介紹了百度将在三月份推出的生成式 AI 産品文心一言 ( ERNIE Bot ) ，宣布計劃将多項主流業務與文心一言整合。

同時 2 月份以來，各行各業接入百度文心一言消息不斷，多次霸占新聞頭條。

一頓操作猛如虎，讓人誤以爲百度已經完完全全準備好了。

于是在發布會，百度高管誠實表示文心一言還不夠成熟之時，百度股價應聲而落：李彥宏誠實指出，自己體驗時并不完美，這類大語言模型還遠未到發展完善的階段；百度首席技術官王海峰也提到模型目前 " 訓練不夠充分 "。

于是，自 3.16 下午兩點發布會開始之後，百度一度大跌 10%。

（百度近日股價變動圖源：百度股市通）

而當用戶真正去感受文心一言産品之時，發現其綜合來看表現還算合格，3.17 過後，股民們又陸陸續續跑來鼓勵這個 " 不完美小孩 "。

股價跌也跌了，漲也漲了，大家罵也罵了。最終，我們還是得冷靜下來，爲這個不完美小孩，找一找差距，謀一謀出路。

01 不夠理性的偏科生

3.16 日，文心一言站上考場，" 考官 " 們蜂擁而上，對其進行全天的 " 提問 "。

考慮到個人測評樣本過少，小編以國金證券券商測評結果爲主，以機器之心、品玩等科技賽道自媒體測試結果爲輔，對文心一言這五天的表現進行評估。結果發現，文心一言 " 同學 " 偏科較爲嚴重：

（三大模型測評結果綜合對比圖源：國金證券研究所）

在推理類問題中，文心一言在演繹推理、邏輯推理等領域表現遜于 GPT 系列模型。例如在面對以下問題時，文心一言表現欠佳，GPT-3.5 和 4 持平：

在歸納總結類任務中，文心一言表現較好。品玩讓文心一言和 GPT-3 分别給出一個用 5 塊錢度過一周的方案，文心一言、GPT-3 的回答是：

可以看到，文心一言給出了更爲貼合現實的方案；而 GPT-4 的回答，便是聽君一席話，如聽話一席。

在數學和代碼類問題中，文心一言與 GPT-3、GPT-4 便有着較大的差距：

而在一些崗位的測試中，三大模型均能較好地完成 Al 生活助手、産品推薦等文本生成任務，其中在教育輔助崗位，在文言文和古詩詞理解運用方面，文心一言有着 " 本土優勢 "，表現略佳。

（文心一言翻譯情況圖源：機器之心）

一整個測試下來，文心一言偏科還挺嚴重：一方面邏輯推理欠佳，對數學、計算機編程幾乎 " 一竅不通 "；一方面歸納總結能力較強，在文學創作、古詩文理解上有着 " 天賦 "，有着文科生的潛質。

同時，也有着做 " 藝術生 " 的潛質：文心一言具備多模态生成能力，包括生成圖片、生成語音（包括方言）以及生成視頻的能力。以生成圖片爲例，機器之心讓文心一言生成一張湖心亭看雪的水墨畫，其生成速度、效果都在中上水準。

（文心一言文生圖情況圖源：機器之心）

綜合看下來，在這五天的小考内，文心一言基于 " 本土優勢 " 展現出自己在文學、藝術等方面的長處，相應地也暴露出在理科、以及邏輯思辨能力的較大短闆。

文心一言，是個不夠理性的偏科生。

02 成長的代價

經曆過這五天上千萬條拷問，文心一言應該能夠 " 意識到 "，自己需要惡補 " 理性思維 "，從而能夠在畢業時，cover 住更多的崗位。

此刻，文心一言便需要向目前班級上邏輯思維能力更好的 ChatGPT，找找差距，取取經。

在 AIGC 時代，算法、數據、算力是衡量差距的三把标尺：

在算法層面，百度與 ChatGPT 事實上是站在同一起跑線上的——百度與 OpenAI、谷歌都是基于 Transformer 模型去做不同的變體，延展出各自的深度學習框架以及再上層的大模型。

（芯片— AIGC 框架圖圖源：浙商證券）

在數據層面，二者差距較爲明顯：相比于百度文心一言，ChatGPT 經曆了多次模型訓練，并被無數個 " 考官 " 進行無數次指點，同時有專門的數據标注人員進行方向的修正。

據華西證券表示，ChatGPT 大模型最大的特點便是，引入人類反饋的強化學習（RLHF）。

RLHF 簡單來說，就是用人工标注的方式，不斷地将結果去反饋給模型：回答好的給出正反饋（例如圖上的 Correct），回答不好的，就通過加分機制的方式讓模型進一步的自我叠代，并進行不斷的調優，直到回答正确。

（ChatGPT 答複情況圖源：知乎博主 LowinLi）

百度同樣也采用 RLHF，并輔以 " 對話增強、有監督精調 " 等機制，也就是說底層架構、技術路徑相似，百度缺的是大量語料庫的訓練與反饋。畢竟，未被 RLHF 狠狠修正過的 ChatGPT，在剛上線的時候也出現了大量混亂的回答。

（百度文心一言模型技術圖源：百度）

而在算力層面的差距，基本上可以靠錢填平。

這是因爲，盡管美國出口限制政策影響較大，國内仍能采購性能更低的前代算力芯片，或者是使用自己研發的芯片，隻是相對犧牲了計算速度。

同時，國内頭部科技企業能夠實現算力資源部分自給；國家也在重視算力的建設：2 月 24 日，東數西算一體化算力服務平台在甯夏銀川正式上線發布。該平台将瞄準 ChatGPT 運算能力，以支撐中國人工智能運算平台急需的大算力服務。

不過，相比于阿裏巴巴和華爲，百度的數據中心容量有待提升。

（全球前十大科技企業數據中心容量排名圖源：華西證券）

總結來看，文心一言的 " 文具 " 已然備齊，缺的是大把時間、大量資金去訓練。

那麽，" 家長 "百度若想讓這個不完美小孩達到班級中上水平，需要砸多少錢？

根據華西證券測算，在不考慮人力支出及維護費用條件下，百度需要補足的成本拆分爲訓練成本、推理成本及數據标注成本，分别需要 2.29 億元、13.62 億元、0.05 億元。

（類 ChatGPT 應用中期年均成本測算圖源：華西證券）

也就是說，百度需要保持年均 16 億元的投入，将有可能達到 ChatGPT 目前的能力。除此之外，文心一言爲成長付出的代價包括但不限于：

爲保證以上流程能夠正常運轉，百度還需吸納更多的高價 AI 人才：在獵聘大數據研究院近期發布的 AI 人才報告中顯示，2022 年 AI 相關崗位招聘的平均年薪爲 33.15 萬，比互聯網崗位高 4.27 萬；而 2023 年以來的一個多月，AI 崗位招聘的平均年薪已達到 42.51 萬元，比上一年高出 9 萬多；

爲提供充足的算力，百度需要耗費更多資金建立并運作更多的數據中心：根據百度以往數據來看，一個數據中心的耗費在 47 億元 -100 億元區間。

目前來看，百度有實力給 " 孩子 " 培訓并讓其吃飽喝足：

在 2017 年，百度提出 "All IN AI" 之後，百度持續爲 AI 輸血。在 2022 全年資本開支（除愛奇藝）高達 181 億元。

并且現金流也較爲充沛：截至 2022 年末，百度公司現金、現金等價物及受限現金爲 652 億元。

這個不完美小孩，在百度" 富裕 " 的家庭環境下，未來或許會有着不錯的發展。

03 百度搜索先吃到紅利？

當大量的錢、人才、算力砸進去，文心一言具備了成熟的思維能力之後，百度要怎麽走？

從目前來看，百度文心一言有兩條 " 創業 " 方向：

1）爲開發者直接提供 API 調用接口并收費。

據報道，" 文心一言 " 已經以 API 形式接入 650 家企業，發布當日已有 6.5 萬家企業申請測試，簽約 5 家客戶。

也就是說，B 端商業化的思路已經顯現。

但不排除後期因爲預訓練語言模型規模急劇增長，成本實在 " 蚌埠 " 住，最後無法持續提供服務的情況：OpenAI 便是出于商業角度考慮和高昂的端側微調成本，大規模預訓練語言模型不再被開源。

2）将 AGI 技術嵌入到自身成熟應用中，提供更強用戶體驗，進而推動用戶爲附加服務付費。例如，微軟将 GPT 模型嵌入其搜索引擎 Bing 中：

2022 年 2 月，微軟新推出 NewBing，該模塊能夠與用戶對話、協助用戶起草文本；

（Bing 廣告情況圖源：華西證券）

目前，Bing 已經靠着 ChatGPT，在短時間内，火速對巨頭谷歌産生一定的威脅：

data.ai 數據顯示，新功能上線當日，必應 Bing 應用程序的全球下載量在一夜之間猛增十倍；截至 3 月 10 日，Bing 活躍用戶已突破 1 億人，增幅超 600%。

（NewBing 下載量圖源：華西證券）

撇去 ChatGPT 本身熱度，Bing 收獲青睐的原因是，搜索引擎與類 ChatGPT 産品能夠雙向互補：

1）搜索引擎能夠彌補 GPT 的 " 消息滞後 "。ChatGPT 的訓練數據集仍停留在 2021 年，因此難以回答時效性問題，而 BingChat 能夠基于實時更新的搜索庫進行回答。

2）ChatGPT 能夠對搜索結果進行直觀集成，無需将鏈接一個個點開尋求答案，大大優化了用戶體驗。同時在此基礎上，也增添了趣味性：微軟爲 NewBing 設置了三種性格狀态，用戶可根據偏好自行設定對話模型的回應風格。

基于此，更爲人性化的、信息更爲 " 新鮮 "、全面的 NewBing 能夠長時間地留住客戶。用戶在手，NewBing 變現的野心已經遮不住了：廣告引流已經開始。

目前，據華西證券發現，Chat 界面提供了新的廣告位：Bing 已經在回複框中，對電商産品進行展示引流。

參照 NewBing，百度搜索或許能夠第一個吃到文心一言的紅利。

但百度需要做到的是，在發展文心一言的同時，也要好好優化一下百度搜索，目前，百度搜索的使用體驗并不友好：

根據偲睿洞察記者調查發現，在搜索 " 下載網易雲音樂 " 這類明确的指令之下，百度有 1 億條結果，一直到第 18 條才出現官網下載地址，前 18 條裏還有 6 個廣告，相比之下，必應有 7 億多個結果，在第 5 條出現了官網下載地址；

在搜索 " 五官醫院 " 時，必應出現 3.95 億條結果，第一個詞條是出現最近的五官醫院的官網以及地址信息，之後是附近五官醫院的地址，而百度出現 41 萬條結果，迎面的幾條都是機器人在線醫療 ......

當百度搜索更爲精準之後，文心一言在此基礎上，才能夠提供更個性化、更高效的搜索服務，從而提升搜索的變現效果。

除了搜索之外，百度還将其融入智能雲、Apollo 自動駕駛、小度智能設備等：在财報後的全員信中，李彥宏表示，百度的多項主流業務與文心一言整合。

而這一切的一切，都得等文心一言這個偏科生更 " 理性一點 "。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App