百度CTO王海峰：文心大模型4.0，理解、生成、邏輯和記憶能力顯著提升

10 月 17 日，在百度世界 2023 上，百度首席技術官王海峰表示，文心大模型 4.0 的理解、生成、邏輯、記憶四大能力都有顯著提升，9 月已開始小流量上線，過去一個多月效果又提升了近 30%。8 月 31 日文心一言面向全社會開放至今，用戶規模已經達到 4500 萬，開發者 5.4 萬，場景 4300 個，應用 825 個，插件超過 500 個。

據了解，百度在 3 月 16 日發布知識增強大語言模型文心一言。文心一言從數萬億數據和數千億知識中融合學習，得到預訓練大模型，在此基礎上采用有監督精調、人類反饋強化學習、提示等技術，具備知識增強、檢索增強和對話增強的技術優勢。

文心一言的基礎模型 5 月升級至文心大模型 3.5，在基礎模型升級、精調技術創新、知識點增強、邏輯推理增強、插件機制等方面創新突破，取得效果和效率的提升。

今天發布的文心大模型 4.0，相比 3.5 版本，理解、生成、邏輯、記憶四大能力都有顯著提升。其中理解和生成能力的提升幅度相近，而邏輯和記憶能力的提升則更大，邏輯的提升幅度達到理解的近 3 倍，記憶的提升幅度也達到了理解的 2 倍多。百度基于文心大模型研制了智能代碼助手 Comate，從内部應用效果來看，整體的代碼采納率達到 40%，高頻用戶的代碼采納率達到 60%。

據悉，文心大模型 4.0 在 9 月已開始小流量上線，過去一個多月效果又提升了近 30%。訓練算法效率自 3 月以來已累計提升 3.6 倍，周均的訓練有效率超過 98%。文心大模型 4.0 基本技術架構與 3.0 和 3.5 版本一脈相承，并在多個關鍵技術方向上進一步創新突破。

在萬卡算力上運行飛槳平台，通過集群基礎設施和調度系統、飛槳框架的軟硬協同優化，支持了大模型的穩定高效訓練。建設了多維數據體系，形成了數據挖掘、分析、合成、标注、評估閉環，充分釋放數據價值，大幅提升模型效果。基于有監督精調、偏好學習、強化學習等技術進行多階段對齊，保證模型更好地與人類的判斷和選擇對齊。可再生訓練技術通過增量式的參數調優，有效節省了訓練資源和時間，加快了模型叠代速度。

此外，文心大模型 4.0 在輸入和輸出階段都進行知識點增強。一方面，對用戶輸入的問題進行理解，并拆解出回答問題所需的知識點，然後在搜索引擎、知識圖譜、數據庫中查找準确知識，最後把這些找到的知識組裝進 Prompt 送入大模型，準确率好，效率也高；另一方面，對大模型的輸出進行反思，從生成結果中拆解出知識點，然後再利用搜索引擎、知識圖譜、數據庫，以及大模型本身進行确認，進而對有差錯的點進行修正。

在強大的基礎大模型的基礎上，百度進一步研制了智能體機制，包括理解、規劃、反思和進化，能夠做到可靠執行、自我進化，并一定程度上将思考過程白盒化，讓機器像人一樣思考和行動，自主完成複雜任務，在環境中持續學習實現自主進化。

目前，百度已經與中國國家圖書館展開戰略合作，發揮各自的資源、技術和服務優勢，共同推動文化資源和知識服務智能化，普惠大衆。國家圖書館擁有全球最大的古代方志，利用文心大模型學習古代方志與家譜數據，幫助全球華人獲取更多尋根線索。

同時，中國國家跳水隊教練、奧運五金王陳若琳和奧運冠軍全紅婵、陳芋汐、王宗源也來到世界大會現場，與王海峰熱切互動，解密夢之隊訓練 " 獨門絕技 "。基于文心一言等百度大模型技術，中國國家跳水隊 AI 輔助訓練系統全面升級，通過從海量數據和知識中學習，掌握了豐富的跳水知識，理解和執行教練員和運動員的複雜指令，及時提供準确信息，并對動作實時打分、精準量化分析，提供最有價值的指導信息，助力中國國家跳水隊高效訓練。

此外，王海峰現場公布了百度人工智能人才培養的最新數據，百度在 2020 年提出 5 年爲全社會培養 500 萬 AI 人才，截至目前，百度已經培養了 420 萬 AI 人才。

當下，大模型成爲人工智能發展的熱點方向，進一步加速産業變革，AI 人才培養也需與時俱進。王海峰發布了百度人才培養星河計劃，他表示，" 我們将與産學研各界密切合作，深化産教融合，爲社會再培養 500 萬大模型人才，讓人工智能科技的‘創新之花’，結出更多‘産業之果’，服務國家戰略，服務社會發展，服務人民福祉！"