10 月 17 日,在百度世界 2023 上,百度首席技術官王海峰表示,文心大模型 4.0 的理解、生成、邏輯、記憶四大能力都有顯著提升,9 月已開始小流量上線,過去一個多月效果又提升了近 30%。8 月 31 日文心一言面向全社會開放至今,用戶規模已經達到 4500 萬,開發者 5.4 萬,場景 4300 個,應用 825 個,插件超過 500 個。
據了解,百度在 3 月 16 日發布知識增強大語言模型文心一言。文心一言從數萬億數據和數千億知識中融合學習,得到預訓練大模型,在此基礎上采用有監督精調、人類反饋強化學習、提示等技術,具備知識增強、檢索增強和對話增強的技術優勢。
文心一言的基礎模型 5 月升級至文心大模型 3.5,在基礎模型升級、精調技術創新、知識點增強、邏輯推理增強、插件機制等方面創新突破,取得效果和效率的提升。
今天發布的文心大模型 4.0,相比 3.5 版本,理解、生成、邏輯、記憶四大能力都有顯著提升。其中理解和生成能力的提升幅度相近,而邏輯和記憶能力的提升則更大,邏輯的提升幅度達到理解的近 3 倍,記憶的提升幅度也達到了理解的 2 倍多。百度基于文心大模型研制了智能代碼助手 Comate,從内部應用效果來看,整體的代碼采納率達到 40%,高頻用戶的代碼采納率達到 60%。
據悉,文心大模型 4.0 在 9 月已開始小流量上線,過去一個多月效果又提升了近 30%。訓練算法效率自 3 月以來已累計提升 3.6 倍,周均的訓練有效率超過 98%。文心大模型 4.0 基本技術架構與 3.0 和 3.5 版本一脈相承,并在多個關鍵技術方向上進一步創新突破。
在萬卡算力上運行飛槳平台,通過集群基礎設施和調度系統、飛槳框架的軟硬協同優化,支持了大模型的穩定高效訓練。建設了多維數據體系,形成了數據挖掘、分析、合成、标注、評估閉環,充分釋放數據價值,大幅提升模型效果。基于有監督精調、偏好學習、強化學習等技術進行多階段對齊,保證模型更好地與人類的判斷和選擇對齊。可再生訓練技術通過增量式的參數調優,有效節省了訓練資源和時間,加快了模型叠代速度。
此外,文心大模型 4.0 在輸入和輸出階段都進行知識點增強。一方面,對用戶輸入的問題進行理解,并拆解出回答問題所需的知識點,然後在搜索引擎、知識圖譜、數據庫中查找準确知識,最後把這些找到的知識組裝進 Prompt 送入大模型,準确率好,效率也高;另一方面,對大模型的輸出進行反思,從生成結果中拆解出知識點,然後再利用搜索引擎、知識圖譜、數據庫,以及大模型本身進行确認,進而對有差錯的點進行修正。
在強大的基礎大模型的基礎上,百度進一步研制了智能體機制,包括理解、規劃、反思和進化,能夠做到可靠執行、自我進化,并一定程度上将思考過程白盒化,讓機器像人一樣思考和行動,自主完成複雜任務,在環境中持續學習實現自主進化。
目前,百度已經與中國國家圖書館展開戰略合作,發揮各自的資源、技術和服務優勢,共同推動文化資源和知識服務智能化,普惠大衆。國家圖書館擁有全球最大的古代方志,利用文心大模型學習古代方志與家譜數據,幫助全球華人獲取更多尋根線索。
同時,中國國家跳水隊教練、奧運五金王陳若琳和奧運冠軍全紅婵、陳芋汐、王宗源也來到世界大會現場,與王海峰熱切互動,解密夢之隊訓練 " 獨門絕技 "。基于文心一言等百度大模型技術,中國國家跳水隊 AI 輔助訓練系統全面升級,通過從海量數據和知識中學習,掌握了豐富的跳水知識,理解和執行教練員和運動員的複雜指令,及時提供準确信息,并對動作實時打分、精準量化分析,提供最有價值的指導信息,助力中國國家跳水隊高效訓練。
此外,王海峰現場公布了百度人工智能人才培養的最新數據,百度在 2020 年提出 5 年爲全社會培養 500 萬 AI 人才,截至目前,百度已經培養了 420 萬 AI 人才。
當下,大模型成爲人工智能發展的熱點方向,進一步加速産業變革,AI 人才培養也需與時俱進。王海峰發布了百度人才培養星河計劃,他表示," 我們将與産學研各界密切合作,深化産教融合,爲社會再培養 500 萬大模型人才,讓人工智能科技的‘創新之花’,結出更多‘産業之果’,服務國家戰略,服務社會發展,服務人民福祉!"