過去數十年信息革命的曆史告訴我們,科技的成功,不在于産業規模的龐大,不在于設備數量的多寡,而在于人,在于人的想象力與創造力。
當少年在校園裏開發出驚人的 AI 應用;當上班族用 AI 破解了困擾行業已久的難題;當一個普通人用成爲開發者的方式實現了自己的夢想,這時我們才可以毫無疑問地說,科技成功了,AI 成功了。
2023 年以來,中國市場迎來了 " 百模趕考 " 的盛況。但當我們把視角放在具體的 AI 開發者身上,會察覺開發者能感受到的區别并不大。大部分 AI 大模型,都無法真正成爲開發者手中的能力與工具。圍繞大模型的 AI 開發者生态難以聚攏。模型與應用開發之間存在着較爲明顯的割裂。模型層面的技術進化,與開發者的真實需求之間存在着較爲顯著的代溝。
這種情況如何破局?大模型如何才能真正來到開發者手中?
在 4 月 16 日,以 " 創造未來 " 爲主題的 Create 2024 百度 AI 開發者大會在深圳國際會展中心舉辦。期間,百度首席技術官王海峰以 " 技術築基,星河璀璨 " 爲主題發表演講,解讀了智能體、代碼、多模型等多項文心大模型的關鍵技術和最新進展。王海峰表示," 未來,我們将繼續投身人才培養,讓人才的點點星光,彙成璀璨星河。智能時代,人人都是開發者,人人都是創造者,讓我們一起,創造美好未來 "。
與絕大多數大模型項目,強調參數、精度等指标不同。文心大模型選擇了另外一條路:深入開發者的需求與夢想,開發者需要什麽,文心就做什麽。
沿着這樣的軌迹,文心一路進化,展現出了巨大的技術爆發力。這既奠定了文心大模型的規模化效應,也築牢了它的長期發展方向。
文心的未來非常明确:把開發者的夢想聯接在一起,就能組成 AI 大模型的璀璨星河。
何處是星河?
開發者的夢想就是星河
在今天我們已經可以明确地說,文心大模型是中國,乃至全球,技術進步最快,體系化升級最頻繁的大模型之一。自去年 3 月 16 日發布知識增強大語言模型文心一言以來,百度不斷推動文心大模型的升級叠代。
并且每一次版本升級都展現出核心技術的進化。文心速度,已經成爲 AI 行業的獨特風景。
比如說,在文心大模型 3.0 版本當中,全面加入了知識增強、檢索增強和對話增強技術;文心 3.5 版本則帶來了基礎模型的全面升級,加入了精調技術創新、知識點增強、邏輯推理增強等能力;文心 4.0 則實現了萬卡算力的大規模并行訓練,通過與飛槳平台聯合調優,帶來了多維數據、多階段對齊、可再生訓練等技術能力。
在大幅度、高效率的升級過程中,文心大模型能力愈發強大,效果和性能全面提升。這時很多朋友會好奇,文心究竟如何挖掘這麽多的技術升級方向?爲什麽要保持如此高強度的升級态勢?
在 Create 2024,我們就可以找到答案。
在開發者的視角看來,AI 大模型正在帶來跨世代的開發奇點。原本的應用開發邊界一下被打破。AI 帶來了數量龐大的新應用種類,帶來了全面降低的開發門檻,以及前所未見的開發效率。但想要真正實現 AI 應用開發的夢想,還需要新的技術基礎作爲錨點。将 AI 大模型真正變爲開發者手中的能力,在今天還要解決三大難題:
1. 如何将 AI 大模型作爲基礎,打破過往開發邊界,将那些前所未有的開發創意變爲可能?如何實現更加智能化、前沿化的 AI 開發?
2. 如何進一步降低開發門檻,實現低代碼,甚至無代碼的開發範式,從而實現人人都是 AI 開發者的時代願景?
3. 如何降低開發成本,提升開發效率,進一步完善基于 AI 大模型的應用開發機制,讓 AI 應用開發更加具備可操作性與可實現性?
打破邊界、降低門檻、優化機制,是當前開發者對 AI 大模型最迫切的三個願望。而在文心大模型的最新升級中,也恰好回應了開發者的需求。
王海峰說," 希望讓人才的點點星光,彙成璀璨星河 "。
對于文心大模型來說,隻有回應開發者的需求,了解開發者的願望,才能點亮這些星光。
對于文心大模型來說,AI 開發者的夢想,就是以每個腳印所要奔赴的星河。
智能體
開發邊界的跨越
首先讓我們來看,文心大模型是如何打破開發邊界,帶給開發者最前沿的技術可能性。
在今天,全球 AI 行業最爲熱議的技術方向,就是智能體。具備思考、分析、推理等多元能力爲一身的智能體機制,被廣泛看好爲 AI 技術的未來發展方向,同時也是大模型落地爲 AI 原生應用的重要支點。
在去年 10 月,百度就在文心大模型中引入了智能體機制,王海峰分享了對于快思考與慢思考的理解。而在剛剛的 Create 2024 百度 AI 開發者大會中,文心大模型的技術架構中正式增加了智能體。王海峰表示," 智能體是重要的發展方向,會帶來更多的應用爆發。智能體是在基礎模型上,進一步進行思考增強訓練,包括思考過程的有監督精調、行爲決策的偏好學習、結果反思的增強學習,進而得到思考模型。智能體的思考模型像人一樣,會閱讀說明書,學習工具的使用方法,進而可以調用工具來完成任務 "。
在現場,王海峰演示了文心大模型 4.0 工具版上,如何調用工具。向文心一言提問," 我要到大灣區出差一周,想了解一下天氣變化,好決定帶什麽衣服。請幫我查一下未來一周北京和深圳的溫度,告訴我出差應該帶什麽衣服,并整理成表格 "。
面對這一系列複雜的提問,以及相當專業的信息整理、表格生成需求,文心一言中的智能體機制,可以像人一樣進行思考、規劃,從而将需求拆解成多個子任務,首先調用 " 高級聯網 " 工具來查詢天氣信息,然後調用 " 代碼解釋器 " 畫溫度趨勢圖,進而根據未來一周的天氣情況,選擇了合适的衣物,最後對結果進行思考、确認,并自動彙總成一個表格。
這樣的技術能力,已經遠遠打破了以往 AI 技術,乃至大模型技術的能力邊界。開發者可以通過新的技術底座,探索更多樣,更廣袤的智能化未來。
打破邊界,是文心 4.0 帶給開發者第一份禮物。
智能代碼
開發範式的革新
我們都知道,傳統的應用開發範式,是基于不同編程語言的代碼書寫來實現的。而 AI 大模型帶給開發範式的最大變革,在于大模型本身能夠輔助生成代碼,甚至完成無代碼情況下的應用生成。
面向 AI 開發者與潛在 AI 開發者對于低門檻開發的廣泛需求,百度基于文心大模型的自然語言的能力和代碼能力,開發了代碼智能體和智能代碼助手。
其中,代碼智能體可以實現無代碼的應用開發,讓人人都可以成爲 AI 開發者。
代碼智能體,在技術上是基于思考模型與代碼解釋器來實現。首先,思考模型會理解用戶需求,經過思考,把完成任務的指令和相關信息整合成提示,輸入給代碼解釋器。随後,代碼解釋器根據提示,把自然語言表達的用戶需求翻譯成代碼并執行,得到執行結果或者調試信息。接着,思考模型對代碼解釋器的執行結果進行反思确認,如果正确,就把結果返回給用戶,不正确就繼續進行自主叠代更新。通過這樣的邏輯機制,智能體可以充分理解用戶的代碼生成需求,并且爲結果的正确負責,實現 "隻要說說話,就能完成 AI 應用開發"。
智能代碼助手,則可以幫助專業程序員更高效地、更便捷寫出高質量代碼。在模型效果不斷提升的基礎上,百度進一步構建了智能代碼助手上下文增強、私域知識增強、流程無縫集成等能力。
目前,智能代碼助手 Comate 整體采納率已經達到了 46%,新增代碼中生成的比例已經達到了 27%。而 Comate 能力則可以把代碼理解、生成、優化等能力無縫集成到研發流程的各個環節,幫助提升代碼開發質量和效率。通過簡單的指令,就可以快速了解整個代碼的架構,甚至是每一個模塊的具體實現邏輯,還可以根據當前的項目代碼以及第三方代碼自動生成滿足要求的新代碼,從而讓開發人員的工作更加輕松,獲得的支持與幫助更加立體。
代碼輔助與無代碼生成,是 AI 時代開發範式革新的根基。百度持續在這兩方面發力,帶給了 AI 開發者第二份重要的禮物——超低門檻的開發機遇。
多模型
開發機制的優化
除了智能體、代碼能力之外,百度還着重推出了多模型技術。在開發者實際進行 AI 應用開發的過程中,對 AI 模型的調用和選擇是非常複雜的,往往會出現需要根據不同場景進行多模型搭配,根據軟硬件環境進行模型切換的問題。然而往往也就在多模型選擇過程中,會出現各種各樣的兼容難點以及不得已的取舍。
爲了實現大模型應用在效果、效率與成本間的平衡,百度推出了多模型技術。
首先,是全面支持高效低成本的模型生産。爲了實現高效低成本模型生産,百度研制了大小模型協同的訓練機制,可以有效進行知識繼承,高效生産高質量小模型,也可以利用小模型實現對比增強,幫助大模型的訓練。
同時,百度建設了種子模型矩陣,數據提質與增強機制,以及從預訓練、精調對齊、模型壓縮到推理部署的配套工具鏈。高效低成本模型生産機制,可以助力應用開發的速度更快、成本更低、效果更好。
在多模型推理方面,百度研制了基于反饋學習的端到端多模型推理技術,構建了智能路由模型,進行端到端反饋學習,充分發揮不同模型處理不同任務的能力,達到效果、效率和成本的平衡。
面向未來,多模型成爲 AI 大模型落地的主要趨勢,而百度又一次領先一步,将其作爲帶給開發者的第三個禮物。
一路前進,終到星河
洞察開發者的需求,助力開發的夢想。這個簡單的邏輯構築了文心大模型前進的坐标,使其可以持續奔跑,一往無前。
除了智能體、代碼和多模型技術,文心大模型還在諸多方面進行了持續創新,包括基于模型反饋閉環的數據體系、基于自反饋增強的大模型對齊技術,以及多模态技術等。總體而言,文心大模型 4.0 的效果持續提升,發布後的半年時間,提升了 52.5% 的整體效果。
而文心大模型的持續快速進化,得益于百度在芯片、框架、模型和應用上的全棧布局,尤其是飛槳深度學習平台和文心的聯合優化。文心大模型的周均訓練有效率達到 98.8%,相比一年前文心一言發布時,訓練效率提升到當時的 5.1 倍,推理 105 倍。
在持續的技術創新中,文心大模型成爲 AI 開發者的首選。截至目前,飛槳文心生态已凝聚 1295 萬開發者,服務 24.4 萬家企事業單位,基于飛槳和文心創建了 89.5 萬個模型。文心一言累計用戶規模已達 2 億,日均調用量也達到了 2 億,滿足了千行百業的智能化需求。
在關鍵的人才培養環節中,百度在 2020 年提出了 5 年爲全社會培養 500 萬 AI 人才的目标已經提前完成。文心加飛槳,已經成爲 AI 開發者開啓夢想之旅的不二選擇。
以開發者的真實需求爲導航,以開發者的普遍期待爲路标,以開發者的偉大夢想爲未來。
文心就是如此一路前進,一路保持了高速叠代與全面進化。
文心會持續向前,在無數 AI 開發者實現夢想的那一天,在中國科技全面喚醒新質生産力的那一天,在 AGI 曙光到來的那一天,我們星河相見。