就在剛剛,文心大模型4.0版本正式發布!
北京首鋼園現場,李彥宏直接放話:
文心大模型4.0綜合水平與GPT-4相比已經毫不遜色。
話不多說,一起來看現場演示效果。
先來段倒裝prompt:
我想回承德買房,能用公積金貸款嗎?手續怎麽辦?我在北京工作。
不僅關鍵信息"北京工作"放在了最後,公積金具體是在哪裏交的也沒有明示。
但新版文心一言完全沒有被這些小陷阱坑到,順利給出了正确答案。
生成方面,當場剪出一整段數字人口播視頻,毫不費勁:
解起數學題來也得心應手,可以說是家長輔導作業神器了(doge)。
新版文心一言還現場寫起了武俠小說,即使持續添加人物角色、增加戲劇沖突,也不會出現記憶混亂、前言不搭後語的情況:
如此表現,着實是讓現場觀衆high了一把。
文心大模型4.0相關話題,也立刻被國内外網友們熱議起來。
據現場介紹,相比線上3.5版本的文心一言,文心大模型4.0進步明顯:僅9月啓動小流量測試這過去的一個月,就又提升了30%。
那麽,問題來了:文心大模型4.0真有這麽好?具體與GPT-4相差幾何?
目前,文心大模型4.0已經開啓邀測,量子位也在第一時間拿到了測試資格。
我們直接實測走起。
相比GPT-4實測效果如何?
獲得測試資格後,切換到文心大模型4.0,就可以開始玩耍了。
相比文心大模型3.5剛出來的時候,文心大模型4.0現在已經進化出了更多功能,光是插件就有8個,包括一鏡流影(文字轉視頻)、說圖解畫(看圖說話)、E言易圖(可視化數據分析)等。
這些插件還可以自由組合,來完成更複雜的任務。
百度在世界大會現場,重點演示的還是文心大模型4.0的圖文創作、數理邏輯推理等實用功能。那我們還是老樣子,從更基礎的角度出發,測測它的四大"基本功"——
理解、生成、邏輯和記憶能力。
理解能力,尤其是中文理解能力
第一波,先來看看文心大模型4.0的理解能力。
這裏我們主要考考它應對"語言陷阱"的能力,以及網絡段子的"識别力"。
先來個中文十級能力測試題,考考大模型究竟懂不懂"真的假的"是什麽意思。
文心大模型4.0的回答很簡潔,直接給出答案。
GPT-4則要每一句話都仔細分析句意,最後再給出回答:
雖然更仔細,但總感覺有點像是在認真做中文測試的歪果仁(doge)。
再來上點難度,"小偷偷偷偷東西"。
文心大模型4.0很快拆解出了"小偷"、"偷偷"和"偷東西"三個詞,get到了這句話的意思:
不過,GPT-4反而一頭"栽"進了這個陷阱中,以爲中間的兩個"偷"也是動詞,最後還漏了一個偷……
考查完語言陷阱後,再來看看雙方對網絡段子的理解。
針對"哪李貴了"這個本土梗,文心大模型4.0很快給出了答案,人物事件都直觀:
GPT-4如果沒有開搜索,會get不到2022年1月之後的梗:
但如果打開搜索,很快也能"與時俱進",給出這個問題的答案:
同理,我們也試了試從國外傳入國内的梗。
文心大模型4.0和GPT-4都能回答出來,文心大模型4.0更概要一些,GPT-4則是直接搬運了一套百科(更詳細,但tokens也更貴……):
網絡段子測評看下來,文心大模型4.0和加了搜索的GPT-4可以說是各有千秋。
多模态生成能力
那麽接下來這波,就要考驗當下最受關注的大模型多模态生成能力了。
先來試試圖像生成能力,順便考查一下對古詩"孤舟蓑笠翁,獨釣寒江雪"的理解。
文心大模型4.0很快給出了4張圖像,風格和基本意境都比較符合:
GPT-4也利用DALL·E 3畫出了4幅畫,同樣畫風各異:
這一次雙方打了個平手。
那麽視頻生成呢?這裏我們調用一下文心大模型4.0的自帶插件,本想着隻是生成一段落葉剪輯,沒想到連文案和字幕語音都配好了,完成度很高那種:
GPT-4本體目前還不支持生成視頻,需要借助外部插件(如Capcut)實現這一功能。
邏輯能力
然後,就到了我們喜聞樂見的數學計算+邏輯推理能力測試了。
文心大模型4.0說是重點升級了數學計算能力,我們也不客氣,直接上難倒一片大模型的Old McDonald問題:
在Old McDonald的農場裏養着一匹馬、兩頭牛和三隻羊。請問農場還需要再養多少頭牛,才能使得所有動物的總數量恰好是牛的總數量的兩倍?
文心大模型4.0一口氣列出了4個未知數(doge),但解題過程還是比較嚴謹的,最終答案也沒有問題。
此前,我們曾将這個問題喂給Claude、ChatGPT等一衆大模型,"橫向評測"過一波它們的數學能力,當時隻有GPT-4能做出來。
接下來,直接上弱智benchmark,考考邏輯推理能力。
第一個問題,文心大模型4.0和GPT-4都很快給出了正确答案:
第二個問題,雙方的回答也很快,文心大模型4.0還順口給出了"七分海洋三分陸地"的地理題背誦口訣:
看起來雙方的數學、邏輯都不錯,點個贊。
記憶能力
大語言模型公認的評判标準之一,是多輪對話能力。GPT-4的多輪對話已經有不少測試了,我們再來簡單看看文心大模型4.0的效果。
先來解讀一下長論文,沒什麽問題:
以這個爲主題寫一首詩歌,順便讓它改成英文,也能hold住:
試試讓它改得押韻一點,no problem:
最後再來提問一下詩歌中用到的Transformer知識點,并挑出其中的某個知識點要求解釋原理,也信手拈來:
另外,試着将上文中的知識點用"它"代替,文心大模型4.0同樣能承接上文的對話,并給出相關知識回答。
看來無論是長文本解讀、還是多輪對話,可以說都是難不倒文心大模型4.0了。
附加題
正經測試完畢,咱們最後整點樂子(doge)。
這段時間,一道神奇的考題又被拎出來,在小紅書等社交媒體上"難倒衆人",題面是這樣的:
根據中華人民共和國婚姻法,以下誰能結婚?
A、林黛玉和賈寶玉
B、賈琏和尤二姐
C、楊過和小龍女
D、張起靈和吳邪
乍一眼還真看不出答案,不如交給文心大模型4.0和GPT-4回答試試。
文心大模型4.0給出的回答算是有理有據,雖然細看仍有一點bug,但整體問題不大。
然而當我們将這個問題抛給GPT-4的時候,它先是停頓了好一會,然後直接被"急出母語"(doge)
翻譯一下大概就是,GPT-4認爲D選項是正确的……
我們再嘗試一遍。這次GPT-4倒是用中文回答了,隻不過好像開始打起了太極,對于每一個選項,它的回答都是:
在現實中,他們的結婚資格取決于他們是否符合中國的婚姻法律規定。
測到這裏,不妨做個小小的總結:
整體來看,與GPT-4相比,文心大模型4.0在綜合能力上确實不落下風,尤其是在中文理解能力和通用知識能力上甚至更好。
那麽,這樣的大模型究竟是怎麽煉成的呢?
文心大模型4.0是如何煉成的?
先來看看文心大模型4.0的"自進化"程度。
據百度CTO王海峰介紹,大模型表現出的創作、編程、解題、規劃等能力,實際上都依賴于背後的4大核心基礎能力——
理解、生成、邏輯和記憶能力。
相比3.5版本,文心大模型4.0的4大基礎能力均有了不少提升,而提升最大的,又要屬邏輯和記憶能力。
其中,邏輯的提升幅度達到了理解的近3倍,而記憶的提升幅度則達到了理解的2倍多:
以大模型寫代碼爲例。
目前,百度的不少員工已經用上了大模型寫代碼應用Comate,平均代碼采納率達到40%,高頻用戶達到60%。
甚至現在百度每天新增的代碼中,20%都是靠Comate生成的,比例還在不斷增加。
所以,文心一言背後的文心大模型4.0,究竟是怎麽煉成的?
據王海峰表示,核心架構雖然還是從文心大模型3.0和3.5一脈相承,包括最初3.0的有監督精調、基于人類反饋的強化學習,以及3.5的知識點增強、邏輯推理增強、插件機制等。
但文心大模型4.0的技術改進,可以直接用三個"更"來總結:
更大的算力、更多的數據、更強的算法。
訓練上,目前飛槳平台已經能在萬卡算力上運行,基于集群基礎設施、調度系統、軟硬件協同優化,支持大規模穩定高效訓練;同時,基于可再生訓練技術中的增量式參數調優,來節省訓練資源和時間。
基于這套技術,自3月份以來,文心大模型系列訓練算法已經累計提效3.6倍,周均訓練穩定有效率超過98%:
數據上,團隊建設了一套多維數據體系,從數據挖掘、分析、合成标注和到評估,形成了一整套"流水線",來進一步提升模型訓練效果。
算法上,則基于有監督、精調、偏好學習和強化學習等技術,進行了多階段的對齊,确保大模型能更好地與人類判斷和選擇進行對齊。
在這其中,有兩方面很關鍵的技術細節。
一方面是知識點增強的能力。
過去大模型可能隻在一個階段做知識點增強,但現在百度在輸入和輸出兩方面同時進行了知識點增強。
輸入先用知識點增強,對用戶輸入的問題進行理解,拆解出回答問題所需知識點,基于搜索引擎、知識圖譜、數據庫查找知識,生成第一遍結果;
輸出再用知識點增強,對第一遍生成的結果進行分析,并用搜索引擎、知識圖譜、數據庫進行"double check",對其中有差錯的地方進行修正。
另一方面是智能體機制。
《思考,快與慢》這本書中,将認知系統分成系統1(反應快但易出錯)、系統2(反應慢但更理性準确)。
根據這個原理,百度在大模型基礎上,進一步研制了系統2。
也就是說,相比大模型直接給出答案,現在進一步讓它學會理解、規劃、反思和進化,這樣大模型執行就能更可靠、甚至完成自我進化,思考過程"白盒化"。
這兩大技術細節,也造就了文心大模型4.0水平的飛速提升,甚至光是過去一個月的時間裏,就提升了30%。
這樣的技術,也讓文心大模型4.0的用戶和開發者人數增長得飛快。
截至目前,文心一言用戶規模已經達到4500萬人,開發者達到5.4萬人,遍布4300多個使用場景,應用數量達到825個,并接入了超過500個插件。
而在技術之外,更值得關注的是,百度世界大會上透露出的信息顯示,文心大模型4.0已經全面重構了百度的搜索、GBI、文庫、網盤、地圖等數十款應用。
AI原生時代大幕開啓
爲什麽這麽說?李彥宏在百度世界大會現場分享時強調:
大模型帶來的智能湧現,是開發AI原生應用的基礎。同樣,沒有構建于基礎模型之上的豐富的AI原生應用,基礎模型就沒有任何價值。
無獨有偶,紅杉資本在《生成式AI進入第二階段》中同樣認爲,生成式AI市場正在進入"第二幕":
炒作和快速展示正在爲真正的價值和完整的産品體驗所取代。
底層的邏輯其實很簡單:底層技術的重要性毋庸置疑,但前沿技術想要真正在人們的生活中創造價值,還是需要通過應用的形式。
如果說,大模型掀起的是人機交互方式變革的風暴,那麽AI原生應用,正是純自然語言交互的具體體現形式。
正如百度現場所演示的,數據分析現在可以是醬嬸的——
直接對任意數據提問,AI分分鍾就能展開具體分析,不再需要人工跨數據庫、跨表格分析。
在辦公軟件如流裏,交代出行計劃,AI超級助手立馬就能把差旅機酒安排妥當。
根據文檔生成PPT,也就是一句話的事,像百度文庫這樣的産品,直接化身"生産内容最好的起點"。
我們日常熟悉的網盤、地圖等App,基于大模型能力,也湧現出了全新的體驗。
比如從網盤視頻裏直接提取重點内容。
比如在地圖指揮AI訂餐廳。
百度此番出手,可以說是直接展示了一把大模型全方位的應用滲透,揭開了AI原生時代大幕的一角。
而百度"第一個把全部産品用大模型重做一遍"的先手優勢,也已經在更大範圍内開始顯現。
李彥宏透露,百度的大模型技術已經應用在制造、能源、電力、化工、交通等實體産業中,17000家企業已參與其中,大模型正在成爲新型工業化的重要推動力。
從3月份文心一言發布,到年中文心大模型3.5版本更新,再到現在4.0驚豔亮相,百度文心大模型的叠代速度不可謂不迅速。
這背後既是國産大模型從技術demo到落地應用的激烈競争,也再一次體現了百度在大模型領域深厚的技術積累。
并且随着文心大模型4.0和百度一衆AI原生應用的亮相,大模型賽場上新一階段的競争方向愈發明顯。
正如李彥宏所說:
我們即将進入一個AI原生的時代。一個人機通過prompt交互的時代。
在此過程之中,無論是國産大模型基礎能力的快速追趕,還是AI原生應用開發的主動進擊,都令人心潮澎湃。
AI原生時代,在各種層面上,都越來越值得期待了。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~