1932 年 7 月,在洛杉矶舉辦的第 10 屆夏季奧林匹克運動會上,一個隻有幾人組成,運動員僅 1 人的代表團完成了注冊參賽。他們經曆了無盡的輾轉波折,漫長的海上漂泊,最終來到了奧運賽場上,他們來自——中國。
來到賽場,本身就證明了很多,改變了很多。時至如今,中國的奧運之旅已經跨過了 90 年。我問文心一言,中國在奧運賽場上取得了哪些成就,它從金牌、獎牌、成績、覆蓋項目四個領域進行了歸納,并總結道," 中國代表團在夏季奧運會上取得了輝煌的成就,金牌數量和獎牌總數均位居世界前列,同時在多個項目中也實現了曆史性突破 "。
3 月 16 日,當百度向世界展示文心一言的時候,我腦海中首先浮出的是這麽一句話:中國 AI 終于來到了奧運賽場上。
我們爲什麽會如此期待文心一言?是對技術革命的熱忱,對生産力的渴望?這些當然都有,但更加急切的是,對中國科技能否真正參與到這輪科技革命的擔憂和焦慮。
文心一言究竟做到了嗎?
我們第一時間拿到了文心一言的測試資格,就讓我們從最真實的産品表現出發,回溯這條參賽之路。
站在賽場
我相信任何人都不會認爲,近期爆火的大語言模型其價值僅僅在問答,它即将引發出的廣泛性科技創新是清晰可見的,帶來的價值遠遠超過其基礎。
從 2012 年深度學習技術成型,到 2016 年因爲數據集測試效果優秀與 AlphaGO 的良好宣傳效果,第三次 AI 崛起正式開啓。2018 年,預訓練大模型出現,經曆了數年時間,ChatGPT 等應用正式通過大語言模型的形式引爆了技術能量,這可以被看作 AI 複興的 2.0 形态,是當之無愧的時代焦點。
最重要的是這場比賽才剛剛開始,如果能夠第一時間參與到全球主流競争,意味着中國 AI 可以參與到競争規則制定,爲上下遊發展獲得先手時機,創造出符合中國經濟與社會需求的戰略周期。
那麽,文心一言拿到這張寶貴的 " 參賽券 " 了嗎?
3 月 16 日下午,在新聞發布會現場百度創始人、董事長兼首席執行官李彥宏向各界展示了新一代知識增強大語言模型文心一言在文學創作、商業文案創作、數理邏輯推算、中文理解、多模态生成五個使用場景中的綜合能力。但大家肯定會更加好奇,展示效果之外,文心一言的實測、實用情況究竟如何?
當晚,我們就拿到了文心一言的測試資格,對其進行了全方位 " 拷打 "。話不多說,直接上文心一言與 ChatGPT 的對比,全程無修改無打碼。我們選取了大家最關心的,也是應用度最高的幾方面問題進行測試。需要提前說明的是,生成式 AI 的答案每次都會不同,因此我們的測試結果不一定與其他媒體或用戶完全一緻。
1. 數理邏輯能力
能夠理解數理邏輯,回答複雜問題,一直被視作是 ChatGPT 的最大特色。那麽在這方面文心一言能力是否可觀呢?我們請出了中國人最熟悉的數理邏輯問題——小學奧數,來爲大家解答。以一道非常經典的行程問題爲例,文心一言的答案是這樣的:
可以看到,答題過程雖然簡略,但核心計算過程是非常清晰的,并且答案準确無誤,到這裏可能效果還沒有拉滿,那我們不妨看看 ChatGPT 同一個問題的答案:
嗯,解題過程非常華麗,但最終結果似乎是欺負我沒上過小學。事實上,直到如今 ChatGPT 依舊有大量類似問題,可以概括爲 " 一本正經地胡說八道 "。結果經常出錯這件事,對于生成式 AI 的可信度、可用度其實是大打折扣的。相比來說,文心一言顯然在邏輯與中文的理解上不落下風。
2. 中國文化理解
我們知道,對比一家美國公司的 AI 模型中國文化理解能力,似乎有失偏頗。但對于中國開發者和用戶來說,AI 對中國文化和語言的理解就是核心訴求,這點是毫無疑問的。那麽,在這個領域上文心一言 vs ChatGPT 會有怎樣的表現呢?
先來看一個關于唐詩的問題吧。關于李白和王維的藝術風格,ChatGPT 是這樣回答的:
而同樣的問題,文心一言的答案則是這樣的:
雖然 ChatGPT 的回答也很不錯,但顯然對于李白 " 詩仙 "、王維 " 詩佛 " 這個最重要的藝術内核根本沒有涉及。無論是知識科普還是專業回答,ChatGPT 的答案顯然都不能得到高分,而文心一言的回答則更加全面細緻,且總結歸納能力更強。
我們再來問一個明清小說的問題,關于《紅樓夢》的情節,ChatGPT 是這樣答的:
而文心一言的答案,似乎從邏輯調理上就與 ChatGPT 完全不同:
這就又不得不吐槽了。ChatGPT 回答的不是 " 主要情節 ",而是 " 包含哪些内容 "。相反,文心一言則确實梳理了主線情節的條理,并且給出了主線與副線關系的理解。在此基礎上,對《紅樓夢》的内涵做出了具有深度的解析。
對比下來,ChatGPT 明顯又犯了答非所問的毛病。但不管怎麽說,兩個 AI 對于中國文化瑰寶的理解,似乎都值得我們大多數人羨慕和學習。
3. 最新信息查詢
對于我們大多數人而言,都肯定是希望 AI 問答能夠幫助我們了解世界最近發生的事情,了解那些最新的消息和動态。但 ChatGPT 即使在升級 GPT-4 之後,依舊采用了到 2021 年爲止的數據,這也是其廣受诟病的一個問題。那麽,文心一言能不能接入最新、最近的信息呢?
我最近一直沒時間追番,于是問了問文心一言《名偵探柯南》的最新情節:
爲了确定這就是最新劇情,我又問了這是哪一期:
可如果同一個問題問 ChatGPT,會得到怎樣的答案呢?
好吧,它委婉的告訴我,想知道就滾去自己看 ...... 顯然,獲取最新的知識、新聞、動态,也構成了文心一言的獨特優勢。
4. 多模态生成
這一點,目前還是文心一言的專屬能力,ChatGPT 并不具備生成圖片的功能。可能有人會認爲以文生圖有專門的模型。但不可否認的是,合并到同一個問題系統中,帶給用戶的便捷性是十分明顯的。既然 ChatGPT 還沒有類似能力,那我們就讓文心一言生成一張圖片,結束我們的測試部分:
可以看到,無論對刺客信條還是鋼鐵俠的理解,文心一言都是能夠找到 " 那個味 " 的。
至此,我們可以坦然且真誠地說:文心一言或許并不完美,在很多地方與 ChatGPT 互有短長。但真的有自己的技術優勢,更加實用,更加理解中國語言與文化,也更符合中國用戶的需求。
文心一言,真的拿到了大語言模型的決賽資格。
水到渠成的參賽之路
那麽我們不禁要問,這背後的原因是什麽?爲什麽又是百度抓住了這個至關重要的戰略機遇?這裏面有什麽運氣或者玄機嗎?答案或許非常簡單,僅僅有 " 水到渠成 " 四個字。
百度 CTO 王海峰認爲:" 做文心一言不是頭腦發熱,是十餘年的技術積累和産業實踐的水到渠成,我們在人工智能四層的技術架構上都有很深的積累,尤其是框架層和模型層聯合優化發揮了非常大的作用。"
就像芯片是生長在數學、光電與制造業基礎上的。文心一言所代表的大語言模型能力,是生長在 AI 技術積累,尤其是大模型與深度學習框架之上的。
2019 年 3 月,百度就發布了文心大模型 ERNIE 1.0。四年時間,已經從最初的自然語言理解大模型,發展成了跨語言、跨模态、跨任務、跨行業的能力完備的大模型平台。在框架方面,百度早在 2016 年就正式對外開源 PaddlePaddle(飛槳),飛槳有效支撐了大模型的靈活開發、高效訓練和推理部署,成爲了文心一言誕生的底座。
文心一言另一方面的基礎來自于數據和知識,百度在搜索引擎端的龐大數據積累、數據精細化處理,以及知識圖譜的搭建,最終成爲了文心一言的養料。正所謂你看見的是台上一分鍾,看不到的是台下十年功,因爲百度預判到了全球 AI 的預判,每一步都在做正确的事,最終才能實現又快、又好鍛造出了文心一言。
如果我們把文心一言背後的技術能力進行打開、分解,就可以清晰看到 " 水到渠成 " 是如何實現的。
首先,文心一言就像 ChatGPT 一樣,吸收了大語言模型業界公認的領先實現手段。比如有監督的模型精調,确保模型的高魯棒性和吸收數據能力;類似人類反饋機制的的強化學習,可以實現模型基于用戶反饋持續進化,實現 " 智能湧動 " 效果;融合不同類型的數據、知識,構造豐富的提示,生成高質量的結果。
這些能力保證了文心一言能夠區别于傳統的多輪對話模型,滿足用戶對新型大語言模型的期待,而百度獨特的技術才是文心一言煥發技術創新力的核心。
這個領域的技術,主要包括三個維度:
首先是知識增強。知識增強是文心系列大模型的核心技術特征,也自然而然集成到了文心一言當中。即通過引入知識圖譜," 知識增強 " 的方法,将數據與知識融合,使得文心大模型相較于其他模型,學習效率更高、可解釋性更好。在文心一言能夠實現 " 知識增強 " 的背後,是百度構建了包含 5500 億事實的全球最大知識圖譜,從這裏我們也可以看到文心一言與文心系列大模型緊密的關系與一緻的技術序列。百度在大模型領域的積累,最終在文心一言完成了厚積薄發。
其次是檢索增強。文心一言并入了百度在搜索引擎方面的能力與技術,百度新一代搜索架構已經發展到了基于語義理解和匹配,其中文心大模型分别理解用戶輸入和文檔,形成雙塔模型,然後基于理解進行匹配。這讓文心一言可以準确獲得高時效性的内容,填補了 ChatGPT 目前爲止還無法實現的空白。同時,檢索增強也可以優化大模型的推理能力,使它的回答更加精确、有效。
此外,文心一言還加入了百度長期積累的對話增強能力。從而使得大模型具有上下文理解、多輪對話等能力,增強對話的連貫性、合理性。
全球領先的技術範式,需要我們有能力去學習和了解;自身儲備的核心技術能力,則可以在關鍵時刻構築差異化。二者結合,中國 AI 才有出路。文心一言背後的技術序列,爲中國 AI 究竟如何發展點亮了方向。
另一方面,文心一言能夠在如此快速的時間内完成訓練、部署,最終爲中國 AI 搶得了先機,不得不提到背後的開發基座——飛槳。
在框架層,飛槳是百度自主研發的中國首個開源開放的産業級深度學習平台,包括核心框架、産業級模型庫、開發套件、工具組件,以及學習和實訓社區,能夠标準化、自動化地支撐模型生産和應用。在飛槳的配合下,文心一言才能夠有效實現大量最新技術的融合,同時在如此短的時間内完成開發、落地。
從中可以看到,百度已經築造了飛槳 + 文心,即深度學習開發平台 + 大模型的産業路徑。二者結合,企業和開發者可以獲得從算力、框架、模型庫,再到大模型調用、大模型行業化的所有能力,得到了完善、穩固的産業智能化基座。
文心一言精、快、好落地的今天,就是更多中國大模型脫穎而出的明天。
中國故事,剛剛開始
大語言模型崛起,乃至更宏大的 AI 複興與新一輪科技革命,在文心一言的證明下,應該可以說上一句:中國故事,才剛剛開始而已。
我們知道大語言模型的應用化,可以帶來非常多的産業發展可能。其中包括但不限于引領搜索、辦公、客服、内容創作等領域的變革;爲更多未知應用提供底座,甚至形成用戶的超級智能助手。而大模型與行業的融合,則可能帶來千行百業的生産力革新。
這些産業可能性的基礎,必然是中國具備與全球頂尖水平對齊的 AI 能力,不能留下短闆,不能受制于人。
就像 AlphaGO 的價值不僅在棋盤上,ChatGPT 的價值不僅在問答中。文心一言的價值也不僅僅在百度的業務範疇内,不僅僅是滿足一次 " 中國能不能做大語言模型 " 的好奇——它的價值在更遠的地方。
向後看,文心一言證明了百度乃至更多中國 AI 公司的技術能力。百度是全球爲數不多擁有 " 芯片層、框架層、模型層、應用層 " 全棧 AI 技術能力的公司。這些積累究竟能不能打硬仗,能不能實現與世界一流水平的并排搶跑?這些問題在文心一言這裏,也就有了答案。
向前看,中國 AI 究竟是否能攻堅克難,解決關鍵技術自主化的時代難題等未知的問題,需要一些火苗,一些希望。
或許,文心一言剛誕生時還不完美。這一方面是因爲技術還需要發展,模型還需要進化,需要用戶的反饋來不斷叠代升級;另一方面,是因爲我們對它有着過高的期待,對中國科技有着過高的期待,極高預期之下,沒有技術是完美的。
不妨給文心一言一些耐心,給中國 AI 一些時間。難題從來無法馬上被解決,但也隻有那些足夠艱難,需要漫長時間與精力去破解的難題,才有被解決的必要。
好在,中國 AI 已經踏上了奧林匹亞的賽場。參賽,就是無數可能性的開始,就是話語權的基座。
會在某一天,未來的某一天,我們回首看,是八千裏路雲和月。