撰文 | 王 妤 語
題圖 | 官方圖片
中國版的 ChatGPT 終于來了。
3 月 16 日下午,百度于北京總部召開邀請測試會,主題圍繞新一代大語言模型、生成式 AI 産品文心一言。
百度創始人、董事長兼首席執行官李彥宏展示了文心一言文學創作、商業文案創作、數理推算、中文理解、多模态生成的能力。
百度同時公布了文心一言的邀請測試方案。3 月 16 日起,首批用戶即可通過邀請測試碼,在文心一言官網體驗産品,後續将陸續開放給更多用戶。
李彥宏表示,目前,大語言模型和生成式 AI 代表了一個新技術範式,是全球每家企業都不可錯過的機會。百度文心一言定位于人工智能基座型的賦能平台,将助力金融、能源、媒體、政務等千行百業的智能化變革。
" 百度希望和大家一起,推動人工智能技術進步,讓所有人都能使用最先進的生産力工具,讓所有人都能從中受益。" 李彥宏說。
01.
文心一言能做什麽?
文心一言能做什麽?這或許是大家最想知道的問題。
使用過 ChatGPT 的人應該都知道,ChatGPT 在信息查詢、文本輸出、推理運算上可以說是如魚得水,遊刃有餘。
不過,用中文提問 ChatGPT,相比于英文而言,始終差一點意思。不少人吐槽,在和國外相比,在國内 ChatGPT 的體驗感覺就像是 mini 版,回答問題的豐富度和内容準确性總是差一點。
好在,百度做出了中國版的 ChatGPT。以上的種種,文心一言都可以全部現實。
文心一言搞 " 文學創作 " 很有一套。
圖片來源:官方圖片
在文心一言上輸入的關鍵文詞和主題,它可以自動生成符合語法和語義規範的短本。這不僅縮短了檢索關鍵信息的時間,還可以給作家和文字工作者提供創業靈感和素材。
作爲中國最大的搜索引擎,在搜索業務超過二十年積累,百度有世界上最大的知識圖譜,這一切讓文心一言回答準确性及生成結果的可信度得到提升。
文心一言也可以快速生成周報、新聞稿、宣傳标語。
圖片來源:官方圖片
文心一言可以根據輸入的關鍵詞和主題,快速生成符合要求的文案,幫助企業進行品牌宣傳和廣告創意。另外,營銷策劃和推廣,文心一言也是信手拈來。
文心一言大模型的訓練數據包括萬億級網頁數據,數十億搜索數據和圖片數據,百億級語音日均調用數據,及 5500 億事實的知識圖譜。經過千億級參數訓練後的文心一言,不僅有強大的邏輯推理能力,在創意内容生成上有突出表現。
文心一言還可以輕松回答 " 雞兔同籠 " 問題。
圖片來源:官方圖片
文心一言還具備了一定的思維能力,能夠學會數學推演及邏輯推理等相對複雜任務。不過,李彥宏表示,對于該類問題,文心一言目前不一定能完全回答正确,但是未來經過更多的訓練後,文心一言的思維能力會越來越強。
寫詩作賦,文心一言也可以信手拈來。
圖片來源:官方圖片
作爲紮根于中國市場的大語言模型,文心一言具備中文領域最先進的自然語言處理能力。也就是說,相比于 ChatGPT,文心一言對中文的理解能力和把控能力更強。
另外,除了文本之外,文心一言還可以輸出圖片、視頻等多模态内容,甚至還可以将文字直接用方言讀出來。
相較文心一言,GPT4 标榜的圖片輸入生成文本也未向公衆開放,生成圖片及視頻能力也僅僅停留在展示頁面,毫無誠意。
盡管文心一言在一定程度上具有了對人類意圖的理解能力,回答的準确性、邏輯性、流暢性都逐漸接近人類水平。但整體而言,這類大語言模型還遠未到發展完善的階段,有賴于通過真實的用戶反饋而逐步叠代。
02.
爲什麽百度能做出 " 文心一言 "?
ChatGPT 火熱背景下,包括百度、騰訊、阿裏、字節跳動、360 在内的國内公司都躍躍欲試,想要做出首個中國版 ChatGPT。
目前來看,隻有百度實實在在做出并公布了生成式 AI 産品——文心一言。百度做出文心一言,一點都不意外。
文心一言本質上就是大型語言模型。而要做出大型語言模型,錢(投入),算法、算力、應用、數據,這五個維度缺一不可。
錢,可以說是首要條件。資料顯示,跑通一次 100 億以上參數量的模型,算力至少需要 1000 張 GPU 卡。GPU 芯片中領先者如 A100 售價達 1 萬美元, 微軟 Azure 雲服務爲 ChatGPT 布署了超過 1 萬枚英偉達 A100 芯片。即使不使用頂級芯片,按照一張 GPU 五萬元的市場均價計算,1000 張 GPU 意味着單月至少 5000 萬的成本。業界測算,gpt-3 單次訓練成本至少 460 萬元。
百度,在研發投入上一點也不含糊。前不久發布的百度 2022 年财報顯示,百度 2022 年營收約 1237 億元,淨利潤約 207 億元,研發投入達 214 億元,占百度核心收入 22.4%,在全國科技公司裏位于前列。
可以這樣說,百度幾乎是把一年賺的錢全用來做研發了。
更重要的是,百度同時在芯片、框架、模型和應用四層技術棧布局。在芯片層,百度自研 AI 芯片 " 昆侖 " 已經在多場景和搜索業務上部署實踐;在框架層,百度飛槳深度學習平台能夠做到下接芯片上承應用,支持模型的訓練和開發。
在模型層,早些的時候,百度就已經對大語言模型上展開了相應的思考,并投入了大量的人力和物力,通過不斷的算法改進和技術升級,逐步提高了自己的語言模型水平。
2019 年,百度就推出了知識增強的語義理解框架 ERNIE(文心大模型),2021 年,百度又基于 ERNIE 邀請測試了全球首個百億參數的對話大模型 PLATO-XL。
經過多次叠代,ERNIE 系列模型目前已經具備了較強泛化能力和性能,這也爲大語言模型文心一言的推出打下了紮實的基礎。
在應用層面,百度深度學習技術與場景融合創新,應用場景日漸豐富。
另外,百度在自然語言處理領域有着豐富的實踐經驗和技術積累。尤其是在數據處理上創新式采用了 " 超級分布式訓練 " 技術,能夠支持大規模數據處理和模型訓練,爲百度大語言模型的誕生奠基。
無論是在芯片層、框架層等技術架構方面的布局,還是在算力、數據等要素資源的投入,百度在國内 AI 領域始終處于領先地位。百度能夠成爲國内首家推出大語言模型文心一言的企業,主要還是源自百度多年以來的積澱。
03.
推出文心一言,百度擁抱的是未來
文心一言能爲百度帶來什麽?
在會上,百度表示多項主流業務将接入文心一言,包括百度搜索,以及基于百度智能雲的智能語音助手小度、智能駕駛阿波羅(Apollo)等。
有相關專家表示,文心一言的出現,預計會給百度的三大業務線 ( 移動生态爲代表的基本盤、以智能雲爲代表的新興業務、以智能駕駛和小度爲代表的前沿業務 ) 帶來新的增長和想象空間。
此外,百度表示,文心一言的定位是人工智能基座型的賦能平台,通過新技術幫助企業創建最好的客戶體驗,讓任何公司有機會離客戶更近,從而深刻地影響千行百業中每一家公司,實現智能化變革、效率提升,獲得更強的競争優勢,創造更大的商業價值。
截至目前,已經有 650 家企業宣布加入文心一言生态圈。對這些企業而言,接入文心一言後,有機會通過新的技術去創建最好的客戶體驗,從而比其他人更能抓住客戶,獲得更強的競争優勢。比如,航空公司、大型金融機構的 AI 客服和呼叫中心。
對于百度來說,伴随着文心一言的邀請測試,這些企業和用戶開始使用後,将建立真實用戶反饋、開發者調用和模型叠代的飛輪,文心一言會有更大的進步,更好地理解人的意圖,生成符合人的價值觀、表達習慣的回複。
ChatGPT 和文心一言的出現,帶來的是生産力的變革和提升。
" 我們相信,人工智能會徹底改變我們今天的每一個行業。AI 的長期價值,對各行各業的颠覆性改變,才剛剛開始。未來,将會有更多的殺手級應用、現象級産品出現,将會有更多的裏程碑事件發生。" 李彥宏說。
生成式 AI 産品作爲未來産業、經濟社會發展中一項變革性技術與關鍵力量,深刻影響着未來世界競争格局,也将給 AI 行業帶來罕見的發展窗口期。
無論是百度,還是其他公司,或者是深處技術變革漩渦中心的我們,都已經站在了變革的清晨。