圖片來源 @視覺中國
文 | 獨角獸挖掘機,作者 | 獸姐,編輯 | 角叔
2023 年開年,人工智能領域華麗返場,以 ChatGPT 爲代表的生成式 AI 接棒此前的 AlpgaGo,帶着全新的故事重回世界舞台中央。
繼微軟投資的 OpenAI 實驗室上線聊天機器人 ChatGPT 僅 4 個月後,國内科技企業百度也推出了其基于新一代大語言模型的生成式 AI 産品 " 文心一言 "。看着你方唱罷我方喝的情景,人們不禁發出這般感慨:世界終是變了,AI 時代已全面襲來。
文心一言之于百度,甚至之于整個 AI 産業的價值,資本市場反應也比較積極:産品上線首日,百度美股漲幅接近 4%,最高漲幅一度超過 7%;次日,百度港股大漲 12.87%,一舉收複前幾個交易日失地。
都說 AI 大模型的研發是實力公司之間的博弈,盡管衆人皆知這是一條厚雪長坡,但想要做出一番成績,背後無不依靠參與企業憑借驚人的耐力做出持續的投入,同時還要對中短期内無法實現商業化有着較強的心理素質。
生成式 AI 已處爆發前夜,站在一個技術和商業化交彙的路口。而百度文心一言發布會後不到 24 小時,排隊申請文心一言企業版 API 調用服務測試的企業用戶已達 8 萬家,從這一數據不難看出,市場關注度的背後,其實也是整條産業鏈的蓄勢待發。
01 生成式 AI 競技升維
大概在去年 9 月,知名投資機構紅杉資本曾發表了一篇名爲《生成式 AI:一個充滿創造力的新世界》的文章。文中寫到,生成式 AI 讓機器開始大規模涉足知識類和創造性工作,這涉及數十億人的工作,未來預計能夠産生數萬美元的經濟價值。
站在大市場來看,各大互聯網企業在數據、算力、模型訓練上早已投入多年,這也決定了底層基建注定是其中實力企業的 " 蛋糕 "。隻不過時至今日,生成式 AI 領域的競争已上升至應用層,想要打開新的商業局面,并達到真正的規模化,市場需要一個現象級的産品。
換言之,微軟的 ChatGPT、谷歌的 Bard 以及百度的文心一言幾乎在同一時間段内分别推出自家生成式對話産品,也可謂是恰逢其時。
盡管在這三家企業當中,百度推出文心一言的速度較其他兩家稍遜幾日,但市場仍對其抱有更大的期待——
在已站上賽場上的三家企業當中,百度是唯一一家中國互聯網大廠。大語言模型底層所需要的深度學習、自然語言處理(NLP)等 " 根技術 " 無法短期速成,需要多年持續的投入和積累。相較于國内外衆多 AI 創業公司,百度對于技術态度始終立足于 " 根深才能葉茂 "。
文心一言已基本做到 " 人有我有,人有我優,以及人有我待優 ",尤其是大模型比較通用等優勢能力方面,如文學創作、商業文案創作、數理邏輯推算、中文理解、多模态生成等等。
我們僅以文字創作、數理邏輯推算兩大核心能力爲例來具體看一下。
根據李彥宏的現場演示,文心一言回答問題的準确性、流暢性已具備相當高的水準。而從 " 以洛陽紙貴進行藏頭詩創作 "" 用四川話複述回複 " 等操作來看,在一些中國文化語境下,文心一言在問題作答,甚至是對問題進行理解延伸等方面,都較 GPT-4 等競品更優。
《獨角獸挖掘機》給文心一言提了兩個比較帶梗的問題。" 宮廷玉液酒多少錢一杯?"" 宮廷玉液酒的下一句?",文心一言的回答都完全 get 到了。同樣的問題,GPT-4 則一本正經将按照白酒發酵給出解答。
文心一言更懂中文是有據可依的。
作爲國内最大搜索引擎,百度每天接受數十億用戶的搜索請求,以及其他百度移動生态 APP 的訓練,超全的知識圖譜讓百度在問答和内容生成領域享有得天獨厚的優勢。某種角度上,文心一言也是搜索業務的曆史進階。
此外,文心一言的數理邏輯推算表現同樣令人驚喜。李彥宏介紹道," 文心一言大模型的訓練數據包括:萬億級網頁數據、數十億搜索數據和圖片數據、百億級語音日均調用數據,以及 5500 億事實的知識圖譜。"
數據規模越大,大模型越容易發生 " 智能湧現 ",從而逐漸形成邏輯思維和推理能力,并在答題時将問題拆分成子逐步推理。這也是李彥宏向文心一言首次提問經典 " 雞兔同籠 " 時,文心一言甚至可以判别題目本身正确與否。
02 轉守爲攻,百度迎戰
當谷歌、微軟以及越來越多 " 跑步 " 進場的新選手們,紛紛都想要在生成式 AI 領域大展拳腳之時,一向低調的百度已悄然扭轉了姿态,轉守爲攻,以一種更加積極的方式迎接這場新的競技——
經過不到兩個月的内測,文心一言正式上線,目前申請服務測試的企業用戶就已突破 8 萬家。
百度首席技術官王海峰在發布會上講道,百度IT 技術棧發生根本性變化即 " 三層變四層 ",包括底層的芯片、深度學習框架、大模型以及最上層的搜索及其他應用," 文心一言 " 則位于模型層。百度也是全球爲數不多的全棧布局且每層都有落地産品的公司之一。
通過 " 文心一言 ",百度一方面能夠讓上層應用更爲智能化,從而在多個産業領域落地,推動商業化從而在多個産業領域落地推動商業化,另一方面能夠給予底層芯片、學習框架以用戶反饋,不斷優化性能。
但需要提到的一點是,李彥宏和王海峰均在發布會上反複強調,大語言模型還遠未到發展完善的階段,有賴于通過真實的用戶反饋,未來會加速叠代速度。爲了保證用戶體驗,文心一言目前采取的是 " 邀請測試制 ",後面會逐步開放給更多用戶。
就這一點看,相較于 OpenAI 的 GPT-4,百度對創新技術的應用更加嚴謹。不久前,OpenAI 曾在其官網中公開承認:GPT-4 仍存在與早期 GPT 模型相似的局限性,它并不是 " 完全可靠的 ",最新版本的 GPT 仍會 " 幻覺 " 事實并出現推斷錯誤。
" 在使用時應格外小心,特别是在容易出錯的語境下,具體的使用規則應根據具體需求來确定,例如人工審查、加強背景理解甚至完全避免高風險使用等規則。" 如果按照 OpenAI 這般陳述,換個說法則是人們使用 GPT-4 的時間成本、精力成本或并不低。
事實上,在推出 " 文心一言 " 之前,百度已推出了自己 AIGC 相關産品,如作畫平台 " 文心一格 "。從用戶反饋來看," 文心一格 " 已做到了秒級出圖,同時對硬件設備的要求也不是很高。如今," 文心一格 " 功能全新升級,内容生成已從圖像走向了視頻。
當然,無論是百度的文心一言也好,還是 OpenAI 的 GPT-4,科技企業想要引領這條大模型差異之路絕非易事。
首先是高昂的現實成本。語音大模型的訓練階段大緻分爲三個:人工 " 投喂 " 數據進行标注;類似于獎勵模型,對輸出的内容進行排序和比較;強化學習,利用上一階段的内容升級。每一階段都是 " 燒錢 " 換來的,極高的資金門檻無形隔斷了絕大部分企業。
其次是待破的技術難關。通用 AI 必須具備更強的認知智能,這是目前制約 AI 取得更大突破、更廣泛應用的瓶頸,而 NLP 正是認知智能的核心。
不少業内人士認爲,深度學習是經驗主義的一個新高峰,而這個領域的 " 低枝果實 " 總有摘完的一天。深度學習的下一個大的進展,應該是讓神經網絡真正理解内容,而唯有啃下更難啃的 NLP 等一些基礎研究,才能讓 AI 真正産生質變。
03 爲什麽說百度難複制?
作爲國内搜索行業中的頭部企業,如今的百度已從過去較爲單一的搜索業務不斷擴圍至内容信息、智能硬件、智能雲服務、自動駕駛等更廣泛的業務領域。如果按照規劃 " 文心一言将被整合至多個業務闆塊之中 ",那這勢必将爲百度帶來更多想象力。
文心一言發布會後,不少行業人士将 " 率先 "" 創新 "" 突圍 " 等溢美之詞送給百度,但在這些評價的背後,市場更看重的是那些被稱之爲 " 内驅力 " 等方面的東西,因爲這才是一家企業跨越周期、實現進階的核心引擎。
有這樣幾組關鍵信息值得特别關注——
一來,早在十幾年前,百度就已在 AI 研究上不斷加碼,主張壓強式、馬拉松式研發,近十年研發投入累計超過千億元。2019 年,百度推出了文心大模型 ERNIE 1.0,時至今日,最新一代的 ERNIE 3.0 單日響應數十億搜索請求,和其他移動生态 APP 的大量訓練。
二來,基于百度的技術能力,生态外客戶及夥伴對于文心一言生态擁有較強的市場認知。據發布會上的數據,短短一個月内,已有超過 600 家合作夥伴(其中不乏藍色光标、掌閱科技、軟通動力等知名上市公司)宣布加入其中。這爲文心一言未來商業化奠定了堅實的基礎。
三來,文心一言的定位是人工智能基座型的賦能平台,換言之,百度創新的意義并非隻是爲自己打造出一顆推動新增長曲線的 " 衛星 ",而是希望做千行萬業的 " 陪跑者 ",通過技術輸出帶動 " 獨創新不如衆創新 ",進而創造出更多的社會價值。
中信證券預計," 文心一言 " 在短期仍将聚焦叠代升級。中期維度,根據此前公司副總裁沈抖披露,公司預計在 5 月在百度雲平台開啓相關 API 的調用,後續商業化的前景值得期待。
随着 AI 創新不斷深入,全球科技産業正迎來一場前所未有的巨變,在這波技術浪潮中,語言大模型成爲了新的引擎。文心一言等大型預訓練模型的問世,讓人們見證了 AI 在 NLP、CV 等多領域所取得的重大突破。
更深一層涵義上,這場變革已不僅僅局限在技術層面,或多或少正在重塑人類與機器之間的關系。AIGC 大航海時代已全面來臨。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App