圖片來源 @視覺中國
文 | 光錐智能,作者 | 周文斌,編輯 | 王一粟
GPT-4 驚豔亮相後,壓力來到百度這邊。
上台後的李彥宏和百度CTO 王海峰都略顯緊張,這在多年百度相關活動中還是非常少見。李彥宏坦言," 文心一言對标 ChatGPT、甚至是對标 GPT-4,門檻是很高的。我自己測試感覺還是有很多不完美的地方。"
文心一言是一個大語言模型、生成式 AI 産品,發布會上演示了五個使用場景中的綜合能力。其中,文學創作、商業文案創作、數理推算是大語言模型常見的能力,在此基礎上,中文理解及多模态生成能力更能體現技術水平。
到今日晚間,「光錐智能」拿到文心一言的内測邀請碼,在提出多個問題測試之後我們發現,文心一言與 New Bing 雖然有差距,但整體要比預期更好。比如在爲商業訪談類欄目起名、對洛希極限的解釋上都十分完整。但同時也存在一些不足,比如在計算 " 同時抽水和放水 " 的數學問題時,文心一言就出現了審題錯誤。
金玉在前,百度在文心一言發布會召開後,無論是産品口碑,還是股價表現,短期内一定會有壓力。畢竟,世界上還隻有一個 OpenAI。
面對如此大的壓力,李彥宏回應了爲什麽依然要在 3 月 16 日公開發布的原因:第一是市場需求,無論是百度的産品,還是客戶,都有需求。第二是收集反饋," 一旦有了真實的人類反饋,文心一言的進步速度會非常快,我們都希望它快點成長 "。
事實上,在 ChatGPT 驚豔亮相之前,GPT 的 1~3 版本,都是在長期低調開源測試後,才達到了後面的結果。
短期表現和長期價值還是有所不同,抛開情緒,我們更關心,文心一言和 GPT-4 在技術上有哪些相同和不同?模型真的是越大越好嗎?利用大模型的産業化之路,應該怎麽走?
01 " 文心一言 " 對線 "GPT-4"
文心一言在發布會上相對出彩的展示,莫過于多模态生成。
在發布會上,李彥宏先是讓文心一言爲 2023 智能交通大會生成了一張海報,然後又讓其撰寫了一段關于智能交通的文字,并讓其用四川話讀出來,最後還讓文心一言用這些素材生成了一段視頻。
昨天,在 GPT-4 的發布會上,Open AI 總裁和聯合創始人 Greg Brockman 展示了 GPT-4 基于一張草圖生成網站的過程,讓許多人知道了大模型單模态與多模态的區别。
GPT-4 是一個典型的多模态預訓練模型,它能夠支持圖像和文本的輸入,然後以文本的方式輸出。而文心一言展示的則是以文本的方式輸入,以文本、語音、圖像和視頻的方式輸出。
輸入和輸出其實具有本質上的區别。
有 AI 開發從業者向光錐智能表示,多模态輸出其實并不難,難的是輸入。比如輸出語音,不過是先輸出文字然後再加一個 TTS 技術,已經很成熟了。
而多模态輸入,則需要大模型真正 " 長出眼睛 " 讀懂圖片意思,需要在預訓練階段就将圖片和圖片标注信息放入訓練數據中。
比如這次 GPT-4 令人驚豔的強大,就表現在圖片理解上。
給到一個物理題的照片,GPT-4 能夠讀懂題目然後解答。
GPT-4 還能識别圖片中的幽默部分,比如給 GPT-4 一個長相奇怪的充電器的圖片,問爲什麽這很可笑?GPT-4 能回答說,因爲 VGA 線充 iPhone。
但無論怎麽說,從 GPT-4 到文心一言都在說明李彥宏的那句話," 多模态是生成式 AI 一個明确的發展趨勢。"
據王海峰介紹,文心一言主要脫胎于兩大模型,百度ERNIE 系列知識增強千億大模型,以及百度大規模開放域對話模型 PLATO。
此基礎上,主要采用了六項核心技術,包括監督精調、人類反饋強化學習(RLHF)、提示構建、知識增強、檢索增強和對話增強技術。
其中,人類反饋強化學習是目前大模型訓練中普遍應用到的技術,ChatGPT 能夠在 GPT-3 的基礎上産生質變,成爲跨時代的産品,很大程度上依賴于此。
這些技術中具有百度特色的主要是知識增強、檢索增強和對話增強技術。
其中,知識增強主要包含知識内化和知識外用兩部分,知識内化又包括語義學習和數據構造,知識外用則包含知識推理和提示構架。
這些技術又都基于百度的知識圖譜。所謂知識圖譜是一個宏大的數據模型,是指一個由世間萬物構成的 " 實體 " 以及他們之間的 " 關系 " 構建起來的龐大 " 知識 " 網絡。
百度CTO 王海峰曾介紹,"百度構建了世界上最大規模的知識圖譜,擁有超過 50 億實體,5500 億事實,能夠通過語言、聽覺、視覺等獲得對世界的統一認知,突破了實際應用中場景複雜多變、數據稀缺等難題。"
在這個知識圖譜中,除了基礎的通用圖譜之外,百度還針對不同的應用場景和知識形态,構建了事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。
檢索增強則與百度在搜索引擎上的技術積累有關,簡單理解就是,當用戶問出一個問題後,文心一言會先通過搜索引擎将知識都檢索一遍,然後再篩選整合其中有用的信息作爲輸出。
最後的對話理解,則包含百度積累的記憶機制,上下文理解,對話規劃等等。
除了基礎技術架構,百度并沒有公布模型結構和參數,而是花了大量的時間用來解釋自己在文心大模型、産業大模型、AI 技術四層構架上的布局。
由于這都是此前積累的能力,因此這次文心一言的發布,不像是百度研發了一個新産品和新技術,更像是百度将之前所有的工作打包,以文心一言的方式整合輸出。所以,我們會在文心一言裏看到文心一格的圖片生成,會看到已經在百家号應用的自動圖文轉視頻的功能。
就像李彥宏提到的一樣," 從某種意義上說,我們已經爲此準備了多年,十幾年前就開始投入 AI 研究,2019 年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續。"
02 摸着 OpenAI 過河,讓 " 湧現現象 " 更有效率發生
雖然除了 OpenAI,其他的公司目前都是 others,但大家都在摸着 GPT 過河,在尋找更優質的模型方案。中國公司也一直在積極探索相應大模型的研發和應用,并總結出了許多 " 中國經驗 "。
什麽樣的模型是一個好模型?模型真的是越大越好嗎?
要回答這個問題,得先理解,ChatGPT 和 GPT-4 能表現出類人的圖片和語言理解能力,就是因爲 " 湧現現象 ",說得通俗一點,就是 " 開竅了 "。
湧現現象,是指在當大模型的數規模達到一定程度時,其解決問題的能力就會發生突變。大模型能力的提升,很大程度上依賴于這種湧現能力,也就是 " 大力出奇迹 "。所以,現在模型規模被越做越大,一定程度上因爲大家想要通過增大參數規模來獲得更多的湧現能力。
目前這一能力通常在百億、千億級别的參數區間出現。" 但具體多少參數能夠出現湧現現象,也與具體任務、具體模型有關,某些任務 13B 規模即可,有些任務需要 540B,大部分要達到 70B。" 新浪新技術研發負責人張俊林提到。
但模型做大之後,卻又帶來産業落地方面的問題。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,這讓一些垂類領域,如學校,醫院等場景很難負擔得起。
因此,在産生 " 湧現能力 " 的阈值後,如何将模型做 " 小 " 反而是産業落地的一個重要課題,并且也是技術發展的一個重要方向。
那麽問題來了,如何既将模型做小,又能保證湧現能力呢?
張俊林提到幾個例子,比如 DeepMind 發布的 Chinchilla 和 Meta 發布的 LLaMA,其中 Chinchilla 的模型規模隻有 70B,LLaMA 的模型規模在 7B 到 65B 之間,都是目前規模相對較小的模型。
而從實驗結果上看,即使模型規模相對較小也同樣可以具備湧現能力,但前提是增加更多的訓練數據量。以 Chinchilla 爲例,其對标的模型規模是 280B 是 Gopher,而 Chinchilla 能夠以 70B 的參數規模做出同樣的效果,代價是将訓練數據提升了 4 倍。
因此,張俊林認爲:" 減小模型大小增加訓練數據數量,可能不影響小模型的湧現能力。" 這成爲做小模型的一個前提。" 在這樣的基礎上,我們或許可以先做小,再做大。"
在解決了湧現能力之外,将模型做小的另一個原因在于,現在大模型的許多參數其實并沒有被有效利用。
DeepMind 在 2022 年的一個研究中提到,在給定總計算量不變的情況下,模型訓練 Loss 在模型參數量和訓練數據量的變化存在一個最優的平衡點。
該研究給出了三種最優計算方式,并且比較了 GPT-3 等千億模型,發現它們都沒有達到理論上的最優點,這意味着 GPT-3 龐大的數據其實并沒有被充分利用。
達觀數據董事長 CEO 陳運文認爲,當下的千億參數模型可能隻發揮了百億模型的理論效果,一些參數可能被浪費了。換句話說,千億規模的大模型其實是可以壓縮,并做得更小的。
Meta 在這方面就曾做過嘗試,2023 年 Meta 推出百億規模的模型 LLaMA,雖然參數規模隻有百億,不到 GPT-3 的十分之一,但通過實驗顯示在下遊任務中的表現好于 GPT-3 等千億規模的模型。這其中的關鍵在于,Meta 使用了 1.4 萬億 Token,是 GPT-3 的近 4.7 倍。
所以陳運文也認爲," 整體來看盡管模型的參數規模越大越好,但性價比更高的參數規模方案仍然值得探索。"
除了将 " 大 " 模型做 " 小 " 更利于産業落地之外, 通過更新指令學習方法,用更小的樣本獲得更好的學習效果也是目前國内在探索的方向。
做這樣的探索也和目前中文産業面臨的客觀環境有關。一方面,中文數據在整個互聯網中的占比本身就比較小,僅有 5% 左右。另一方面,即使數量龐大的英文數據在模型爆炸的今天也面臨着即将被耗盡的問題。
有研究預計,互聯網上可用的數據資源很有可能會被耗盡,其中高質量的語言數據大約在 2026 年耗盡,低質量語言數據大約在 2050 年耗盡,視覺圖像數據也将在 2060 年耗盡。
因此,如何提高數據的利用效率成爲一個重要的課題。
目前,AI 大模型的理解能力主要來源于兩個方面,即 " 預訓練 + 參數微調 " 以及 " 預訓練 + 提示學習 ",這兩個學習方式各有優劣。
其中 " 預訓練 + 參數微調 " 會面臨資源占用過多,過拟合問題嚴重,缺乏通用能力等問題。而提示學習也有單一的外部提示信号難以最大限度地激發預訓練大模型的能力,從而高質量地完成具體任務的問題。
在這樣的背景下,行業提出了從提示學習到指令學習的改變。
所謂指令學習,是指通過若幹任務相關提示增強來監督數據,優化模型參數。即通過參數微調提升多任務執行效果,利用提示語出發模型執行特定任務。
其核心在于,它仍然像微調一樣調整其中的參數來使大模型适應不同的任務,但調整完成之後的模型是一樣的,所有的任務都可以對應一個模型。
有了這樣的調整,對大模型的訓練效率就會提升。
比如在 Google 的一個案例中,他們在 62 個數據集中的 40 個任務進行訓練。但模型參數達到百億規模之後,這幾十個參數的聯合指令學習卻可以解決許多之前未訓練的問題。
在這之前,大家普遍應用的是多任務學習,即學習一個任務解決一個任務,沒有學習過的任務就沒法解決。而在這之後,一些之前沒有訓練過的任務也能夠被解決,即大模型的通用能力在增強。
但要實現這個問題,找到合适的指令就變得非常重要,畢竟不同的任務、不同的樣本、用什麽樣的提示語才能獲得更好結果是需要去嘗試的。
這也是 OpenAI 選擇免費開放 ChatGPT 的一個重要原因,因爲它需要通過這種方式收集全球的問題指令,來完成大模型的進一步優化。
李彥宏也在文心一言發布會上提到,之所以選擇在這個時候發布文心一言,除了許多業務和客戶需要這項技術外,也因爲文心一言本身需要通過用戶使用來收集數據。
針對這個場景,中科院自動化所就提出,能不能通過機器自動去尋找這些提示語,讓整個模型的效果變得更好。因此他們提出了統一的提示語學習方法,可以同時建模任務級信息和樣本級信息。
這種學習方法的優勢在于,它可以爲每個任務學習以一個提示,爲任務中的每個樣本學習一個提示,然後将兩類提示信息進行融合,獲得最佳提示。
通過統一提示學習方法,中科院自動化研究所的 SuperGLEU 标準數據集上取得少樣本學習的最佳平均性能。
其中,在單任務和句子分析上,Dyanmic-UPL 獲得了 83.2 分,GPT-3 則是 70 分。而在雙任務和雙句子的分析上,Dyanmic-UPL 獲得 70 分,GPT-3 是 49.8 分。
03 得到一個好答案,不如提出一個好問題
GPT-4 依然在不斷突破着人們對 AI 認知的可能性,對意圖理解的高度提升,并且不僅停留在語言上,更升維到圖像裏。另外,它還擁有幾乎全能的專業和職業技巧,人類生物腦無法比拟的數據存儲容量、進化速度。
這幾點加起來,就非常可怕。有網友就貼出了一張 ChatGPT 回答的圖片:
興奮之後,技術進步帶來的總是焦慮。
18 世紀 60 年代,當珍妮機大規模進入工廠拉開第一次工業革命的大幕時,就曾有大批紡織工人聚集起來,将制作好的 " 珍妮機 " 通通搗毀。兩百多年後的今天,當 ChatGPT 風靡全球之後,人們争相讨論的焦點仍然是 " 誰将會被替代 " 的問題。
但實際上,"GPT" 們要全面替代人可能并不容易。
我們會看到,ChatGPT 能夠寫作,能夠做規劃,甚至能自動編程、Stable Diffusion 能夠完成 AI 繪畫,以及各種能自動生成周報,能寫詩的大模型和産品層出不窮。
但這些強大的能力背後仍然需要人去操作,這其中甚至需要人具備更多的專業知識。
比如在下面這張圖片生成中,創作者對 AI 的創作進行了詳細的規劃,包括風格、眼睛、衣服、甚至光線。
在這樣的限制下,AI 就能發揮出比較穩定的結果,生成出高水平的作品。而這些詞彙,在大模型的生成訓練中被稱爲 " 提示詞 ",提示詞越準确生成的結果越好。
從光錐智能獲得的一份關于 AI 繪畫的提示詞中可以看到,其中涉及到許多專業詞彙,比如東方山水畫、日本浮世繪、抽象風、墨水渲染、概念藝術、哥特式黑暗等等。
可以看到,對這些詞彙背後的含義,用在繪畫上的效果以及如何搭配更富有美感,非專業人士其實并不容易掌握。
再以編程爲例,普通人确實可以随機讓 ChatGPT 編寫一條程序,但面對複雜 APP 時,什麽樣的提示詞能夠獲得最優的代碼,系統整體代碼需要如何架構、程序如何編寫運行更有效率、AI 生成的程序是否存在錯誤等等,這些也并非普通人上手就能完成的。
也就是說,雖然 GPT 這類的大模型降低了許多工作的門檻,但這些工作的上限并沒有改變。即普通人能夠生成一些基礎的内容,但要持續、穩定、高質量的生成專業内容,對背後操作人員的專業性仍然具有挑戰。
比如在 NLP 大模型研發領域,由于不同提示語産生的結果往往差異很大,如何爲每個問題尋找提示語成爲難題。 中科院自動化所研究員張家俊提到,現在行業裏出現了一個提示工程師的職業,工作就是研究如何爲每一個問題尋找最佳的提示語。
也就是說,在大模型應用之後,許多人的工作不是被替代掉了,而是轉變了工作性質和工作方式。比如畫師從具體動手畫一幅畫轉變成提出想法、豐富細節,然後讓 AI 去做執行。
而這個過程本質上是 AI 在作爲一種工具去提高勞動者的勞動效率。但同時,也是 AI 在反向給人類工作者提出更高的要求,即在 AI 能夠将一些想法直接變成現實的背景下,相比于給出一個好的答案,不如提出一個好的問題。
正如李彥宏在文心一言發布會上提到的,随着大模型的使用,腦力工作者的效率會有 4 倍的提升,許多人的工作性質會發生不可逆轉的改變。
但不可否認的是,随着大模型的普及,大多數的現有工作和崗位配置的價值定位都需要重新思考。同時我們對于人才培養的标準、篩選模式都需要重新構建。
畢竟 GPT-4 在考試中已經能夠超過 80%~90% 的學生,如果僅僅依靠考試成績來篩選人才,那對于大多數崗位來說,不如選擇 AI。
所以,在 AI 席卷的未來,人類工作者如何找到新的定位,不僅是某一個人的問題,也是整個社會的問題。
我們原本以爲人工智能發展之後,優先替代的會是簡單重複勞動,但技術人意外的是,它優先替代的卻是有創造性卻又不那麽強的崗位。
所以,至少目前而言,那些月薪幾萬的崗位可能會被替代,但你月薪 3000 搬磚的崗位暫時會比較牢靠。
畢竟,AI 大模型也是有成本的,它可比你貴多了(Dog)。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App