近日,網易有道 CEO 周楓在個人公衆号發文,探讨大語言模型技術帶來的三項根本性新能力。他指出,在大模型帶來的新能力中,湧現能力、作爲基座模型支持多元應用的能力和支持對話作爲統一入口的能力最爲關鍵,可能給業界和産品帶來長期影響,值得重點關注。
以下爲内容全文:
基于大語言模型技術的 ChatGPT 推出已經有 4 個月了,更多同類産品還在快速出現。比如,前天谷歌更新了 Bard,将輔助編程能力支持的語言數量擴展到 20 種。
然而,對大模型技術的重要性也出現了質疑,前段時間,吳軍老師就評價 ChatGPT 不算新技術革命,帶不來什麽新的機會,他認爲大模型仍然存在很多限制,不像大家追捧的那樣有吸引力。這篇文章發布後,網上也出現了多篇反駁文章。我不太關注這些争論,但我認爲有一個問題沒有被充分讨論,那就是大模型帶來的新能力中,哪些是最爲關鍵的,最有可能帶來長期影響的。
我認爲,與之前衆多的自然語言處理技術相比,大語言模型至少具有三項根本性新能力,這些新能力在學術界已經被廣泛讨論,甚至被視爲常識,但是在産業界和産品團隊中卻缺乏足夠的關注。實際上,這些大模型技術的特點已經改變了我們對業務和産品規劃的思考方式,也會改變很多産品的經濟模型。因此,産品經理和業務負責人需要更多地關注和深入思考這些新能力的應用場景。
能力一:湧現能力(emergent abilities)
湧現能力指的是在小型模型中并不存在,但在大模型中 " 突然出現 " 的能力,其中包括常識推理、問答、翻譯、數學、摘要等(詳見下圖)。如果僅依靠小型模型的能力做線性外推,往往無法預測出湧現能力的出現和其強度。OpenAI 的首席技術官 Ilya Sutskever 在接受采訪時反複強調,盡管表面上看來,語言模型隻是在預測下一個詞元(token),但當模型足夠大,transformer 技術的建模能力足夠強時,基于内部表示的推理能力就會出現。因此,模型會呈現出與規模較小時完全不同的行爲,湧現全新的能力。
湧現能力之所以重要,不僅因爲它們是大模型出現後才有的新能力,而且由大模型湧現出來的多數是非常重要的能力。例如,常識推理能力一直是 AI 領域的重大難題,而大模型的出現使得常識推理取得了重大進展。此外,大模型還有機會進一步獲得更多能力。例如,一旦 " 推理 " 能力湧現," 思維鏈提示 "(Chain of Thought Prompting)策略就可以用來解決多步推理的難題。因此,湧現能力的出現,是大模型帶來的一項根本性變化。
能力二:作爲基座模型支持多元應用的能力
在 2021 年,斯坦福大學等多所高校的研究人員提出了基座模型(foundation model)的概念,這更清晰地描述了之前學界所稱的預訓練模型的作用。這是一種全新的 AI 技術範式,借助于海量無标注數據的訓練,獲得可以适用于大量下遊任務的大模型(單模态或者多模态)。這樣,多個應用可以隻依賴于一個或少數幾個大模型進行統一建設。
上圖展示了基座模型的結構,基座模型集中化了多模态數據,并且可以适配多元化的下遊任務。
大語言模型是這個新模式的典型例子,使用統一的大模型可以極大地提高研發效率,相比于分散的模型開發方式,這是一項本質上的進步。大型模型不僅可以縮短每個具體應用的開發周期,減少所需人力投入,也可以基于大模型的推理、常識和寫作能力,獲得更好的應用效果。因此,大模型可以成爲 AI 應用開發的大一統基座模型,這是一個一舉多得、全新的範式,值得大力推廣。
能力三:支持對話作爲統一入口的能力
讓大語言模型真正火爆的契機,是基于對話聊天的 ChatGPT。事實上,業界很早就發現了用戶對于對話交互的特殊偏好,陸奇在微軟期間 2016 年就推進 " 對話即平台(conversation as a platform)" 的戰略。此外,蘋果 Siri、亞馬遜 Echo 等基于語音對話的産品也非常受歡迎,反映出互聯網用戶對于聊天和對話這種交互模式的偏好。雖然之前的聊天機器人存在各種問題,但大型語言模型的出現再次讓聊天機器人這種交互模式可以重新想像。用戶愈發期待像鋼鐵俠中 " 賈維斯 " 一樣的人工智能,無所不能、無所不知。這引發我們對于智能體(Agent)類型應用前景的思考,Auto-GPT、微軟 Jarvis 等項目已經出現并受到關注,相信未來會湧現出很多類似的以對話形态讓助手完成各種具體工作的項目。
圖爲微軟最新項目 Jarvis 的工作流程,Jarvis 将通過任務規劃、模型選擇、任務執行、生成響應四個步驟,結合 HuggingFace 上的衆多模型,完成多模态的複雜 AI 任務。
随着大型語言模型技術越來越受歡迎,我們可以期待它帶來更多的驚喜,特别是考慮到上面讨論的這些大型模型帶來的關鍵新能力,周明等人所預測的語言智能黃金十年(2020-2030)很可能會成爲現實,這正是一個令人興奮的時代。