本文摘自《雲栖戰略參考》,這本刊物由阿裏雲與钛媒體聯合策劃。目的是爲了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的 " 數字先行者 " 共同探讨、碰撞,希望這些内容能讓你有所啓發。
本文來源 陳海青的訪談,陳海青「阿裏雲創新業務中心負責人、資深算法專家」
在 AI 加速走進千行百業的當下,大模型的技術創新和行業應用成爲企業關注的焦點。
2018 年,阿裏巴巴就已啓動大模型的相關研究,2022 年 9 月發布 " 通義 " 大模型系列。今年 4 月," 通義千問 " 發布後,意味着阿裏雲将大模型能力正式規模化走向企業和産業應用。
以飛天雲計算操作系統爲基礎底座,構建層次化的模型體系,其中通用模型層覆蓋自然語言處理、多模态、計算機視覺,專業模型層深入金融、傳媒、汽車、電商、醫療、法律等行業。通用與專業領域模型協同,讓通義大模型系列可兼顧性能最優化與低成本落地。
通過梳理從 " 通義 " 系列大模型産品的發展路徑到其在企業和行業的應用進展,以及阿裏雲的産品思路、技術與業務結合的探索,了解通義大模型的能力,也就更能理解未來通義大模型将如何助力産業真正智能化。
" 通義 " 系列的研發路徑
阿裏在 2018 年就開始布局大模型技術鏈路。前期,在産業界落地的 90% 以上的業務是以理解型業務爲主。生成式大部分是以驗證性爲主,比如商品描述生成等一些任務。後期,阿裏雲開始布局整個 " 以生成式任務爲核心 " 的研究線,并且認爲生成式任務可能是未來的主流,研究方向包括了文生文和文生圖等模型。除了底層研究外,還搭建了原型産品,并結合技術做整體推進。
2022 年 9 月,阿裏雲發布了 " 通義 " 大模型系列。" 通義 " 模仿了人類構建認知的過程,将語言、語音、視覺等多模态和多任務考慮到統一模型範疇内。通義大模型也在業界首次實現模态表示、任務表示、模型結構的統一,讓模型可同時處理含語言、圖像、語音、視頻在内的 30 多種跨模态任務。
2023 年初,GPT 和 OpenAI 的出圈是一個業界的标志性事件,讓業界看到以基礎大模型爲核心,從單任務能力增強演進到 All-in-One 的能力體系。
如今,大模型已經逐步變成了一種基礎設施。比如通義千問可以很好地完成摘要、續寫,這種能力不僅僅作用于單行業和單任務,更是逐漸下沉爲一個更廣義的基礎設施和全面能力。從模型檢索、模型更新、訓練、部署,再到推理、監控全流程一站式的模型服務能力,成爲了新的 MaaS。由此,各行各業 APP、所有業務、所有産業,都可以基于大模型重新做業務效率和用戶體驗的提升,也值得把每一個系統和能力重新做一遍。
目前,通義系列産品分成兩類。一類 To D,即 To Developer,推出了 DashScope 靈積平台;第二類 To B,即企業 / 行業專屬大模型平台。
從架構上來看,最底層,一定是基于阿裏雲的雲基礎設施,因爲大模型必須依賴于高性能網絡 RDMA、高性能存儲、高性能 GPU;中間層,一定依賴于 PAI(Platform for AI)以及靈駿,即大規模的高性能服務器集群和能力,而架設在最上層的 DashScope 靈積,是面向開發者的模型服務平台,在開放基礎模型上提供離線、精調、持續訓練及在線推理的服務和能力,更加原子化、靈活、友好地面向開發者。
對模型本身來講,需要具備供開發者使用的基本能力。比如推理方面,特别是高性能的推理可實現 int8,甚至更少的 int4 無損高精度推理;能夠支持基于基礎模型 fine-tuning、SFT(supervised fine-tuning)或 continue training,甚至未來會支持 embedding,還有 plugin 框架的能力和體系。
企業 / 行業專屬大模型平台,核心是在基礎能力之上做了一層封裝,圍繞着大模型的基礎軟件能力、插件能力、工具能力,再結合實時數據、離線數據,在通義大模型基礎上幫助企業打造自己的專屬模型。
企業大模型第一層,關鍵在于如何結合企業數據,構建企業專屬模型。在這個過程中,阿裏雲爲企業提供大量工具,以 prompts 這條鏈路爲例,支持企業數據實現倒排索引或向量索引的索引化,再結合企業的實時數據和能力生成 pipeline,例如完成文檔生成。
第二層是 API 與大模型的結合能力。企業自身有 ERP 系統、用戶系統、訂單系統等,阿裏雲會提供開發工具或研發工具,與企業級工具做結合。
第三層是構建圍繞企業大模型平台的開發和離線等工具能力。例如,針對企業級的調試工作台,結合企業的業務場景,可提供評測平台、每日報表分析等系列能力。
從六月份開始,企業 / 行業專屬大模型平台已經逐步開放給外部企業和阿裏集團内部試用,同步推出一套可以支撐客戶上傳數據的離線管理模型評測,以及在線向量數據庫索引等 pipeline 流程的構建。
從技術到應用,定制企業專屬模型
大模型剛引起各界關注的時候,大家希望阿裏雲能夠提供對市場的教育以及相關技術培訓。随着大家對大模型技術認知有一定的基礎之後,客戶們的關注點也發生了一些變化,如希望進一步了解基礎模型的能力和優劣勢,如何接入并與企業業務結合調出更好的模型,以及成本、監管和安全等問題。
打造企業專屬模型,要從數據開始。上傳的數據會有兩種用途:一部分是用在離線場景,形成專屬模型或者場景。例如在阿裏雲上開設一個專屬 VPC(Virtual Private Cloud)空間,搭配數據上傳的服務和能力,再結合阿裏雲相關的技術産品,以結構化數據直接調用 fine-tuning 或者 SFT 接口做持續訓練和微調,從而構建企業的專屬模型。搭建完成後,直接删除專屬空間裏的數據。另一部分,會變成實時向量化索引、倒排索引,或部分能夠實時的變成接口和能力去跟大模型結合,從而能夠做對應的生成。
接入數據之後,阿裏雲會繼續幫助企業做再訓練和微調,提供從離線、在線到強化學習的 pipeline 的相應工具。
首先,構建離線的企業專屬模型。當客戶上傳了一部分數據之後,阿裏雲會根據客戶的數據和場景選擇不同的 SFT 模型和接口。SFT 有不同的方法,它可以作用于神經網絡不同層,所以在阿裏雲的企業專屬大模型平台上面可以支持不同行業和不同場景,不同的 SFT 方法高效産生離線模型。基于第一層産生的模型,阿裏雲會針對 SFT 優化之後的企業專屬模型,提供一套包含單獨測評和對比測評的評測方案和體系,進行模型的初步評測。
在線部分,則主要是根據支持多數據源的接入,包含上傳不同文檔的數據、數據庫導入的數據和場景。比如向量化索引、倒排索引或企業已有的接口,以接口的 influence interface 方式接入數據,使得模型能夠動态生成實時數據,或者上傳數據的檢索來支持 prompts 的檢索和接入。阿裏雲同樣會支持類似于 plugin 的插件方式,幫助企業把自己的 ERP、CRM、訂單系統、客戶系統等 API 和能力,插入到模型服務中來,使它能夠支持到 plugin 的場景,做端到端的閉環。
最後就是強化學習。阿裏雲會對整個強化學習的設計與專屬模型的閉環提供不同的反饋機制,使得在實際業務場景中得到客戶不同的反饋。對于目标數據的真實反饋或設計内置的強化學習 reward 函數,專屬模型會不斷閉環調優,過程中不會跟基礎模型産生任何的關聯影響。
當前,阿裏雲正在跟内外部客戶一起實踐和打磨技術的落地。僅在阿裏巴巴集團内部,對大模型的需求就有幾百個,包括簡單知識型提效類工具和深度需求。
第一類需求是關于業務改造,以大模型爲大腦和核心,将大模型集成進核心業務決策。
第二類需求是對業務和産品進行再造和創新,比如以旅遊爲主的飛豬或本地生活。
第三類需求是打開現有行業的寬度,比如天貓精靈從第二代系統以自然語言理解和知識引擎爲核心技術,到第三代大模型系統,拓寬了智能硬件的邊界,也帶來了巨大的市場空間和變化。
以釘釘接入大模型的項目爲例,在通義千問大模型的能力接入之前,首先要梳理、抽象項目任務。釘釘的主要應用場景有四部分:IM 即對話消息、會議和音視頻、文檔相關、低代碼平台,并包含了多個相關的下遊任務和場景。
之後,基于釘釘的實際場景構建高質量的 SFT 數據。以企業辦公場景的音視頻摘要爲例,需要倒排一百條或幾百條數據的摘要,我們希望構建下遊任務中的 CST 數據,再基于 pipeline 流程完成離線模型和在線模型的構建。
大模型的體驗優化,一部分源于基礎模型能力本身。例如協同辦公場景下的子任務和泛化性都應該由通義負責,或者通義結合釘釘一部分協同辦公的高質量數據構建的企業專屬模型完成;例如企業内部的問答、基于知識的問答摘要、頭腦風暴的寫作場景等,這些都應該是基礎模型結合高質量數據所散發出來的能力。
此外,包括釘釘的協同辦公場景在内,每一個行業都會有大量的實時數據,所以數據和場景是變化的。這就意味着今天對于模型在企業端或者在釘釘端的幹預,是對于 prompts 的幹預,它不僅僅是一個靜态的 prompts,有可能是會結合一些動态的接口數據、場景數據、人事數據、會議數據等,構建動靜态結合的混合數據。對于生成的幹預和部分結合動态數據的 prompts 構建,再結合 plugin 機制,則是由釘釘側或者業務側去完成的。
在項目實施中也有一些挑戰——釘釘的多任務都有不同高質量的 SFT 數據,如果隻是暴力的把多份 SFT 數據融合起來,直接灌入大模型,基于通義千問大模型重新做持續訓練或者做微調,會導緻在專屬模型上,不同的任務在數據構建的分布和場景下面會相互幹擾。
由此,在構建企業基礎模型時盡可能的保持 All-in-One 的機制,也是通義大模型在實踐中不斷探索的内容。
未來很長一段的時間裏,基礎模型和企業模型或許會并行協同發展,并達到一定的平衡。
一方面基礎模型會基于高質量的數據、高質量的場景、先進的算法和能力而逐步發展;另一方面,企業專屬模型和場景同樣也會結合企業下遊任務高質量數據混合去發展。但是,随着時間的推移,基礎模型會變得越來越強,未來能實現用更少的數據、更高的效率去構建專屬模型。
大模型的未來
All-in-One 大模型,可以把每一個下遊任務做整體效率和性能的提升。無論是阿裏内部還是各行各業的企業和開發者,都可以通過大模型把各自業務進行整體升級甚至是颠覆性創新。但大模型的應用和落地仍面臨很多挑戰,需要一個循序漸進的過程。
首先,大模型結合到企業級模型當中時,需要跟企業業務和行業做深度耦合。純粹的基礎模型或面向開發者的基礎模型,并不能完全滿足企業的訴求,這要求從企業專屬大模型能力出發,更好的結合企業級數據和能力。
此外,對企業級客戶來說,今天大模型訓練、推理部署的成本還是比較高的,但未來無論是推理成本還是離線訓練成本,一定會逐步叠代呈倍數或者指數級下降。
對大模型自身發展而言," 百模大戰 " 中,不同的大模型會在幾方面拉開差距:首先是算法本身,目前對外開源的技術路徑基本都停留在去年 3 月份的指令微調方法和零星的一些技術點上,未來行業需要更多地進行自主創新,包括模型和能力創新。其次是數據,實現規模化的 C 端強化學習仍然很困難,數據本身也需要梳理,除了底層非結構化數據,還需要大量高質量的指令微調數據。
打造大模型産品的差異化能力,關鍵有兩方面。第一,是對于模型本身的理解以及結合。因爲産品一定是包含了一個或者多個下遊任務,這個下遊任務又會跟行業相關。因此,通過高質量的 SFT 數據或者 instruct tuning 的數據,需要加入行業 Know-How,再快速構建基于下遊任務的模型。第二,大模型颠覆了很多産品的體驗,如何把下遊業務産品體驗做得更好成爲關鍵。例如搜索可能會變成以生成式内容爲核心的搜索體系。
在差異化能力之下,關鍵是要進一步創新。首先需要做好 instruct tuning,即擴展指令式的處理能力;其次增強推理能力,通過參數的增加、COT 能力的增強,讓大模型有可能像人類一樣推理;第三,從模态(多模态)本身來講,例如上傳一個圖片并加入 prompts,理解圖片并實現 prompts 的回複。未來不僅僅是文本本身的理解,還需要對圖片甚至視頻進行理解。
今天,具備算力優勢的雲廠商做大模型被認爲是順理成章,但更多的中小企業也不想錯失大模型的機遇。對中小企業而言,結合大模型的路徑也有兩條。
第一條路徑是不做大模型,而是做小模型。比較典型的就例如清華智譜 ChatGLM-6B 這類開源模型,通過更少的算力鎖定小場景下一個或者幾個下遊任務并結合數據。雖然成本低,但也會存在一些問題,比如不具備很強的 All-in-One 泛化能力,以及推理、智能等能力也相對較弱。
另一條路徑是與雲廠商合作。因爲雲廠商天生對量化計算的性能有極緻的追求,在高性能的雲計算基礎設施架構上,針對多任務的分布式推理、分布式的離線構建,能做到成本和性能的最優。以離線訓練爲例,一家小廠商搭建一個下遊任務模型,隻需要保持一年 1-2 次訓練頻率就可基本實現穩定;後續成本能更多的放在推理層。無論是按 token 付費 , 還是以獨占方式付費,模型整體方案成本都會大大下降。
本文摘自《雲栖戰略參考》2023 第一期
掃碼限時申領紙質版
↓↓