大模型激戰之際,繼海外的 Meta 之後,阿裏巴巴成爲又一家推動人工智能(AI)大模型 " 安卓時刻 " 潮流的科技巨頭。
8 月 3 日周四,阿裏雲将 70 億參數的通義千問模型開源,包括通用模型 Qwen-7B 和對話模型 Qwen-7B-Chat。這兩款模型均已上線國内首個 " 模型即服務 " 開放平台魔搭社區,開源、免費、可商用。
開源代碼支持對 Qwen-7B 和 Qwen-7B-Chat 的量化,支持用戶在消費級顯卡上部署和運行模型。用戶既可從魔搭社區直接下載模型,也可通過阿裏雲靈積平台訪問和調用 Qwen-7B 和 Qwen-7B-Chat,阿裏雲爲用戶提供包括模型訓練、推理、部署、精調等在内的服務。
魔塔社區已有發帖,專門介紹通義千問上述模型的安裝、創空間體驗、模型推理、模型訓練最佳實踐,并附有模型鏈接及下載情況截圖。
公開資料顯示,Qwen-7B 使用去重及過濾後超過 2.2 萬億 tokens 的數據進行預訓練,是支持中、英等多種語言的基座模型,上下文窗口長度達到 8k。它包含高質量中、英、多語言、代碼、數學等數據,囊括全網文本、百科、書籍、代碼、數學及各個領域垂類。
評測英文綜合能力的基準評測之一 MMLU 的評測結果顯示,在英文評測方面,Qwen-7B 的效果超過了目前國内外其他同類開源預訓練模型,對比更大規模版本的模型也具有較強競争力。中文評測方面,在 C-Eval 驗證集上,Qwen-7B 在同等規模現有模型中取得了最高分數,甚至相比更大規模模型也具有較強競争力。
以下爲 Qwen-7B 的 MMLU 5-shot 準确率結果對比。
在 Qwen-7B 的基礎上,阿裏雲使用對齊機制打造了基于基座模型的 AI 助手 Qwen-7B-Chat。它是基于 Transformer 的中英文對話大語言模型,已實現與人類認知對齊。預訓練數據類型多樣,覆蓋廣泛,包括大量網絡文本、專業書籍、代碼等。
無論是在 C-Eval 驗證集上,還是在 MMLU 評測集上,Qwen-7B-Chat 模型的 zero-shot 準确率均在同類對齊模型中表現較優。
以下爲 C-Eval 測試集上的 zero-shot 準确率結果對比。
通義千問的開源後,阿裏雲成爲國内首個加入大模型開源行列的大型科技企業。今年 7 月,微軟宣布,聯手 Meta 發布開源 AI 模型的可商用版本 Llama 2,提供 OpenAI 和谷歌模型的平替産品。也是在 7 月,智譜 AI 及清華 KEG 實驗室公布,中國頂尖開源大模型ChatGLM2-6B 允許免費商用。
華爾街見聞此前文章提及,開源模型的好處包括用戶的接受率更高,然後輸入更多數據供人工智能處理。LLM 擁有的數據越多,其功能就越強大。此外,開源模型使研究人員和開發人員能夠發現和解決漏洞,同時提高技術和安全性。
今年 4 月的 2023 阿裏雲峰會上,阿裏巴巴宣布向企業開放通義千問,企業可以調用通義千問的能力訓練自己的大模型。
阿裏雲智能集團首席技術官(CTO)周靖人當時介紹,未來企業在阿裏雲上既可以調用通義千問的全部能力,也可以結合企業自身的行業知識和應用場景,訓練自己的企業大模型。比如,每個企業都可以有自己的智能客服、智能導購、智能語音助手、文案助手、AI 設計師、自動駕駛模型等。
阿裏巴巴集團 CEO 兼阿裏雲智能集團 CEO 張勇當時稱,阿裏巴巴所有産品未來都将接入通義千問大模型。
張勇表示,面向 AI 時代,所有産品都值得用大模型重做一次,而基于這一信念,阿裏雲也希望幫助更多企業用上大模型,讓每家企業都能基于通義千問,擁有具備自己行業能力的專屬大模型。