作者 | 周愚
編輯 | 鄧詠儀
在這場國内大模型的 " 百模大戰 " 中,開源生态正在日趨活躍。
8 月 3 日,AI 模型社區魔搭 ModelScope 上架兩款開源模型—— Qwen-7B 和 Qwen-7B-Chat,阿裏雲已确認其爲通義千問 70 億參數通用模型和對話模型,兩款模型目前均開源、免費、可商用。
至此,阿裏雲稱已經成爲國内首個開源自家大模型的大型科技企業。
來源:阿裏雲
具體到參數上,Qwen-7B 基座模型支持中、英等多種語言,在超過 2 萬億 token 數據集上訓練,上下文窗口長度達到 8k。開源代碼支持對 Qwen-7B 和 Qwen-7B-Chat 的量化,用戶可以在消費級顯卡上部署和運行模型。
用戶既可從魔搭社區直接下載模型,也可通過阿裏雲靈積平台訪問和調用 Qwen-7B 和 Qwen-7B-Chat,阿裏雲包括模型訓練、推理、部署、精調等在内的全方位服務。
開源是追趕已有閉源模型的有效道路。但如今在海外,Meta 旗下的 Llama 2 在上個月開源,免費也可商用,一經推出,就被視作最強開源大模型。
而在國内,百川智能發布的 Baichuan-7B、清華大學和智譜 AI 發布的 ChatGLM2-6B 等開源大模型,也是 AI 初創企業中無法忽視的力量。這些開源動作無疑影響了大廠——此前,國内大廠普遍選擇不開源。如今,阿裏通義千問的開源,無疑是意味着大廠大模型思路的一場轉變。
其實,阿裏雲的開源戰略早有端倪,爲通義千問的開源做出了鋪墊。
此次上架通義千問開源模型的魔搭 ModelScope,是阿裏雲于去年 11 月初牽頭發起的 AI 模型社區。目前,魔搭聚集了 20 多家人工智能機構貢獻的 1000 多款開源模型,開發者數量超 160 萬,模型下載量超 2500 萬。
在今年 6 月舉行的 2023 開放原子全球開源峰會上,阿裏雲還公布了 "1+4" 開源戰略。除魔搭社區外,阿裏雲還将聚焦操作系統、雲原生、數據庫、大數據等四大開源領域。
開源的同時,阿裏雲也公布了通義千問 7B 預訓練模型在多個權威基準測評中的表現。
在英文能力測評基準 MMLU 上,通義千問 7B 模型得分超過一衆 7B、12B、13B 主流開源模型。在中文常識能力測評基準 C-Eval 上,通義千問在驗證集和測試集中也都是得分最高的 7B 開源模型。
在數學解題能力評測 GSM8K、代碼能力評測 HumanEval 上分别得分 51.6、24.4,超過所有同等尺寸和部分大尺寸開源模型。來源:阿裏雲
附開源地址:
魔搭 Model Scope:
https://modelscope.cn/models/qwen/Qwen-7B/summary
https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
Hugging Face:https://huggingface.co/Qwen
GitHub:https://github.com/QwenLM/Qwen-7B