2023 年 5 月,微軟 CEO 納德拉抛出一個驚人數字,未來全球的開發者數量将會達到 10 億。
那時候 Meta 的 Llama 已經開源 4 個月,但一些國内的開發者發現,從小以英文語料喂養起來的 Llama,對中文世界并不友好。
這未來的 "10 億 " 開發者裏會有多少中文開發者,這個問題難以預測,但至少已經有 755 萬人了。
755 萬人,這是 2021 年在 GitHub 上注冊的中國程序員數量,現在的程序員一定會是未來大模型的第一批開發者。
有很多人已經是了。
在浙江省電力設計院工作的陶佳,嘗試用一個開源的大模型來做基于私有知識庫的檢索問答類應用。他所面對的場景很特殊,經常需要從幾十萬甚至上百萬字的文檔中查找内容。陶佳的專業是電力系統控制優化,裏面有一些結合了傳統數學方法和 AI 方法的領域,因此對 AI 有基本認識,也從去年底就一直在關注着這波大模型的浪潮。
他試了幾款,試下來通義千問是最好的。" 準确,而且‘手感’很好,沒有那些稀奇古怪的 bug",他說。
要做的事也很簡單。有一些基本的軟硬件基礎後,在家裏買個服務器、扔三四塊顯卡上去,下載通義千問、讓它在服務器上運行,再搞個 FRP 反向代理,從阿裏雲上買最便宜的 30 多塊錢一個多月的服務就行,這樣就能通過外網訪問家裏的服務器,在單位裏也能用通義千問做實驗。
陶佳搭建的服務器
當一個開源生态開始成型,這樣的開發者也逐漸變多。
開始閉環的開源生态
陶佳對大模型最深處的期待來自一個終極問題:人類能否成爲上帝?
美國的未來學家庫茲韋爾在 2015 年曾經提出過這種可能性。庫茲韋爾的想象裏,人類到 2030 年将能夠成爲半機器人。通過在腦中植入納米機器人,人類将能夠直接接入互聯網,智力将變得更高,并且将擁有幽默、音樂和愛等美好的天賦和能力。人類将成爲像上帝一樣的完美存在。
那一年 OpenAI 剛剛建立,但 8 年前庫茲韋爾的設想放到現在仍然有相似的地方,隻不過現在看起來好像在一個機器人(Agent)中加入意識和人性,這條路好像更近點——也就是 AGI。
但哪怕技術是爆炸、是躍遷式的,現在離 AGI 還很遠。如果說 AGI 會再造一個新的世界,那當下人類對大模型的期待,仍然是在現實基礎上改造世界。而這首先需要建立在我們知道這個世界是什麽樣子的,哪裏需要被改造。世界真實的聲音需要被聽到,建立一條通道非常重要。
大模型時代的開源,意義就在這裏。來自不同現實場景,又具有代碼能力的人們需要一個廣場,來讓技術主動和場景對齊,然後具有代表性的産品才能夠出現。
這個廣場要供大家交流用,還要有充沛且價格合适的算力資源,同時也需要足夠豐富的可調用模型來做選擇。開發者要的是這樣一個閉環的開源生态,通義千問的優勢開始顯露出來。
算力是關于大模型所有想象力的基礎。通義千問背後的阿裏雲擁有國内最強的智能算力儲備作爲基礎設施支持。其智算集群可達最大十萬卡 GPU 規模,這意味着在阿裏雲上可以承載多個萬億參數大模型同時在線訓練,爲大規模 AI 集群提供無擁塞通訊的自研 RDMA 網絡架構和低成本高可靠的高性能存儲 CPFS。
而在 4 月,阿裏雲在推出通義千問的同時,也宣布了史上最大幅度的一次降價,對比上一代主售産品最高可下降 40% 的同時,還開放了計算、存儲、數據庫、機器學習等核心産品免費試用的機會。這爲大量新湧入的 AI 開發者提供了嘗試和試錯的機會。
在阿裏雲的算力支撐下,像陶佳一樣的開發者開始帶着 " 野心 " 湧入魔搭社區。
去年 11 月的雲栖大會上,阿裏雲與 CCF 開源發展委員會共同推出 AI 模型社區 " 魔搭 "ModelScope,在社區上線同時貢獻了 300 多個 AI 模型,全面開源開放,其中超過 1/3 爲中文模型。上線一年後,魔搭社區上的 AI 開發者數量已經超過 280 萬人,AI 模型超過 2300+,下載超過 1 億 +。
随着大模型的熱潮轉向 Agent,魔搭社區在今年 9 月推出了 AI Agent 開發框架 ModelScope-Agent,并且搭建了一個 " 打樣産品 "ModeScopeGPT,它可以調用社區裏衆多 AI 模型的 API,然後自主完成人類布置的任務。這個 ModeScopeGPT 的調用量已經超過了 40 萬次。
除了通義千問之外,Llama 2、智譜 AI、百川智能甚至最新推出大模型的零一萬物等近百款開源模型目前都已經進入社區。并且 " 目前中國有一半大模型企業跑在阿裏雲上 ",阿裏雲 CTO 周靖人在 2023 年雲栖大會上這樣說的時候,魔搭已經是此刻國内規模最大、用戶最活躍的 AI 模型開源地。
正在擴展的參數量
12 月 1 日,阿裏雲舉行通義千問發布會,開源了通義千問 720 億參數模型 Qwen-72B。在參數量上這是目前國内主流視線中最大的開源大模型,而在能力上,Qwen-72B 的性能已經在測試中超越開源标杆 Llama 2-70B。
Qwen-72B 的訓練基礎是 3T tokens 的高品質數據,它采用了更多的參數和訓練數據,實現了全面的性能提升。這個模型延續了通義千問預訓練模型的卓越表現,在 10 個權威測評中取得開源模型中的最佳成績,并在某些評測中超越了非公開的 GPT-3.5 和 GPT-4。
在英語任務方面,Qwen-72B 在 MMLU 基準測試中獲得開源模型中的最高分。在中文任務中,它在 CEVAL、CMMLU、Gaokao 等評測中領先,甚至超過了 GPT-4。在數學推理領域,Qwen-72B 在 GSM8K、MATH 評測中遠超其他開源模型。同時,在代碼理解任務上,通過 HumanEval 和 MBPP 評測,Qwen-72B 展示了顯著的進步,其代碼能力實現了質的飛躍。
從 8 月初開始,Qwen-7B 和 Qwen-7B-Chat 兩款開源模型在魔搭社區上線開始,通義千問自身的模型開源開始提上日程。8 月 25 日,以 Qwen-7B 爲基座語言模型研發,支持圖文輸入,具備多模态信息理解能力大規模視覺語言模型 Qwen-VL 開源。
Qwen-VL 開源的一個月之後,阿裏雲在 9 月 25 日開源了通義千問百億級的參數模型 Qwen-14B 及其對話模型 Qwen-14B-Chat。這款模型在性能上開始第一次看向 Llama-70B,加上前幾款開源的模型,一個多月時間内在開源社區的下載量突破 100 萬,在性能和可用性的平衡上,70 億和 140 億參數的尺寸也是對開發者最友好的。
但當這個大模型開源生态開始走深,開發者對模型的性能上限有了更高的要求,也就需要更大參數的模型。Qwen-72B 開始吸引到一些初創團隊的目光。
" 我對 72B 的模型抱有非常大的期待,好奇 72B 在我們領域中的能力極限值。"
顔鑫是華東理工大學 X-D Lab(心動實驗室)的成員,X-D Lab 實驗室之前的研究方向包括社會計算與社會智能、群體智能與隐私保護、公共衛生與輿情監測、工業智能與智能系統等方面,大模型出現之後,開始聚焦 AI 情感計算領域。
基于開源的通義千問基座模型,顔鑫和其他團隊成員陸續開發了心理健康大模型 MindChat(漫談)、醫療健康大模型 Sunsimiao(孫思邈)、教育 / 考試大模型 GradChat(錦鯉)三款垂直領域大模型,現在已有超過 20 萬人次使用過這三款大模型,累計提供了超過 100 萬次的問答服務。
考慮到計算資源的限制以及一些客戶對于私有化部署的需求,顔鑫表示目前團隊在提供問答服務時 7B 或 14B 尺寸的大模型是更合适的選擇,但在更開放的學術探索上——比如如何利用聯邦學習算法處理數據—— Qwen-72B 有着前者不具備的性能優勢。
而開源模型參數量的向上探索,未來也有機會推動 ModelScope-Agent 這樣關于如何接近 AGI 的暢想更接近現實。
此前在阿裏從事大數據業務近 7 年的秦續業,現在身份是未來速度 Xorbits 聯合創始人 &CEO。Xorbits 打造了企業級的分布式推理框架 Xinference。通過 Xinference,開源模型可以降落在個人用戶和開發者的個人電腦上,企業用戶能夠在計算集群上輕松部署并管理模型,享受私有化部署帶來的安全、定制化以及低成本。
秦續業表示,如果外接知識庫做問答應用,通過大模型召回一些數據,放到上下文中進行總結,最後給出有用的回答,那麽小尺寸(10B 以下)的模型是夠用的。如果需要具備一定的邏輯推理能力的模型,20-30B 的中等尺寸模型是比較好的選擇。
" 但在 Agent 或者需要強大推理能力的場景中,70B+ 的大模型會更有優勢。"
AI Agent 是秦續業遠處的期待,但他同樣也是個現實主義者。眼下把模型用起來是更重要的事情,所以 Xorbits 已經攻克的焦點,是讓通義千問跑在一台 Mac 電腦上。
秦續業覺得這一點能擊中很多人。因爲很多開發者都是用 Mac 電腦,他們直接在本地拉起 Qwen 系列模型,可以極大提升開發效率。
Qwen 系列的全尺寸完善不止一個 72B 的大參數模型。與 Qwen-72B 同步,阿裏雲此次開源了通義千問 18 億參數模型 Qwen-1.8B 和通義千問音頻大模型 Qwen-Audio,至此,通義千問開源光譜已經了覆蓋從 18 億、70 億到 140 億、720 億參數的 4 款大語言模型,以及視覺理解(Qwen-VL)、音頻理解兩款多模态大模型。
大模型的開源生态,這是 AI 時代最終能夠洶湧而來的一味藥引。周靖人對通義千問的定位是 "AI 時代最開放的大模型 ",現在打點好一切,靜待開發者入場了。