撰文 | 懂懂
編輯 | 秦言
來源:懂懂筆記
避免重複造輪子,前提是輪子已經造得很好。
大模型有多卷?
現在國内已經有 180 個以上生成式大模型,科技大廠、互聯網大廠紛紛入局,既有百度、浪潮信息、阿裏、騰訊等一衆巨頭,也有專攻 AI 的訊飛、商湯等垂直領域小巨頭,以及 " 日日新 " 的創業企業。
今天 A 廠商發布大模型,各種參數對比下來堪稱最強,第二天 B 廠商發布下來,又刷新了各種記錄。最強、最大、強快,有可能隻保持一天。這說明什麽?基礎大模型還有很大的進化空間。
11 月 27 日,算力龍頭企業浪潮信息發布了完全開源且可免費商用的源 2.0 基礎大模型,包含 1026 億、518 億、21 億不同參數規模,這也是國内首個千億參數、全面開源的大模型。
作爲一家做算力基礎設施的公司,爲什麽如此努力地卷大模型?浪潮信息高級副總裁、AI&HPC 總經理劉軍表示:最終用戶感受到的大模型能力是其在應用層面能力的表現,這些核心能力的本質,是由基礎大模型能力所決定的。在他看來,今天模型基礎能力與客戶預期之間仍有較大的差距,這也是浪潮信息不斷探索的原因所在。
GPT4 不是天花闆,百模大戰探索 " 更優解 "
GPT3.5 的發布,算得上是 AI 産業發展的一個重要拐點,很多人将之稱爲 AI 的 " 蘋果時刻 "。今年 3 月,OpenAI 發布了 GPT4,GPT4 的能力比 GPT3.5 有一個巨大的提升,GPT4 是當前業界最先進的技術大模型。
但是,即便是當前公認最先進的大模型,GPT4 其實也還有很多挑戰沒有解決。
比如算力短缺,一直是 OpenAI 在其迅速崛起過程中不得不面對的一個棘手問題。當用戶海量湧入的時候,OpenAI 已經出現過幾次崩潰的情況。爲此,OpenAI 采用了不同級别的會員收費,對用戶進行分層。并且還一度還采用停止注冊的方式來限制用戶的使用量,緩解算力壓力。
再比如 AI 幻覺。今天的 GPT4 給出的答案并不完全正确,有時候會有明顯的事實錯誤,有時候也會一本正經地胡說八道。這裏面也有很多原因,比如數據來源的問題,再比如不同法律體系、不同價值觀下的分歧等等。
GPT4 遇到的挑戰還有很多,這些都是整個行業正在面臨的挑戰。今天,看上去大模型這個領域非常卷,但本質上還是處于産業初期。一方面,國産基礎大模型的能力和 Open AI 之間存在較大的差距,另一方面即使是最先進的 GPT4,現在的能力還處于初級階段,很多問題依舊在探索開發。
通用大模型基座作爲通用人工智能的核心基礎設施,被嵌入到智能助手、機器翻譯、自動化客服等場景中,從而實現更加個性化、智能化、自适應的服務和應用。IDC 預測,到 2026 年,全球 AI 計算市場規模将增長到 346.6 億美元,生成式 AI 計算占比從 22 年 4.2% 增長到 31.7%。
通用大模型是大模型産業的地基,地基的深度和強度決定大廈的高度。大模型和應用之間的關系,如果用上學和工作來比喻:大模型是 12 年小初高階段,垂直行業大模型是大學分專業學習的階段,應用則是進入到工作崗位開始爲企業、社會創造價值的階段。
今年掀起百模大戰之後,業界有一種觀點認爲不應該浪費資源重複造輪子。但前提是輪子已經比較成熟,如果今天的輪子還不好用,就值得更多的企業投入進來,探索各種不同的路徑來把輪子造好。所以,最近業内正在形成新的共識:在産業初期,适度的泡沫還是必要的。中國大模型的 " 百花齊放 " 是利好的,很大程度它可以激活創新,促進産業生态的繁榮發展。
浪潮信息人工智能軟件研發總監吳韶華
" 确實在當前大模型百花齊放的态勢下,必然大家會有不同的實現路徑,也會有理念沖突,這都是特别正常的事情。因爲畢竟大家都在探索,都沒有出來一條非常有效的路徑。" 浪潮信息人工智能軟件研發總監吳韶華表示。
浪潮信息爲什麽也要進來一起卷大模型?浪潮信息左手有做大模型的夥伴,右手有做垂直行業應用的夥伴,可以說既懂底層技術又有上層應用經驗。更重要的是作爲一家算力基礎設施公司,在産業初期,浪潮信息在算力上的探索會給整個産業帶來很大的推動力,比如算力資源的高效性、算力集群的可擴展性、算力系統的可持續性,這些都能讓算力更充分地釋放出來,這對整個産業都有極大的價值。
浪潮信息做大模型主要是兩個維度的探索:一是探索路徑、方法,比如有什麽架構可以節省算力,什麽模型可以讓數據更精準等等。二是探索邊界,今天大模型已經能做很多事,但随着算力、算法、數據的叠代,新的能力也不斷被挖掘出來,大模型的上限到底在哪裏?
看上去已經很激烈的百模大戰,隻是生成式 AI 的起點。通用大模型是一項異常複雜的系統工程,需從系統層面達以創新,從算力效率、線性擴展、長效穩定等多個方面進行探索。今天,沒有哪個企業有絕對的優勢,算力、算法、數據三要素都有很大的進化空間,此外還需要更好的應用來落地大模型的價值。也就是說,大模型還要卷,同時應用也要卷,打通一個能持續跑起來的飛輪生态,百模大戰的效果才真正實現了。
基因、智商、情商,打造 " 三高 " 大模型
作爲最早布局大模型的企業之一,浪潮信息早在 2019 年就推出了中文 AI 巨量模型 " 源 1.0",是當時最大參數的大模型。" 源 " 大模型的數據集和清洗經驗和幫助國内不少 AI 團隊提升了其大模型的性能表現,比如助力網易伏羲中文預訓練大模型 " 玉言 " 登頂中文語言理解權威測評基準 CLUE 分類任務榜單,并在多項任務上超過人類水平。過去的兩年,源 1.0 大模型的智能力與 To B 領域複雜的服務場景進行深度融合,構建專家級數據中心智能客服大腦,榮獲哈佛商業評論鼎革獎。
但是,源 1.0 開放出來之後,在客戶的應用場景中遇到了很多具體的問題。所有這些問題,都是浪潮信息升級源 2.0 的發出點。此外,GPT4 是一個封閉的系統,就是一個黑盒子,大家不知道它是怎麽做的。那麽,中國的大模型也需要更多的創新,才有機會去超越 GPT4。
簡單來講,浪潮信息源 2.0 在數據、算力、算法三個維度向前邁進了一大步。在懂懂看來,數據決定大模型的基因,算力是決定大模型的智商,算法決定大模型的情商,所以這是 " 更聰明 " 的大模型的核心三要素,源 2.0 就是一個 " 三高 " 大模型。
先說說數據。
" 在有限的算力資源上,訓練數據的質量,直接決定了模型的性能,這個性能主要是指模型的智能化水平在任務上的表現。" 吳韶華強調,數據體量很重要,但是數據質量更重要。在源 2.0 中,浪潮信息的思路就是進一步提純數據,讓模型能基于更高水平的數據來訓練。
具體而言,源 2.0 通過使用中英文書籍、百科、論文等資料,結合高效的數據清洗流程,爲大模型訓練提供了高質量的學科專業數據集和邏輯推理數據集。除此之外,爲了更高效地獲得高質量的代碼數據集,浪潮信息提出基于主題詞或 Q&A 問答對自動生成編程題目和答案的數據集生成流程,提高了數據集問題的多樣性和随機性;同時提出基于單元測試的數據清洗方法,可以更加高效地獲取高質量數據集,提高訓練效率。
" 我們這套數據構建方法,能夠比較有效的解決互聯網海量數據清洗問題。我們後續的計劃是用我們的模型産生更高質量的數據,然後持續叠代,來提升我們大模型的能力。" 劉軍表示。
接下來講一下算法。
傳統 Transformer 結構被業界廣泛采用,但是對中文的識别并不是最佳模式。源 2.0 有一個很大的創新,就是把 attention(自注意力)這一層,采用了自研的新型 LFA(Localized Filtering-based Attention)結構,中文名字是局部注意力過濾增強機制。考慮到自然語言輸入的局部依賴性,LFA 通過先強化相鄰詞之間的關聯性,然後再計算全局關聯性的方法,有效地解決了傳統 Transformer 結構中對所有輸入的文字一視同仁,不能考慮自然語言相鄰詞之間的強語義關聯的問題,能夠更好地處理自然語言的語序排列問題,對于中文語境的關聯語義理解更準确、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。
" 我們發現在源 2.0 這個階段,依然是處于研究方向的初級階段,後面還有很多的可能性。圍繞着這個方向,我們團隊也會繼續研究下去,來嘗試進一步的得到更好的模型結構。" 吳韶華表示。
最後再來說說計算。
全球算力緊缺是一個短期内很難緩解的痛點,所以計算的調優,是整個産業都迫切需要突破的瓶頸,而這也恰好正是浪潮信息的優勢所在。
爲了在各類計算設備上都有一個非常好的計算性能表現,源 2.0 中提出了非均勻流水并行 + 優化器參數并行(ZeRO)+ 數據并行的策略。相較于經典的三維并且方法,創新算法有更好的适用性,顯著降低了經典大模型訓練過程中對于 AI 芯片之間的通訊帶寬需求,同時還能獲得非常高的性能表現。
大模型算力系統并不是算力的簡單堆積,其需要解決低時延海量數據交換的挑戰;需要解決多台機器均衡計算、避免冷熱不均、消弭算力堵點的問題;需要解決在幾個月漫長的計算過程中,當單一硬件出現故障時,訓練中斷、梯度爆炸、算法重新走一遍等等問題。所以,源 2.0 也不是浪潮信息的最終 " 答卷 "。盡管源 2.0 已經擁有非常出色的表現,但是在劉軍看來,這隻是開了個頭,未來還有很多值得挖掘的方向,浪潮信息會不斷創新升級。
卷大模型還是卷應用?都要從開源中找答案
是應該卷模型還是卷應用?業界是有不同觀點的。
很多做大模型的企業,都主張應該卷應用。現在百模酣戰,是不是可以向前邁一步,開始卷應用了?
百度李彥宏在今年 3 月份就提出下一步的方向是大模型的應用,随後在 10 月份的百度大會上一口氣發布了幾十個原生應用。從做大模型的企業來看,一定是在自己的模型上卷應用,讓模型不斷進化,讓應用價值不斷落地,這是沒有錯的。
浪潮信息高級副總裁、AI&HPC 總經理劉軍
那爲什麽還有那麽多企業參與到百模大戰當中呢?中國的大模型與 GPT4 還有或多或少的差距,即使是 GPT4 也還沒有進化到天花闆,也依然有很大的提升空間。此外,劉軍認爲未來的生成式 AI 是多元化生态,每個基礎大模型可能會有不同的擅長領域。
所以,放到整個産業的視角來看,大模型和應用都要卷:一方面需要繼續提升基礎大模型的能力,因爲隻有基礎大模型做好了才能更好地實現行業落地;另一方面,需要在應用落地方面繼續創新。隻有大模型側和應用側同時發力,雙輪驅動,生成式 AI 的發展甚至是中國的 AI 産業才會有更好的前景。
雙輪驅動,怎麽卷才能最高效?答案是:開源。
在移動互聯網時代,有一個封閉的 iOS 系統,還有一個開源的安卓系統。蘋果很強大,自己就支撐了一個生态。但安卓更強大,開放的安卓系統吸引更多的手機廠商,更多的開發者,也衍生出一個更龐大的生态。
今年上半年,Meta 的 LLaMA 開源,給業界開了一個好頭。正是看到開源的能量,國内的大模型也紛紛加入開源的陣營,包括阿裏雲、百川、智譜 AI、清華 EKG 等等。這一次源 2.0 也徹底開源,并且這是行業首個千億開源大模型。
" 完全免費、完全可商用、不需要授權、最徹底的開源。" 吳韶華表示,浪潮信息希望通過開源真正的能夠普惠産業用戶,個人開發者,讓大家能夠通過源 2.0 構建更強的 AI 系統。
劉軍強調,開源最本質的好處是讓整個産業能夠協同發展," 回顧過去所有成功的開源項目,都是因爲整個社區共同貢獻的結果。"
首先,開源可以建立一個高效的反饋閉環,通過應用反哺大模型,加速大模型的進化。
浪潮信息希望通過開源吸引更多的開發者進來,同時發起了大模型共訓計劃,開發者可以在源 2.0 上自由地開發,如果遇到問題可以反饋給浪潮信息,盡快地提升模型的能力。
其次,開源可以更廣泛地賦能行業、賦能企業,加速大模型價值的落地。
優秀開源模型是吸引開發者、繁榮生态的關鍵因素。以開放的心态開源,給開發者更強有力的支持,他們可以直接調用 API、中文數據集、模型訓練代碼等,大大降低開發者将大模型能力适配不同場景的難度,加速應用的落地,讓企業盡快吃到 AI 時代的紅利。
所以,無論是卷大模型還是卷應用,開源都是一條光明大道。
【結束語】
在諸多大模型中,浪潮信息也卷了進來。與其它大模型不同之處,就是其在計算方面的優勢,通過算力的産品和技術的創新推動數字化、智能化的發展。
源從 1.0 進化到 2.0,給産業打個樣,通過智算的力量去訓練生成式 AI 大模型,浪潮信息的很多探索成果,可以賦能加速 AI 産業化和産業 AI 化的進步。
冷眼旁觀 麻辣點評 深入分析
真誠推薦你關注
END