一場圍繞大模型自研和創新的讨論,這兩天在技術圈裏炸了鍋。
起初,前阿裏技術 VP 賈揚清,盆友圈爆料吐槽:有大廠新模型就是 LLaMA 架構,但爲了表示不同,通過改變開源代碼名字、替換幾個變量名……
一石激起千層浪,更晚一些時候," 大廠 " 被與零一萬物關聯,其剛發布的新模型 Yi-34B 被指與 LLaMA 架構如出一轍。
零一萬物很快給出了說明和回應。但熱議并未就此平息,甚至圍繞大模型原創、自研的标準,開始被更進一步争論。
而初步激辯中指向的結論——冷峻又真實:
大模型的架構創新,可能早就死了。
好比烤鴨這道菜的菜譜公開之後,核心方法和步奏,都已經被固定了。
所以如果的大模型研發,都無法再在架構層面另起爐竈……那自研國産大模型,研它還能有啥用?
争議
就在近日,賈揚清的吐槽,迅速火上了海外技術社區熱搜。
并且很快,零一萬物就被關聯起來。
因爲就在 Yi-34B 首次推出後,迅速橫掃了各項中英文評測榜單,在英文領域也超越了 Llama-2 70B 和 Falcon-180B 等一衆大尺寸大模型……一時風頭無兩、木秀于林。
賈揚清爆料之後,一封 Hugging Face 的郵件也對外曝光了,郵件核心内容,就是 Yi 模型與已經開源的 LLaMA 架構上存在重合,雖然張量命名不同,但按照開源社區的規則和規範,需要作出調整。
這也成爲外界對于零一萬物和 Yi-34B 模型自研性的質疑所在。
零一萬物很快給出了說明和回應,核心有兩點:
第一,Yi 模型确實沿用了公開的架構,但和 LLaMA 一樣,都基于的是 GPT 成熟結構。
第二,大模型的研發中,模型結構隻是模型訓練的一部分,還有包括數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter 設置、評估方法以及對評估指标在内的核心技術挑戰和能力……在大量訓練實驗過程中,由于實驗執行需求對代碼做了更名,所以處于尊重開源社區的反饋,将代碼進行更新,也爲更好融入 Transformer 生态。
零一的回應,有人表示理解,比如開源社區領袖 Stella Biderman,就認爲說誰抄襲 LLaMA 是無稽之談,因爲所有做大模型研發的團隊,現在都幾乎 " 華山一條路 " 了。
但更多的激辯,還在持續。
激辯
辯論的核心話題,開始不斷指向——如何定義大模型的創新?創新的标準該是什麽?
在一則廣爲流傳的群聊記錄中,大模型領域知名 " 布道者 " 符堯博士,提出了現狀和困惑。
他認爲大模型主流架構,就是一個 " 天下詩歌不斷抄 " 的過程。LLaMA 的架構抄的 Chinchilla,chinchilla 抄的 Gopher,Gopher 抄的 GPT3 ……每個都是一兩行的改動。
而且在 Hugging Face 上,架構一模一樣但名字不同的模型比比皆是……
但需要強調的是,大模型的創新或不同,核心應該關注的是訓練方法和數據配比——而這些并不會反映在架構上。
以及如果嚴格來論,目前國内的自研大模型,不論是零一萬物的 Yi,還是百川智能的 Baichuan,或者阿裏旗下的通義千問,架構上和 LLaMA 都是一緻的。
大模型的創新,看架構沒有意義。
另一則廣爲流傳的讨論,來自猴子無限的尹伯昊,他表示自己親手玩過各類模型,自己也大模型從業,可以說說自己的看法。
第一,目前使用 LLaMA 架構已經是開原模型的最優解。因爲 LLaMA 開源大模型已經實現了斷崖式領先,有了大量工具鏈。國内外各種大模型的預訓練,也都是保持了相同或相似的架構。
第二,相同的架構可以做出完全不同的模型,因爲大模型的訓練是一個充分的系統工程,考察的因素有很多,最後的能力和效果也與這個系統工程息息相關。
但尹伯昊也強調,大模型創業者沒必要因爲自研 ego 作祟,就不強調使用已有框架。
從現在的趨勢來看,開源大模型生态的發展,其實有統一的架構,對于業内更多開發者的切換利大于弊。
實際上,上述圈内人的發言,也在進一步揭露大模型的現狀和真相:
大模型架構創新,早就結束了。
大模型架構創新已死?
如果從大模型社區長期的發展過程來看,我們不難發現一種趨勢——向通用化收攏。
因爲基本上國際主流大模型都是基于 Transformer 的架構;而後對 attention、activation、normalization、positional embedding 等部分做一些改動工作。
簡而言之,Transformer 這個架構似乎已然是固定的狀态。
有圈内團隊舉例,好比讓不同的廚師都去做北京烤鴨,原材料和步驟定然是大同小異的(架構);而最終決定誰做出來的北京烤鴨更好吃,區别更多的是在于廚師本身對火候、烹調技術的掌握(數據參數、訓練方法等)。
而這種讨論,幾乎也打破了圈外對于熱潮中 " 大模型創新 "、" 國産大模型 " 的某些期待,認爲大模型的研發,可以完全另起爐竈。
事實是,架構層面,早就幾近定型了。
OpenAI 用 GPT-3 徹底點燃了大模型架構基礎,LLaMA 在 GPT 基礎上作出了總結并且對外開源,其後更多的玩家,沿着他們的藩籬前行。零一萬物在最新的聲明中也表示,GPT/LLaMA 的架構正在漸成行業标準。
這種事實,也讓更多圍觀這場争議和讨論的人聯想到智能手機的系統往事。
當時 iPhone 發布,帶來了閉源的 iOS。
其後開源陣營中,Android 在谷歌的大力扶植中上位,成功成爲開源世界的第一名,并在其後真正成爲了幾乎 " 唯一的一個 "。
所以 GPT 和 LLaMA,是不是就是 iOS 和 Android 的重演?
然而區别于手機操作系統,國産大模型或許還會有不同。
正如在讨論中,大模型創新被強調的訓練方法、數據配比,以及更加重要的開發者生态。
iOS 和 Android 之時,完全是太平洋東岸的獨角戲。
但現在,大模型熱潮中,國産玩家其實面臨機遇,如果能在初期就能被全球開發者認可,那最後獲得話語權和更長遠定義權的,一定是生态最強的那個玩家。