李開複公司陷入LLaMa架構命名争議，零一萬物回應：将進行代碼更新

文｜林炜鑫

編輯｜鄧詠儀

本月初新發布的大模型「Yi」這兩天卷入一場争議。科技新聞社區 Hacker News 的一篇帖子指出，Yi-34B 模型完全使用了 LLaMa 的架構，隻是重新命名了兩個張量（Tensor，通常用來表示模型的輸入、輸出和參數），卻未提及 LLaMa。

帖子引起業内關注

「Yi」是由李開複創辦的 AI 公司「零一萬物」打造的國産開源大模型，擁有 200K 上下文窗口，可處理約 40 萬字文本。自推出後，零一萬物表示，Yi 模型在 Hugging Face 英文開源社區平台和 C-Eval 中文評測榜單中，取得多項 SOTA 國際最佳性能指标認可，成爲第一家登頂 Hugging Face 全球開源模型排行榜的國産模型。

零一萬物昨日回應表示，Yi 模型的研發借鑒了行業頂尖水平的公開成果；之所以改名是爲了滿足訓練實驗的需求；團隊将更新代碼。

這場争議的源頭是零一萬物 Hugging Face 社區的一條留言。一位 ID 名爲「ehartford」的工程師數天前便發現了這個問題，并指出這一行爲沒有符合 LLaMa 規定的許可協議。

ehartford 朝 Yi 團隊喊話

有開發者跟帖道：" 如果他們确實用了 Meta LLaMa 結構、代碼庫和所有相關資源，需要遵守 LLaMa 規定的許可協議。"

因此，另一位開發者動手把張量名字改了回去，重新放到 Hugging Face 上。

很快，有人翻出了前阿裏首席 AI 科學家、 AI 創業者賈揚清的朋友圈：

賈揚清朋友圈

需要區别的是，Yi 引發的争議在于其模型架構的命名，與抄襲、簡單套殼有本質區别。LLaMa 本就是開源的模型，使用 LLaMa 的架構是正常的大模型訓練步驟，即使是選擇同一種架構，用不同數據集訓練出來的模型也會截然不同。

一位開發者則向 36 氪表示，外界苛責的是使用開源 LLaMa-2 模型架構，卻改了名字，" 好比造了跟奔馳一樣的車，把牌子換了名字，把方向盤改爲動力控制轉向器 "。在他看來，用了 LLaMa 架構，" 大方承認就好 "。

有開發者曬出 Yi 和 LLaMa 的代碼對比

昨天下午，「Yi」團隊開源總監在 Hugging Face 社區回複，命名問題是團隊的疏忽，" 在大量的訓練實驗中，我們對代碼進行了多次重命名以滿足實驗要求，但在發布前沒有将它們切換回來 "。他表示，團隊将把張量名字從 Yi 改回 LLaMa，并且重新發布。

Yi 團隊在社區上的回應

附零一萬物給機器之心的回應：

GPT 是一個業内公認的成熟架構，LLaMa 在 GPT 上做了總結。零一萬物研發大模型的結構設計基于 GPT 成熟結構，借鑒了行業頂尖水平的公開成果，同時基于零一萬物團隊對模型和訓練的理解做了大量工作，這是我們首次發布獲得優秀結果的地基之一。與此同時，零一萬物也在持續探索模型結構層面本質上的突破。

模型結構僅是模型訓練其中一部分。Yi 開源模型在其他方面的精力，比如數據工程、訓練方法、baby sitting（訓練過程監測）的技巧、hyperparameter 設置、評估方法以及對評估指标的本質理解深度、對模型泛化能力的原理的研究深度、行業頂尖的 AI Infra 能力等，投入了大量研發和打底工作，這些工作往往比起基本結構能起到更大的作用跟價值，這些也是零一萬物在大模型預訓練階段的核心技術護城河。

在大量訓練實驗過程中，由于實驗執行需求對代碼做了更名，我們尊重開源社區的反饋，将代碼進行更新，也更好的融入 Transformer 生态。

我們非常感謝社區的反饋，我們在開源社區剛剛起步，希望和大家攜手共創社區繁榮，Yi Open-source 會盡最大努力持續進步。

歡迎交流