創新工場創始人兼 CEO、零一萬物 CEO 李開複(圖片來源:創新工場)
一周前剛完成大模型首秀的零一萬物,今日卻成爲風口浪尖上的焦點。
11 月 14 日上午,一位國外開發者在 Hugging Face 開源主頁上評論稱,創新工場董事長兼 CEO、零一萬物 CEO 李開複旗下 AI 公司 " 零一萬物 " 開源大模型 Yi-34B,完全使用 Meta 研發的 LIama 開源模型架構,而隻對兩個張量 ( Tensor)名稱進行修改。
幾乎同時,前阿裏副總裁、Lepton AI 公司創始人兼 CEO 賈揚清以 " 不具名 "、" 大廠 " 等說明方式質疑抄襲 LIama 對行業的影響,從而将這次事件推向了 " 高潮 "。
針對開發者的指控和相關傳聞,11 月 14 日下午,钛媒體 App 向零一萬物進行求證,零一萬物方面對外公布了一份官方回應:
零一萬物表示,GPT 是一個業内公認的成熟架構,Llama 在 GPT 上做了總結。零一萬物研發大模型的結構設計基于 GPT 成熟結構,借鑒了行業頂尖水平的公開成果,由于大模型技術發展還在非常初期,與行業主流保持一緻的結構,更有利于整體的适配與未來的叠代。同時基于零一萬物團隊對模型和訓練的理解做了大量工作,也在持續探索模型結構層面本質上的突破。
聲明稱,模型結構僅是模型訓練其中一部分。Yi 開源模型在其他方面的精力,比如數據工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter 設置、評估方法以及對評估指标的本質理解深度、對模型泛化能力的原理的研究深度、行業頂尖的 AI infra 能力等,投入了大量研發和打底工作,這些工作往往比起基本結構能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術護城河。
零一萬物在聲明中強調," 在大量訓練實驗過程中,由于實驗執行的需要對代碼做了更名,我們尊重開源社區的反饋,将代碼進行更新,也更好的融入 Transformer 生态。我們非常感謝社區的反饋,我們在開源社區剛剛起步,希望和大家攜手共創社區繁榮,Yi Open-source 會盡最大努力持續進步。"
事實上,整個指控事件曆經短短數十個小時,就從行業傳聞到輿論發酵,讓開源模型是否存在 " 抄襲 " 這件事成爲了大家的一個關注焦點。而開源的大型語言模型(LLMs)是否存在抄襲,仍是一個 " 模糊 " 的答案。
一場超 150 小時的輿論轉變:大模型獨角獸被指控 " 抄襲 "
整個事件要從 8 個月前開始講起。
2023 年 3 月下旬,李開複發文宣布,将以 Project AI 2.0 入局大模型行業,計劃孵化大模型公司。今年 7 月,"AI 2.0" 公司零一萬物(01.AI)上線。創新工場當時表示,這是其 " 撸起袖子 " 親自帶隊," 塔尖孵化 " 了一家 AI 2.0 公司。
2023 年中關村論壇上,李開複就對钛媒體 App 等表示,以 GPT-4 等大模型爲代表的生成式 AI 熱度在全球蔓延,意味着 AI 2.0 時代已經到來,它将帶來比移動互聯網時代大十倍的機會,穿透各行各業極大地提振生産力。" 我們預測,全新的 AI 2.0 平台将能有效幫助提升人類生産力,創造巨大的經濟價值及社會價值。"
" 大模型的技術門檻很高,非常需要整合一個兼具科研能力和開發實力的高效團隊,制定貫徹公司的技術和産品戰略,從上到下一緻執行。" 李開複認爲,零一萬物将專注打造 AI 2.0 時代的平台及生産力應用生态。
11 月 6 日,李開複團隊召開了一場重要的線上會議,而在此之前,其 "Yi" 系列開源模型信息已經在官網披露。
此次一個多小時的線上會議中,零一萬物正式發布首款開源中英雙語大模型 "Yi" 系列,包括 Yi-6B(參數規模爲 60 億基礎模型)和 Yi-34B(參數規模爲 340 億的基礎模型)兩個版本。
與此同時,有消息稱,零一萬物已完成新一輪融資,由阿裏雲領投,公司估值超過 10 億美元,從而跻身成爲 " 獨角獸 " 行列。
事實上,零一萬物主要圍繞精進模型、預訓練框架技術等七個方向進行研究,團隊擁有多個中外科技大廠、博士學位等背景。其中,零一萬物技術副總裁及 AIInfra 負責人戴宗宏,曾就職于阿裏、華爲,曾擔任華爲雲 AI 領域 CTO;零一萬物技術副總裁及 Pretrained 負責人黃文灏則畢業于北京大學博士學位,曾在微軟研究院擔任高級研究員,并曾任職于北京智源 AI 研究院。
官方信息顯示,零一萬物新的 Yi-34B 模型在多項評測基準中全球領跑,基于超強 Infra 下模型訓練成本實測下降 40%,模拟千億規模訓練成本可下降多達 50%,并以更小模型尺寸的基準結果超過 LLaMA2-34B/70B、Falcon-180B 等大尺寸開源模型。
而且,包括 Hugging Face 平台和 C-Eval 中文評測榜單等,Yi-34B 取得了多項 SOTA 國際最佳性能指标認可,成爲全球開源大模型 " 雙料冠軍 ",擊敗了 Llama2 和 Falcon 等開源競品,稱是 " 全球最強開源模型 "。
" 随着團隊到位,今年 6、7 月份開始寫第一行代碼,短短四個月做了非常自豪的産品。我們是‘不鳴則已,一鳴驚人’。所以‘一鳴驚人’之後,如果我們過半年甚至過一年回頭看,今天對我們來說隻是剛剛開始,我們還會不斷的去開發、推動、宣布更多令人驚豔的成果。" 李開複對钛媒體 App 等表示。
在李開複看來,34B 的大模型是他心目中基礎模型的黃金尺寸,其剛好達到了湧現的門檻,但又沒有過大,既滿足了精度的要求,又對訓練推理成本友好。
該模型在發布後引起了國内外很多研究者、開發者的關注。然而,新品發布會的餘溫還未完全結束,如今,零一萬物再次被拱上了風口浪尖。
11 月 14 日,在零一萬物預訓練大模型 Yi-34B 的 Hugging Face 開源主頁上,一位名爲 ehartford 的國外開發者質疑,該模型使用了 Meta Llama 的架構,隻對兩個張量(Tensor)名稱進行了修改,分别爲 input_layernorm 和 post_attention_layernorm。據悉,所謂張量,是深度學習中的多維數組,用于創建更高維度的矩陣和向量。
"Yi-34B,感謝您提供的優秀模型。據我們了解,除了兩個張量被重命名之外,Yi 完全使用了 Llama 架構。由于 llama 架構有大量投資和工具,因此對張量使用相同的名稱是有價值的。開源社區肯定會重新發布 Yi,并重命名張量,以獲得符合 llama 架構的版本。我們希望您在模型獲得大量采用之前考慮将這一更改應用到您的官方模型中,以便它最終能夠獲得應有的采用。"ehartford 在文中表示。
幾乎同時,年初從阿裏雲離職創業的賈揚清發表了一個朋友圈,以 " 國内大廠 " 之名表示,國内一款新的大模型事實上是 LLaMA 架構,但是爲了表示不一樣,把代碼裏面的名字從 LLaMA 改成了他們的名字,然後換了幾個變量名。
盡管賈揚清沒有點名這個模型爲 " 零一萬物 ",也沒有具體說明這是哪款新模型,且零一萬物也不是 " 大廠 "。但在這一 " 巧合 " 的時間點,人們就會自然而然 " 想象 " 成是 Yi 模型。
11 月 4 日下午,随着這場大模型 " 改名 " 風波持續發酵,除了開頭的這份公開中文聲明外,零一萬物團隊同時在事發的源頭 Hugging Face 網站做了一份公開回應。
Yi 團隊開源總監 Richard Lin 表示,ehartford 對張量名稱的看法是正确的,團隊将把它們從 Yi 重命名爲 Llama。對 Yi 團隊來說,重要的是對這些事情的準确和透明。
" 這個命名問題是我們的疏忽。在大量的訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求。但是,我們有點失敗了,在發布版本之前沒有将它們切換回來。我們對此很抱歉,對于造成的混亂我們深表歉意。我們正在努力加強我們的流程,這樣這種失誤就不會再發生了。您的反饋給了我很大的幫助。我們還将再次檢查所有代碼,以确保其他一切都按順序進行。如果您和社區給予更多關注,我們将不勝感激。"Yi 團隊開源總監表示。
截至發稿前,ehartford 已回應稱,謝謝團隊的回複。而也有網友在下面評論," 這是一件小事,很容易(得到)解決。"
開源代碼 " 抄襲、侵權 " 規範界定仍較爲模糊
今年 6 月的一場關于大模型的圓桌會議上,中國人民大學高瓴人工智能學院教授盧志武直言,國内很多企業創業者都沉不下心去把底座做好。
" 什麽國産大模型的春天,都是假的,因爲它都是在 GPT、LLaMA 上微調的。我看到了很多大模型,一測 10 分鍾就知道虛假,當然也有一些少量的大模型,願意在底座上投入很多精力,但大部分還是很浮躁。這是最大的一個問題,我反而覺得語言模型上面這個差距會越來越大 ...... 你看到好像很多一堆模型出來,隻是因爲這個語言模型的架構 solution(解決方案)已經公布了而已,但如果你沒有公布,爲什麽前面做不出來,都是 3 月、4 月、5 月才出來,這不是很奇怪的事情嗎?我覺得不符合邏輯的,大家都不願意去做底座。" 盧志武表示。
而昆侖萬維 CEO 方漢則現場反駁," 我是堅決反對(這個說法的),我們自己是做大模型訓練的,我可以很清楚的告訴你們,我們跟 LLaMA 一毛錢關系都沒有,因爲我們從 20 年就開始做(大模型)。所以我覺得你也不能一棒子把所有中國大模型的創業者們(人)都‘打死’。"
事實上,目前對于開源的模型與代碼協議 " 各式各樣 ",不同開源項目的協議均有所不同,協議規則與法律界定部分仍比較 " 模糊 "。
普遍而言,開源并不代表沒有版權,任何第三方使用都應該遵循其開源許可協議,如果企業需要用開源代碼進行商業化,需要與開源項目所有者進行授權或提交一定的費用。而在法律層面上,大模型所有者可以通過專利、商标、版權等方式保護自己的大模型知識産權。
早在今年 7 月中下旬,Meta 宣布開源了 Llama 2 模型。據 Llama2 官網挂出的相關使用許可和限制聲明顯示," 該模型可以用于商業用途,除非你的産品的月活躍用戶數超過 7 億。需要填寫一個表格才能獲得訪問權限,這個表格也會讓你從 HuggingFace 的網站上下載模型。"
換句話說,隻要你填寫表格申請,就可以下載、使用這一模型并實現二次開發,不存在 " 抄襲 " 問題,因爲 Llama 模型本身就是開放的。
而這種開源、開放、友好的方式,使得很多 AI 大模型公司和應用商解決掉了訓練成本問題,且讓數據和模型生态開放,包括阿裏雲、曠視科技等多家中國企業均表示已支持 Llama2 開源技術,所以大家使用 Llama2 進行再訓練、推理輸出成 Chat 産品就不足爲奇了。
一位行業專家對钛媒體 App 表示,使用開源項目,主要有兩點,一是要聲明原作者是誰,你用的是哪個項目,而且要遵循開源項目裏的開源協議、作者聲明,不能修改且不能删除;二是關注項目對商業化的友好程度,有些是表明可用于商業項目,還有一種不允許商業化、二次開發等因素的開源項目,這部分需要開發者重新去溝通與評估。
實際上,大模型是典型赢家通吃領域。需要更多的錢,需要更多的算力,以及更優秀人才。因爲更好的算力意味着更多人用,更多人用意味着更多數據,更多數據意味着更好的算力結果。由于大模型必然是巨頭必争之地,因此如果早做開發,在市場中更容易搶得先機。
針對零一萬物回應事件,在钛媒體 App 獲得的一份微信聊天截圖中,一位 AI 領域的學者表示,Llama 這個架構與 chinchilla、Gopher、GPT-3 關聯度很高,也可以說是 " 抄襲 "。而 Hugging face 上一模一樣但名字不同的模型比比皆是,大部分改動的是訓練方法數據配比,而不反映在架構上。以沒改架構而批評國内的模型沒有創新,不論是 Yi 還是其他模型,這樣的批評是不公正的。
盛景嘉成董事總經理劉迪曾對钛媒體 App 表示,目前 AI 大模型底層主要是數據、算力、算法,核心技術難度較低——算力需要堆英偉達顯卡、算法也可以用開源的,數據則有法規限制,所以投資人的興趣降低了。
未知資本常務董事 william wong 表示," 現在很多初創公司,後台接入 ChatGPT,前端做了個 UI 設計,就上架蘋果商店鼓吹自己在做 AIGC 創業了。" 而他認爲,這種 AIGC 項目沒有技術壁壘和商業邏輯,隻是 " 蹭熱度 "。
钛媒體 App 了解到,下一步,Yi 系列也将推出專長代碼和數學的訓練模型。另外,目前零一萬物已經啓動 100B(1000 億)參數的訓練,有望近幾個月内發布,未來零一萬物還有望推出基于 AI 2.0 的超級應用等技術産品。
" 實際上,(大模型創業)大家的起跑線是一緻的,那麽水平差距就不大。" 劉迪告訴钛媒體 App 表示。
(本文首發钛媒體 App,作者|林志佳)