剛剛，70億獨角獸被“打假”

作者丨鉛筆道直八

11 月 14 日，一位融資 4 輪的 AI 創業者向鉛筆道透露：11 月 6 日，看到零一萬物發布 Yi 系列大模型，問鼎多項世界第一，内心很興奮。

零一萬物由李開複（創新工場創始人）創辦，成立于 2023 年 5 月 16 日，僅耗費 6 個月，就研發出 " 世界最強 " 大模型，估值超 10 億美元（破 70 億元）。

據 " 零一萬物 " 官方公衆号稱，據大模型社區 Hugging Face 評測，Yi 成爲全球開源大模型 " 雙料冠軍 "，是迄今爲止唯一登頂該社區全球開源模型排行榜的國産模型。

文章稱，厚積薄發的成績仰賴于自研的 " 規模化訓練試驗平台 " 和超強 AI infra（基礎設施）能力。

據零一萬物官方公衆号稱，Yi 已跻身世界範圍内開源最強基礎模型之列

新模型出現後，引發了部分應用類公司關注，他們要着手測試：該大模型能否賦能自家産品。

但經過一周測試後，這位 AI 創業者顯得比較失望。" 測試結果一言難盡。PR 做得太好，把我唬住了，沒細看就讓技術測試，傻乎乎的。有些耽誤我們的時間。"

關于具體原因，他稱：" 不算自研模型，用的是别人的神經網絡框架。"

他推測，所謂的 "Yi" 系列大模型，可能是借用别人的框架做了些自己的訓練，喂了不同的語料進去——更像應用工程師做的事情。" 滿足适當條件後，我們團隊也能做。"

其實，這件事在前一晚就傳開了。

一封郵件顯示，"Yi" 系列模型被提交至 Hugging Face 後，後者回複道：據我們了解，除了兩個張量被重命名外，Yi 完全使用 LLama 架構。

" 張量 " 是一種核心數據結構，而 LLaMA 與 GPT 一樣，都是 AIGC 的主流基礎模型。

Hugging Face 稱：後續會重新發布 Yi，并重新命名張量 ( 把名字改回來）。

原阿裏首席 AI 科學家賈揚清也發布了一條朋友圈，大約意思是：" 上周，有某海外客戶要我們幫他們适配某國内大廠新模型，我們太忙，暫時還沒做。今天有朋友說，這個新模型實際就是 LLaMA，但爲了表示不一樣，把代碼裏的名字（LLaMA）換成了自己的名字。

最後他給出建議：如果就是開源的模型結構，建議就叫原來的名字，免得大家還要做一堆工作，就爲了适配你們改名字。

以上信息，賈揚清并沒有點名道姓，但事實細節與 Yi 确有諸多相似之處。

事發之後，AI 從業者褒貶不一。

一位 AI 創業者張化（化名）表示：" 部分價值值得肯定。Yi 雖借用了别人的框架，但從 0 開始做了訓練。隻是換名字确實沒必要。"

另一位 AI 創業者王佳（化名）稱：" 類似套殼也合理，這麽短時間要做出世界最強模型，估計都得這麽幹，是正确做法，可以大大方方說出來，但套殼冒充原創做得不對，再多人認可也不對。"

AI 創業者張方（化名）稱：" 改名有可能是程序員的鍋，并非公司有意爲之。"

其實，這件事的細枝末節并不重要，重要的是，它給了 AI 産業敲響一記警鍾：凡 AI 參與者，應該把實事求是放在重要位置。

過度 PR 容易勞民傷财，實際收效甚微。

作爲 AI 生态的老大哥，一旦有新模型出現，便是牽一發而動全身：開源社區、下遊應用企業都會跟進，着手測試、适配。

如果經過 1-2 周測試後，發現模型隻是新瓶裝舊酒，反而徒耗精力。

"Yi 其實做的是偏應用的工作，基礎大模型确實不需要那麽多人研發。我生氣的核心原因是：他耽誤了研發同事的時間。"

自研就是自研，非自研就是非自研，本沒有貴賤之分。

據科技部報告稱，中國研發的大模型數量全球第二，10 億參數規模以上的大模型已發布 79 個。這裏的 " 大模型 " 并非全指 " 自研大模型 "，也包含許多類似 Yi 的非自研模型。

鉛筆道此前曾有報道，自研大模型難度很大，單次訓練成本高達 100 萬美元。而結合 GPT 的自研曆程，一個脫穎而出的世界最強模型，至少需要 7 年以上。

國内的 AI 産業還是跟風太嚴重。

2022 年 11 月前 ChatGPT 沒火的時候，隻有極少數公司專注大模型，比如清華大學智源研究院。2022 年 11 月後，很多 AI 公司就一擁而上，争先要做國産大模型。

也就是不到 10 個月的時間裏，一批企業紛紛宣布推出大模型，并且各自宣稱其領先性。" 幾個月就自研大模型 " 這種荒謬事，竟然在國内 AI 産業風起雲湧，并有前赴後繼之勢。

鉛筆道對此現象嗤之以鼻。

AI 創業者張方（化名）表示，國内真正的自研大模型很少，根據他的測試結果，隻有 GLM（智譜 AI 發布）、BAT（百度 / 阿裏 / 騰訊）、百川（搜狗創始人王小川研發）等符合。

創新創業應堅守 " 實事求是 " 文化，守護真實，人人有責。