文 | 周鑫雨
編輯 | 楊軒
2023 年 11 月 6 日,由創新工場董事長兼 CEO 李開複成立的 AI 公司 " 零一萬物 " 發布了首款開源中英雙語大模型 "Yi"。與此同時,36 氪獲悉,零一萬物已完成新一輪融資,由阿裏雲領投。目前,零一萬物估值已超 10 億美元,跻身獨角獸行列。
此前,"Yi" 于 11 月 2 日已經在 Hugging Face 低調上傳了兩個參數規模分别爲 6B 和 34B 的基礎模型。截至 11 月 5 日,Yi-34B 分别在 Hugging Face LLM Leaderboard(pretrained)(預訓練大語言模型)和中文大模型榜單 C-Eval 排行榜已經爬升到 1 位。
上下文窗口,意味着模型的 " 記憶力 "。據介紹,Yi 目前擁有 200K 上下文窗口,可處理約 40 萬字的文本——這也是目前全球大模型中最長的上下文窗口。
李開複提到,由于 GPU 緊缺,當模型尺寸從 6B 推向更大的尺寸時,團隊需要把握好規模減少試錯成本,不能一味追求 " 大 "。通過打磨 AI Infra,Yi-34B 将訓練成本下降了 40%," 别的友商如果要用 2000 張 GPU,我們隻要 1200 張。"
Yi 的訓練數據主要來源于公開語料的爬取和數據庫。李開複介紹,訓練數據的難點在于重複率高、質量低。通過清晰,團隊從 100 多 T 的數據中篩選出了 3T。由于中文語料的質量較低,目前,Yi 的訓練數據中英文語料的比例高于中文語料。
那麽 Yi 的能力究竟幾何?在測評中,零一萬物參考了 Meta 開源模型 Llama2 能力測評中所用到的 PIQA、SIQA、HellaSwag、WinoGrande 等多個數據集,來評估 Yi 的 " 常識推理能力 "" 閱讀理解能力 "" 數學與代碼能力 " 等多維度能力。
Yi 能力。
結果顯示,Yi-6B 在常識推理能力和閱讀理解能力上達到了國内外開源模型的平均水平,但在數學與代碼能力上還較弱。Yi-34B 在常識推理能力和閱讀理解能力上均大幅領先國内外開源模型,在數學與代碼能力上處于領先水平。
李開複認爲,34B 的尺寸屬于開源大模型稀缺的 " 黃金比例 " 尺寸,達到 " 湧現 " 門檻、滿足精度要求的同時,對廠商而言能夠采用高效率單卡推理,訓練成本友好。
李開複坦言,在完成融資前,零一萬物爲了覆蓋算力等訓練成本已經負債幾千萬美元," 花光了創新工場的錢,還向銀行貸了款 "。這也側面反映出李開複 All in AI 的決心。
作爲零一萬物的發起人,李開複也可謂是中國人工智能的領軍人物之一。他曾先後擔任微軟全球副總裁、谷歌全球副總裁兼大中華區總裁,并在 2009 年創立了天使投資和企業孵化平台創新工場。
2023 年 3 月,李開複躬身入局大模型賽道,爲籌建新公司零一萬物廣發 " 英雄帖 ":" 零一萬物歡迎有 AI 2.0 技術實力和 AGI 信仰的優秀人才加入,一起打造 AI2.0 全新平台,加速 AGI 到來。" 到 7 月,零一萬物已有來自阿裏、百度、谷歌、微軟等國内外公司的數十位核心成員到位。發布會上,李開複介紹,"(團隊)在 6、7 月份寫的第一行代碼。"
如今,零一萬物已經集結了國内外一批人工智能領域的大牛:
零一萬物預訓練負責人黃文灏,零一萬物 AI Infra 副總裁戴宗宏。
比如零一萬物 AI Infra 副總裁戴宗宏,曾是阿裏達摩院機器智能技術資深算法專家,以及華爲雲人工智能領域 CTO。在阿裏期間,他構建了阿裏巴巴搜索引擎平台,後帶領團隊研發了圖像搜索應用拍立淘。
再比如,零一萬物預訓練負責人黃文灏來自智源人工智能研究院,曾擔任健康計算研究中心技術負責人。加入智源前,他曾任微軟亞洲研究院研究員,負責自然語言理解、實體抽取、對話理解以及人機協同等研究工作。加入零一萬物後,黃文灏團隊主要負責 Yi 的訓練。
李開複認爲,AI 2.0 時代,最大的商機将出現在 To C/ 消費級的超級應用。他提到,互聯網時代的 Super App 微信和抖音的第一個版本并不是 Super App,而是準确捕捉了用戶的需求。而零一萬物的目标是在 AI 2.0 時代再做一款微信、抖音。
具體到零一萬物的商業規劃,李開複告訴 36 氪,AI 1.0 時代無法商業化的公司很早被淘汰,而商業化的公司的最大挑戰是能夠可持續、可增長——這意味着 AI 1.0 的不少公司需要人頭規模,不是高質量的收入。
他強調,收入的規模化不應該用人頭推動,而應該用技術推動。" 以此爲原則,零一萬物将朝着 Consumer(消費級)應用發力。" 考慮到國内用戶的付費意識和意願尚在培養階段,零一萬物将同時考慮應用的本地化和出海。
目前,零一萬物已經啓動 100B 以上參數規模的模型訓練,而多模态大模型團隊已經集結了十多個人。" 幾周之内我們就有新的發布和大家分享。" 李開複透露,"Yi" 的定位是通用底座,同時,Yi 系列量化版本、對話模型、數學模型、代碼模型、多模态模型将以快節奏推出。