11 月 6 日,創新工場董事長兼 CEO 李開複親自帶隊的大模型創業公司零一萬物,正式開源發布首款預訓練大模型 Yi-34B。
李開複将公司的首次公開亮相稱爲「Yi」鳴驚人,表示 Yi-34B 是「全球最強開源模型」,通用能力、知識推理、閱讀理解等多指标擊敗全球玩家。并稱零一萬物在數據采集、算法研究、團隊配置等環節均爲「世界第一梯隊」,對标 OpenAI、谷歌等一線大廠。
這次亮相,零一萬物也揭開了其團隊構成這個神秘面紗的一角。會上,零一萬物兩位技術副總裁,Pretrain 負責人黃文灏和 AI Infra 負責人戴宗宏,也一同出席。零一萬物方面稱,團隊核心成員擁有 Google、微軟、阿裏巴巴、百度、字節跳動、騰訊等國内外頂級企業背景,并持續延攬全球範圍内最優秀的華人 AI 精英。
而李開複本人,也爲零一萬物的團隊構成做出了最好的背書。作爲第一代留學 CMU 的華裔 AI 科學家,經曆過微軟的 PC 時代,谷歌的移動互聯網時代,李開複對 AI Native 應用有異于常人的敏感。不久前,在極客公園組織的西溪論道上,李開複對「什麽是 AI Native 的應用」的定義,在産業圈快速蔓延,得到了一緻認可。
他提出,AI native(AI 原生)的應用可能有這樣的特征:如果大模型拿掉了,應用就崩潰了,它是一個完全依靠大模型能力的應用。在這個視角下,微軟 Copilot 可能不算是 all in 大模型的産品,因爲拿掉 Copilot,Office 軟件還是 Office,AI 隻是錦上添花。
對于接下來的計劃,李開複劇透,在模型上,未來會陸續宣布更多團隊成果,包括:更大尺寸、對話模型、加強的數學和代碼模型、多模态模型。除了模型之外,一個 Super APP 的雛形也會在不久的将來跟大家分享。
01 Yi-34B:200K 上下文窗口、登頂 Hugging Face
「Yi」系列大模型的命名來自「一」的拼音「Yi」中的「Y」上下颠倒,形同漢字的「人結合 AI 裏的 i,代表 Human + AI 強調以人爲本的精神,爲人類創造價值。
Yi-34B 擁有全球最長 200K 上下文窗口,可處理 40 萬漢字超長文本輸入,相比之下,OpenAI 的 GPT-4 上下文窗口爲 32 K,文字處理量約 2.5 萬字,Anthropic 的 Claude2-100K 上下文窗口也隻有 100K 規模。
在語言模型中,上下文窗口是大模型綜合運算能力的金指标之一,對于理解和生成與特定上下文相關的文本至關重要。在文檔摘要、基于文檔的問答等下遊任務中,長上下文的能力也發揮着關鍵作用,應用場景廣闊,比如在法律、财務、傳媒、檔案整理等諸多垂直場景裏,如果使用更準确、更連貫、速度更快的長文本窗口功能,就能更高效地提高生産力。
然而,受限于計算複雜度、數據完備度等問題,上下文窗口規模擴充從計算、内存和通信的角度存在各種挑戰,因此大多數發布的大語言模型僅支持幾千 tokens 的上下文長度。爲了解決這個限制,零一萬物技術團隊實施了一系列優化,包括:計算通信重疊、序列并行、通信壓縮等。通過這些能力增強,實現了在大規模模型訓練中近 100 倍 的能力提升。
此次零一萬物發布的 Yi-34B 的 200K 上下文窗口直接開源,不僅能提供更豐富的語義信息,理解超過 1000 頁的 PDF 文檔,讓很多依賴于向量數據庫構建外部知識庫的場景,都可以用上下文窗口來進行替代;Yi-34B 的開源屬性,也給想要在更長上下文窗口進行微調的開發者提供了更多的可能性。
根據 Hugging Face 英文開源社區平台和 C-Eval 中文評測的最新榜單,Yi-34B 預訓練模型取得了多項 SOTA 國際最佳性能指标認可,在一些關鍵指标上優于包括 Meta 的 Llama 2 在内的領先開源模型,是目前唯一成功登頂 Hugging Face 全球開源模型排行榜的國産模型。
Hugging Face Open LLM Leaderboard ( pretrained ) 大模型排行榜,Yi-34B 位居榜首(2023 年 11 月 5 日)/ 圖片來源:零一萬物
目前,「Yi」有 Yi-34B、Yi-6B 兩尺寸可選,均爲雙語(英文 / 中文),适合多元場景,對學術研究完全開放、同步開放,商用申請免費。
其中,34B 爲性能成本「黃金比例」尺寸,對開發者友好,原因在于其相比目前開源社區主流的 7B、13B 等尺寸,34B 具備更多知識容量+多模态能力;達到了「湧現」門檻;可實現高效率單卡推理;滿足了精度要求以及訓練成本友好。
同時,李開複宣布零一萬物已啓動下一個千億參數模型的訓練,接下來也将快節奏推出 Yi 系列量化版本、對話模型、數學模型、代碼模型、多模态模型等。
在李開複看來,就大模型而言,模型的參數規模仍然是最重要的,需要繼續擴大模型大小,同時要注意數據質量、訓練穩定性等問題;同時,Infra 結構也非常重要,要确保可擴展到更大規模,解決大批量并行訓練時的系統瓶頸;另外,多模态也是發展的重點方向,要處理好不同模态之間的融合以及編碼含義等問題。
零一萬物 AI Infra 負責人戴宗宏透露:兩千億模型的前置實驗已經做完,在按部就班訓練中;針對萬億模型的相關研究工作已經同步開展,希望整個訓練過程一棒接一棒地持續滾動下去。
02 AI Infra 是護城河
訓練一個出色的大模型,最重要的是擁有高質量的數據。
零一萬物強調其對大模型的數據篩選能力,讓它獲得了更多高質量的數據。首先,它先用 AI 做篩選,再進行人工評估、不斷叠代,其數據濾除率約爲同行的十分之一。其次,它的英文語料要高于中文語料,因爲英文語料的質量更高。
此外,團隊花了很多時間研究 Scaling Law(規模定律,指在某些系統中,随着系統規模的增加,某些性能指标呈現出特定的變化趨勢)。也就是說,團隊先在小模型上做好了數據配比和評估,并将其推演到百億、千億、甚至萬億規模的模型上。
零一萬物自研出一套「規模化訓練實驗平台」,數據配比、超參搜索、模型結構實驗都可以在小規模實驗平台上進行,對 34B 模型每個節點的預測誤差都可以控制在 0.5% 以内。
這可以提高訓練的效率、降低訓練的成本,「整個訓練是一個動力學過程,中間每一步都可以通過數學方式預測出來,而不需要做大量的實驗。」零一萬物技術副總裁及 Pretrain(預訓練)負責人黃文灏說。
如果說訓練大模型是登山,那麽 AI Infra(AI Infrastructure 人工智能基礎架構技術)則定義了大模型訓練算法和模型的能力邊界——用登山做比喻,如果說訓練大模型是攀登山峰,那麽 Infra 就是提供後援的基地。
具體來說,AI Infra 主要爲大模型訓練和部署提供各種底層技術設施,包括處理器、操作系統、存儲系統、網絡基礎設施、雲計算平台等等。
零一萬物解釋爲什麽選擇 34B 的規模,圖源 | 零一萬物
零一萬物團隊表示,AI Infra 支撐了其超行業水平的訓練效果。通過 AI Infra,Yi-34B 模型的訓練成本實測下降了 40% ——如果說别的公司需要 2000 台 GPU 訓練一個模型,那麽零一萬物可能隻要 1200 台——進一步模拟上到千億規模訓練成本可下降多達 50%。
截至目前,其 AI Infra 能力能實現故障預測準确率超過 90%、故障提前發現率達到 99.9%、不需要人工參與的故障自愈率超過 95%。這很好地保障了模型的訓練過程。
AI Infra 能力的背後是人才。李開複曾表示,做過大模型 Infra 的人比做算法的人才更稀缺。零一萬物稱,其擁有一支行業稀有的 AI Infra 技術團隊。
零一萬物 AI Infra 的負責人戴宗宏,是前華爲雲 AI CTO 及技術創新部長、前阿裏達摩院 AI Infra 總監。他帶領的這支 Infra 團隊,核心成員是來自阿裏、華爲、微軟、商湯等公司的技術專家,曾參與支持過 4 個千億參數大模型規模化訓練,管理過數萬張 GPU 卡,有很強的端到端全棧 AI 技術能力。
在完成 Yi-34B 預訓練的同時,李開複也宣布即将啓動下一個千億參數模型的訓練。「零一萬物的數據處理管線、算法研究、實驗平台、GPU 資源和 AI Infra 都已經準備好,我們的動作會越來越快。」他說。
03 下一站,打造 Super App(超級應用)
幾個月來,零一萬物的進展不可謂不順利:
3 月 19 日,李開複在朋友圈發英雄帖,官宣組建零一萬物團隊,定位是 AI 2.0 全新平台和 AI-first 生産力應用的世界級公司;
3 個月後,團隊寫出第一行代碼;
7 個月後,零一萬物攜最新開源産品亮相—— Yi-34B 和 Yi-6B;
據悉,零一萬物已完成新一輪融資,由阿裏雲領投。當前,零一萬物估值已超 10 億美元。
接下來,零一萬物将基于 Yi 系列大模型打造 To C 的 super APP(超級應用)。「除了模型之外,我們還在做什麽樣的工作?一個 Super APP 的雛形也會在不久的将來跟大家分享。AI 2.0 時代,最大的商機一定是超級應用,而這超級應用一定很可能是在一個消費者級别的超級應用,面向海内外的 ToC 超級應用。」李開複在會上說道。
李開複認爲,super APP 會是新時代下最大的商機,大模型的存在會是當中的「must have」,甚至未來的内容應該主要是由 AI 來創造,人來幫忙,也就是「AI First」。
考慮到 AI 1.0 時代有些做不出收入的公司被淘汰的前車之鑒,李開複談到,在 AI 2.0 時代,做出收入,并且是「持續做出高質量收入」就非常重要,零一萬物接下來的 APP 以及未來的 Super APP 都應該基于上述原則去推動與發展。
他強調,「AI 2.0 是有史以來最大的科技革命,它帶來的改變世界的最大機會一定是平台和技術,正如 PC 時代的微軟 Office,移動互聯網時代的微信、抖音、美團一樣,商業化爆發式增長概率最高的一定是 ToC 應用。」
11 月 6 日,李開複在零一萬物線上發布會中答記者問|截圖來源:極客公園
他認爲,如果 PC 時代賦予給開發者用戶的機會,是 computer on every Desktop;移動互聯網帶來的可能是基于位置的、個性化的、随時随地的計算;AI 2.0 時代帶來的巨大機會,就是把一個超級大腦對接、賦能給每一個應用。
基于上述判斷,零一萬物選擇在 AI 2.0 時代,開發最好的大模型底座、行業模型,一邊尋找最大的商機——一個消費者級别的超級應用。
對于做 Super APP 的方法論,李開複認爲一定是一個很簡單的開始,用精益創業的方法不斷地叠代。就像抖音和微信的第一個版本,并不是超級應用,而是捕捉到了用戶需求,并用新平台的技術精髓,做一個大家喜歡的簡單應用,然後根據用戶反饋不斷調整,最終叠代成爲超級應用。
零一萬物的路徑選擇,也是 AI 2.0 創業潮的産業縮影。開源、閉源并線進行,基礎模型和超級應用都做,甚至 ToB、ToC 的商業化同時探索。
這在過去是罕見的,因爲 ToB 和 ToC,意味着公司組織、DNA、團隊的技術構建方式不一樣,原來做用戶産品的,很難想象一夜之間能服務 B 端客戶。但在大模型這個高門檻、高不确定性的創業賽道上,同時兼顧,已經成爲大家共同的選擇。