作 者丨白楊
編 輯丨林曦
圖 源丨視覺中國
與正式亮相時隔 4 個月之後,創新工場董事長兼 CEO 李開複創辦的 AI 公司 " 零一萬物 " 有了新進展。
11 月 6 日,零一萬物正式發布了開源大模型 "Yi"。目前,Yi 系列模型已在 Hugging Face、ModelScope、GitHub 三大全球開源社區平台上線,并對外開放了商用申請。
李開複說,開源對推動世界技術革命的發展有着非常重要的意義,從 Linux 開始,到各種 AI 技術,再到今天 AI 2.0,一直有開源的力量在不斷地推動一波波的技術浪潮。
這也是零一萬物選擇做開源大模型的原因。" 零一萬物的發展受益于此前開源社區的一些集體智慧,這也讓我們有義務去做一些貢獻 ",李開複表示," 很多人覺得大模型需要超級多的資源,隻有 OpenAI、微軟、谷歌、阿裏、百度、騰訊這樣的公司才能做,但是任何技術都是需要全球化的參與,而開源的方向是讓大家都有機會能夠接觸到大模型。"
" 燒錢 "
今年 3 月,李開複在社交平台正式宣布要創辦一家 AI 公司。到了 7 月,新公司正式定名爲 " 零一萬物 ",并已有數十名核心成員,主要集中在大模型技術、人工智能算法、自然語言處理、系統架構、算力架構、數據安全、産品研發等領域。
據當時介紹,零一萬物的聯創團隊成員包含前阿裏巴巴副總裁、前百度副總裁、前滴滴 / 百度首席算法負責人、前谷歌中國高管、前微軟 /SAP/Cisco/ 副總裁,算法和産品團隊背景均來自國内外大廠。
在發布 Yi 系列模型的同時,零一萬物的部分團隊成員也首度亮相。比如零一萬物技術副總裁及 Pretrain 負責人黃文灏曾先後任職于微軟亞洲研究院和智源研究院,非常早就介入了 AI 2.0 工作。
零一萬物技術副總裁及 AI Infra 負責人戴宗宏此前曾擔任過華爲雲 AI CTO 及技術創新部長、阿裏達摩院 AI Infra 總監。他管理的 Infra 團隊核心成員主要來自于阿裏、華爲、微軟、商湯,這些人曾經參與支持了 4 個千億參數大模型規模化訓練,管理過數萬張 GPU 卡。
有了豐富的人才儲備之後,零一萬物還需要解決數據和算力等問題。據李開複介紹,零一萬物想盡了各種辦法和渠道解決數據問題。" 我們在外購買了很多數據,也動用網絡爬蟲,去合法獲取允許的網站内容,同時也用了很多網上已經開源分享的數據。不過在拿到這些數據後,其中有很多重複,質量也參差不齊,所以我們對這些數據做了非常系統化的篩選,最終是從 100 多 T 的數據中挑選出 3T"。
在算力方面,李開複則提到," 在零一萬物初創階段,就判斷 GPU 比黃金重要,所以很早就在規劃各種資源,現在零一萬物的算力資源足夠用到 18 個月之後 "。
而對于一家 AI 公司尤其是做大模型的公司來說,無論是招募人才,還是購置數據和算力資源,都是一筆不菲的投入。李開複也透露稱,在沒有完成新一輪融資之前,零一萬物已經負債幾千萬美元。
不過,零一萬物也已得到資本的青睐。據記者了解,零一萬物已完成新一輪融資,由阿裏雲領投,估值超過了 10 億美元。這也意味着,李開複隻用了 8 個月的時間,就創造出一個獨角獸公司。
成績
據李開複介紹,零一萬物從今年 6、7 月份才開始寫下第一行代碼,在短短四個月的時間内,零一萬物卻交出一份亮眼的成績單。
此次發布的 Yi 系列模型包含 34B 和 6B 兩個版本。其中,截至 11 月 5 日的數據,Yi-34B 在 Hugging Face 英文測試公開榜單 Pretrained 預訓練開源模型排名中,以 70.72 的分數位列全球第一,超過了 LLaMA2-70B 和 Falcon-180B 等衆多大尺寸模型。
在中文方面,Yi-34B 在 C-Eval 中文權威榜單排行榜上也超越了全球所有開源模型。其中在 CMMLU、E-Eval、Gaokao 三個主要的中文指标上,Yi-34B 的表現也已超越 GPT-4。
另外值得注意的是,Yi-34B 将發布可支持 200K 上下文窗口(context window)版本,可以處理約 40 萬漢字超長文本輸入。相比之下,OpenAI 的 GPT-4 上下文窗口隻有 32K,文字處理量約 2.5 萬字。
在語言模型中,上下文窗口是大模型綜合運算能力的金指标之一,對于理解和生成與特定上下文相關的文本至關重要,擁有更長窗口的語言模型可以處理更豐富的知識庫信息。而零一萬物,也成爲第一家将超長上下文窗口在開源社區開放的大模型公司。
除了此次發布的大模型産品之外,李開複還重點介紹了背後的一些研發能力。其表示,憑借 AI Infra 的支撐,Yi-34B 模型訓練成本下降了 40%," 也就是說别的公司如果需要 2000 台 GPU 訓練這樣一個模型,而我們可能隻要 1200 張 "。
同時,經過幾個月大量的建模和實驗,零一萬物自研出一套 " 規模化訓練實驗平台 ",用來指導模型的設計和優化。現在,數據配比、超參搜索、模型結構實驗等都可以在小規模實驗平台上進行,小尺寸模型成功後,再應用到大尺寸模型當中,在訓練 34B 模型時,零一萬物已經驗證了該平台的有效性,并且每個節點的預測誤差都控制在了 0.5% 以内。
基于這樣的模型預測能力,可大大減少訓練誤差對于計算資源的浪費,同時也讓以往的大模型訓練碰運氣的 " 煉丹 " 過程變得極度細緻和科學化。李開複宣布,在完成 Yi-34B 預訓練的同時,零一萬物已經啓動下一個千億參數模型的訓練。
未來
在談到大模型的未來前景時,李開複再次強調,大模型時代不僅是人類跨向 AGI 的重要一步,同時也是一個巨大的平台機會,這個平台可以比肩 PC 時代、移動互聯網時代。
而在這樣一個時代,最大的商機是創造出超級應用( Super App)。在李開複看來,Super APP 是大部分人需要花大量時間,每天必須有它才能得到自己的價值體現。比如 PC 時代的微軟 Office,移動互聯網時代的微信等,都是 Super App。
所以,做出一款 Super App 也是零一萬物在努力的目标。" 我們的 Super App 雛形很快就會跟大家見面 ",李開複表示," 在這個階段,我們也不認爲我們自己就能把 Super App 做出來,但 Super App 一定都是簡單的開始,然後用精益創業的方法不斷叠代,最終叠代成超級應用 "。
這是零一萬物做 Super App 的方法論,李開複認爲這也将是未來十萬甚至上百萬開發者去嘗試的方法論。AI 2.0 充滿着機會,零一萬物希望自己能夠開發出一個 Super App,同樣,任何一個創業者如果找對了方向,并進行快速叠代,那也有可能打造出 AI 2.0 時代的 Super App。
另外從企業發展角度,李開複也表示,在 AI 2.0 時代,商業化非常重要。在 AI 1.0 時代,很多 AI 公司沒有做好商業化,很早就被淘汰,而那些做出收入的,在持續性上也做的不夠好,所以 AI 1.0 的公司交出的成績單并不理想。
這也爲 AI 2.0 時代的創業公司敲響了警鍾。" 我們做 App 就是朝着能夠快速有收入,并且能夠産生非常好的利潤,讓收入變得可持續。現在那些發展成功的公司,都是因爲他們的收入有質量,在零一萬物看來,應用的收入質量要高于做 ToB,所以我們也選擇堅定不移地走 ToC 路徑。"李開複說。
SFC
本期編輯 劉雪瑩 實習生 譚雅涵
21 君薦讀