創新工場董事長兼 CEO、零一萬物 CEO 李開複博士
钛媒體 App 獲悉,11 月 5 日上午,知名投資人、創新工場董事長兼 CEO 李開複博士帶隊創辦 AI 2.0 大模型公司 " 零一萬物 "(01.AI),正式發布首款研發的最強開源人工智能(AI)大模型系列,名爲 "Yi"。
此次 Yi 系列基礎模型的首個公開版本包括兩款:Yi-6B(數據參數量爲 60 億)、Yi-34B(340 億),均是雙語(英文 / 中文)、支持開源。其中,Yi-34B 模型在多項評測基準中全球領跑,基于超強 Infra 下模型訓練成本實測下降 40%,模拟千億規模訓練成本可下降多達 50%,并以更小模型尺寸的基準結果超過 LLaMA2-34B/70B、Falcon-180B 等大尺寸開源模型,以及百川智能(王小川創立)的 Baichuan2-13B。
創新工場董事長兼 CEO、零一萬物 CEO 李開複表示," 零一萬物堅定進軍全球第一梯隊目标,從招的第一個人,寫的第一行代碼,設計的第一個模型開始,就一直抱着成爲‘ World's No.1 ’的初衷和決心。我們組成了一支有潛力對标 OpenAI、Google 等一線大廠的團隊,經曆了近半年的厚積薄發,以穩定的節奏和全球齊平的研究工程能力,交出了第一張極具全球競争力的耀眼成績單。Yi-34B 可以說不負衆望,一鳴驚人。"
" 随着團隊到位,今年 6、7 月份開始寫第一行代碼,短短四個月做了非常自豪的産品。我們是‘不鳴則已,一鳴驚人’。所以‘一鳴驚人’之後,如果我們過半年甚至過一年回頭看,今天對我們來說隻是剛剛開始,我們還會不斷的去開發、推動、宣布更多令人驚豔的成果。" 李開複表示。
钛媒體 App 還了解到,後續,Yi 系列也将推出專長代碼和數學的訓練模型。此外,目前零一萬物已驚啓動 100B(1000 億)參數的訓練,有望近幾個月内發布,未來還有望推出基于 AI 2.0 的超級應用等技術産品。
據悉,早在今年 3 月 19 日,李開複發文宣布入局 AI 大模型領域,親自籌辦新 Project AI 2.0 公司,稱是一個緻力于打造 AI 2.0 全新平台與 AI-first 生産力應用的全球化公司。" 這是一家由技術願景驅動、擁有卓越中國工程底蘊的創新企業,在全球範圍号召世界級人才加入。" 他表示。
随後在 7 月初,李開複創辦;額最新 AI 大模型創業公司 " 零一萬物 ",同時這也是創新工場 " 塔尖孵化 " 的第 7 家公司,總部位于北京,零一萬物由李開複博士親自挂帥、任 CEO。該公司主要圍繞精進模型、預訓練框架技術等七個方向進行研究,緻力打造全新的 AI 2.0,理念就是 AI-first,驅動力是技術願景,技術專家擁有多家中外科技大廠、博士學位等背景。
李開複當時表示,零一即 01,代表的是數字世界,從零到一,乃至宇宙萬物,寓意 " 零一智能,萬物賦能 " 的雄心,并稱這是李開複 " 撸起袖子 " 親自帶隊," 塔尖孵化 " 了一家 AI 2.0 公司,曆經了三個月的籌辦期。零一萬物稱,其認爲 AI 應當以人爲本,Human(人類)+ AI 将合作創造巨大的經濟價值及社會價值。
此前在 2023 年中關村論壇上,李開複就對钛媒體 App 等表示,以 GPT-4 等大模型爲代表的生成式 AI 熱度在全球蔓延,意味着 AI 2.0 時代已經到來,它将帶來比移動互聯網時代大十倍的機會,穿透各行各業極大地提振生産力。" 我們預測,全新的 AI 2.0 平台将能有效幫助提升人類生産力,創造巨大的經濟價值及社會價值。"
" 大模型的技術門檻很高,非常需要整合一個兼具科研能力和開發實力的高效團隊,制定貫徹公司的技術和産品戰略,從上到下一緻執行。" 李開複認爲,零一萬物将專注打造 AI 2.0 時代的平台及生産力應用生态,創新工場願景是把零一萬物打造爲一家向全球展現其研發及工程能力的世界級公司。
團隊方面,此次零一萬物公布了零一萬物技術副總裁及 AIInfra 負責人戴宗宏,零一萬物技術副總裁及 Pretrained 負責人黃文灏兩位專家。其中,公開信息顯示,戴宗宏曾任職于阿裏、華爲,擔任華爲雲 AI 領域 CTO;黃文灏則畢業于北京大學博士學位,曾在微軟研究院擔任高級研究員,并曾任職于北京智源 AI 研究院。
據介紹,此次發布的 60 億、340 億參數量的 Yi-6B、Yi-34B,兩者都以 4K 序列長度進行訓練,并且在推理期間可以擴展到 32K(3.2 萬)量級,且支持開源,模型對學術研究完全開放,同步開放免費商用申請。
同時,開源 Yi 系列大型模型還有兩個主要特點:一用更少的參數擊敗了具有上百億參數的模型;二支持全球最長的上下文窗口,可達 40 萬字符。
超長上下文窗口是體現大模型實力的一個重要維度,擁有更長的上下文窗口則能處理更豐富的知識庫信息,生成更連貫、準确的文本,也能支持大模型更好處理文檔摘要 / 問答等任務。要知道,目前大模型的諸多垂直行業應用中(如金融、法律、财務等),文檔處理能力是剛需。如 GPT-4 可支持 32K、約 2.5 萬漢字,Claude 2 可支持 100K、約 20 萬字。
而 Yi-34B 還将大模型上下文窗口長度刷新到了 200K,可處理約 40 萬漢字超長文本輸入。這相當于能一次處理兩本《三體》小說、理解超過 1000 頁的 PDF 文檔等場景。所以,零一萬物不僅刷新了業界紀錄,同時也成爲首家将超長上下文窗口在開源社區開放的大模型公司。
在 Hugging Face 開放單預訓練模型排名中,Yi-34B 以 70.72 分的成績全球排名第一,超越了參數量是其兩倍的 LLaMA-70B 和五倍的 Falcon-180B。它不僅以較小的參數量登頂榜單,而且實現了跨數量級的逆襲,用百億級别的參數量擊敗了千億級别的大模型。特别是在 MMLU(大規模多任務語言理解)和 TruthfulQA(真實性基準測試)兩個指标上,Yi-34B 都大幅領先于其他大模型。
目前,Yi 系列模型已在 Hugging Face、ModelScope、GitHub 三大全球開源社區平台正式上線,同時開放商用申請,給開發者在使用 LLM 的過程中提供更多、更優質的選擇。
而 Yi-6B、Yi-34B 的主要區分點在于,Yi-6B 适合個人及研究用途,Yi-34B 已經具備大模型湧現能力,适合發揮于多元場景,滿足開源社區的剛性需求。
在交流中,談及算力,李開複表示,零一萬物很早就意識到了 GPU(圖形處理器)芯片的重要性,已經租賃了大量算力,而且與國内很多雲廠商、GPU 雲等方向上合作。
談及大模型商業化話題時,李開複表示,他認爲此前 AI 1.0 商業化做的并不好,隻是有博士、論文等,而資本市場最終要看企業能不能賺錢、收入是否能持續化。如今 AI 2.0 時代,有更多的商業機會,一方面企業一定要 AIl in AI、能夠實現快速收入、産生好的利潤,另一方面也要做對标微信、美團的超級 App,才能推動大模型的商業化發展。
李開複曾公開表示,以基座大模型爲突破的 AI 2.0 時代,将掀起技術、平台到應用多個層面的革命。如同 Windows 帶動了 PC 普及,Android 催生了移動互聯網的生态,AI2.0 将誕生比移動互聯網大十倍的平台機會,将把既有的軟件、使用界面和應用重寫一次,也将誕生新一批 AI-first 的應用,并催生由 AI 主導的商業模式。
李開複還在今天透露,在完成 Yi-34B 預訓練的同時,目前,零一萬物已經啓動下一個千億參數模型的訓練。
" 零一萬物的數據處理管線、算法研究、實驗平台、GPU 資源和 AI Infra 都已經準備好,我們的動作會越來越快 "。李開複表示,零一萬物希望有更多的開發者使用 Yi 系列模型,打造自己場景中的 "ChatGPT",引領下一代前沿創新和商業模型,探索走向通用 AI 時代。
(本文首發钛媒體 App,作者|林志佳)