" 百模大戰 " 正酣,誰能真正脫穎而出?
12 月 28 日消息,創新工場董事長兼 CEO、零一萬物 CEO 李開複在接受媒體采訪時表示,中國人工智能領域的競争仍然處在預選賽階段。在經曆行業大 " 洗牌 " 過後,最終隻有幾個大赢家,還有部分企業可能會體面地退出,但大多數企業要麽半途而廢,要麽轉向更實際的目标,比如爲特定行業構建應用和解決方案。
李開複表示,中國的大模型公司正處于技術驗證階段,它們需要證明自己有能力開發出高質量的模型。而那些通過考驗的公司将邁向下一階段,即如何增加收入并實現盈利。
在談及中國 AI 公司前景時,李開複稱,他更傾向于在全球範圍内展開競争,未來有機會爲不同的國家構建不同的特殊模型。
今年夏天,李開複闖進了大模型的賽道,創立 AI 公司零一萬物,并在上月發布了預訓練大模型 Yi-34B。與此同時,零一萬物已完成新一輪融資,估值超過 10 億美元,在成立不到 8 個月的時間即跻身獨角獸行列。
Yi-34B 在關鍵指标上勝過市場上已有的領先開源模型,在 Hugging Face 英文開源社區平台和 C-Eval 中文評測的榜單上曾爬升至第一位。目前,零一萬物正在開發一種新的專有模型,參數超過 1000 億。
李開複在采訪中還談到芯片庫存問題,他稱現有的庫存足夠零一萬物使用 18 個月。
以下爲李開複接受科技媒體《The Information》采訪全文:
問:中國目前有數十家公司都在開發大語言模型,接下來會發生什麽?
李開複:我認爲中國以前也曾出現過很多類似現象,例如團購風潮、共享單車應用的興起,以及在深度科技領域,比如計算機視覺和語音識别技術。當計算機視覺證明取得了突破性進展時,無數中國企業争先恐後地湧入,試圖在這個行業分一杯羹。然而,大多數企業最終并未能生存下來。中國是一個競争非常激烈的市場,甚至可能比美國還要激烈。
目前,中國人工智能領域的競争仍然處在預選賽階段。首先面臨的考驗是:在百家争鳴的競争中,哪家公司能開發出真正有價值的高質量模型?隻有模型表現出色,才有可能在實際應用中嶄露頭角。否則,它會更像是一個玩具,而不能解決實際問題。
在預選賽中通過技術考驗的企業将進入下一階段:商業價值階段。你的商業模式是什麽?如何盈利?很快,投資者将根據這些公司的損益表來評估其價值,并提出與雲服務提供商、企業軟件公司和消費者應用程序相同的問題。如果企業無法回答這些問題,那麽它們的增長将面臨終結。
在美國,OpenAI 已經證明它擁有世界領先的技術,并且能夠創造收入。由于它創造了足夠的價值,人們願意在其上構建應用程序并爲之付費。
而在中國,我們最終隻有幾個大赢家,還有部分企業可能會體面地退出,但大多數企業要麽半途而廢,要麽轉向更實際的目标,比如爲特定行業構建應用和解決方案,而不是單純地追求大模型的研發。随着時間的推移,開發大模型的成本将越來越高。
問:中國 AI 初創公司及其投資者表示,中國将爲生成式 AI 模型和應用開發自己的生态系統。你對此有何看法?
李開複:我們都不想看到平行宇宙的出現。我們更傾向于在全球範圍内展開競争,讓真正出色的公司脫穎而出,這樣效率才更高。但是,我們無法完全掌控自己的命運。
如果我們想進入美國市場,雖然沒有規定說我們不能進入,但我不認爲我們會得到很多業務。當前美國市場對中國軟件存在一種不公平的偏見,這是我們不得不面對的現實。
我們對中國以外的商機持開放态度,但我們完全理解,有些事情是不可能的。比如,将我們的專有模型賣給美國公司是不可能的。他們不會購買,我們也不會做無用功。
中國顯然蘊藏着着巨大的機遇,但我不會将世界其他地區排除在中國公司可能進入的地區之外。一般來說,矽谷的做法是一刀切的,這或多或少對 Facebook 和谷歌等公司的崛起中起到關鍵作用,并幫助美國取得了市場主導地位。但這次有所不同,因爲大語言模型是在數據基礎上進行訓練的。而數據伴随着偏見、意識形态和價值觀的問題。美國的價值觀在某些國家并不受歡迎,甚至不被接受。中國不會是唯一的國家。我認爲中東是另一個可能希望以不同方式思考問題的地區。這将導緻各國希望對其模型有更多的控制權。
我确實認爲,有機會爲不同的國家構建不同的特殊模型。這是矽谷公司自然不會做的事情,因爲他們覺得自己的價值觀是正确的價值觀,并希望更多的人能夠接受并融入其中。而且,爲不同市場構建不同的大模型,需要大量的工程工作。因此,矽谷公司不願意開發這類模型。包括中國在内的世界其他地區的公司,可能有機會研究這種模型。但顯然,他們必須赢得用戶和各國政府的信任。
問:有媒體報道稱,你們公司成功降低了 Yi-34B 的 AI 訓練成本。你們是如何做到的?
李開複:我們擁有超級強大的基礎設施團隊,他們可是我們公司規模最大的團隊。我之前就跟員工們說過,每增加一個建模人員,GPU 的負擔就加重一分。但是每加一個基礎架構人員,GPU 的效率就能提升一些。當然,我們也需要強大的建模團隊,但從一開始,我們的首要任務就是建立一個強大的基礎設施團隊。
基礎設施團隊的成員就像是無名英雄一樣。他們得負責硬件、軟件還有海量的數據傳輸,得同時處理 GPU、内存和網絡,這三者中的任何一個都可能成爲瓶頸。
要知道,GPU 很難擴展到數千以上。從 2000 個增加到 8000 個的時候,你不可能簡單地用軟件就能搞定,因爲随着你轉向更大的模型和更大的數據集,網絡需求也會發生巨大變化。
我們的基礎設施團隊裏有好幾十名工程師,是目前零一萬物最大的團隊。他們的工作包括研究怎麽使用 FP8(英偉達 H100 芯片的一種數據格式)來大幅減少計算量,還要弄清楚在哪裏使用 FP8,在哪裏使用其他數據格式,以及如何無縫地轉換它們。除了這些,他們還得解決一系列頭疼問題,比如應該使用什麽網絡協議、怎麽優化編譯器、怎麽處理 GPU 故障等等。實際上,GPU 經常出故障。要是一個 GPU 出現故障,可以熱插拔呢?我們仍在努力解決這個問題。如果在一個擁有上千個 GPU 的集群裏,就因爲一個 GPU 故障而讓你的訓練停了一個小時,要是能進行熱插拔,那麽每天就能節省一個小時。這些時間可以積少成多。
還有一個相關的事情就是彈性訓練。如果你有一個由 2000 個 H100 芯片組成的集群,而你隻需要 500 個來執行某個任務,那你可以在檢查點之間把它們移除,然後再添加回來嗎?這些任務并不是 AI 研究人員該幹的,而更多是屬于網絡工程師的工作。
如果把大語言模型的開發比作火箭科學,那麽如果沒有工程師,火箭将會永遠飛不起來。SpaceX 的成功不僅僅是因爲它有大量研究人員,還因爲它做了大量超級複雜的工程工作。
問:美國限制向中國出口先進半導體技術,包括英偉達的先進芯片。你是如何應對的?
李開複:我公開說過,我們的芯片庫存足夠使用 18 個月。這些芯片基本上是我們在限制措施出台前購買的。我們肯定在努力研究如何使用中國芯片,但這并不容易。對它們進行編程不是我們所熟悉的領域。但如果我們必須要這麽做,我們也會勇敢地接受挑戰。
英偉達的芯片非常出色,但有人可能會認爲,更簡單的芯片可以以更低的成本完成這項工作。但英偉達實力強大背後的一個主要因素是圍繞其 CUDA 軟件庫的整個生态系統,這使得編程變得相對容易。如果你強迫工程師們使用非英偉達的芯片,他們基本上會反對,因爲這類芯片的效率要低得多。但我們目前面臨的困境要到 18 個月後才會顯現,而我們必須更早展開行動。如果我們無法獲得英偉達的芯片,我們将尋找更簡單、更專注于轉換器的芯片,但工程師們編程起來會很痛苦。可是,如果我們别無選擇,那就隻能這麽做。
衆所周知,中國工程師有能力、有決心,他們可以出色地應對這種被認爲艱巨的工程挑戰。這與我之前所說的基礎設施團隊的工作類似。學習使用非常少的庫來對新的非标準 GPU 進行編程,也是一項艱巨的工作。
中國企業家是頑強的,中國工程師很勤勞,他們不怕繁重的工作。這正是美團打造卓越服務的原因,也是微信成爲卓越産品的原因。
的确,我們面臨有許多艱巨的挑戰,你可以說它們是浪費時間和精力。但這是我們手中拿到的牌,所以我們會盡我們最大的努力打好這些牌。