(圖片來源:钛媒體 AGI 編輯林志佳拍攝)
随着 AI 大模型賽道進入 " 深水區 ",蘋果智能(AI)選擇中國 AI 大模型合作一事引發關注。
12 月 19 日消息,有報道稱,蘋果正在和騰訊、字節跳動商談,将兩家公司的 AI 模型混元(元寶)、豆包大模型整合到在中國銷售的 iPhone 設備中,但談判仍處于早期階段。在此之前,蘋果 AI 與百度合作消息不胫而走,但如今卻說明兩家企業合作存在一定阻礙。
對此,騰訊方面 " 不予置評 ",18 日钛媒體 AGI 曾向字節跳動旗下火山引擎總裁譚待詢問相關議題,他回應稱," 國内安卓手機份額比蘋果更高 ",并未進一步直接回應此事。
值得一題的是,12 月 19 日,北京智源人工智能研究院(智院研究員)發布國内外 100 餘個開源和商業閉源模型多份評測結果,作爲今年英偉達全球第二大買家、擁有 23 萬張 GPU 的字節跳動豆包大模型名列前茅,語言模型結果字節跳動的豆包 Pro、百度 ERNIE 4.0 Turbo 模型位居第一、第二;視覺語言模型方面,OpenAI GPT-4o 與剛剛發布的豆包 · 視覺理解模型 Doubao-Pro-Vision 位列第一和第二名,能力位列第一梯隊,遠超大模型 " 六小虎 "、百度、騰訊等公司研發的多款 AI 大模型。
" 字節豆包太猛了,無論是投入還是自身(流量)資源,這給大模型‘六小虎’(智譜、百川、零一、月之暗面、MiniMax、階躍星辰)帶來很大壓力。" 一家 AI 大模型公司内部人士告訴钛媒體 AGI 現有看法。
在 OpenAI o1 大模型壓力下,互聯網大廠發力 AI 大模型技術和商業化,已經對 AI 行業造成一定承壓。
對此,19 日下午,智源研究院副院長兼總工程師林詠華對钛媒體 AGI 表示,字節豆包、快手在大模型能力上的優勢有兩方面:一是語言模型本身要不斷的 " 數據飛輪 " 進行訓練,而大廠有天然、很強的流量優勢,無疑模型能力更強,尤其是主觀評測上還不錯;第二、文生圖、文生視頻模型領域,字節快手的優勢在于高質量短視頻數據層面,相比非互聯網廠商有明顯優勢。
林詠華強調,未來大模型平台會分化成兩類,即 " 基礎通用大模型 " 和 " 智能體開發平台 "。在這其中,通用基座模型具有一定的投資挑戰,需要更多資源,而國内有實力的機構包括阿裏通義千問、清華系企業(智譜、月之暗面等),上海 AI Lab 等都在持續叠代底層模型平台,這對于 AGI 發展十分重要。
截至 12 月 19 日收盤,百度(9888.HK)跌 4.16%,騰訊(0700.HK)漲 2.27%。
字節豆包、騰訊混元後發先至,蘋果在考驗中國大模型技術
當前蘋果公司正對字節跳動、騰訊、百度等公司展開一場全面的審視,着重考驗中國 AI 大模型技術實力,并從 " 輿論場 " 中進行篩選評估。
據路透 12 月 19 日報道,蘋果公司正與騰訊、字節跳動就将其人工智能模型整合到在中國銷售的 iPhone 中進行談判,但相關讨論尚處于非常早期的階段。
在此之前,蘋果公司嘗試與百度進行合作,積極探索通過百度 " 文心一言 " 大模型來爲中國用戶引入 AI 功能。不過,雙方的合作并非一帆風順,有報道稱,蘋果爲國行版 iPhone 适配百度大模型時遇到了諸多問題,比如 AI 在常見使用場景中,就無法給出準确的回應。
事實上,本月,蘋果開始在其設備中推廣 OpenAI 的 ChatGPT,作爲 Apple Intelligence 産品的一部分,該産品允許 Siri 語音助手利用該聊天機器人的專業知識,包括處理用戶關于照片和文檔(如演示文稿)的查詢。
然而,由于 ChatGPT 在中國無法使用,蘋果需要尋求本地合作夥伴以實現其 AI 功能,但蘋果智能中國合作夥伴持續發生變化。
一旦蘋果 iPhone 能内置字節跳動的 " 豆包 "、騰訊的 " 混元 " 大模型技術的話,會對這兩家公司 AI 業務發展具有很重要的影響。
今年 3 月,蘋果公司财報顯示,其已經擁有超過 22 億台活躍的蘋果設備,比去年增加近 4 億台。另據摩根士丹利報告顯示,Apple Intelligence 功能将成爲蘋果設備多年升級周期的 " 顯著催化劑 ",未來兩年,iPhone 出貨量将超過 5 億部,預計 2025 财年、2026 财年出貨量分别爲 2.35 億、2.62 億部。
站在蘋果角度看,中國 AI 大模型技術能力和投入力度是非常重要的 " 兩環 "。而在這其中,字節跳動、騰訊都擁有很強的市場競争能力。
其中,大模型技術能力層面,字節跳動 " 豆包 " 後發先至,名列前矛。
林詠華坦言,國内 AI 大模型行業開始出現 " 分層 ",有更多公司模型的訓練能力達到 " 應用的可能性 ";也有一些公司也在往 AGI 方向、往規模更大、開源方向發展。本年度兩期評測當中,2024 年 5 月大語言模型 56 家,到年底 12 月減少到 46 家,多模态在 5 月是 32 家,到 12 月增至 42 家。
12 月 19 日,基于全球 800 多個開閉源模型,智源研究院發布最新大模型評測平台 FlagEval 結果,包含 20 多種任務,90 多個評測數據集,超 200 萬條評測題目。結果顯示,主要包括語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測等九個方面。
其中,語言模型:字節跳動 Doubao-pro-32k-preview、百度 ERNIE 4.0 Turbo 位居第一、第二;在語言模型客觀評測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿裏巴巴 Qwen-max-0919、字節跳動 Doubao-pro-32k-preview 位居第三、第四,Meta Llama-3.3-70B-Instruct 排名前五。
視覺語言多模态模型:OpenAI GPT-4o-2024-11-20 與字節跳動 Doubao-Pro-Vision-32k-241028 先後領先于 Anthropic Claude-3-5-sonnet-20241022,阿裏巴巴 Qwen2-VL-72B-Instruct 和 Google Gemini-1.5-Pro 緊随其後。
文生圖多模态模型:騰訊 Hunyuan Image 位列第一,字節跳動 Doubao image v2.1、Ideogram 2.0 分居第二、第三,OpenAI DALL · E 3、快手可圖次之。
文生視頻多模态模型:快手可靈 1.5(高品質)位列第一,字節跳動即夢 P2.0 pro、愛詩科技 PixVerse V3、MiniMax 海螺 AI、Pika 1.5 排名第二至第五名。
語音語言模型:專項評測結果顯示,阿裏巴巴 Qwen2-Audio 位居第一,香港中文大學 & 微軟 WavLLM、清華大學 & 字節跳動 Salmon 位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU 均進入前五。
K12 學科測驗:綜合得分相較于半年前提升了 12.86%,而在英語和曆史文科試題的表現上,已有模型超越了人類考生的平均分,整體來說,阿裏、OpenAI、階躍星辰模型表現不俗。
此外,FlagEval 大模型角鬥場,是智源研究院今年 9 月推出的面向用戶開放的模型對戰評測服務,共有 29 個語言模型、16 個圖文問答多模态模型、7 個文生圖模型、14 個文生視頻模型參評,最終 OpenAI、快手、字節跳動、騰訊的大模型排名前列;模型辯論平台 FlagEval Debate 方面,Anthropic Claude-3-5-sonnet-20241022、零一萬物 Yi-Lighting、OpenAI o1-preview-2024-09-12 爲前三名;金融量化交易評測結果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest 位列前三。
很顯然,與美國 OpenAI 的競争中,從模型層,到軟硬件協同推進,字節跳動已站穩 AI 大模型頭部地位。
今年 11 月的全球月活躍排行榜上,豆包 App 的 MAU(月活躍用戶數)接近 6000 萬,僅次于 OpenAI 的 ChatGPT,位列全球第二;截至目前,豆包大模型日均 tokens 使用量超過 4 萬億,發布 7 個月以來增長超過 33 倍。
12 月 18 日,火山引擎總裁譚待宣布,豆包視覺理解模型輸入價格僅爲 0.003 元 / 千 tokens,1 塊錢可處理 284 張 720P 的圖片,比行業價格便宜 85%。
譚待對钛媒體 AGI 披露,目前國内安卓手機大部分都在和豆包合作,對手機廠商來說,會在某些場景用豆包,某些場景用其他的大模型,或者某一個場景混合使用,對企業用戶來說,肯定也需要一個多雲或者多模型的策略," 最終還是能力更好、成本更低,就會用誰,這筆賬就很好算。"
譚待強調,當前字節并不關注市場競争,因爲大模型市場仍處于早期階段,更多是場景、需求是否被滿足。長期來看,大模型 C 端和 B 端、虛拟和現實世界場景都應該是齊頭并進發展。
" 這個市場還在很早期,可能千分之一剛剛開發出來。這個時候其實不用關心競争的問題,需要關心的是用戶的需求有哪些還沒有被滿足。" 譚待表示,最關鍵的是能不能把東西做好,把方案的落地應用做好。" 我們有時候跟客戶說,你每家都試試看,然後就知道跟誰來做,這是一個很自然的現象,而且也不涉及話語權高和低的問題。"
林詠華表示,2024 年下半年,AI 大模型發展更聚焦綜合能力提升與實際應用。多模态模型發展迅速,湧現了不少新的廠商與新模型,語言模型發展相對放緩。模型開源生态中,除了持續堅定開源的海内外機構,還出現了新的開源貢獻者。同時,得益于文本大模型的進步,語音語言模型能力提升巨大,覆蓋面更全,但在具體任務上與專家模型還存在一定差距,整體而言,性能好、通用能力強的開源語音語言模型偏少。
林詠華強調,部分 AI 大模型公司已經轉向了 Agent 應用層方向,未來如果提高效率、形成更廣泛應用的話,需要 AI 公司在推理端發力。
OpenAI CEO 奧爾特曼(Sam Altman)曾斷言:" 我們會有越來越好的模型,但我認爲下一個巨大突破将是 AI Agent 智能體。"
今年采購 46 萬張 GPU 卡,AI 大模型企業加速 " 内卷 " 投入
除了技術能力,字節跳動、騰訊依然 " 卷 " 算力,兩家共計買了 46 萬張英偉達 GPU 芯片,成爲英偉達全球第二大買家。要知道,今年英偉達總銷售數量才達到 200 萬張 AI GPU 計算卡。
具體來說,研究機構 Omdia 報告顯示,微軟今年采購了約 48.5 萬片英偉達 Hopper 架構的 H100/H200 GPU 計算卡,是其 2023 年購買的同代英偉達 AI 處理器數量的三倍多,并列排名第二是兩家中國公司——字節跳動、騰訊,都分别采購約 23 萬片英偉達 GPU 芯片,超越 Meta、亞馬遜和谷歌等美國科技巨頭。
上述報告顯示,到 2024 年,全球科技公司将在服務器上花費約 2290 億美元,其中微軟的資本支出 310 億美元,亞馬遜的資本支出 260 億美元,數據中心基礎設施前十大買家投資占比達 60%。
Omdia 雲計算和數據中心研究總監 Vlad Galabov 表示,到 2024 年,服務器支出規模約 43% 将流向英偉達," 我們已經接近峰值了。"
微軟 Azure 全球基礎設施高級總監斯皮爾斯 ( Alistair Speirs ) 表示," 良好的數據中心基礎設施非常複雜,是資本密集型項目,需要多年的規劃。因此,預測我們的增長将在哪裏,并留出一點緩沖空間,這很重要。"
譚待則認爲,AI 的出現讓所有的基礎架構從 CPU 轉向 GPU 爲核心,從而使得 " 雲原生 " 概念變得十分重要。" 我們認爲未來 10 年其實 AI 雲原生是更重要的事情,未來可能從基礎架構領域就是很大的變化,從雲原生到 AI 雲原生,火山希望做成這塊的領軍企業。"
譚待強調,AI 大模型的場景很重要,不僅需要平台和算法,而且需要服務,幫助企業辨别 AI 大模型使用場景,從而做好 AI 技術落地。
林詠華指出,現在優秀、開源的語言模型已經發展到了一個基礎能力水平,再出現明顯的增長肯定不是特别容易,并非拼更大的參數或更多的數據,而是需要更多深入的創新能力。現在,語言模型就進入到一個 " 深水區 ",原因在于 " 深水區 " 有更大的收益、創新難度。但多模态模型層面,一些基礎能力還是有明顯的增長空間,明年多模态模型會層出不窮。
展望未來,林詠華強調,AI 大模型 " 數據 " 并沒有所謂的 " 耗盡 "。十年前,互聯網數據占全球數據量份額接近 5%,如今到 2021 年 -2024 年降至 1.3%,但全球使用中文上網的人數一直沒變約 19%,所以巨大的互聯網中文數據形成了 " 孤島 ",因此,打破 AI 模型訓練的數據孤島将變得十分關鍵,而 " 合成數據 " 解決的是更複雜的問題和方向,是更加高效産生數據的一種方式。
" 目前,國内的 AI 視頻生成模型的表現其實與國外(sora)相差無幾。" 林詠華稱,2025 年,FlagEval 評測體系的發展将進一步探索動态評測與多任務能力評估體系。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)