繼大語言模型價格以厘計算之後,視覺理解模型也宣告進入 " 厘時代 "。
在 12 月 18 日舉辦的火山引擎 Force 大會上,字節跳動正式發布發布豆包視覺理解模型,爲企業提供極具性價比的多模态大模型能力。豆包視覺理解模型千 tokens 輸入價格僅爲 3 厘,一元錢就可處理 284 張 720P 的圖片,比行業價格便宜 85%,以更低成本推動 AI 技術普惠和應用發展。
豆包大模型全面升級
研究顯示,人類接受的信息超過 80% 來自視覺。視覺理解将極大地拓展大模型的能力邊界,同時也會降低人們與大模型交互的門檻,爲大模型解鎖更豐富的應用場景。
據火山引擎總裁譚待介紹,豆包視覺理解模型不僅能精準識别視覺内容,還具備出色的理解和推理能力,可根據圖像信息進行複雜的邏輯計算,完成分析圖表、處理代碼、解答學科問題等任務。此外,該模型有着細膩的視覺描述和創作能力。
圖:火山引擎總裁譚待
此前,豆包視覺理解模型已經接入豆包 App 和 PC 端産品。豆包戰略研究負責人周昊表示:" 豆包一直在努力,讓用戶的輸入更快更方便 "。爲此,豆包産品非常注重多模态的輸入和打磨,包括語音、視覺等能力,這些模型都已通過火山引擎開放給企業客戶。
會上,豆包 3D 生成模型也首次亮相。該模型與火山引擎數字孿生平台 veOmniverse 結合使用,可以高效完成智能訓練、數據合成和數字資産制作,成爲一套支持 AIGC 創作的物理世界仿真模拟器。
豆包大模型多款産品也迎來重要更新:豆包通用模型 pro 已全面對齊 GPT-4o,使用價格僅爲後者的 1/8;音樂模型從生成 60 秒的簡單結構,升級到生成 3 分鍾的完整作品;文生圖模型 2.1 版本,更是在業界首次實現精準生成漢字和一句話 P 圖的産品化能力,該模型已接入即夢 AI 和豆包 App。
即夢 Dreamina 張楠認爲,生成式 AI 技術可以把每個人腦子裏的奇思妙想快速視覺化," 像做夢一樣 "。即夢希望成爲 " 想象力世界 " 的相機,記錄每個人的奇思妙想,幫助每個有想法的人輕松表達、自由創作。
圖:即夢Dreamina 張楠
大會正式宣告,2025 年春季将推出具備更長視頻生成能力的豆包視頻生成模型 1.5 版,豆包端到端實時語音模型也将很快上線,從而解鎖多角色演繹、方言轉換等新能力。譚待表示,豆包大模型雖然發布較晚,但一直在快速叠代進化,目前已成爲國内最全面、技術最領先的大模型之一。
大模型應用加速落地
數據顯示,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超過 4 萬億,較七個月前首次發布時增長了 33 倍。大模型應用正在向各行各業加速滲透。
據悉,豆包大模型已經與八成主流汽車品牌合作,并接入到多家手機、PC 等智能終端,覆蓋終端設備約 3 億台,來自智能終端的豆包大模型調用量在半年時間内增長 100 倍。
與企業生産力相關的場景,豆包大模型也獲得了衆多企業客戶青睐:最近 3 個月,豆包大模型在信息處理場景的調用量增長了 39 倍,客服與銷售場景增長 16 倍,硬件終端場景增長 13 倍,AI 工具場景增長 9 倍,學習教育等場景也有大幅增長。
譚待認爲,豆包大模型市場份額的爆發,得益于火山引擎 " 更強模型、更低成本、更易落地 " 的發展理念,讓 AI 成爲每一家企業都能用得起、用得好的普惠科技。
在公布豆包視覺理解模型超低定價的同時,火山引擎升級了火山方舟、扣子和 HiAgent 三款平台産品,幫助企業構建好自身的 AI 能力中心,高效開發 AI 應用。其中,火山方舟發布了大模型記憶方案,并推出 prefix cache 和 session cache API,降低延遲和成本。火山方舟還帶來全域 AI 搜索,具備場景化搜索推薦一體化、企業私域信息整合等服務。
雲原生是過去十年最重要的計算範式,大模型時代則推動着雲計算的變革。火山引擎認爲,下一個十年,計算範式應該從雲原生進入到 AI 雲原生的新時代。
基于 AI 雲原生的理念,火山引擎推出了新一代計算、網絡、存儲和和安全産品。在計算層面,火山引擎 GPU 實例,通過 vRDMA 網絡,支持大規模并行計算和 P/D 分離推理架構,顯著提升訓練和推理效率,降低成本;存儲上,新推出的 EIC 彈性極速緩存,能夠實現 GPU 直連,使大模型推理時延降低至 1/50、成本降低 20%;在安全層面,火山将推出 PCC 私密雲服務,構建大模型的可信應用體系。基于 PCC,企業能夠實現用戶數據在雲上推理的端到端加密,而且性能很好,推理時延比明文模式的差異在 5% 以内。
譚待說:" 今年是大模型高速發展的一年。當你看到一列高速行駛的列車,最重要的事就是确保自己要登上這趟列車。通過 AI 雲原生和豆包大模型家族,火山引擎希望幫助企業做好 AI 創新,駛向更美好的未來。"