視覺理解、3D生成，豆包大模型上新，要讓AI更實用，更好用！

時光飛逝啊，家人們，前幾天才大雪，眼瞅着又快到冬至了。

擱往年的情況，到了年底，這才到各大廠商紛紛發力的時候，畢竟年關将近嘛，總得搞出點啥新東西，一方面是給上頭來點交代，還指着年終獎回去過年呢，另一方面也能給大家長長眼界。

特别是這 AI 行業，就連 OpenAI 一改之前大半年不更的惰性，直接開啓了十二場直播，帶來了包括主打整合功能的 Projects、做到 " 耳聰目明 " 的高級語音模式，簡化開發體驗兄弟強化微調技術等全新功能演示。

既然 GPT 做了，那麽國内大模型又怎麽能不做呢，月之暗面 Kimi 發布視覺思考模型 k1；騰訊微信推出多模态大模型 POINTS 1.5；巨人網絡發布千影有聲遊戲生成大模型，還有不勝枚舉的初創公司帶着自家模型的新進展試圖刷個臉熟。

所以呢，豆包又又又更新了。

（圖源：雷科技）

而且啊，這次還不是之前那每半個月發條站内信息告訴你的「小功能」更新，12 月 18 日，字節跳動在上海舉行了「火山引擎 FORCE 原動力大會 · 冬」，大會正式帶來了豆包大模型家族的全面升級，并打造 2000 平方米的 AI 展區，以及舉辦 10+ 場的專題論壇。

爲了仔細觀察一下豆包這一年來的進步，順便看看字節接下來要折騰些什麽新東西，小雷也是頂着凜冬，不遠萬裏來到上海參與了本次開發者節的開幕演講，接下來跟着我走就對了。

在國産大模型中，豆包的起步确實是相對慢一點的。

當字節在去年 10 月上架自家首款 AI 原生應用——豆包 App 時，百度這邊已經宣布在搜索、文庫、地圖等各種應用中全部植入了 AI 能力；阿裏的通義千問已經到了 2.0 版本；就連一批資源不多的 AI 初創團隊也已經陸續登上台面。

但或許是因爲技術積累、厚積薄發的緣故，豆包 AI 生态在 2024 年實現了高速發展，甚至做到了後來居上。

在模型上，字節補全了圖像、語音、音樂、視頻、3D 等不同模态的生成式 AI 模型；在應用上，豆包 App 已成爲國内用戶最多的 ToC AI 産品，截至 11 月底，累計用戶規模已超過 1.6 億，單日活躍用戶接近 900 萬。

不知不覺間，字節已經成爲目前擁有最全生成式 AI 模型、最多 AI 應用的技術公司，而此時距離今年 5 月，字節跳動宣布自家豆包大模型正式開啓對外服務以來，也就過了半年時間而已。

那麽這次豆包，又給我們帶來了什麽驚喜呢？

首先是視覺理解模型。

研究顯示，人類接收的信息超過 80% 來自視覺。視覺理解将極大地拓展大模型的能力邊界，同時也會降低人們與大模型交互的門檻，爲大模型解鎖更豐富的應用場景。

在加入視覺理解模型後，現在豆包也能夠像 GPT-4o 一樣，接受文本、音頻和圖像任意組合的輸入與輸出，并通過深度融合視覺和語言模态，無需任何提示，即可識别日常生活中的大部分物體乃至企業，完成分析圖表、處理代碼、解答學科問題等交互。

豆包戰略研究負責人周昊表示：" 豆包一直在努力，讓用戶的輸入更快更方便 "。

正因如此，豆包産品非常注重多模态的輸入和打磨，包括語音、視覺等能力，試圖改變了人們對大模型交互體驗的既定思路，讓人機對話體驗更接近人與人之間的實時對話。

目前，這些模型都已通過火山引擎開放給企業客戶。

在視頻創作領域，火山引擎及其背後的字節跳動，恐怕是最有發言權的。

抖音在全球掀起的全民視頻創作熱潮，造就了一個全新的互聯網視頻時代，所以，即夢 AI 的視頻生成也更關注用戶在實際使用時的創作流程和創作效果，而不僅僅是簡單地生成畫面和動作。

在大會上，即夢 Dreamina 張楠展示了兩個令人驚豔的 AI 視頻片段，從多人互動到運動長鏡頭，兩個視頻都可以在保證視頻流暢度的同時确保視頻元素的一緻和主體風格不變化，在我看來已經足夠驚豔出彩。

張楠認爲，生成式 AI 技術可以把每個人腦子裏的奇思妙想快速視覺化，" 像做夢一樣 "。即夢希望成爲 " 想象力世界 " 的相機，記錄每個人的奇思妙想，幫助每個有想法的人輕松表達、自由創作。

不僅如此，在大會上張楠正式宣告，具備更長視頻生成能力的豆包視頻生成模型 1.5 版将于 2025 年春季正式推出，端到端實時語音模型也将很快上線，從而解鎖多角色演繹、方言轉換等新能力，爲更多更精細的 AI 視頻創造實現賦能。

大家熟悉的豆包大模型多款産品，在本次大會上也迎來重要更新。

豆包通用模型 pro 已全面對齊 GPT-4o，使用價格僅爲後者的 1/8；音樂模型從生成 60 秒的簡單結構，升級到生成 3 分鍾的完整作品；文生圖模型 2.1 版本，更是在業界首次實現精準生成漢字和一句話 P 圖的産品化能力，該模型目前已接入即夢 AI 和豆包 App 中。

最最最特别的，還是本次大會上首次亮相的豆包 3D 生成模型，該模型與火山引擎數字孿生平台 veOmniverse 結合使用，可以高效完成智能訓練、數據合成和數字資産制作，成爲一套支持 AIGC 創作的物理世界仿真模拟器。

AI 賦能遊戲創作，或許并不是一場夢。

比起空口說白話的「能力」，對于用戶來說，落到實處的「應用」顯然是更值得關注的。

普通用戶使用體驗很好解決，豆包戰略研究負責人周昊表示，做産品要把關鍵用戶需求解決好，隻要豆包 App 能做到輸入方便、離用戶近、模型能力更強，就能繼續維持高速發展。

而在企業這邊，面向諸多企業用戶，火山引擎這次特地升級了火山方舟、扣子和 HiAgent 三款平台産品，幫助企業構建好自身的 AI 能力中心，高效開發 AI 應用。

其中，火山方舟發布了大模型記憶方案，并帶來了全域 AI 搜索能力，前者在更低延遲和成本的基礎上，爲大模型賦予了「更加懂你」的能力，後者則能在記憶能力的基礎上，做到一體化、場景化和個性化的搜索推薦，并對企業私域信息進行有機整合。

作爲目前業内最便捷的 AI Bot 定制平台，現在扣子也獲得了今天大模型升級的一系列能力，你依然可以通過按部就班地給出自己的需求來制作屬于自己的 AI Bot。

總感覺雷科技上線的小雷 Bot 也是時間該更新了，隻要小雷努力一下，或許之後根據用戶上傳的照片、視頻裏的手機，給出購買建議這些功能也能實現？

最後，小雷還去逛了一下展區。

這次字節也在現場設置了五個不同的展示區，分别是：豆包大模型、構建 AI 創意中樞、AI 驅動應用創新、持續創新的 AI 雲與基礎設施和 AI 加速行業躍遷。

要說裏面比較有趣的，一個是網易伏羲和火山引擎合作的 AI NPC，在數個不同故事主題的開放世界龐大背景下，火山大模型化身千行百業的 NPC，融入進遊戲的遊曆玩法中，爲玩家帶來與 AI 人物角色實時互動的全新體驗。

還有前面提到的 AI 音樂，實測隻需要幾個關鍵詞，在極短的時間裏就能生成一首朗朗上口的音樂，根據要求切換不同的曲風并生成歌詞，這次豆包還特地讓一個小姐姐在現場演唱大模型生成的曲目，這種人機協同的新體驗也是頭一遭。

整個發布會看下來，字節跳動 / 火山大模型正在做的事情還挺好理解的：

" 滿足具體且真實的需求，關心用戶具體且真實的生活。"

自 ChatGPT 發布，如今也差不多過去兩年時間了，自全球掀起的這場大模型競賽也已經有一年半時間了，但是如今怎麽将大模型落地，依然是萦繞在每一家 AI 公司的最大命題。

有媒體統計，自從 GPT-3.5 上線以來，在各家大廠繼續大規模投入的同時，中國新成立的 AI 公司已經有近 8 萬家陷入注銷、吊銷或停業異常的狀态，甚至出現部分廠商決定用已有的服務器轉行遊戲業的情況，百模大戰的熱鬧和慘烈都出乎很多人的意料。

而火山引擎這邊，則是在 FORCE 原動力大會 · 冬上，交出了一份大模型與行業結合的高分答卷。

作爲世界排名第二、中國排名第一名的 AI APP，數據顯示，截至 12 月中旬，豆包通用模型的日均 tokens 使用量已超過 4 萬億，較七個月前首次發布時增長了 33 倍。

不僅如此，豆包大模型還獲得衆多行業客戶青睐，不僅與八成主流汽車品牌合作，更是接入到包括 vivo、榮耀在内的多家手機、PC 等智能終端，覆蓋終端設備約 3 億台，來自智能終端的豆包大模型調用量在半年時間内增長 100 倍。

在我看來，豆包獲得青睐背後的原因其實很簡單——就是價格更低、效果更好。

在今天的大會上，豆包讓視覺理解模型進入 " 厘時代 "，價格來到了 0.003/ 千 tokens，一塊錢能夠處理 284 張圖片，比行業價格便宜 85％，諸如記憶能力、大模型推理成本也有肉眼可見的降低。

目前大模型的格局尚不清晰，我們很難預測一個超級應用何時出現，但以能力更強、價格更低和更易落地的大模型與行業融合，或許真的能加速大模型商業化的探索，也能從中找到更多 AIGC 應用與市場契合度的可能性。

火山引擎希望能助力更多企業實現智能化轉型和業務增長，成爲推動各行各業向前發展的強勁動力，迎接更加豐富的硬件品類、更快落地的技術應用、更加蓬勃的産業生态。這樣一個目标，說着倒是容易，但想要實現的話，需要企業背後的決心、技術力和市場能力，缺一不可。

或許可以這麽認爲，在這場 AI 競争淘汰賽中，字節跳動正在火力全開，而國産 AI 大模型的格局，很可能要有新變化了。