豆包的 " 眼睛 " 升級了,現在讓它看一眼APP 截圖,就能直接給你生成代碼!
話不多說,我們直接給它上一個難度。
例如我們先随機截取一張網站的圖片:
再來到火山方舟的大模型廣場,pick 一下最新的 Doubao-vision-pro-32k 版本:
(PS:該模型也可以在豆包 APP 中體驗)
然後把剛才的截圖 " 喂 " 給豆包,并附上一句簡單的 Prompt:
幫我寫代碼,克隆這個 APP。
隻見豆包先是秒看出這是一個音樂 APP 的界面,緊接着就唰唰唰地敲起了代碼。
從代碼的功能上來,包括了菜單欄、播放列表框架、播放列表列表框和狀态欄。
模拟的播放列表中包含了幾首歌曲的信息,包括标題、藝術家、時長和點贊數等。
而且這些都是在不到 30 秒内完成的。
若是想實現更複雜的功能,我們也是可以繼續用說的:
那繼續幫我實現更複雜的音樂播放應用。
這一次,也僅僅耗時1 分鍾,在原先代碼的基礎上,新增了控制面闆、播放按鈕、更新進度條等内容。
嗯,現在開發一個 APP,真的變成截張圖的事兒了。
這便是豆包最新發布的新模型——豆包 · 視覺理解模型。
綜合來看,它的亮點可以歸結爲如下三點:
内容識别更強:支持 OCR、圖像知識、動作情緒、位置狀态等,尤其對中國傳統文化理解更深。
理解與推理增強:優化數學、邏輯、代碼的推理與問答能力。
視覺描述細膩:提供詳細圖像描述,可創作多種文體内容,如産品介紹、故事、視頻腳本等。
更重要的一點,發布即大降價——0.003 元 / 千 tokens。
相當于1 塊錢可以處理284 張圖片!
不過有一說一,畢竟考驗大模型 " 視力 " 這事,不能隻看單一的産品。
因此,接下來,我們就組個擂台,看看哪個大模型的 " 眼神 " 更好使。
大模型 " 視力 " 大比拼
我們請出的打擂台選手,正是目前大模型的頂流之一—— OpenAI 的GPT-4o。
比試規則也很簡單,就是通過不同維度的試題,來看看作答的效果。
Round 1:複雜、生僻物體識别
第一輪比試中,我們先小試牛刀一下一個不常見的水果,請看圖:
然後我們分别問一下兩位選手:
圖中的是什麽東西?
△上圖爲豆包作答;下圖爲 GPT-4o 作答(下同)。
從回答内容上來看,二者雖然都回答對了,但特點各有不同。
豆包 · 視覺理解模型回答更加與金鈴子緊密相關;而 GPT-4o 則是更傾向于金鈴子與苦瓜的不同。
若是比試要求是與圖中物體高度相關,那麽或許豆包 · 視覺理解模型的回答更優質一些。
再來一張冷門的圖像,請看題:
這是什麽?
再來看一下兩位選手的作答:
它們都看出來這是一個冷門樂器,不過這一次,豆包 · 視覺理解模型明顯回答的要更精準一些——樂器叫做 Mizmar。
不僅如此,它還把其材質、文化特點等信息都講述了出來;而 GPT-4o 這邊的回答,隻能說是描述了大概。
這一輪,豆包 · 視覺理解模型,Win!
Round 2:大家來找茬
要比視力,那 " 大家來找茬 " 這個遊戲就絕對不能錯過啦 ~
請看題目:
找出 10 個不同點。
我們來看一下兩位選手的回答:
這一輪的比拼中,問題就比較明顯了,兩位選手都沒有完整給出正确答案(部分正确)。
看來 AI 玩大家來找茬還是具備一定的挑戰性。
Round 3:反向猜 Prompt
現在 AI 圖片生成的能力可謂是爐火純青,但當我們看到一幅中意的作品,卻苦于無法複刻 Prompt 時,又該怎麽辦?
這道題,是時候可以交給 " 會看 " 的大模型來處理了。
例如我們随機來一張比較抽象的藝術作品:
然後分别讓豆包 · 視覺理解模型和 GPT-4o 來猜一下它的 Prompt:
看這張圖,幫我寫一段能夠重新生成類似作品的 Prompt。
爲了公平起見,我們不采用豆包和 ChatGPT 自帶的生圖功能,而是将兩段 Prompt 交給第三方Midjourney來處理,結果如下:
△上圖:基于豆包的 Prompt;下圖:基于 GPT-4o 的 Prompt
從還原度上來看,或許豆包 · 視覺理解模型給出的 Prompt,是更加貼近原作的那一個。
Round 4:數學競賽大比拼
數學題目是測試大模型邏輯推理能力很好的方法。
因此,我們直接上一道AIME 數學競賽題,看看夠不夠 " 開門 "。
(AIME:美國數學邀請賽,是介于 AMC10、AMC12 及美國數學奧林匹克競賽之間的一個數學競賽。)
這道題目翻譯過來是這樣的:
每天早晨,Aya 會進行一段長度爲 9 公裏的散步,然後在一家咖啡店停留。當她以每小時 s 公裏的恒定速度行走時,整個散步加上在咖啡店停留的時間一共需要 4 小時,其中包含在咖啡店停留的 t 分鍾。當她以 s+2 公裏每小時的速度行走時,整個過程(包括在咖啡店停留的時間)需要 2 小時 24 分鍾。
假設 Aya 以 s+1/2 公裏每小時的速度行走,求她在這種情況下(包括在咖啡店停留的時間)的總時間(以分鍾爲單位)。
這個任務的難度在于,AI 需要先準确識别晦澀的數學問題和公式,而後再進行精準的推理。
接下來,我們分别來看下豆包 · 視覺理解模型和 GPT-4o 的表現(上下滑動查看):
這道題目官方給出的正解是204 分鍾。
而 GPT-4o 的結果卻并非如此,因此,本輪豆包 · 視覺理解模型大獲全勝。
Round 5:日常實用任務
其實在日常工作、學習生活中,還是存在很多需要 AI 看圖來輔助完成的任務。
例如提取複雜表格的數據,或許就會讓很多人苦惱,尤其是準确性方面。
因此,我們最後一輪就以蘋果第四季度财務報告中的一個表格來做測試(上下滑動查看):
幫我抽取并整理圖中的數據,用中文來表述。
先來看下豆包 · 視覺理解模型的回答(上下滑動查看):
不難看出,豆包 · 視覺理解模型非常清晰地将财報數據以表格的形式展現了出來,可以說是一目了然。
然而,同樣的需求給到 GPT-4o 這邊,雖然數據是提取了出來,但在呈現方式上卻有所欠缺,依然是經典的羅列式(上下滑動查看):
在幾輪 " 擂台比拼 " 過後不難看出,豆包 · 視覺理解模型在能力上已經具備了一定的優勢。
但 " 眼睛 " 的升級,還隻是豆包大模型這次發布内容的一隅。
說、唱能力都升級了
沒錯,除了 " 看 " 之外," 說 " 和 " 唱 " 的能力也升級了。
而這也正對應了豆包大模型的三大類:
大語言模型
語音大模型
視覺大模型
首先在大語言模型方面,豆包的通用模型 pro與小半年前相比:
綜合能力提升了 32%
數學能力提升 43%
專業知識提升 54%
代碼能力提升 58%
其次是語音大模型方面,豆包 · 音樂模型現在可以直接生成3 分鍾完整音樂!
例如我們在其 APP海綿音樂裏輸入一個簡單的 Prompt:
三分鍾音樂,滄桑,男聲,民謠,歲月蹉跎。
來聽一下效果:
生成三分鍾音樂的難度,并非隻是簡單的堆疊時長,而是更多涉及到的是前奏、主歌、副歌、間奏、尾奏等完整結構。
不僅如此,這也和視頻生成類似,對前後的一緻性提出了更高的要求。
而從這個音樂片段中不難聽出,确實是做到了上述的要求,而且還是支持改詞的那種哦 ~
除了可以用 Prompt 來生成音樂之外,現在豆包 · 音樂模型還支持用圖片來作曲了。
例如我們 " 喂 " 給海綿音樂下面這張圖:
這次的效果是這樣的:
從音樂中可以聽出,AI 是識别到了圖裏《黛玉葬花》的感覺,歌詞和配樂充滿了哀傷之情。
據悉,豆包 · 音樂模型目前支持多達到 17 種曲風、11 種心情,以及 6 種特征的音樂。
最後,在視覺模型方面,除了我們剛才展示的豆包 · 視覺理解模型之外,豆包 · 文生圖模型也迎來了升級——
現在,一句話可以搞定 P 圖這件事了:
戴上眼鏡。
不僅如此,做海報,也是幾句話的事,而且還是能生成漢字的那種:
生成一張海報,主體是漢字 " 量子位 ",充滿科技感和未來感。
由此可見,這一次,豆包大模型在 " 說 "、" 唱 "、" 看 " 三大維度上确實是提升了不小的實力。
不看廣告隻看療效
不過有一說一,實力是一方面,站在大模型應用爲王的當下,或許好用才是真正的硬道理。
在把 AI 用起來這件事上,其實豆包也是拿出了一份成績單。
首先從數據上來看,截至 12 月 18 日,豆包大模型日均 tokens 使用量已經突破4 萬億大關。
其次再看實際落地,據悉豆包大模型已經上崗科教、金融、醫療、企業服務和汽車等衆多行業,已經與多個頭部企業達成合作。
市場和用戶對豆包的買賬程度,可見一斑。
而在此過程中," 易落地 "也是一個關鍵點。
這就不得不提此次也同樣迎來升級的兩大法寶:左手 "HiAgent",右手 " 扣子 "。
例如 HiAgent 提供超 100 個行業應用模闆和 GraphRAG 技術,提升知識處理準确性,支持多模态交互與複雜場景需求,企業無需從零開發即可快速上線。
再如扣子擁有百萬開發者和豐富生态,支持 200 萬智能體,覆蓋智能客服、内容營銷等場景,極大縮短開發與部署時間。
除此之外,它兼容小程序、網頁等多種形式,支持實時語音交互與硬件集成,企業可輕松實現 AI 能力無縫嵌入。
一言蔽之,低門檻模闆、強大的生态支持和多平台兼容,是使得 HiAgent 和扣子能夠快速适配企業場景,實現高效落地的關鍵。
那麽對于豆包這次衆多的升級,你對哪個更感興趣呢?歡迎體驗過後回來交流哦 ~
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>