豆包PC端“開箱”，從語音卷到了方言

出品｜虎嗅科技組

作者｜餘楊

編輯｜苗正卿

頭圖｜視覺中國

8 月 22 日，火山引擎 AI 創新巡展上海站開幕，活動展示了豆包大模型在綜合評分、語音識别等方面的效果提升，語音能力是此次發布重點。

大模型團隊聚焦了對話式 AI 實時交互，産出 Seed-ASR ，這項成果或許可以對标 OpenAI 于 7 月 31 日發布的 ChatGPT 全新高級語音模式。

根據當時社交媒體上發布的視頻，OpenAI 員工可以打斷聊天機器人，并要求聊天機器人以不同的方式講述故事，而聊天機器人則從容應對他們的打斷并調整其響應。

簡單來說，支持 " 邊想邊說 "，具備更強的上下文感知能力，因而有着更優秀的推理能力，更準确的回答結果。

引人注目的是，豆包聲稱其語音能力支持一個模型識别普通話和粵語、上海話、四川話、西安話、閩南語等多種中國方言。

這讓我迫不及待想和它港言港語、川裏川氣幾句。

接下來我将基于 1.19.5_mac 版本的豆包 AI PC 端，測試AI 文本伴讀、截圖識别以及日前大熱的AI 看視頻、AI 方言識别等功能，看看豆包相較于各家網頁版 AI 大模型提供了哪些新的東西。

老規矩，着急的朋友可以直接下拉到總結環節。

AI 文本伴讀

首先是 AI 文本的伴讀。

我打開一條新聞，下拉到總結部分，選中我想要輔助的段落，豆包自動出現了搜索、翻譯、解釋、複制等功能。

在發現更多技能中，是 AI 劃詞工具欄，下設文本的擴縮寫、修正、潤色等功能 6 項，改寫爲社交媒體文案或視頻腳本等功能 3 項，生成周報、okr、代碼糾錯等功能 4 項，優缺點總結、抽取任務項、頭腦風暴等 6 項，加之難以歸類的，一共有 22 項模塊功能可自定義置頂設置。

我選擇了最基礎的要求豆包解釋，經過約 25 秒的等待，我獲得了以下這些内容。

可以看出，豆包首先概括大意，接着是對話性更強的通俗闡釋，亮眼的是，它主動識别并解釋了所選文字段落的專有名詞，如上文的 " 帕累托規則 "。

至此，豆包這個模塊所提供的 22 項功能是否能在智能化和個性化上顯現出更深的理解能力，還有待觀察，但可以明确的是，PC 端後台運行時，我不需要複制粘貼到另一個窗口來搜索，甚至摘出專有名詞單獨搜索或提問了。

AI 圖片識别

當我使用豆包截圖時，彈出了解題答疑、翻譯、問問豆包3 個功能項，于是我選擇了一道高中數學題請豆包解題答疑。

豆包不僅提供了截圖區域的一道題的解題過程和答案，還提供了幾道類似的題目及其解答。

但當我使用翻譯和問問豆包時，不僅無法智能斷句，還頻繁出錯。

考慮圖片識别的難度，我切換了成段落的文本，然而并沒有改善。

我又嘗試了問問豆包，下設整理圖中核心内容和提取文字兩個模塊，我分别進行了嘗試。

總的來說，核心内容整理功能的表現優秀，但文字提取甚至沒有識别完整的圖片，而這還是排列工整的鉛字文。

AI 看視頻

AI 看視頻的功能目前僅限于 b 站視頻，且需要在豆包界面中打開并登錄 b 站賬号。

于是我随機選擇了《晚酌的流派》第三季 · 第 7 集的内容，經過了約 20 秒的等待獲得了以下内容。

可以看出，視頻分段的時間軸中，AI 的圖文搭配并不準确，但基本上可以實現内容切分。

視頻是日語配音，中文繁體字幕，大概也是爲難豆包了。

視頻開頭對主旨有清晰概括，在右側的文本總結中卻并沒有清晰體現。并且，在 " 對他人的感激 " 闆塊，視頻中人物感謝的是魚子小姐而不是牛田先生，豆包概括出錯。

AI 方言識别

官宣文中，豆包支持粵語、上海話、四川話、西安話、閩南語，接下來則看看豆包能不能識别我的蹩腳粵語（沒有我的家鄉話，隻有半年香港生活經曆帶來的蹩腳粵語，期待更多土著的使用體驗分享～）。

語言識别沒有問題，豆包理解了 " 我想吃粥底火鍋 "，甚至提供了 " 北京哪裏有好吃的粥底火鍋？" 的選擇搜索項，但消息發送後跳轉到了 AI 搜索的對話界面，且回複我的是文本而不是語音。

另外，方言輸入隻在首頁可以使用，我無法在對話界面繼續以方言進一步輸入。因此我需要一次次回到首頁，而每一次的消息發送都将打開一個新的導航頁窗口。。。

不過，能夠方言輸入仍然是較大的突破，總體表現差強人意。據了解，豆包的 app 端是支持語音回複的。

我嘗試在手機 app 端以方言語音輸入了同一句話，豆包以普通話語音回複了我，并提供了 " 北京哪裏有好吃的粥底火鍋？" 的選擇搜索項。

也就是說，豆包支持方言輸入，暫不支持方言交互。這一功能更多停留在趣味性和商務場合應用，譬如對方言參會者的會議記錄整理。

總結環節

在我的想象中，桌面有一個 AI 電子人偶，它像我的貓一樣爲我提供情緒價值，還真正助理我 handle 我的一切。它像 Siri 一樣容易喚醒，但比 Siri 更強大。

豆包的 AI 文本伴讀在 PC 端可以跨應用服務，提供了 22 項模塊功能，除了基礎文本潤色，還場景化了社畜、程序員、自媒體工作者的适用範圍，它有着我想象中的基本面，但也有很大的探索和成長空間。

圖片識别方面，解題答疑是不錯的，相當于 PC 端的作業某幫和某猿。但考慮到 PC 端的用戶群體，則期待豆包在高等數學 + 方面有深入的耕耘。畢竟，普通作業和試卷的解題答疑還是手機來得快，配合電子版題目或論文，才會産生 PC 端的需求。

AI 看視頻的分段和總結功能十分搶眼，尤其是科普視頻，豆包大有可爲。人文社科主題則是各家大模型的共同難題。

事實上，AI 方言是我最期待的功能，畢竟，" 鄉音無改鬓毛衰 "，故鄉有時是一串長長的菜單，有時是熟悉的 " 那味兒 "。但整體看來，豆包的方言交互生态還有一段路要走。

方言對話所識别的，不僅是現代都市人的故鄉情思。更重要的，是科技穿透冰冷的屏幕，對那些無法說出通用 " 中文 " 的人的關懷，他們以生命書寫着無聲的曆史，卻常常被曆史遺忘，他們同樣需要 AI，以及 AI 附帶的一切價值。

當方言從識别走到交互，豆包也許也會因此而走得更遠。

如果你有觀點、想法或想看的測評，歡迎和我交流。如果你喜歡這期内容，别忘了一鍵三連，因爲這也是我探索更新的動力，我們下期再見～