出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|視覺中國
8 月 22 日,火山引擎 AI 創新巡展上海站開幕,活動展示了豆包大模型在綜合評分、語音識别等方面的效果提升,語音能力是此次發布重點。
大模型團隊聚焦了對話式 AI 實時交互,産出 Seed-ASR ,這項成果或許可以對标 OpenAI 于 7 月 31 日發布的 ChatGPT 全新高級語音模式。
根據當時社交媒體上發布的視頻,OpenAI 員工可以打斷聊天機器人,并要求聊天機器人以不同的方式講述故事,而聊天機器人則從容應對他們的打斷并調整其響應。
簡單來說,支持 " 邊想邊說 ",具備更強的上下文感知能力,因而有着更優秀的推理能力,更準确的回答結果。
引人注目的是,豆包聲稱其語音能力支持一個模型識别普通話和粵語、上海話、四川話、西安話、閩南語等多種中國方言。
這讓我迫不及待想和它港言港語、川裏川氣幾句。
接下來我将基于 1.19.5_mac 版本的豆包 AI PC 端,測試AI 文本伴讀、截圖識别以及日前大熱的AI 看視頻、AI 方言識别等功能,看看豆包相較于各家網頁版 AI 大模型提供了哪些新的東西。
老規矩,着急的朋友可以直接下拉到總結環節。
AI 文本伴讀
首先是 AI 文本的伴讀。
我打開一條新聞,下拉到總結部分,選中我想要輔助的段落,豆包自動出現了搜索、翻譯、解釋、複制等功能。
在發現更多技能中,是 AI 劃詞工具欄,下設文本的擴縮寫、修正、潤色等功能 6 項,改寫爲社交媒體文案或視頻腳本等功能 3 項,生成周報、okr、代碼糾錯等功能 4 項,優缺點總結、抽取任務項、頭腦風暴等 6 項,加之難以歸類的,一共有 22 項模塊功能可自定義置頂設置。
我選擇了最基礎的要求豆包解釋,經過約 25 秒的等待,我獲得了以下這些内容。
可以看出,豆包首先概括大意,接着是對話性更強的通俗闡釋,亮眼的是,它主動識别并解釋了所選文字段落的專有名詞,如上文的 " 帕累托規則 "。
至此,豆包這個模塊所提供的 22 項功能是否能在智能化和個性化上顯現出更深的理解能力,還有待觀察,但可以明确的是,PC 端後台運行時,我不需要複制粘貼到另一個窗口來搜索,甚至摘出專有名詞單獨搜索或提問了。
AI 圖片識别
當我使用豆包截圖時,彈出了解題答疑、翻譯、問問豆包3 個功能項,于是我選擇了一道高中數學題請豆包解題答疑。
豆包不僅提供了截圖區域的一道題的解題過程和答案,還提供了幾道類似的題目及其解答。
但當我使用翻譯和問問豆包時,不僅無法智能斷句,還頻繁出錯。
考慮圖片識别的難度,我切換了成段落的文本,然而并沒有改善。
我又嘗試了問問豆包,下設整理圖中核心内容和提取文字兩個模塊,我分别進行了嘗試。
總的來說,核心内容整理功能的表現優秀,但文字提取甚至沒有識别完整的圖片,而這還是排列工整的鉛字文。
AI 看視頻
AI 看視頻的功能目前僅限于 b 站視頻,且需要在豆包界面中打開并登錄 b 站賬号。
于是我随機選擇了《晚酌的流派》第三季 · 第 7 集的内容,經過了約 20 秒的等待獲得了以下内容。
可以看出,視頻分段的時間軸中,AI 的圖文搭配并不準确,但基本上可以實現内容切分。
視頻是日語配音,中文繁體字幕,大概也是爲難豆包了。
視頻開頭對主旨有清晰概括,在右側的文本總結中卻并沒有清晰體現。并且,在 " 對他人的感激 " 闆塊,視頻中人物感謝的是魚子小姐而不是牛田先生,豆包概括出錯。
AI 方言識别
官宣文中,豆包支持粵語、上海話、四川話、西安話、閩南語,接下來則看看豆包能不能識别我的蹩腳粵語(沒有我的家鄉話,隻有半年香港生活經曆帶來的蹩腳粵語,期待更多土著的使用體驗分享~)。
語言識别沒有問題,豆包理解了 " 我想吃粥底火鍋 ",甚至提供了 " 北京哪裏有好吃的粥底火鍋?" 的選擇搜索項,但消息發送後跳轉到了 AI 搜索的對話界面,且回複我的是文本而不是語音。
另外,方言輸入隻在首頁可以使用,我無法在對話界面繼續以方言進一步輸入。因此我需要一次次回到首頁,而每一次的消息發送都将打開一個新的導航頁窗口。。。
不過,能夠方言輸入仍然是較大的突破,總體表現差強人意。據了解,豆包的 app 端是支持語音回複的。
我嘗試在手機 app 端以方言語音輸入了同一句話,豆包以普通話語音回複了我,并提供了 " 北京哪裏有好吃的粥底火鍋?" 的選擇搜索項。
也就是說,豆包支持方言輸入,暫不支持方言交互。這一功能更多停留在趣味性和商務場合應用,譬如對方言參會者的會議記錄整理。
總結環節
在我的想象中,桌面有一個 AI 電子人偶,它像我的貓一樣爲我提供情緒價值,還真正助理我 handle 我的一切。它像 Siri 一樣容易喚醒,但比 Siri 更強大。
豆包的 AI 文本伴讀在 PC 端可以跨應用服務,提供了 22 項模塊功能,除了基礎文本潤色,還場景化了社畜、程序員、自媒體工作者的适用範圍,它有着我想象中的基本面,但也有很大的探索和成長空間。
圖片識别方面,解題答疑是不錯的,相當于 PC 端的作業某幫和某猿。但考慮到 PC 端的用戶群體,則期待豆包在高等數學 + 方面有深入的耕耘。畢竟,普通作業和試卷的解題答疑還是手機來得快,配合電子版題目或論文,才會産生 PC 端的需求。
AI 看視頻的分段和總結功能十分搶眼,尤其是科普視頻,豆包大有可爲。人文社科主題則是各家大模型的共同難題。
事實上,AI 方言是我最期待的功能,畢竟," 鄉音無改鬓毛衰 ",故鄉有時是一串長長的菜單,有時是熟悉的 " 那味兒 "。但整體看來,豆包的方言交互生态還有一段路要走。
方言對話所識别的,不僅是現代都市人的故鄉情思。更重要的,是科技穿透冰冷的屏幕,對那些無法說出通用 " 中文 " 的人的關懷,他們以生命書寫着無聲的曆史,卻常常被曆史遺忘,他們同樣需要 AI,以及 AI 附帶的一切價值。
當方言從識别走到交互,豆包也許也會因此而走得更遠。
如果你有觀點、想法或想看的測評,歡迎和我交流。如果你喜歡這期内容,别忘了一鍵三連,因爲這也是我探索更新的動力,我們下期再見~