來源:獵雲精選;文 / 孫媛
" 這不降維 battle 訊飛嗎?"
昨日,在朋友圈一張通義聽悟的專屬口令福利海報下,一位媒體工作者留言道。
彼時在粵港灣大灣區的廣州,阿裏雲 CTO 周靖人對通義聽悟給出了如下描述:作爲一款工作學習 AI 助手,聽悟瞄準具有高知識附加值的音視頻内容場景,比如開會、上課、訪談、培訓、面試、直播、看視頻、聽播客等,能通過大模型等最新 AI 技術快速提煉和沉澱知識。
一言以蔽之,就是聽力好、悟性高,可以幫人随時随地高效完成對音視頻内容的轉寫、檢索、摘要和整理,比如自動做筆記、整理訪談、提取 PPT 等。而這正是訊飛腹地——訊飛聽見的主戰場。
有意思的是,此前 5 月,同樣也在粵港灣大灣區,隻不過在澳門,科大訊飛亮相了其大模型軟件産品 " 訊飛聽見會寫 ",就是基于對音頻文件的内容 AI 分析,自動生成會議紀要、工作代辦、工作計劃,并支持基于原文内容進行 AI 對話和内容追溯。
簡單來看,不僅功能類同,甚至展示的選址都相近。
會上,阿裏雲也毫不掩飾自己要挑戰智能語音轉寫頭部的野心,直接拿出了互聯網慣用的 " 補貼換用戶 " 的攻城略地式營銷策略。公測期間,大量發放 20 小時轉寫口令碼,甚至權益可累加達免費時長 100 小時以上,以訊飛聽見 App 中文 / 英文機器快轉标準價格 0.33 元 / 分鍾來計算,聽悟 100 小時免費時長可以說是給目标用戶節省 1980 元的支出。
不管如何,先說一句,補貼 " 真香 "。
對标訊飛,聽悟有何不同
事實上,這不是獵雲網第一次接觸到聽悟。在之前的雲栖大會上,聽悟就有内測版本,已經有離線語音 / 視頻轉寫、實時轉寫、角色分離、分屏記錄等功能。但當時,阿裏雲的低調内測算是點到爲止,好奇者先行。
時至今日,接入大模型能力的 " 通義聽悟 ",作爲一個大模型版的聚焦音視頻内容的工作學習 AI 助手,融合了研發團隊在推理、對齊和對話問答等方面的研究成果,不僅能完成錄音轉寫,還能一鍵總結全文及不同發言人觀點,顯然也跟之前版本有較大提升。
根據周靖人所說,聽悟有兩層含義,首先是 " 聽 ",能夠聽清内容,第二層含義是要 " 悟 ",能夠要理解其中的意思,真正爲日常的工作、學習提高效能。故而此次獵雲網的簡單測評也主要圍繞這兩點展開。
首先,要想嘗試此次公測版本,目前微信小程序端不支持實時轉寫,主要還是通過通義聽悟官網進行使用,同時可以關聯自己的阿裏雲盤,進行音視頻内容導入。語音轉換上,可以開啓實時記錄(實時語音轉文字)和上傳音視頻(音視頻轉文字)兩種方式來實現。
在進行實時記錄并同步翻譯測試上,獵雲網采用了 B 站上 TED 官方标題爲《ChatGPT 如此強大,AI 的崛起讓人類何去何從?》的視頻語音。在同步翻譯的過程中,可以發現比對中文字幕,聽悟的翻譯結果總體意思理解尚可,但是在語句在翻譯的順序上有所偏差,譬如 " 在關于未來工作真正有用的東西 ",聽悟的結果爲 " 有用的關于工作的未來 ",同時可能存在部分缺漏的翻譯情況,譬如 " 他們可能會搶走我們所有的工作 ",關于 " 搶走 " 這個動詞沒有體現。
在音視頻轉文字測試上,獵雲網采用了訊飛聽見錄音筆錄制的一段内容,通過上傳阿裏雲盤,同步到聽悟進行語音轉換,發現就微弱語音的信息捕捉上,聽悟優于訊飛聽見,捕捉了一句訊飛聽見未轉換的内容,而轉換的準确度上,訊飛聽見更勝一籌,跟錄音内容一緻,但聽悟會出現個别詞的錯誤轉換。
雖然在聽上,聽悟從此次測試比對上總體看略遜色于訊飛聽見,但悟的理解及分析能力着實讓人眼前一亮,就獵雲網提供的錄音來看,聽悟在全文概要、章節速覽以及關鍵詞提取上除了個别字眼的錯誤外,整體較爲準确,對于文字工作者來說其增效明顯。
從某種程度上來說,通義聽悟定位爲面向工作、學習的 AI 助手,是實至名歸。通義聽悟雖然現在才進行公測,但早在阿裏巴巴内部開展使用,并經曆了從聽到悟的升級過程。
據通義聽悟技術負責人鄢志傑透露,過去很多項目管理的同學上項目會,例如投資部到外面訪談、盡職調查,以及人力資源招聘等内部場景,聽悟更多還是做語音的記錄、簡單回顧跟整理。但從 2019 年開始,阿裏雲陸續在大模型方面進行重點研發跟積累,在基于通義千問大模型對文字和知識體系的理解 + 阿裏雲在音視頻相關的模型能力,聽悟才得以實現 AI 能力的場景化。
瞄準智能語音轉寫,實則以模型服務開局
正如上文所說,聽悟對标的是訊飛聽見,但之所以阿裏雲先盯上音視頻轉寫領域,一方面是有着多年語音技術的積累,另一方面也是瞄準了科大訊飛在國内智能語音轉寫市場的核心領地。
自 2017 年 11 月訊飛在 " 用 AI 爲世界賦能 " 的發布會上," 順手 " 展示了訊飛聽見的中英文實時字幕,便讓這項堪稱黑科技的産品,讓其在 AI 1.0 時代初期,迅速确立了 AI 龍頭的位置。六年間,訊飛營收從 2017 年的 54.45 億,一躍增長至 2022 年的 188.20 億,對應 28.15% 的複合增速。
其中,訊飛主要提供 AI 解決方案平台、智能硬件(錄音筆)和移動互聯網增值産品(輸入法、訊飛聽見)的開放平台及消費者業務,是僅次于教育領域的第二大營收來源。在 2020 年至 2022 年,該業務的營收占比從 23.65% 增長至 2022 年的 24.66%。營收從 30.8 億增長至 2022 年的 46.4 億,對應複合增速爲 22.74%。
從訊飛的數據來看,智能語音從企業營收以及用戶需求層面是一個值得切入的好市場,除以科大訊飛、搜狗爲代表的專業智能語音企業外,以阿裏雲、騰訊雲爲代表的雲服務廠商,以網易爲代表的專業轉寫或翻譯廠商等也一直躍躍欲試,頗有三分天下的态勢。
這一次,阿裏雲切入訊飛腹地,也算在意料之中。
隻不過就拿産品和價格來說,目前功能相差不大的情況下,訊飛聽見的用戶可能并不一定會對聽悟太感冒。聽悟 " 補貼 " 雖香,但不要忘了科大訊飛多年前其憑一招 " 智能錄音筆用戶享終身免費翻錄服務 ",一舉收割了編輯、分析師、律師、HR、學生等大量市場需求,行業地位暫時無人能及。
據公開資料顯示,科大訊飛的智能錄音筆市場份額在 2022 年增至 44%,在雙十一期間内占 GMV 市場份額的 57%,市場份額一直保持第一。
從這個角度去看,聽悟現在高調殺入智能語音市場,爲 battle 訊飛造勢及免費福利派送,更像是阿裏雲号召大家來對聽悟進行一次 " 嘗試 ",背後是來感受通義千問大模型的能力。
通義聽悟背後依賴通義千問大模型,主要基于阿裏雲一系列技術投入以及相關的進展,而雲和整個智能化密不可分。
周靖人在 4 月份有提到過雲智一體等方面内容,阿裏雲從一開始設計包含雲和智能,這是兩個重要相輔相成的環節。他表示,特别是從 IaaS、MaaS、PaaS 三層的架構來看,所有範疇其實都是在講雲整體的技術,包括通義聽悟以及通義千問,都是雲技術在這個時代怎麽快速變革、快速應對以及在新時代浪潮裏如何不斷創新。
通義千問發布之後,阿裏雲就陸續在全國推進快速部署 AI 模型的工作,而通義聽悟的推出更多像是一種官宣:阿裏雲不光在算法層面上,還把模型能力提升到産品裏面,去服務到更多開發者或者各行各業。
也就是說,在這一波聲勢之下,阿裏雲以通義聽悟作爲 MaaS(模型即服務)環節下的典型,想讓更多企業及開發者注意到,通過把模型訓練和模型服務的成本不斷降低,開發者可以把模型有效使用起來,對模型進行二次開發,讓阿裏雲的 AI 能力可以集成到他們業務中去,進行更多雲上創新。
有專注大模型研究的投資人表示,語音轉文字能力各家其實差距不大,轉寫是一般能力,更重要的是能做到丢失重要内容的情況下去結構化改寫總結才是突破。
" 就通義聽悟來說,更像是阿裏雲給通義千問大模型找落地場景,以及從數據源積累上看也更爲合理。"
卷大模型之争,AI 技術應用成焦點
頗有意思的是,這邊通義千問降維用通義聽悟對标訊飛聽見,那邊科大訊飛也以星火大模型飙入國内大語言模型賽道,其 CEO 劉慶峰還強調 " 現在訊飛星火的語言理解能力,不僅在國内是遙遙領先的,跟 ChatGPT 也僅僅一步之遙 "、" 我們在今年十月份之前就會超過(ChatGPT)"。
豪言壯志之下,科大訊飛的一季度财報并不好看,營業收入 28.88 億元,同比減少 17.64%;歸屬于上市公司股東的淨利潤 -5789.53 萬元,上年同期爲盈利 1.11 億元,營收、淨利雙降。當然這也部分 " 歸功 " 于公司 2022 年 12 月 15 日啓動了 "1+N 認知智能大模型專項攻關 ",攻關項目的新增投入。今年一季度,科大訊飛的研發投入達到 7.157 億,同比增加了近 6%。
從聽悟 PK 聽見,通義千問 PK 星火,不難發現,從這場智能語音的技術應用往上看,實質是大模型的根本較量。
據不完全統計,2 月複旦大學發布 MOSS;3 月清華大學發布 ChatGLM-6B、百度發布文心一言;4 月阿裏雲發布通義千問、知乎發布知海圖 AI;5 月,科大訊飛發布星火、騰訊發布混元、360 發布 360GPT。再到 5 月 31 日,百度創始人李彥宏宣布啓動 " 文心杯 " 創業大賽,設立規模 10 億元投資基金支持生成式 AI 領域初創企業,一場從大模型層到應用層的 AI 狂潮正在加速。
從百度智能雲在本季度實現了盈利(non-GAAP)來看,百度率先吃到了大模型的紅利,而李彥宏也表示計劃逐步将文心一言融入百度的所有業務,爲産品及服務賦能,吸引更廣泛的用戶及客戶,圍繞文心一言在新的時代中建立新生态。
對比之下,5 月 18 日阿裏雲 2023 财年營收增速爲 3.5%,意味着在生成式 AI 帶來了人工智能新模式的變革中,在雲之上,阿裏雲亟需尋求新增量——大模型至關重要。
在通義聽悟發布前,阿裏雲就推出了一系列全新的産品和價格政策,包括 AI 大模型通義千問的成果展示及行業探索、推出核心産品降價和免費試用計劃、大幅提高合作夥伴傭金率等。但萬變不離其宗,主要目标就是擴大阿裏雲公共雲的客戶數量和用雲規模,并帶動各類 AI 模型訓練和服務所需的高性能算力的增長,來爲阿裏雲的長遠發展構建更可持續的增長動力。
正如周靖人所說,通義聽悟的發布并不是一個終點,而是一個新起點。
這場基于大模型的産品和企業解決方案的較量,序幕已拉開。