钛媒體 App3 月 19 日消息,阿裏大模型産品 " 通義聽悟 " 發布多項新功能。其中音視頻問答助手 " 小悟 " 上線,在業界首次實現單記錄、跨記錄、多語言自由問,支持對單個最長 6 小時、一次性上百條音視頻的内容理解問答,用戶可對超長音視頻随心提問,讓 AI 總結任意知識點。
音視頻承載了密集的信息内容,但因涉及多模态理解、自然語言處理、搜索等多項複雜技術,長期以來内容查找難、回顧難、提煉難。
小悟通過多語言 Query 處理、長篇章文本理解、指令演化框架優化及檢索增強生成算法,在業内首次實現對超長音視頻的單記錄、跨記錄、多語言自由問答,支持内容問答的音視頻時長和文件數均突破業界上限。
針對用戶需求,通義聽悟還上線了一鍵 AI 改寫、思維導圖生成等新能力。例如,一鍵 AI 改寫,将口語轉爲書面表達,尤其适合整理采訪速記;思維導圖自動生成,最多支持五級 xmind 腦圖,适合播客摘要;筆記支持一鍵插入視頻時間戳及截圖、音視頻文件語種自動識别等。
此外,針對學習科研場景對 AI 工具的強烈需求,通義聽悟推出 " 高校公益計劃 ",通義聽悟推出 " 高校公益計劃 ",推動 AI 算力普惠。所有中國大陸高校師生通過後綴 edu.cn 的教育郵箱進行認證後,均可直接獲贈 500 小時轉寫時長,存儲空間從 20G 拓展至 200G。
據了解,作爲國内首個開放公測的大模型産品,去年 6 月發布以來,通義聽悟累計已有上百萬用戶,活躍用戶日均轉寫音視頻 3 次以上,平台每天處理字符數約 20 億字。
(本文首發钛媒體 APP 作者|張帥,歡迎添加作者 mr3right 爆料、交流)