家人們,大模型加持的 AI 神器,真的救了大命了——
就在幾天前,我被老闆要求整理 AI 大神何恺明 MIT 第一課的内容,ddl 非常緊張。然而全英文各種專有名詞聽的我一頭霧水。
好巧不巧,有朋友給我推薦了阿裏通義聽悟,他們剛上新AI 音視頻問答助手 " 小悟 ",據說在業界首次支持了單記錄、跨記錄、多語言超長音視頻自由提問。
咱也不知道這宣傳的效果是否「保真」,但我隻能死馬當作活馬醫。
我悄默聲地打開了通義聽悟上傳了時長 1 小時 15 分鍾的視頻文件。
蕪湖!沒想到還挺好用,分分鍾一鍵提取出了關鍵詞、全文概要以及自動劃分好章節,還有要點回顧,連 PPT 都被一一提取出來了,可導出全部爲 pdf:
接下來," 小悟 " 的表現更讓我眼前一亮。
它不僅能夠根據音視頻記錄對我提出的問題給出答案,還會在最後标出引用出處以及對應時間戳,點擊時間戳就能自動跳轉到原視頻對應位置,也方便了返回原文求證,效率 up up up:
既然如此,我還有一個大膽的想法,以後再被随機抽查提問上次開會 or 上節課講了啥,豈不是……
據了解,除了 " 小悟 ",通義聽悟現在還上新了更多新功能,對于經常要處理一大堆錄音、發布會視頻的量子位來說,自然是不能錯過新的實(mo)用(yu)工(shen)具(qi)。
這就趕緊來測試一波~
PS:劇透一下,中國大陸高校師生均可薅羊毛,免費獲得 500 小時使用時長。
新 · 通義聽悟初體驗
總的來看,通義聽悟此次共上新了六大功能,下面我們就來逐一測試。
首先是開頭提到的AI 智能助手 " 小悟 ",主打能對所有音視頻内容進行全面 " 解剖 ",播客、會議、學習、訪談各種視頻均可對其多語言自由提問。
不僅可以針對單一記錄向它提問,最長 6 小時、6G 大小,還可以跨記錄、讓 " 小悟 " 掃描上百個音視頻一起總結回答問題,目前 " 小悟 " 支持内容問答的音視頻時長和文件數都是業界上限。
最基礎也是最重要的," 小悟 " 回答的準确性、可靠性如何?
我們選擇了一個大家都能看懂的時長在 10 分鍾左右的中文視頻來試試水。
視頻内容與圓周率有關,從上傳到轉寫完成用時不到1 分鍾。
直接詢問 " 小悟 " 計算圓周率的方法有哪些。好家夥,沒想到的是它不僅指出了視頻中講的幾何近似和無窮級數法,還額外補充了一些方法。
我們點擊時間戳定位到到原文對比," 小悟 " 對兩種方法的表述無誤,而且做了很好的精簡和整合:
我們随即還提問了其他問題," 小悟 " 都能應對自如:
除了回答問題,讓它幫忙整理大綱也很條理:
我們再用馬斯克星艦第三次發射的視頻來體驗通義聽悟處理更長音視頻的表現。
視頻全長 1 小時 43 分,上傳到通義聽悟轉寫,僅用了大概4 分鍾:
去年 6 月通義聽悟剛剛發布時,我們也做了一波測試,當時時長 10 分鍾左右的視頻上傳轉寫大概需要 2 分鍾,1 小時左右的視頻大概用時 5 分鍾。
不得不說,速度方面通義聽悟這次也提升了不少。
針對 " 小悟 " 的提問這次再上難度,不僅直接在文件夾中跨記錄提問,而且使用英文提問。
問題是馬斯克星艦第三次測試的目的是什麽?" 小悟 " 這次的表現是醬嬸兒的:
整個回答圍繞着 " 收集對未來任務至關重要的數據 " 展開(好回答,肯定是沒錯的),并且點擊時間戳成功定位到了正确視頻。
除了 " 小悟 ",通義聽悟還上新了幾大功能。
首先是一鍵 AI 改寫功能,可以将音視頻的口語化表達内容快速轉換爲更具邏輯性、規範性和可讀性書面表達,同時保持原意。
這就非常适合用來整理會議記錄、采訪。
我們簡單測試了一下,通過對比,可以清楚地看到 " 不妨來聽聽他們怎麽說 " 等較口語化的内容都做了删減優化,語句表述書面化效果很明顯:
還上新了思維導圖生成功能,可謂有邏輯愛整理同學的福音。
最多支持五層腦圖展示,能夠将腦圖導出爲多種格式,如 xmind、圖片等,方便與他人分享和保存。
此外,升級後的通義聽悟能自動識别音視頻文件語種,無需手動選擇。
目前支持的語種包括中、英、日、粵,據說即将支持韓語。
筆記整理方面也有實用設計,推出一鍵插入視頻時間戳及截圖功能,筆記整理效率再提升一大截。
還沒完,升級後的通義聽悟還支持上傳更多格式的文件,單文件轉寫上限增至 6 小時,一次最多可上傳 50 個文件。
視頻更是支持最大 6G 文件的轉寫:
每個功能都可以用四個字總結:非 常 實 用。
此外值得一提的是,在通義聽悟界面的發現欄目中有諸多播客節目,點開後即可速覽主要内容。
好家夥,以後聽播客都可以先看主要内容篩選自己的喜歡的,然後再精聽了。
隻能說,升級後的通義聽悟還有更多實用功能可挖掘,比如開組會随時聽悟、備考同學還可以使用它兩倍速學習網課資料……
" 寶藏 AI 工具 "
衆所周知,過去一年大模型經曆了一場狂飙,各種大模型層出不窮,令人眼花缭亂。
然鵝,對大多數人而言,大模型技術本身可能并沒有那麽重要,産品好不好用、能不能切實地幫到自己才是最重要的。
基于此,各種大模型應用也已經花式開卷,阿裏也基于通義千問推出了一系列産品。
其中,通義聽悟是自去年 6 月推出後,備受用戶歡迎的産品之一,現已有上百萬用戶。
通義聽悟接入通義千問大模型,能聽、能看、能讀,還能實現速覽 + 精聽,在學生、老師、白領、記者、律師、金融分析師…各類群體中都有忠實用戶,被認爲是用來學習和工作的一種新型方式。
舉個例子——
一位電子工業出版社編輯,借助通義聽悟整理了播客 " 三五環 " 的對談精華内容,還用 AI 技術再加上人工編輯的方式完成了《大廠之外》一書的整理、編輯,而這本書也即将出版。
還有一位成都管理學在讀博士生蔡同學,她在社交媒體上寫道 " 通義聽悟絕對是最強科研神器 ",她會用通義聽悟來分析網絡視頻進行學術研究,在日常學習工作中也會随時使用。
目前,她的使用時長已近 7000 小時,平均每天轉寫 20 小時以上。
所以問題是,爲什麽在 AI 大模型産品競争如此激烈的情況下,阿裏總能造出實用工具收獲大批忠實粉絲呢?
原因大概就藏在産品的諸多細節中吧,比如我們上面未提到過但反複出現的一鍵 " 回到頂部 " 和 " 回到當前播放位置 " 按鈕,面對超長視頻,用戶也無需一直滾動鼠标翻看轉寫内容:
此外,通義聽悟還設置了多級文件夾管理,用戶上傳的文件也可以歸類整理;上傳阿裏雲盤中的音視頻進行轉寫,不占用通義聽悟存儲空間;支持将單個記錄的原文、譯文、筆記、PPT 一次性導出;支持自定義專有詞彙,用戶再也不怕專有名詞翻譯不準确了……
而這些細節處理,都是積極根據用戶的需求做出的改進。
好好好,很是 " 寵粉 ",且 " 寵粉 " 不止于此,通義聽悟的福利大放送就沒停過。
對比目前市面語音廠商 9.9 元每小時的音視頻轉錄折扣價,大夥使用通義聽悟幾乎免費,每人每天隻要登陸即可自動獲得轉寫時長,阿裏雲官方微博、微信及各大平台社區還會發放大量 20 小時轉寫口令碼,并且時長均可疊加,一年内有效。
咱就是說,短短幾天,咱已經攢出了這麽多 " 羊毛 ",攢 100 小時簡直灑灑水:
而且,伴随着這次通義聽悟大升級,官方又發起了一波福利大放送!
推出" 高校公益計劃 ",所有中國大陸高校師生通過後綴 edu.cn 的教育郵箱進行認證後,均可直接獲贈 500 小時轉寫時長!
掐指一算,這沒有不沖的理由吧。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~