文 | 田哲
編輯 | 蘇建勳
在對标 OpenAI 之路上,智譜 AI 又近了一步。
今年年初,OpenAI 被爆出将自研 AI Agent 軟件,它可替代人類,自動導航至任何網站并執行指定任務。
10 月 25 日,智譜 AI 推出相似産品——自主智能體 AutoGLM,智譜将其稱爲是一個可模拟用戶點擊屏幕的手機操作助手,以及點擊網頁的浏覽器助手。
智譜的展示視頻顯示,AutoGLM 可實現網頁進行線上點餐、整理小紅書筆記并生成攻略、總結論文等功能。
同時,智譜 AI 還推出了端到端情感語音模型 GLM-4-Voice 。這款情感語音模型不僅能夠模拟真實的情感表達,甚至連細微的停頓、喘氣都表現得惟妙惟肖。
這一技術的突破,與科幻愛情電影《Her》的部分情節相似。電影中,男主角西奧多與 AI 助手薩曼莎偶然相識,薩曼莎正是通過富有情感的語音互動讓人感到貼近、溫暖。
如今,智譜 AI 的情感語音模型似乎正把《Her》中的科幻場景帶入我們的日常生活,人工智能不再隻是冷冰冰的工具,而開始具備 " 情感 " 與 " 個性 "。
《Her》已經初具雛形,具有自我意識和情感的 AI 或許不久會出現。
自主智能體上線:能點外賣、誇彩虹屁
與 OpenAI 的 AI Agent 相似,智譜清言 AutoGLM 模型,也無需用戶手動操作示範,不受制于簡單的任務場景或 API 調用,即可替代人類在電子設備執行操作。
目前,智譜 AutoGLM 可适配微信、淘寶、美團、小紅書等 8 款知名應用軟件,覆蓋日常生活常用的線上聊天、網購、社交、地圖、酒店火車訂票等功能。
具體而言,當你向 AutoGLM 發出指令後,雙方之間的對話将以語音形式展現,并實時顯示字幕。
例如,你可以要求 AutoGLM 在大衆點評給出指定的店家好評,并自動編輯評論。在執行 " 發送評論 " 這一超出指令的操作時,AutoGLM 會主動提示是否進行。
你也能讓 AutoGLM 查找淘寶某一時段的曆史訂單,複購指定商品。
就連向指定微信好友的朋友圈點贊、評論,這一步驟較長的任務也能完成。
除了網購、編輯評論等功能之外,AutoGLM 還能批量總結微信公衆号多篇文章,并生成文章摘要。
智譜公衆号介紹,AutoGLM 基于自進化在線課程強化學習框架 WEBRL,克服了訓練任務稀缺、反饋信号稀少和策略分布漂移等網頁智能體研究和應用難題,加之自适應學習策略,能夠在叠代過程中不斷改進、持續穩定地提高自身性能。這意味着,AutoGLM 具備了一定自我糾錯能力。
來源:智譜公衆号
據悉,爲了保護用戶隐私,AutoGLM 不會主動獲取用戶的個人隐私信息,如果需要執行授權範圍之外的任務,AutoGLM 會主動提示以獲取用戶同意。
即使用戶向 AutoGLM 授權,也不意味着 AutoGLM 永久擁有相關權限。每次後台啓動 AutoGLM,都會重新向用戶申請無障礙權限。
目前,AutoGLM 已上線電腦端開放使用,安裝清言插件即可使用,手機端 AutoGLM 正開放安卓手機内測。
情感語音模型,有情感、會停頓
兩個月前,智譜清言首次秀了一把語音通話技術,雖然當時語音通話功能能聽懂對話、回複還算準确,但語氣像是機器人 " 背稿子 ",沒啥感情。要是讓它來點情感表達,它還會一本正經地告訴你:" 作爲一個人工智能,無法表達感情 "。
不過,現在升級後的情感語音模型,感覺就不一樣了。語音聽起來更有 " 人味兒 ",還能加點感情,像真人一樣跟你聊。
它已經學會了用撒嬌、調侃、憤怒、歇斯底裏等語氣表達。比如,拟人語音能模仿孩子,用撒嬌語氣向姐姐要糖葫蘆。
如果普通話聽膩了,沒問題,它還能切換爲北京、東北、廣東、台灣、重慶五地腔調,比如介紹美食時那句經典的 " 巴适得闆 ",直接讓人食欲大開。
玩角色扮演遊戲也不成問題,可以把它設定爲《哈利波特》中的反派伏地魔與你戰鬥,并能要求它以指定的語氣進行扮演。比如它能以電視劇中常見的反派語氣說話。
如果挑戰繞口令加速,它可能就會 " 翻車 " 了,發音有點 " 飄 "。
不過在某些時候,GLM-4-Voice說話時偶爾會出現短暫的電流聲。
另外,發音偶爾也可能不标準,比如将爲什麽的 " 爲 ",發音爲 " 微 "。
據了解,GLM-4-Voice 結合了自然語言生成(NLG)和語音合成技術,相比傳統的 TTS 技術(Text-to-Speech),拟人語音能夠理解上下文語境,實現富有情感的自然對話。
此外,GLM-4-Voice 以音頻 token 的形式直接建模語音,在一個模型裏面同時完成語音的理解和生成,信息損失和誤差積累相比傳統級聯方案更少,理論上有着更高的建模上限。
GLM-4-Voice 模型架構圖;來源:智譜 AI
這不是清言拟人語音通話的全部功能,其對标 GPT 40,将在響應和打斷速度、情緒感知情 感共鳴、語音可控表達、多語言多方言等方面進一步突破。目前,其已實現不同情緒,各地方言說話時,還能調節語速、音量,實現與真人般的對話。
目前,GLM-4-Voice 已上線清言 app,用戶可與清言自然聊天。值得注意的是,GLM-4-Voice 已對外開源,這是智譜 AI 首個開源的端到端多模态模型。
下一步,它還将支持視頻通話功能,屆時不僅能認出物體,還能用語氣帶來 " 眼神交流 " 的互動感。
據智譜公衆号,智譜發布從文本、圖像、視頻到情感語音模型等多模态,并讓 AI 學會使用各種工具,原因在于其打造了新的基座模型—— GLM-4-Plus。在語言文本能力方面,GLM-4-Plus 和 GPT-4o、405B 參數量的 Llama3.1 相當。
加碼 AI 手機,智譜找到商業化大入口
" 現在的小模型還處于找市場的階段,需要将市場與技術磨合,提升效率的同時找到新的應用場景。"
兩個月前,智譜 AI CEO 張鵬與《智能湧現》的訪談中,提到了這一觀點。與手機廠商合作 AI 智能體,或許就是張鵬所說的新場景。
找到場景,是模型廠商的當務之急,這意味着模型廠商不僅能獲得穩定的收入來源,完成自我造血,同時也能在場景中持續手機數據,進行産品叠代。
而 AI 智能體是大模型應用的主要形式之一,其具備自主感知、決策并采取行動,被認爲将是電腦、智能手機下一代産品形态的 AI 手機、AI PC,就搭載了 AI 智能體。據咨詢機構 IDC 預計,2027 年,中國市場 AI 手機和 AI PC 的市占率将分别超過 50%、80%。
智譜正在加緊推動大模型落地 AI 手機。本月 22 日,智譜與高通達成合作,爲骁龍 8 至尊版适配優化 GLM-4V 端側視覺大模型,提供多模态交互方式;23 日,智譜與三星手機圍繞 GLM-4V 端側視覺大模型合作,雙方将打造 AI 産品。
而 AutoGLM,智譜也透露正在與榮耀等手機廠商開展深度合作。事實上,今年 9 月智譜與榮耀已成立 AI 大模型技術聯合實驗室。
榮耀也有意進一步提升 AI 智能體的表現。在 23 日的榮耀 MagicOS 9.0 發布會媒體采訪中,榮耀終端有限公司 CEO 趙明表示,榮耀正在通過 AI 重構操作系統,打造核心底層能力,以實現更加智慧化的服務。
AI 手機風頭正盛,多家手機廠商如蘋果、榮耀、vivo、OPPO 等争相推出具備 AI 功能的手機,AI 功能如 AI 消除、AI 通話摘要等。
然而,搭載 AI 智能體的手機目前數量較少,其中原因,既包括行業技術發展仍不成熟,另一反面相關标準長期缺失。
不過,這一情況正在逐步改善。
市場層面,Open.ai、智譜等模型廠商已傳出與手機公司合作消息,将推動模型廠商、應用軟件提供者與手機廠商之間的合作。
政策層面,中國信息通信研究院與國内多家手機廠商聯合發布《終端智能化分級研究報告》,其中對終端智能化進行了分級定義,一定程度,這将推進國内 AI 手機市場的發展。
終端智能化分級定義
多款大模型已與智能手機生态公司合作,或許 AI 手機,将成爲智譜商業驅動的主引擎。