會說話、能識圖的ChatGPT來了！距離“超級助理”更進一步

開口說話、裝上 " 眼睛 "，多模态 ChatGPT 來了。

周一，OpenAI 在官網宣布，将在未來兩周内面向 Plus 和企業用戶推出 ChatGPT 的語音和圖像功能，上述功能允許用戶進行語音對話或向 ChatGPT 展示圖片。

語音功能方面，ChatGPT 可以用語音來回答問題和命令，與蘋果的 Siri 等 C 端個人助理形成直接競争。此外，ChatGPT 将有五種不同的語音供用戶選擇，同時支持語音音頻生成文本、将播客語音翻譯成其他語言等功能。

圖像功能方面，用戶提交圖片并詢問相關問題，ChatGPT 可以根據圖片回答或給出建議。據悉，語音功能将在 iOS 和 Android 平台推出，圖像功能将登陸所有平台。

開口說話、5 種不同語音

OpenAI 升級了用戶與 ChatGPT 的交互方式，用戶不僅可以通過在文本框中輸入句子，還可以通過大聲說話來提示聊天機器人。

這一功能并不陌生，類似于與谷歌助手交談，隻是 OpenAI 希望，由于底層技術的改進，答案會更好。目前，大多數虛拟助手都在依靠大模型進行重建，OpenAI 隻是走在了前面。

OpenAI 于今年 5 月發布了 ChatGPT 應用程序，并已經提供了語音轉文本功能。增加語音回複功能可以讓用戶感覺在進行更人性化的對話。該公司希望這項新功能能鼓勵用戶随時随地使用其移動應用，并與谷歌的 Assistant、蘋果的 Siri 或亞馬遜的 Alexa 等個人助理産品形成直接的競争。

OpenAI 正在推出一種新的文本轉語音模型，并稱它可以 " 通過文本和幾秒鍾的語音樣本生成類似人類的音頻 "，用戶可以從五個選項中選擇 ChatGPT 的聲音，但 OpenAI 似乎認爲該模型的潛力遠不止于此。例如，OpenAI 正在與 Spotify 合作，将播客翻譯成其他語言，同時保持播客的聲音。合成語音有很多有趣的用途，OpenAI 可能會成爲這一行業的重要組成部分。

裝上 " 眼睛 "、看懂圖片

該公司還表示，付費用戶和企業用戶将可以使用圖片功能，圖片搜索有點像谷歌 Lens，隻需拍下感興趣的照片，ChatGPT 就會找出問題所在，并做出相應的回應。

例如，用戶可以上傳一張粉色太陽鏡的圖片，并要求聊天機器人推薦與之搭配的服裝，或者提交一張數學問題的圖片，并請求幫助解決。

分析指出，自從 2022 年初推出 ChatGPT 以來，OpenAI 一直在努力爲其機器人增加更多功能和能力，同時避免造成新的問題出現。通過這次更新，該公司試圖在這條界線上尋找平衡點，通過有意識地限制其新模型能做什麽來實現這一目标。

但是這種方法并不是長久之計，随着越來越多的人使用語音控制和圖像搜索，以及 ChatGPT 逐漸成爲一個真正的多模态、實用的虛拟助手，要保持安全和合理的邊界會變得越來越困難。

ChatGPT 要成爲 " 超級助理 "

這次升級無疑令 ChatGPT 距離 " 超級助理 " 更進了一步，同時與下遊軟件的競争也更加激烈。

此前文章指出，OpenAI 首席執行官 Sam Altman 私下告訴開發者，公司希望将 ChatGPT 打造成 " 超級智能個人工作助理 "，使其可以根據個人及工作需求執行多種任務，如按照用戶的風格起草郵件或文件，提供相關業務的最新信息。

分析指出，微軟和 OpenAI 均能向需要構建 AI 能力的 B 端客戶提供技術服務，兩者之間存在着直接的業務沖突；而從長期來看，如果 OpenAI 加速布局面向個人及企業的軟件，ChatGPT 未來很有可能将重塑 C 端應用生态，或許兩者的 " 關系破裂 " 是早晚的事情。