IT 之家 9 月 25 日消息,近日 OpenAI 宣布推出新版 ChatGPT,增加了兩項新功能:語音輸入和圖像輸入。據 OpenAI 稱,新功能将在未來兩周内向 ChatGPT Plus 訂閱用戶推出,其他人也将 " 很快 " 能夠使用這些功能。
語音輸入功能類似于手機上的語音助手,用戶隻需按下一個按鈕,說出自己的問題,ChatGPT 就會将其轉換爲文本,然後生成答案,再将答案轉換爲語音,播放給用戶。OpenAI 表示,這樣的交互方式更加自然和便捷,而且由于 LLM 的技術優勢,答案的質量也會更高。OpenAI 還開發了一種新的文本轉語音模型,可以根據幾秒鍾的樣本語音,生成與之相似的人聲。用戶可以從五種選項中選擇 ChatGPT 的聲音,而且這種模型還有更多的潛在用途。例如,OpenAI 正在與 Spotify 合作,将播客翻譯成其他語言,同時保留播客主持人的聲音。不過,這種模型也存在一些風險,比如可能被惡意利用來冒充公衆人物或進行詐騙。因此,OpenAI 表示,這種模型不會被廣泛開放,而是會受到嚴格的控制和限制。
圖像輸入功能則類似于 Google Lens,用戶可以拍攝自己感興趣的事物,并上傳到 ChatGPT 中。ChatGPT 會嘗試識别用戶想要詢問的内容,并給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題,或者配合語音或文本輸入來進行交流。ChatGPT 的優勢在于它可以進行多輪對話,而不是一次性搜索。如果用戶對答案不滿意或想要更多信息,可以繼續向 ChatGPT 提問,從而得到更準确和全面的答案。當然,圖像搜索也有一些潛在問題。例如,在處理人物圖片時,OpenAI 表示他們限制了 ChatGPT 對人物進行分析和直接評價的能力,既爲了保證準确性,也爲了保護隐私,這意味着上傳一個人的照片就能知道他 / 她是誰還無法實現。
IT 之家注意到,自從 2022 年初推出 ChatGPT 以來,OpenAI 一直在努力爲其機器人增加更多功能和能力,同時避免造成新的問題出現。通過這次更新,該公司試圖在這條界線上尋找平衡點,通過有意識地限制其新模型能做什麽來實現這一目标。但是這種方法并不是長久之計,随着越來越多的人使用語音控制和圖像搜索,以及 ChatGPT 逐漸成爲一個真正的多模态、有用的虛拟助手,要保持安全和合理的邊界會變得越來越困難。