OpenAI 更新 ChatGPT：支持圖片和語音輸入

IT 之家 9 月 25 日消息，近日 OpenAI 宣布推出新版 ChatGPT，增加了兩項新功能：語音輸入和圖像輸入。據 OpenAI 稱，新功能将在未來兩周内向 ChatGPT Plus 訂閱用戶推出，其他人也将 " 很快 " 能夠使用這些功能。

語音輸入功能類似于手機上的語音助手，用戶隻需按下一個按鈕，說出自己的問題，ChatGPT 就會将其轉換爲文本，然後生成答案，再将答案轉換爲語音，播放給用戶。OpenAI 表示，這樣的交互方式更加自然和便捷，而且由于 LLM 的技術優勢，答案的質量也會更高。OpenAI 還開發了一種新的文本轉語音模型，可以根據幾秒鍾的樣本語音，生成與之相似的人聲。用戶可以從五種選項中選擇 ChatGPT 的聲音，而且這種模型還有更多的潛在用途。例如，OpenAI 正在與 Spotify 合作，将播客翻譯成其他語言，同時保留播客主持人的聲音。不過，這種模型也存在一些風險，比如可能被惡意利用來冒充公衆人物或進行詐騙。因此，OpenAI 表示，這種模型不會被廣泛開放，而是會受到嚴格的控制和限制。

圖像輸入功能則類似于 Google Lens，用戶可以拍攝自己感興趣的事物，并上傳到 ChatGPT 中。ChatGPT 會嘗試識别用戶想要詢問的内容，并給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題，或者配合語音或文本輸入來進行交流。ChatGPT 的優勢在于它可以進行多輪對話，而不是一次性搜索。如果用戶對答案不滿意或想要更多信息，可以繼續向 ChatGPT 提問，從而得到更準确和全面的答案。當然，圖像搜索也有一些潛在問題。例如，在處理人物圖片時，OpenAI 表示他們限制了 ChatGPT 對人物進行分析和直接評價的能力，既爲了保證準确性，也爲了保護隐私，這意味着上傳一個人的照片就能知道他 / 她是誰還無法實現。

IT 之家注意到，自從 2022 年初推出 ChatGPT 以來，OpenAI 一直在努力爲其機器人增加更多功能和能力，同時避免造成新的問題出現。通過這次更新，該公司試圖在這條界線上尋找平衡點，通過有意識地限制其新模型能做什麽來實現這一目标。但是這種方法并不是長久之計，随着越來越多的人使用語音控制和圖像搜索，以及 ChatGPT 逐漸成爲一個真正的多模态、有用的虛拟助手，要保持安全和合理的邊界會變得越來越困難。