有了語音和圖像功能後，ChatGPT将能批改作業了、講故事了！

新功能将面向 Plus 和企業用戶兩周内上線。

來源|多知網

圖片來源 |OpenAI

多知網 9 月 26 日消息，OpenAI 在其官網宣布，将在 ChatGPT 中推出新的語音和圖像功能，這将提供了一種新的、更直觀的界面，允許用戶進行語音對話或向 ChatGPT 展示正在談論的内容。

語音和圖像讓 ChatGPT 使用方法将更多元化，如在旅行時拍一張地标的照片發給 ChatGPT，并就它的有趣之處進行實時對話。當回到家的時候，拍下冰箱和食品儲藏室的照片，詢問 ChatGPT 晚餐要吃什麽，還可以追問，以獲得一步一步的食譜。晚飯後，幫孩子做數學題，拍張照片，ChatGPT 可以進行批改，并給出解釋。

在接下來的兩周内，OpenAI 将向 Plus 和企業用戶推出 ChatGPT 的語音和圖像功能。語音支持 iOS 和 Android，圖像支持所有平台。

在 Plus 和企業用戶推出之後，未來，語音和圖像功能也會推出給其他用戶組，包括開發人員。

‍如何使用語音和圖像功能？

‍

OpenAI 還給出了一些示例和具體使用方法：

1、與 ChatGPT 用語音多輪對話

你現在可以使用語音與你的助手進行多輪對話。在路上和它說話，爲你的家人定制一個睡前故事，或者在餐桌上進行辯論。

要開始使用語音，請前往移動應用程序的設置→新功能，并選擇語音對話。然後，點擊位于主屏幕右上角的耳機按鈕，從五種不同的聲音中選擇您喜歡的聲音。

新的語音功能由一個新的文本到語音模型提供支持，能夠從文本和幾秒鍾的語音樣本中生成類似人類的音頻。OpenAI 與專業的配音演員合作創造了每一個聲音。OpenAI 還使用了自己開源語音識别系統 Whisper，将用戶說的話轉錄成文本。

也就是說，可以讓 ChatGPT 生成故事，然後語音讀給全家人聽。

在這裏 OpenAI 還舉了一個小例子：

故事中文大意：

從前，在一片甯靜的森林裏，有一隻毛茸茸的貓媽媽，名叫 Lila。一個陽光明媚的日子，她在一棵老橡樹的樹蔭下，抱着她那頑皮的小貓 Milo。

"Milo，"Lila 開始說，她的聲音溫柔而溫柔，" 你很快就會有一個新玩伴了。"

" 一個新玩伴 ?"Milo 的耳朵豎起來，充滿好奇。

" 是的，一個小妹妹。"Lila 咕噜着。

" 妹妹 ? 她會像我一樣追逐尾巴嗎 ?"Milo 興奮得睜大了眼睛。

" 哦，她有她自己的怪癖。你會教她的，是嗎 ?"Lila 咯咯地笑了。

Milo 急切地點了點頭，已經開始幻想他們将一起經曆的冒險。

2、讨論圖片

現在可以向 ChatGPT 顯示一個或多個圖像。比如，排除你的烤架無法啓動的原因，探索冰箱裏的東西來計劃吃什麽飯，或者分析與工作相關的複雜圖表。有一些圖像的特定部分如果需要畫圈、截圖等，還可以使用 OpenAI 移動應用程序中的繪圖工具。

可以點擊照片按鈕來捕獲或選擇圖像。如果你用的是 iOS 或 Android，先點擊加号鍵。您也可以讨論多個圖像或使用繪圖工具。

圖像理解由多模态 GPT-3.5 和 GPT-4 提供支持。這些模型将它們的語言推理技能應用于各種各樣的圖像，例如照片、屏幕截圖和同時包含文本和圖像的文檔。

研發圖像和語音功能的背後邏輯

OpenAI 提到，正在逐步部署圖像和語音功能。

OpenAI 的目标是構建安全和有益的 AGI。" 我們相信我們的工具是逐步可用的，這使我們能夠随着時間的推移進行改進和完善風險緩解，同時也爲每個人在未來更強大的系統做好準備。這一策略在涉及語音和視覺的高級模型中變得更加重要。"OpenAI 提到。

在聲音方面，這項新的語音技術能夠從幾秒鍾的真實語音中制作出逼真的合成聲音，爲許多創造性和可訪問性的應用打開了大門。然而，這些功能也帶來了新的風險，例如有些惡意分子可能會冒充公衆人物或實施欺詐行爲。

這就是爲什麽 OpenAI 使用這項技術來支持一個特定的用例——語音聊天。語音聊天是由 OpenAI 直接合作過的配音演員創建的。未來也以類似的方式與其他人合作。例如，Spotify 正在利用這項技術的力量爲他們的語音翻譯功能試點，這有助于播客主持人通過使用播客主持人自己的聲音将播客翻譯成更多語言來擴大他們的講述。

圖像輸入

基于視覺的模型也帶來了新的挑戰 , 從對人們的幻想到依賴模型對圖像的解釋這類高風險領域。在更廣泛的部署之前，OpenAI 使用紅隊測試員測試了高風險領域的模型，如極端主義和科學能力，以及各種 alpha 測試者。

使圖片功能既有用又安全

像 ChatGPT 的其他功能一樣，視覺是關于幫助用戶的日常生活。當它能看到用戶看到的東西時，它會做得最好。

這種方法直接來自于 OpenAI 與 Be My Eyes 的合作，Be My Eyes 是一個爲盲人和低視力人士提供的免費移動應用程序，以了解使用和局限性。用戶告訴 OpenAI，當背景中出現人物時 ( 例如，當您試圖搞清遙控器設置時，電視上出現某人 ) ，他們會發現就圖像進行對話很有價值。

OpenAI 稱，我們還采取了技術措施，顯著限制了 ChatGPT 對人員的分析和直接陳述的能力，因爲 ChatGPT 不總是準确的，而這些系統應該尊重個人的隐私。

關于模型局限性的透明度

用戶可能會依賴 ChatGPT 進行特定的專題，例如研究等領域。OpenAI 對模型的局限性保持透明 , 并阻止在沒有适當驗證的情況下使用高風險用例。此外，該模型善于轉錄英語文本 , 但在某些其他語言 ( 尤其是非羅馬字母的語言 ) 上的表現較差。OpenAI 建議非英語用戶不要将 ChatGPT 用于此目的。

值得注意的是，大模型多模态發展一定是趨勢，目前，我國的大模型有的有語音功能，有的有圖片功能，不過，功能尚簡單，仍處于快速叠代之中。

在不久的将來，大模型的多模态化将有更多的應用場景落地。