長了眼睛和嘴，ChatGPT 開始入侵物理世界

作者 | 連冉

編輯 | 靖宇

OpenAI，又悄咪咪地放大招了。

當地時間 9 月 25 日，OpenAI 在官網更新博客，宣布 ChatGPT 已經具備看、聽、說的能力。這是 GPT-4 大型語言模型推出以來最大的一次功能更新。

從官方放出的應用案例來看，通過手機攝像頭和麥克風，ChatGPT 現在已經能幫助人們解決實際問題。例如用手機拍一下共享單車的照片，并且詢問人工智能助手如何調節座椅，ChatGPT 就可以看懂圖片，并且給出相應步驟。

随着技術的快速叠代，生成式 AI 競賽正在進入了一個全新的階段——多模态之争。在這個階段，各大科技公司紛紛推出了一系列新産品和功能，通過人工智能技術打破傳統搜索引擎和聊天機器人的局限性的同時，也爲用戶帶來更加豐富和精準的交互體驗。

那麽，「升級」了的 ChatGPT，是否能成爲「賈維斯」一樣的 AI 助理，幫助人們打點生活了？而 OpenAI 又是怎麽做到的？

ChatGPT

長了眼睛和嘴巴

生成式 AI 競賽的下一個階段正在來臨——多模态之争。

最近，Meta 推出了 AudioCraft，用于通過 AI 生成音樂；谷歌 Bard 和微軟 Bing 的聊天體驗也已部署了多模态功能；亞馬遜也在借助 LLM 的力量來增強其 Alexa 數字助理（爲 Echo 系列智能設備提供支持）的功能，9 月 25 日剛剛宣布斥資 40 億美元投資 OpenAI 的競争對手 Anthropic，後者是 Claude 2 聊天機器人的制造商；蘋果也在試驗通過 AI 生成語音，即 Personal Voice。

而在上周發布支持文本和排版生成的最新圖像生成模型 DALL-E 3 之後，當地時間周一晚，OpenAI 發布了《ChatGPT 現在能看、能聽、能說了》的公告，宣布對 ChatGPT 進行重大更新，使其 GPT-3.5 和 GPT-4 人工智能模型能夠分析圖像，并作爲文本對話的一部分對圖像做出反應。

此外，ChatGPT 移動應用程序還将增加語音合成選項，與現有的語音識别功能搭配使用時，将實現與人工智能助手的完全語言對話。

根據官網，ChatGPT 現在已經具備了如下功能：

語音功能

OpenAI 在公告中稱語音功能由一個新的文本轉語音模型（text to speech）驅動，隻需要文本和幾秒的語音樣本就可以生成類似人聲的音頻。一方面，OpenAI 與專業配音演員合作創建了語音條，另一方面，OpenAI 還使用了自己開源的語音識别系統 Whisper，可以将用戶的語音轉錄爲文字。

ChatGPT 已經有了語音交互能力｜OpenAI

該功能推出後，用戶可以在應用的設置中選擇語音對話，然後從「Juniper」、「Sky」、「Cove」、「Ember」和「Breeze」等五種不同的合成聲音中選擇一個，說出他們想要的内容，機器人就會使用所選的語音提供答案。例如，人們可以詢問睡前故事，或者就餐桌上正在進行的談話提出問題。

不過，語音對話功能的使用可能面臨有一些限制。OpenAI 表示，該模型在轉錄英文文本方面表現出色，但在一些其他語言，特别是使用非羅馬字母的語言中表現不佳。因此，建議非英語用戶使用 ChatGPT 來進行此類用途時要慎重。

圖像理解

OpenAI 表示，ChatGPT 中的新圖像識别功能允許用戶上傳一張或多張圖像，使用 GPT-3.5 或 GPT-4 模型進行對話。

這些模型将其語言推理技能應用于各種圖像，如照片、截圖和同時包含文本和圖像的文檔，人們隻需點擊一張圖片，将其添加到聊天中，并提出潛在的問題，ChatGPT 就會根據所附文本分析圖片，并給出答案。

它甚至可以圍繞該主題進行前後對話。按照 OpenAI 的說法，用戶可以上傳某物的圖片并詢問 ChatGPT 相關問題——比如在旅行時拍一張地标的照片，讓 ChatGPT 來講述景點的有趣之處；拍下冰箱和食品儲藏室的照片，找出晚餐要吃什麽 ( 還可以問一些後續問題，以獲得進一步的食譜 ) 。

（視頻）

在官方提供的示例中，一張自行車的照片上傳到 ChatGPT 界面，之後詢問後者如何将座位調低。ChatGPT 首先詢問了自行車的型号，因爲座位的調整方式因車型而異。它詳細解釋了不同車型可能采用的快拆杆或螺栓的區别，并提供了相應的步驟。

然後，官方制造了一點混淆，拍攝了一張螺栓的照片，并在圖中用官方的畫圖工具突出顯示，試圖讓 ChatGPT 分辨是螺栓還是快拆杆。ChatGPT 很快指出圖中所示的是螺栓，并建議用戶尋找内六角扳手來解決問題。

接着，官方拍攝了一張工具箱的照片，向 ChatGPT 詢問到底是哪一個扳手。ChatGPT 再次表現準确識别出所需的扳手，并清晰地指導用戶選擇正确的尺寸。這個示例清楚地展示了 ChatGPT 在解決實際問題時的實用性和智能響應。

在去年 3 月 GPT-4 發布時，OpenAI 就已展示了該模型解析文本和圖像的初步能力，很快，這些能力将成爲 ChatGPT 使用中更常見的存在。

OpenAI 将在未來兩周時間裏向爲 Plus 和企業用戶推出上述功能。用戶可以在 iOS 和 Android 使用 ChatGPT 的語音合成功能，圖像識别功能則在網頁和 App 端均可用。

能力越大，責任越大

在 ChatGPT 發布近一年來，OpenAI 對其底層模型和界面進行了多次更新。而任何生成式 AI 的進步都需要考慮嚴肅的倫理和隐私問題。

OpenAI 在公告中聲稱其目标是開發安全且有益的通用人工智能，「我們相信，逐步提供我們的工具，可以讓我們随着時間的推移不斷改進和完善風險緩解措施，同時也讓大家爲未來更強大的系統做好準備。對于涉及語音和視覺的高級模型來說，這一策略越來越更加重要。」

畢竟，新語音技術能夠僅從幾秒的真實語音中創造逼真的合成語音，這爲創造性應用打開大門的同時，也帶來了新的風險，比如惡意冒充公衆人物或進行詐騙等。

爲降低音頻深度僞造的風險，OpenAI 表示它已将語音合成功能的使用範圍限制在語音聊天，和某些已獲批準的合作夥伴關系中。其中包括與流媒體公司 Spotify 的合作—— Spotify 正在使用其背後的技術爲平台上的播客翻譯不同語言的内容。Spotify 個性化副總裁齊亞德 - 蘇丹（Ziad Sultan）在一份新聞稿中說：「通過與創作者本人的聲音相匹配，語音翻譯讓世界各地的聽衆能夠以前所未有的真實方式發現新的播客，并從中獲得靈感。」

同樣，爲了避免圖像識别帶來的隐私和準确性問題，OpenAI 還限制了機器人對輸入圖像中出現的人進行分析和直接陳述的能力，其表示已經「采取了技術措施，以限制 ChatGPT 分析和直接陳述個人信息的能力，系統還是應當尊重個人隐私」，但是真正的惡意利用情況還是要在它面向公衆推出後才能知道。

這次 ChatGPT 推出的語音交互和圖像識别功能，爲聊天機器人帶來了更強的實用性，讓它們從簡單的文本處理工具更貼近真實生活。

同時，這似乎也預示着未來 AI 系統的發展方向——不僅要理解抽象的文字世界，還要能感知複雜的語音和圖像信息，甚至是物理世界，從而真正進階達到人機交互的境界。

* 頭圖來源：OpenAI

本文爲極客公園原創文章，轉載請聯系極客君微信 geekparkGO