IT 之家 5 月 12 日消息,據 The Information 報道,OpenAI 最近向部分客戶展示了一款新型多模态人工智能模型,該模型能夠進行語音對話和物體識别。有消息人士透露,這或許就是 OpenAI 計劃在即将到來的 5 月 13 日正式發布的内容之一。
圖源 Pexels
報道稱,相比于 OpenAI 現有的獨立圖像識别和文本轉語音模型,該新型模型能夠更快、更準确地處理圖像和音頻信息。例如,它可以幫助客服人員 " 更好地理解來電者的語氣語調,判斷他們是否在使用諷刺語氣 "。理論上,該模型還能輔助學生學習數學知識,或翻譯現實世界中的标志文字。
不過,消息人士也指出,雖然該模型在某些問題解答方面能夠超越 GPT-4 Turbo,但仍有可能出現自信地給出錯誤答案的情況。
IT 之家注意到,開發者 Ananay Arora 發布了一張包含通話相關代碼的截圖,暗示 OpenAI 可能正在爲 ChatGPT 加入打電話的功能。Arora 還發現了一些證據表明 OpenAI 正在配置用于實時音視頻通信的服務器。
OpenAI 首席執行官薩姆・阿爾特曼 ( Sam Altman ) 已經明确否認即将發布的新品是代号爲 GPT-5 的大型語言模型(據稱其性能将大幅優于 GPT-4)。The Information 則表示,GPT-5 可能将在今年年底前正式亮相。阿爾特曼還表示,OpenAI 不會發布新的人工智能搜索引擎。
如果 The Information 的報道屬實,OpenAI 的新品發布仍可能會對即将舉行的 Google I / O 開發者大會産生一定影響。衆所周知,谷歌也在測試利用人工智能進行電話呼叫的技術。此外,谷歌還有一個據傳即将發布的項目,代号爲 "Pixie"。Pixie 是一款能夠通過設備攝像頭識别物體的多模态 Google Assistant 替代品,可以爲用戶提供諸如 " 如何前往購買地點 " 或 " 如何使用 " 等信息。