OpenAI 連發兩則重磅消息,首先 ChatGPT 可以看、聽、說了。
新版 ChatGPT 開啓一種更直觀的交互方式,可以向 AI 展示正在談論的内容。
比如拍一張照片,詢問如何調整自行車座椅高度。
官方還給出另一個實用場景思路:打開冰箱拍一張照片,詢問 AI 晚餐可以吃什麽,并生成完整菜譜。
更新将在接下來的兩周内向 ChatGPT Plus 訂閱用戶和企業版用戶推出,iOS 和安卓都支持。
與此同時,多模态版 GPT-4V 模型更多細節也一并放出。
其中最令人驚訝的是,多模态版早在2022 年 3 月就訓練完了……
看到這裏,有網友靈魂發問:有多少創業公司在剛剛 5 分鍾之内死掉了?
看聽說皆備,全新交互方式
更新後的 ChatGPT 移動 APP 裏,可以直接拍照上傳,并針對照片中的内容提出問題。
比如 " 如何調整自行車座椅高度 ",ChatGPT 會給出詳細步驟。
如果你完全不熟悉自行車結構也沒關系,還可以圈出照片的一部分問 ChatGPT" 說的是這個嗎?"。
就像在現實世界中用手給别人指一個東西一樣。
不知道用什麽工具,甚至可以把工具箱打開拍給 ChatGPT,它不光能指出需要的工具在左邊,連标簽上的文字也能看懂。
提前得到使用資格的用戶也分享了一些測試結果。
可以分析自動化工作流程圖。
但是沒有認出一張劇照具體出自哪部電影。
△認出的朋友歡迎在評論區回複
語音部分的演示還是上周 DALL · E 3 演示的聯動彩蛋。
讓 ChatGPT 把 5 歲小朋友幻想中的 " 超級向日葵刺猬 " 講成一個完整的睡前故事。
△DALL · E3 演示
ChatGPT 這次講的故事文字摘錄如下:
過程中更具體的多輪語音交互細節,以及語音試聽可參考視頻。
多模态 GPT-4V 能力大揭秘
結合所有公布的視頻演示與 GPT-4V System Card 中的内容,手快的網友已經總結出 GPT-4V 的視覺能力大揭秘。
物體檢測:GPT-4V 可以檢測和識别圖像中的常見物體,如汽車、動物、家居用品等。其物體識别能力在标準圖像數據集上進行了評估。
文本識别:該模型具有光學字符識别 ( OCR ) 功能,可以檢測圖像中的打印或手寫文本并将其轉錄爲機器可讀文本。這在文檔、标志、标題等圖像中進行了測試。
人臉識别:GPT-4V 可以定位并識别圖像中的人臉。它具有一定的能力,可以根據面部特征識别性别、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數據集上進行測量的。
驗證碼解決:在解決基于文本和圖像的驗證碼時,GPT-4V 顯示出了視覺推理能力。這表明該模型具有高級解謎能力。
地理定位:GPT-4V 具有識别風景圖像中描繪的城市或地理位置的能力,這證明模型吸收了關于現實世界的知識,但也代表有洩露隐私的風險。
複雜圖像:該模型難以準确解釋複雜的科學圖表、醫學掃描或具有多個重疊文本組件的圖像。它錯過了上下文細節。
同時也總結了 GPT-4V 目前的局限性。
空間關系:模型可能很難理解圖像中對象的精确空間布局和位置。它可能無法正确傳達對象之間的相對位置。
對象重疊:當圖像中的對象嚴重重疊時,GPT-4V 有時無法區分一個對象的結束位置和下一個對象的開始位置。它可以将不同的對象混合在一起。
背景 / 前景:模型并不總是準确地感知圖像的前景和背景中的對象。它可能會錯誤地描述對象關系。
遮擋:當圖像中某些對象被其他對象部分遮擋或遮擋時,GPT-4V 可能無法識别被遮擋的對象或錯過它們與周圍對象的關系。
細節:模型經常會錯過或誤解非常小的物體、文本或圖像中的複雜細節,從而導緻錯誤的關系描述。
上下文推理:GPT-4V 缺乏強大的視覺推理能力來深入分析圖像的上下文并描述對象之間的隐式關系。
置信度:模型可能會錯誤地描述對象關系,與圖像内容不符。
同時 System Card 中也重點聲明了" 目前在科學研究和醫療用途中性能不可靠 "。
另外後續還要繼續研究,是否應該讓模型識别公衆人物,是否應該允許模型從人物圖像中推斷性别、種族或情感等問題。
有網友已經想好,等更新了要問的第一件事是 Sam Altman 照片的背包裏裝的是什麽。
那麽,你想好第一件事問什麽了麽?
參考鏈接:
[ 1 ] https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
[ 2 ] https://openai.com/research/gpt-4v-system-card
[ 3 ] https://x.com/IntuitMachine/status/1706307412401979455
[ 4 ] https://x.com/youraimarketer/status/1706461715078975778