本以爲谷歌會在 " 多模态 " 大模型方面首次占據領先地位,該公司的集大成之作—— Gemini 即将發布,預計将于今年秋天首次亮相,據報道正在與選定的企業客戶進行測試。
然而,OpenAI 又要來截胡了。
據媒體最新報道,OpenAI 正在積極努力将多模式功能(類似于 Gemini 預計提供的功能)納入 GPT-4,目标趕在 Gemini 發布前推出多模态大型語言模型(MLLM),即代号爲 Gobi 的下一代大型語言模型,以擊敗谷歌并保持領先地位。
随着 ChatGPT 在各領域展現出非凡能力,多模态大型語言模型近來也成爲了研究的熱點,它利用強大的大型語言模型(LLM)作爲 " 大腦 ",可以執行各種多模态任務。
MLLM 展現出了傳統方法所不具備的能力,比如能夠根據圖像創作故事、視覺知識問答、無需 OCR(光學字符識别)的數學推理等,從自然語言理解到圖像解釋等,提供更廣泛的信息處理能力。
報道稱,OpenAI 早在 3 月份發布 GPT-4 時就預先展示了這些功能,但除了一家名爲 "Be My Eyes" 的公司外,沒有向其他公司開放。後者主要爲有視力障礙或失明的人開發移動應用程序。六個月後,OpenAI 正準備在更大範圍内推出被稱爲 GPT-Vision 的功能。
爲什麽 OpenAI 花了這麽長時間才推出這項功能?報道稱主要是擔心新的視覺功能會被不良行爲者利用,比如通過自動解決驗證碼來冒充人類,或者通過面部識别來跟蹤人們。但 OpenAI 的工程師們似乎接近于解決圍繞這項新技術的法律擔憂。
谷歌也面臨這個問題,當該公司被問及正在采取哪些措施來防止 Gemini 濫用時,谷歌發言人指出,該公司在 7 月份做出了一系列承諾,以确保其所有産品能夠負責任地開發。
然而,考慮到谷歌擁有與文本、圖像、視頻和音頻相關的專有數據(包括來自搜索和 YouTube 等平台的數據),該行業向多模态模型的發展可能會有利于發揮谷歌的優勢。一位使用過早期版本的人說,與現有的模型相比,Gemini 似乎已經産生了更少的錯誤答案。
OpenAI 首席執行官 Sam Altman 在最近的各種采訪中暗示,GPT-5 還沒有出現,但他們計劃對 GPT-4 進行各種增強,新的增強模型可能是其中之一。
報道稱,OpenAI 似乎還沒有開始訓練 Gobi,所以現在就說它最終會成爲 GPT-5 還爲時過早。
在上周接受《連線》雜志采訪時,谷歌 CEO 皮查伊表達了他對谷歌目前在 AI 領域地位的信心,并認可技術進步的持久性,以及他們在平衡創新與責任方面深思熟慮的戰略。
無論如何,這場競賽就相當于人工智能版的 iPhone 與 Android。人們正屏息以待 Gemini 的到來,它将揭示谷歌和 OpenAI 之間的差距到底有多大。