AI掀起新高潮？趕在谷歌Gemini發布前，OpenAI要搶發“多模态”大模型

本以爲谷歌會在 " 多模态 " 大模型方面首次占據領先地位，該公司的集大成之作—— Gemini 即将發布，預計将于今年秋天首次亮相，據報道正在與選定的企業客戶進行測試。

然而，OpenAI 又要來截胡了。

據媒體最新報道，OpenAI 正在積極努力将多模式功能（類似于 Gemini 預計提供的功能）納入 GPT-4，目标趕在 Gemini 發布前推出多模态大型語言模型（MLLM），即代号爲 Gobi 的下一代大型語言模型，以擊敗谷歌并保持領先地位。

随着 ChatGPT 在各領域展現出非凡能力，多模态大型語言模型近來也成爲了研究的熱點，它利用強大的大型語言模型（LLM）作爲 " 大腦 "，可以執行各種多模态任務。

MLLM 展現出了傳統方法所不具備的能力，比如能夠根據圖像創作故事、視覺知識問答、無需 OCR（光學字符識别）的數學推理等，從自然語言理解到圖像解釋等，提供更廣泛的信息處理能力。

報道稱，OpenAI 早在 3 月份發布 GPT-4 時就預先展示了這些功能，但除了一家名爲 "Be My Eyes" 的公司外，沒有向其他公司開放。後者主要爲有視力障礙或失明的人開發移動應用程序。六個月後，OpenAI 正準備在更大範圍内推出被稱爲 GPT-Vision 的功能。

爲什麽 OpenAI 花了這麽長時間才推出這項功能？報道稱主要是擔心新的視覺功能會被不良行爲者利用，比如通過自動解決驗證碼來冒充人類，或者通過面部識别來跟蹤人們。但 OpenAI 的工程師們似乎接近于解決圍繞這項新技術的法律擔憂。

谷歌也面臨這個問題，當該公司被問及正在采取哪些措施來防止 Gemini 濫用時，谷歌發言人指出，該公司在 7 月份做出了一系列承諾，以确保其所有産品能夠負責任地開發。

然而，考慮到谷歌擁有與文本、圖像、視頻和音頻相關的專有數據（包括來自搜索和 YouTube 等平台的數據），該行業向多模态模型的發展可能會有利于發揮谷歌的優勢。一位使用過早期版本的人說，與現有的模型相比，Gemini 似乎已經産生了更少的錯誤答案。

OpenAI 首席執行官 Sam Altman 在最近的各種采訪中暗示，GPT-5 還沒有出現，但他們計劃對 GPT-4 進行各種增強，新的增強模型可能是其中之一。

報道稱，OpenAI 似乎還沒有開始訓練 Gobi，所以現在就說它最終會成爲 GPT-5 還爲時過早。

在上周接受《連線》雜志采訪時，谷歌 CEO 皮查伊表達了他對谷歌目前在 AI 領域地位的信心，并認可技術進步的持久性，以及他們在平衡創新與責任方面深思熟慮的戰略。

無論如何，這場競賽就相當于人工智能版的 iPhone 與 Android。人們正屏息以待 Gemini 的到來，它将揭示谷歌和 OpenAI 之間的差距到底有多大。