GPT-4 識圖功能遲遲不開放,終于有人忍不住自己動手做了一個。
MiniGPT-4來了,Demo 開放在線可玩。
傳一張海鮮大餐照片上去,就能直接獲得菜譜。
傳一張商品效果圖,就可以讓 AI 寫一篇帶貨文案。
手繪一個網頁,可以給出對應的 HTML 代碼
除了生産力拉滿,也支持根據常識推理圖上内容是否合理、解釋表情包爲什麽好笑,以及看截圖找電影等娛樂玩法。
可以說,GPT-4 發布時展示過的功能,MiniGPT-4 基本也都有了。
這下網友直接把 Demo 服務器擠爆,開發團隊連開 4 台備用服務器,都有幾十人在排隊。
除了研究團隊給出的示例,網友也用 MiniGPT-4 玩出了各種花樣
有人上傳自己畫的畫,讓 AI 評價評價。
有人上傳一張從車道拍攝的飛機墜毀瞬間,讓 MiniGPT-4 盡可能詳細地描述,并思考自動駕駛 AI 能不能理解這個場面。
做到這麽好的效果,MiniGPT-4 實現起來卻并不複雜。
把圖像編碼器與開源語言模型 Vicuna(小羊駝)整合起來,并且凍結了兩者的大部分參數,隻需要訓練很少一部分。
傳統預訓練階段,使用 4 張 A100 在 10 個小時内就可完成,此時訓練出來的 Vicuna 已能夠理解圖像,但生成能力受到很大影響。
爲解決這個問題,團隊讓 MiniGPT-4 與 ChatGPT 合作創建了 3500 個圖像文本的高質量數據集,也一并開源。
用新的數據集微調可以顯著提高模型的生成可靠性和整體可用性,而且計算效率很高,使用單個 A100 隻需要 7 分鍾。
并且團隊正在準備一個更輕量級的版本,部署起來隻需要 23GB 顯存。
也就是消費級顯卡中擁有 24GB 顯存的3090 或 4090就可以本地運行了。
MiniGPT-4 開發團隊來自 KAUST(沙特阿蔔杜拉國王科技大學),包括 4 位華人成員和他們的導師 Mohamed Elhoseiny。
兩位正在讀博的共同一作還在 GitHub 頁面上特别标注正在找工作。
有意向的公司要抓緊搶人了~
在線 Demo:
https://minigpt-4.github.io
開源代碼:
https://github.com/Vision-CAIR/MiniGPT-4
論文:
https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf