最強組合:HuggingFace+ChatGPT ——
HuggingGPT,它來了!
隻要給定一個 AI 任務,例如 " 下面這張圖片裏有什麽動物,每種有幾隻 "。
它就能幫你自動分析需要哪些 AI 模型,然後直接去調用 HuggingFace 上的相應模型,來幫你執行并完成。
整個過程,你要做的就隻是用自然語言将你的需求輸出。
這項由浙大與微軟亞研院的合作成果,一經發布就迅速爆火。
英偉達 AI 研究科學家 Jim Fan 直呼:
這是我本周讀到的最有意思的論文。它的思想非常接近 "Everything App"(萬物皆 App,被 AI 直接讀取信息)。
而一位網友則 " 直拍大腿 ":
這不就是 ChatGPT" 調包俠 " 嗎?
AI 進化速度一日千裏,給我們留口飯吃吧……
所以,具體怎麽回事兒?
HuggingGPT:你的 AI 模型 " 調包俠 "
其實,若說這個組合物隻是 " 調包俠 ",那格局小了。
它的真正用義,是 AGI。
如作者所言,邁向 AGI 的關鍵一步是能夠解決具有不同領域和模式的複雜 AI 任務。
我們目前的成果離此還有距離——大量模型隻能出色地完成某一特定任務。
然而大語言模型 LLM 在語言理解、生成、交互和推理方面的表現,讓作者想到:
可以将它們作爲中間控制器,來管理現有的所有 AI 模型,通過 " 調動和組合每個人的力量 ",來解決複雜的 AI 任務。
在這個系統中,語言是通用的接口。
于是,HuggingGPT 就誕生了。
它的工程流程分爲四步:
首先,任務規劃。ChatGPT 将用戶的需求解析爲任務列表,并确定任務之間的執行順序和資源依賴關系。
其次,模型選擇。ChatGPT 根據 HuggingFace 上托管的各專家模型的描述,爲任務分配合适的模型。
接着,任務執行。混合端點(包括本地推理和 HuggingFace 推理)上被選定的專家模型根據任務順序和依賴關系執行分配的任務,并将執行信息和結果給到 ChatGPT。
最後,輸出結果。由 ChatGPT 總結各模型的執行過程日志和推理結果,給出最終的輸出。
如下圖所示。
假定我們給出這樣一個請求:
請生成一個女孩正在看書的圖片,她的姿勢與 example.jpg 中的男孩相同。然後請用你的聲音描述新圖片。
可以看到 HuggingGPT 是如何将它拆解爲 6 個子任務,并分别選定模型執行得到最終結果的。
具體效果怎麽樣?
作者采用 gpt-3.5-turbo 和 text-davinci-003 這倆可以通過 OpenAI API 公開訪問的變體,進行了實測。
如下圖所示:
在任務之間存在資源依賴關系的情況下,HuggingGPT 可以根據用戶的抽象請求正确解析出具體任務,完成圖片轉換。
在音頻和視頻任務中,它也展現了組織模型之間合作的能力,通過分别并行和串行執行兩個模型的方式,完了一段 " 宇航員在太空行走 " 的視頻和配音作品。
此外,它還可以集成多個用戶的輸入資源執行簡單的推理,比如在以下三張圖片中,數出其中有多少匹斑馬。
一句話總結:HuggingGPT 可以在各種形式的複雜任務上表現出良好的性能。
項目已開源,名叫「賈維斯」
目前,HuggingGPT 的論文已經發布,項目則正在建設中,代碼隻開源了一部分,已攬獲 1.4k 标星。
我們注意到,它的項目名稱很有意思,不叫本名 HuggingGPT,而是鋼鐵俠裏的 AI 管家賈維斯(JARVIS)。
有人發現它和 3 月份剛發布的Visual ChatGPT的思想非常像:後者 HuggingGPT,主要是可調用的模型範圍擴展到了更多,包括數量和類型。
不錯,其實它們都有一個共同作者:微軟亞研院。
具體而言,Visual ChatGPT 的一作是 MSRA 高級研究員吳晨飛,通訊作者爲 MSRA 首席研究員段楠。
HuggingGPT 則包括兩位共同一作:
Shen Yongliang,TA 來自浙江大學,在 MSRA 實習期間完成此項工作;
Song Kaitao,MSRA 研究員。
其通訊作者爲浙大計算機系教授莊越挺。
最後,對于這個強大新工具的誕生,網友們很是興奮,有人表示:
ChatGPT 已成爲人類創建的所有 AI 的總指揮官了。
也有人據此認爲:
AGI 可能不是一個 LLM,而是由一個 " 中間人 "LLM 連接的多個相互關聯的模型。
那麽,我們是否已經開啓 " 半 AGI" 的時代了?
論文地址:
https://arxiv.org/abs/2303.17580
項目鏈接:
https://github.com/microsoft/JARVIS
參考鏈接:
https://twitter.com/DrJimFan/status/1642563455298473986