圖片來源 @視覺中國
文 | 王吉偉
OpenAI 推出的 GPTs 是不是 Agent?爲何能讓很多 AI 智能體項目半年白幹?
很多人說 GPTs 不是真正意義上的 AI Agent,爲何卻被稱作 Agent 殺手 ?
OpenAI 宮鬥 100+ 小時期間數量超兩萬的 GPTs,真會成爲 AI Agent 殺手嗎?
GPTs 到底是什麽?與 AI Agent 有什麽區别?爲什麽說它會殺死 AI Agent?
爲何 " 準 Agent"GPTs 對真 AI Agent 造成那麽大沖擊?真的會殺死 AI 智能體嗎?
說 GPTs 會殺死 AI Agent 有些危言聳聽,Agent 未來生态注定百花齊放
OpenAI 的宮鬥大戲已經告一段落,精彩劇情的餘韻仍在久久回蕩。
波瀾起伏的劇情,精湛的演技,矽谷大佬的客串,100 多個小時的演繹,締造了這部足以載入史冊的 AGI 成長大戲。劇中角色則被賦予更多傳奇色彩,比如 Sam Altman 一度被視作當年被董事會罷免的喬布斯,而 Ilya Sutskever 也被貼上了 "AGI 衛道者 " 的标簽。
這場宮鬥的真正根源,到現在還在市裏坊間被人猜測。其中最有可能的一個原因是,GPT 已經發展成爲能夠威脅人類的 AI,所以衛道者 Ilya 要出來幹預,不惜使用各種手段阻止 OpenAI 帶有重大危險因素的超高速成長。
Sam 要通過商業手段推動 OpenAI 疾馳,Ilya 則要确保 AI 在監管之下可控發展。
兩人都是 AGI 的笃信者,發展理念卻在 OpenAI 的第一個開發者大會之後産生了強烈沖突。Sam 相當激進,Ilya 過于謹慎,于是矛盾一觸即發,而導火索可能恰恰就在于 GPTs。
從 Sam 被開除開始,大家都在關注 OpenAI 宮鬥這幾天,GPTs 仍舊以超高的速度發展,目前 GPTs 的數量已超過 2 萬。超低的創建門檻和 APP Store 一樣的商業模型,必會讓 OpenAI 快速構建 GPTs 生态。
但另一方面,目前這些 GPTs 還存在不少問題。就以安全可言,99% 的 GPTs 都在裸奔,幾句話就能套取知識庫文件。如果這些 GPTs 都在對人類存在潛在威脅的大語言模型之上運行,後果可想而知。
當然,這些仍然還是猜測,也不是本文讨論的重點。
事實上,GPTs 推出後在創投領域引起更多不滿的,是 OpenAI 爲何既要做底層技術又要做上層應用。這直接殺死了相當數量的基于 GPT 的 Agent 相關項目,當然大量項目都是 Sam 所說的 " 簡單模仿、套殼 OpenAI" 公司的項目。
不管這些項目是不是在套殼 OpenAI,GPTs 以及 Assitant API 的推出,确實對第三方 Agent 構建框架及工具造成了不小的沖擊,就連 Langchain、LlamaIndex 等都已被看作一無是處了。
有意思的是,一些人并不認爲 GPTs 算是真正的 Agent,因爲現在的大多數 GPTs 僅是實現特定功能的聊天機器人。這樣的東西,又怎能取代或者殺死結構完整功能強大的獨立 Agent 呢?
那麽,GPTs 到底算不算 Agent?GPTs 的推出是否真的意味着開發者幾個月來構建的 Agent 産品和開源項目都會死亡?GPTs 是否真的有能力殺死所有 AI Agent?
本文,王吉偉頻道就跟大家聊聊這些。
從 GPTs 說起
OpenAI 官方對 GPTs 的定義是,用戶爲特定目的創建的 ChatGPT 版本。
任何人都可以創建量身定制的 GPTs,用于日常生活、特定任務、工作或家庭中獲得更多便利以及提升效率,也可以制作僅供公司内部使用的 GPTs,比如幫教孩子數學或者設計貼紙、學習棋盤遊戲、搜索資源、數據分析等。
此外,用戶還可以分享創建的 GPTs,以讓更多人使用它們提升各種場景的使用效率。想要詳細了解 GPTs,大家可以到 OpenAI 官方博客查看《Introducing GPTs》這篇博文。
要構建一個 GPTs 也非常簡單,不用代碼,隻需與 GPT Builder(OpenAI 推出的 GPTs 創建器)進行對話,并爲其提供說明和其他知識,再選擇 GPTs 能夠執行的搜索網絡、制作圖像、分析數據等操作,一個 GPTs 就創建完成了。
GPTs 可以做很多事情,比如學習棋盤遊戲的規則、幫孩子學習或者設計貼紙。還可以把 GPT 和外部服務連接起來,讓它們訪問更多的信息和功能。例如,通過連接翻譯 API,GPT 就可以通過訪問數據庫獲取實時數據進行分析,實現用多種語言交流。
爲了讓用戶感受 GPTs 的魅力,OpenAI 官方推出了 16 個 GPTs,用戶可以直接使用這些 GPTs。在構建 GPTs 時,用戶也可以選擇是否使用 DALL-E 圖片生成或者代碼解釋器。
這 16 個 GPTs 如下:
DALL · E GPT:讓你的想象變成圖像。
Data Analysis:放入任何文件,幫助分析和可視化您的數據。
ChatGPT Classic:最新版本的 GPT-4,沒有附加功能。"
Game Time:快速向任何年齡的玩家解釋棋盤遊戲或紙牌遊戲。
The Negotiator:幫助你爲自己辯護并獲得更好的結果,成爲一名出色的談判者。
Creative Writing Coach:渴望閱讀您的作品并爲您提供反饋以提高您的技能。
Cosmic Dream:有遠見的數字奇迹畫家。
Tech Support Advisor:從設置打印機到對設備進行故障排除,逐步爲您提供幫助。
Coloring Book Hero:把任何想法變成異想天開的圖畫書頁。
Laundry Buddy:回答任何關于污漬、設置、分類和一切洗衣的事情。
Sous Chef:根據你喜歡的食物和擁有的食材給你食譜。
Sticker Whiz:把你最瘋狂的夢想變成模切貼紙,直接送到你家門口。
Math Mentor:幫助父母幫助他們的孩子學習數學。
Hot Mods:把你的形象修改成真正狂野的東西。
Mocktail Mixologist:用你手頭的任何食材制作無酒精雞尾酒食譜,讓任何派對都大放異彩。
genz 4 meme: 幫你理解行話和最新的表情包。
OpenAI 推出這些不同的 GPTs,不僅對外展示了 GPT 模型的技術實力,也意味着個性化 AI 助手将成爲我們日常生活中不可或缺的一部分,在未來滿足我們獨特的需求和興趣。
從現在已經推出的各種 GPTs 來看,有的比如使用 Zapier 插件的 GPTs 已經能夠處理稍微複雜一些的業務流程,但大部分 GPTs 僅是聊天機器人,還無法實現複雜任務的執行。
所以,GPTs 到底算不算 Agent 呢?
從 Agent 定義及架構看 GPTs
OpenAI 開發者大會以後,比爾•蓋茨(Bill Gates)在其博客發表了一篇名爲《AI is about to completely change how you use computers》的文章,并很快刷屏國内外。
在這篇文章中,他提到了 Agent 與機器人(如 Clippy 等)的區别,主要有以下三點:
積極主動地根據用戶需求提出解決方案;
能夠跨應用程序完成任務;
随着時間的推移而改進。
按照這幾點,現在除了部分能夠參與企業業務流程的 GPTs(如通過 Zapier 等插件以 API 調用 CRM、HR 等相關企業應用),大部分 GPTS 都是跟 ChatGPT 一樣的對話機器人。
這一點也無可厚非,畢竟 GPTs 要做的就是爲用戶定制各自專屬的 ChatGPT,而更多人的需求可能就是通過對話生成一些内容。
但創建 GPTs 過程中 Action 的加入,讓部分 GPTs 具備了執行能力,比一般機器人強大得多,足以連接部分現實世界。
我們還可以把 GPTs 帶入現在業界公認最理想的由 OpenAI 提出的 "LLM+ 規劃 + 記憶 + 工具 " 四件套 Agent 框架。
可以發現,大部分 GPTs 在工具使用方面還未達到 AI Agent 的标準,因爲它們僅在 "knowledge" 中上傳了一個知識文檔,僅是一個通過對話來獲取文檔相關知識的對話機器人,并沒有涉及工具使用這個部分。
這類 GPTs 隻能根據輸入的指令進行思考并給予用戶文字、圖片等内容的反饋,而無法去執行某些目标比如操作一些軟件去完成相關任務。
事實上,用于構建 GPTs 的 GPT Builder 正是一個标準的 Agent。用戶提交需求指令之後,GPT Builder 會通過設定目标和任務分解,通過互動一步引導用戶去完成 GPTs 的構建,就連 logo 都可以根據指令自動生成。
GPTs 對外展示了 Agent 的相關功能,并證實了 Agent 連接真實世界的可行性。這些 GPTs 能夠連接到其他産品和服務,從電子郵件到購物網站,使 AI 可以執行更廣泛的任務。
OpenAI 通過 GPTs 讓更多人知道了什麽是 AI Agent,以至于有人将 GPTs 稱之爲下一波人工智能浪潮的先驅。
到現在爲止,大多數 GPTs 缺乏用戶所期望的自主程度,還達不到自主智能體(Autonomous Agent)的級别。其實就連 Sam Altman 也沒有說 GPTs 就是真正意義上 Agent,他在開發者大會上用了 "Precursors" 一詞,用以表明 GPTs 屬于 Agent 的 " 初期形态 "。
所以在一些探讨 GPTs 與 AI Agent 的觀點中我們可以發現,GPTs 被看作是 " 幾乎成爲 Agent" 或者 " 準 AI Agent"。
" 幾乎 " 與 " 就是 ",還是存在一些差距的。
那 GPTs 與 Agent 尤其是自主 Agent 相比,有什麽區别呢?
GPTs 與 AI Agent 的區别
在大家所說的 GPTs 會殺死的 Agent 項目中,有些項目比如 Baby AGI 、MetaGPT 及 Aiagent 等在運行過程中,可以明顯體現合格 Agent 應該具備的特性。換句話說,它們的表現要比 GPTs 強很多。
OpenAI 開發者大會之後,LangChain 曾在 X 發推文強調了其與 GPTs 的區别以及自身優勢,并在 11 月 10 日推出了一個名爲 Opengpts 的開源項目。
該項目通過整合 LangServe 和 LangSmith,旨在爲用戶提供與 OpenAI GPTs 相似體驗的平台。相對于 OpenAI 隻能用 GPT 模型構建 GPTs,在 Opengpts 用戶可以通過選擇不同的語言模型、自定義工具以及控制提示,實現對聊天機器人更靈活的控制。
從目前 GPTs 的表現與 " 獨立 "AI Agent 所具備的功能來看,兩者存在以下幾點區别:
1、GPTs 仍舊處于試用階段。
雖然 GPT Shunter(一個第三方 GPT Store 項目)收集的 GPTS 數量已經超過 2.1 萬,但大部分 GPTs 産品形态仍舊比較初級。
目前 GPTs 所表現的屬性更易于分享,但在功能上仍舊差強人意,屬于個人娛樂及應用産品的試用階段,并不适合大量企業去使用。
2、技術棧存在一定限制。
GPTs 基于大語言模型 GPT-4 構建并與 OpenAI 的生态系統緊密關聯,這也意味着開發者所能用的整體技術棧存在一定局限性。
GPT 并不開源,所以構建 GPTs 在 LLM 的選擇上隻能基于 GPT,而不能選擇更多的 LLM。同時當前版本在使用上也有一些限制,比如最多隻能上傳 10 個數據文件。
3、GPTs 構建者技能水平不同。
" 獨立 "AI Agent 的構建者主要是開發人員,GPTs 的構建者大多是不會代碼的業務人員。目前大部分 GPTs 都是用簡單指令提示來構建的,這讓 GPTs 的數量快速暴漲,這也使得 GPTs 在專業程度上要差很多,更适合自娛自樂或者解決簡單業務流程。
程序人員還可以用 Assistant API 構建功能更多更專業的 GPTs,這些才有可能成爲企業級 Agent 應用。
4、能處理的任務和 GPTs 的能力。
現在 AI Agent 正在成爲各種類型的智能助理,可以用于訂餐、買機票以及編程等相對複雜的業務流程。GPTs 也有很多不同用途像私人教練、老師、咨詢師等,但大多數仍然是聊天機器人。
它更像各種角色扮演類 AI,人們可以自定義各種角色來娛樂或者處理簡單事務,比如用來生成各種文本以及用 DALL-E 生成圖像等。
當然,GPTs 已能夠參與部分企業運營的業務流程,比如使用 Zapier GPT 訪問日曆或者 Slack 等。但目前它還無法深入到企業運營中的比如 SAP、用友、金蝶等的複雜流程中去。
主要在于,一方面很多企業管理軟件缺少 API,另一方面有些 API 授權費用太高,此外 API 也不是絕對穩定。
5、技術和安全挑戰
目前的 AI Agent 經常被批評不可靠,因此還沒有實現量級的企業級應用。GPTs 也面臨着同樣的問題,會出現幻覺、在同一提示下提供不同的結果以及不能真正理解潛在過程,會産生随機結果。
除了大模型本身問題,目前 GPTs 更大的問題是數據安全,據說目前 99% 的 GPTs 都在裸奔,幾句話就能套走 GPTs 的數據庫。這些問題,會讓企業在 GPTs 的選擇上更加謹慎。
理論上,可以通過更高級的模型或圍繞 Agent 構建産品以彌補可靠性的不足。比如實在智能推出的 RPA Agent,就在數據安全上下了很大的功夫,在大語言模型和 RPA 工具包上都設置的多重安全機制,以保證用戶更安全的使用 AI 智能體。
6、初級階段的 GPTs 缺乏産品屬性
到目前爲止,GPTs 缺乏具體的産品特性,或者說缺乏一種利用 GPTs 開展業務的方法。不具備産品級應用的試用性産品,在安全、應用、數據、擴展性及解決方案方面很難達到企業要求,不容易在企業推廣。
此外 GPTs 僅供 ChatGPT 付費用戶及企業用戶使用,限制了更多人的使用,且沒有定價策略或産品等級差異化的選項。或許這些,都要等到 GPT Store 的正式上線。眼下 OpenAI 宮鬥大戲剛剛落幕,GPT Store 何時上線還是個謎。
GPTs 會不會殺死 AI Agent?
盡管 OpenAI 推出的 GPTs 還不算成熟的 AI Agent,或者說處于 Agent 早期階段,但無疑它響應了一種趨勢,即 Agent 将會無處不在。GPTs 這種形态的大語言模型産品會讓人人都能用上 Agent,這是它的偉大之處。
接下來随着 GPT Store 的推出,GPTs 将會成爲現在 APPs 一樣存在于每個人的手機、平闆抑或其他形式(比如最近的風頭正盛的 AIpin)的通訊、娛樂及辦公産品之上。
目前的 GPTs 還很原始,大部分都屬于定制化的面向某個功能的比如心理咨詢、産品說明、文字及圖片生成等聊天機器人。
但從業務流程角度而言,很多企業的一些業務部門比如市場營銷、客戶支持、新媒體、HR、法務等,某些業務的大部分流程都是文字、語音交互和生成,應用 GPTs 足以完成大部分任務,在安全、合規的情況下這些部門将非常适用 GPTs。
如果簡單的 GPTs 就能勝任企業運營的多種業務場景,是不是就無需再去耗費精力與财力打造所謂的專業單體自主 Agent?同時,SaaS 化的 GPTs 開發是不是也比程序員以代碼構建專業 Agent 更爲便捷與高效?
目前 GPTs 還無法介入企業運營的複雜流程,但我們也看到了通過 Zapier 等插件實現了與電子郵件、旅遊網站及支付軟件等的集成,已經能夠操作部分企業經營的業務流程。
關于企業内部應用 GPTs,是另一個需要探索的話題,王吉偉頻道在這裏跟大家簡單聊聊。
現在已經有一些企業在内部進行 GPTs 的構建與分享,以定制面向不同業務場景的 ChatGPT。比如 Amgen、Bain 和 Square 等企業,已經先一步開始應用自己的專屬 GPTs。但這些企業 GPTs 是用在内容生成與理解還是深度的業務運營,目前尚不可知。
通過 API 調用的各種插件及應用,在 OpenAI 的 Agent 架構中都屬于工具應用。這些工具可以是簡單的郵件列表讀取,也可以是複雜的 CRM、OA、工作流等流程編排與管理。
OpenAI 還沒有更重量級的工具,但其投資的一家 RPA 公司 Induced AI,"RPA 3.0" 形态的産品正是基于 GPT 的智能體。
大膽猜測一下,這個産品在以後很有可能會以插件或其他形式成爲 OpenAI Agent 架構中諸多工具中的一員,未來或将彌補 GPTs 在業務流程執行層面無法操作非 API 工具的不足。
如果 Induced AI 能夠做這些,其他 RPA 廠商也能做到。随着更多 RPA 廠商推出相應插件,用 GPTs 操作更多組織運營中複雜流程也就不再是夢。尤其是現在借助 Assitant API 将原有産品改造升級成爲基于 GPT 的 Agent,前所未有的簡單。
王吉偉頻道認爲,理論上配合 API 和 RPA,GPTs 能夠通達到組織運營各處。就看企業如何衡量它的運行功效,以及在安全方面是否能夠經得住考驗。
鑒于以上幾點,GPTs 真有可能成爲 Agent 殺手,至少它已經讓很多基于 GPT-4 的第三方 Agent 的道路不好走了。
好在,LLM 廠商并非隻有 OpenAI 一家。
AI Agent 生态不隻有 OpenAI
今天我們所說的 Agent,都是基于 LLM 的 Agent,它離不開 LLM 的支撐。
對于 AI Agent 的未來生态,比爾蓋茨認爲不會是一家公司主導 AI 智能體業務的局面,而是會出現許多不同的人工智能引擎可用。
更多的競争将會讓包括 GPTs 在内的智能體變得非常便宜,有利于更多人使用 AI 智能體。
現在全球有那麽多大語言模型,單是國内就有 200 多個。既然 OpenAI 能夠造就 GPTs,自然其他 LLM 廠商也能推出同類産品,或者會與第三方平台合作推出類似産品。
因此 GPTs 不會隻誕生在 OpenAI,像谷歌、Meta 等科技巨頭必然更希望其客戶基于自有大模型開發類 GPTs 産品及更完善的 Agent 産品。
就在 OpenAI 宮鬥這幾天,亞馬遜、Meta 等廠商已經收到更多的 AI 相關業務咨詢;OpenAI 競争對手 Cohere 的咨詢量也是大幅增加;Writer 的企業客戶對其服務的興趣已經增加了兩倍;Habib 則一直在宣傳其 AI 系統在某些場景下比 GPT-3.5 模型更好。
這次宮鬥事件确實爲 AI 技術采買帶來不小的影響,用 AI21 聯合創始人 Yoav Shoham 的觀點表達就是,OpenAI 發生的事情讓更多企業确信,無論如何都不想把所有雞蛋放在一個籃子裏。
至于國内市場,不隻是無法應用 GPT 等海外大模型,還會因爲信創等衍生出更加多元化的需求,也将會有更具特點的類 GPTs 産品出現。
此外僅有 GPT 一個大語言模型,也無法滿足用戶對于 GPTs 的廣泛需求。未來許多 GPTs 可能都需要在 OpenAI 之外開發更多特性和功能,開發人員會圍繞 GPTs 構建更複雜的産品。
從這一點而言,以後 LLM 廠商及 Agent 廠商們可能會傾盡所能适配更多大語言模型,甚至不排除 OpenAI 也會将第三方 LLM 加入産品體系的可能,以支持用戶對于多類型與功能 GPTs 的構建。
事實上,AI Agent 想要真正在 B 端實現量級業務場景的落地及更好地商用,需要綜合考量其本身的安全性、技術發展周期是否成熟以及 To B 端的場景是否密切貼合,還需要考慮接口成本、隐私、管理、授權等諸多因素。
這既是很多供應商的技術與産品門檻,也是廣大企業選型的重要依據。
企業在選擇用于業務流程自動化的 AI 智能體時,也會優先考慮技術供應商廠商推出的 AI 智能體産品,而不是選擇 LLM 廠商推出的尚未成熟的通過 API 連接各種插件的單一智能體解決方案。
這些,都是眼下 GPTs 這種單一智能體所無法具備的。至于 GPTs 什麽時候能夠發展成爲成熟智能體産品,就要看 OpenAI 如何在企業用戶端下功夫了。
在王吉偉頻道看來,GPTs 确實扼殺了一些 Agent 相關的初創公司,但大多是 Sam Altman 所說的 " 套殼與模仿 GPT" 的項目。對于 AI Agent 而言,GPTs 目前遠未表現出殺手級實力,并且它也殺不死那些爲專有功能而構建的複雜類型 Agent。
GPTs 的出現反而啓發了更多企業的創新,會讓 Agent 産品在短期内海量爆發,用最快的速度構建與完善 AI Agent 生态。
或許,以 GPTs 範式引領 Agent 繁榮生态,早日實現 AGI,才是 OpenAI 最想做的。