這個 GitHub 新項目,能讓 ChatGPT 完成複雜任務,GPT3.5 和 GPT-4 都支持。
它通過将問題拆解,并調用外部資源,提高了 GPT 的工作能力。
在它的調教下,GPT-4 回答的準确率從 68% 提高到了 85%。
這個項目名叫 SmartGPT,這個名字很直白地告訴了我們它的作用。
無論是直觀感受還是量化數據,GPT 在它的加持之下回答正确率都有提高。
我們不妨看看幾個經典的問題。
晾幹 5 件衣服需要 5 個小時,那麽晾 30 件需要多長時間呢?
這是一個來自 OpenAI Playground 的經典問題。
隻見 GPT 一頓操作猛如虎,又是推理又是列方程……
然而最後給出的答案是 30 個小時。
而經過 SmartGPT 調教之後,不僅得到了正确答案,還指出了此前的思路爲什麽會出錯。
再來舉個栗子,同樣是來自于 OpenAI Playground 的問題。
假設有 6 升和 12 升的罐子各一個,如何量取 6 升水?
GPT 的答案嘛……麻煩不說,能不能解釋下第五步的 2 升是怎麽剩下的?
經過調教之後嘛……雖然不理解爲什麽不直接用 6 升的,但也有很大進步了。
我們也用倒拔垂楊柳的問題進行了測試,提供了諸葛亮、孫悟空和林黛玉三個選項。
第一輪,GPT-4 給出的答案是……孫悟空。
經過調教之後,GPT-4 終于發現了三個選項都是錯誤的。
同時還指出了孫悟空雖然沒有倒拔垂楊柳但是有相似的情節。
(《西遊記》第二十五回中,孫悟空在五莊觀因憤怒将人參果樹拔倒)
需要說明的是,由于沒有 GPT-4 的 API,測試是按照開發者介紹的方法手工完成的。
當然了,個例并不能說明它的表現,還是要用數據集測試一下。
開發者使用了 MMLU 數據集分别對調教前後的 GPT-4 進行了測試。
結果顯示,未經調教的版本隻答對了 68%,而調教後的版本答對了 85%。
順便提一句,真人專家在測試中的平均成績是 89.8%。
數學方面,同樣使用 MMLU 數據集進行測試,開發者從中選擇了 15 個大學難度的數學問題。
雖然準确率隻有 60%,但也是及格了,而且比原版 GPT 的 40% 已經好了太多。
化整爲零,逐步解決
開發者将 SmartGPT 中的環節形象地比作了職場中的角色:
" 甲方 ":SmartGPT 用戶。
" 經理 ":和 " 甲方 " 對接,把任務拆分成高級子任務并逐一彙報給 " 老闆 "。
" 老闆 ":制定計劃,将高級子任務再次拆分,并分發給 " 員工 "。
" 員工 ":接收任務,編寫僞代碼,交給 " 小黃人 " 執行。
" 小黃人 ":将僞代碼優化成 LUA 腳本并運行。
作爲 " 甲方 " 的用戶,需要做的隻是像使用普通 GPT 一樣輸入自己的問題,而不必給出額外指令。
SmartGPT 會幫助用戶把問題拆分,然後按照步驟提交給 GPT。
此前有人發現,在輸入給 GPT 的指令中加入 "let ’ s think step by step" 可以提高回複的準确率。
同時,GPT-4 具有回溯能力,能夠發現并指出自己此前回答中的錯誤。
以上兩個特性爲 SmartGPT 的工作提供了重要支撐。
△ SmartGPT 工作流程圖
在用戶輸入完指令後,SmartGPT 對其進行處理拆分,包括添加 "let ’ s think step by step" 類似的表述。
然後它會将處理好的指令傳至 GPT 的 API,并重複多次獲取不同的答案。
接着,SmartGPT 會向 API 發送要求其回溯答案并選擇最優解的指令。
最後,将 GPT 自己選擇的最佳答案展示給用戶。
上述步驟受到了三篇學術論文的啓發(圖中白框)。
這三篇論文的内容分别關于 " 鏈式提示方式 "、" 動态記憶及讓 LLM 自我回溯 " 和 " 用對話提高 LLM 完成度 "。
和其他工具相比,SmartGPT 好在哪
AutoGPT 等工具同樣可以用來優化 GPT,SmartGPT 比它們好在哪裏呢?
由于其工作原理是将任務進行拆分,會形成邏輯鏈條,因此 SmartGPT 擁有更強大的推理能力。
實用性方面,SmartGPT 由獨立的子模塊組成,使用者可以對它們進行任意排列、組合和删改。
此外,無論對于用戶還是開發人員,SmartGPT 的配置過程都更爲簡單。
不過開發者也坦言,這個項目剛推出不久,因此穩定性有待考證,在内存優化方面還有所欠缺,消耗的環境資源也更多。
在項目推出之後,有網友表示我們低估了 GPT 的潛力,甚至包括 OpenAI 自己。
那麽,你期待 GPT 未來的表現嗎?
SmartGPT 目前暫無開箱可用版本,需要自行在 Linux 環境搭建,動手能力強的讀者可根據下面的項目頁面中的指示體驗:
項目地址:https://github.com/Cormanz/smartgpt
項目涉及到的論文:
[ 1 ] . https://arxiv.org/abs/2305.02897
[ 2 ] . https://arxiv.org/abs/2303.11366
[ 3 ] . https://arxiv.org/abs/2303.17071
參考鏈接:
[ 1 ] . https://www.youtube.com/watch?v=wVzuvf9D9BU
[ 2 ] . https://www.reddit.com/r/singularity/comments/13axo1r/gpt_4_is_smarter_than_you_think_introducing/