來源|AI 前線
大模型會從人類經驗中學習,如果人類本身越來越懶,那模仿人類的程序是不是也會越來越懶?
OpenAI 發布更新,解決 GPT-4" 變懶 " 問題
近日,OpenAI 在一篇博文中發布了多項更新,并表示更新後的 GPT-4 Turbo" 擁有比之前預覽模型更好的代碼生成等能力,且減少了模型在任務中途罷工的「變懶」情況。" 但該公司并沒有對更新内容做進一步解釋。
OpenAI 在帖子中提到,由于知識庫更新,已經有超過 70% 的 GPT-4 API 用戶轉向了 GPT-4 Turbo。OpenAI 表示,未來幾個月内将陸續推出更多 GPT-4 Turbo 更新,包括發布具有視覺模态處理能力的 GPT-4 Turbo 正式版。這意味着用戶将可輸入各類多模态提示詞,例如文本到圖像生成提示。
此外,OpenAI 還推出了被稱爲 " 嵌入 " 的小體量 AI 模型。OpenAI 對于嵌入的定義,是 " 代表自然語言或代碼等内容中概念的數字序列 "。以此爲基礎,即可搭配檢索增強生成(簡稱 RAG,一種從數據庫獲取信息、而非生成答案的 AI 方法)應用找到各類可訪問内容間的關系。這些新模型、text-embedding-3-small 嵌入乃至更強大的 text-embedding-3-large 版本現均已正式開放。
經過改進的各 GPT 模型現已通過 API 開放,包括質量更高、價格更低廉的嵌入模型(e.gone 模型的成本僅爲此前嵌入模型的五分之一,但性能更強)。
用戶抱怨 GPT-4 學會偷懶:越來越像人類了?
2023 年 12 月,有不少用戶抱怨稱," 這段時間使用 ChatGPT 或 GPT-4 API 時,會遇到高峰期速度非常慢、敷衍回答、拒絕回答、中斷會話等一系列問題 "。
比如,某些時候,GPT-4 系統會給出一些特别模糊的答案,特别是關于 Docker、Kubernetes 以及其他 CI/CD 的問題。此外,GPT-4 還學會了 " 廢話文學 " ——不直接回答問題,隻是堆疊素材來講解應該怎樣回答問題。有用戶反映,哪怕明确要求不要使用空白占位符,模型也仍然會用占位符把回答截得七零八落。這種限制回複質量的作法倒是替服務商節約了資源,但卻極大浪費了普通用戶的時間。
用戶 jonathanallengrant 在 OpenAI 社區一個名爲 " 爲什麽我覺得 GPT 變懶了 " 的帖子中提到:" 不少人注意到自從 Dev Day 活動以來,模型的輸出上限就變成了 850 個 token。換言之就是 ChatGPT 變懶了,不光留出大量空白,還常常在同一條消息裏半天停在原地。我相信這應該是 OpenAI 正在以某種方式擴展模型的推理方法。"
用戶 manchkiran 表示自己也遇到過類似的情況,并吐槽 " 現在的模型絕對是變懶了,隻會快速搜索并給出 Bing 引擎的鏈接 ",他猜測大模型變懶的原因或許與 " 微軟加入 OpenAI 董事會後下調了算力分配 " 有關。
sasindujayashmaavmu 則從另一個角度分析了 GPT-4 變懶的原因:" 我覺得這可能是人機回圈的鍋 …… 大模型會從人類經驗中學習,所以如果人類本身越來越懶,那模仿人類的程序也會越來越懶。"
對于漫天蓋地的吐槽聲,ChatGPT 官方通過 X 平台通知用戶," 我們聽到了你們關于 GPT-4 變得越來越懶的反饋!我們自 11 月 11 日起就沒有更新過模型了,當然這不是故意的。"
OpenAI 出手後,GPT-4 真的不懶了?
OpenAI 本次更新承諾解決了 GPT-4" 變懶 " 問題,根據社區用戶反饋來看,如今的 GPT-4 似乎真的聰明多了。
用戶 Distinct_Salad_6683 提到,最近自己發現 GPT 在編碼能力有所提升,能夠根據提示詞快速提供完整的示例。之前 GPT 經常會拒絕給出具體示例,隻是在描述自己要求它幹的工作,并用 " 在此處插入函數邏輯 " 之類的廢話來搪塞問題。
也有用戶 " 陰陽 "OpenAI:軟件隻要更新一下就能解決 " 變懶 ",真羨慕。要是能有補丁幫我扛過禮拜一就好了。
由于 OpenAI 并未對更新内容做進一步解釋,因此也有不少用戶開始分析其到底是怎麽解決 GPT-4" 變懶 " 問題的。語言學家 christelle.hilz 分析,GPT-4 變懶的問題跟算法無關,單靠打補丁恐怕無濟于事。這個問題還得從其他角度嘗試解決。" 我好奇的是 OpenAI 願意花多少錢來解決 GPT 變懶問題 "。
也有觀點認爲,OpenAI 并未真正地解決問題。因爲大語言模型就是算法加公式的組合,所以哪怕更新真的解決了變懶問題,隻能用這種方法改進模型本身也不是什麽好兆頭。
chieffy99 則更悲觀地表示,哪怕是聘請了世界各地的專家,大語言模型自身的問題還是難以解決,畢竟任何專家都不可能确切了解每一個問題。因爲越是越是專注于自己的專業積累,我們的視野反而變得越狹窄。chieffy99 還向 OpenAI 的管理團隊 " 開炮 ":
我向來敢于對 OpenAI 的缺點開炮,這裏我也要明确表态:OpenAI 一直認爲 AI 的問題不可能通過開發 AI 方案來解決,但我覺得這是錯的。
我自己沒有任何關于 AI 的知識和使用經驗,但擁有豐富的項目管理積累。抱怨變懶問題的用戶是誰、當時是怎麽操作的并不是重點,重點在于大模型爲什麽會傾向于消極工作。我本人喜歡從問題當中尋找共性,而且從目前的情況看應該不隻是模型自身出了問題。我自己還沒有明确的答案,但 OpenAI 的态度明顯是 " 先嘗試從内部做解決或者改進,等影響到正常使用了再說 "。
在我看來,OpenAI 的管理思路很有問題。以常見的團隊溝通規劃爲例,隻要提供足夠的信息,GPT-3.5 的表現還是相當不錯的。所以我猜 OpenAI 也是用這種方式蒙蔽了高管團隊的判斷,畢竟精調提示詞并不困難,請個專人就能解決。正因爲如此,OpenAI 才産生了單靠調整 AI 模型就能解決 AI 問題的思路。
我不知道現在大家說的這些問題到底跟變懶有沒有關系,畢竟引發問題的原因多種多樣。而且 GPT 大模型本身也不老實,甚至會說謊來隐藏自己的真實行爲。哪怕是被發現,OpenAI 也可以解釋說是存在誤會或者提示詞存在不當内容。另外别太過迷信規則,基于規則的行爲也不一定比随機問題更穩定,比如 GPT-3.5 就會訪問網站、并把外部聊天和相關數據保存成 html 文件。這其實是不符合 GPT 身份和功能定位的操作。我也遇到過中途 " 罷工 " 的情況,但這主要是大模型忘記了當前上下文中的内容必須與之前的上下文接續起來。普通用戶當然分不清楚,所以很自然地認爲是大模型在偷懶。這跟之前的 GPT 幻覺差不多,剛開始似乎經常發生,但使用的人越多、涉及的内部信息越少,幻覺也開始逐漸緩解。
另外還有三點個人觀察。首先,我很好奇 OpenAI 的專家到底做了什麽。這個問題始于去年 12 月,當時外界認爲 GPT 過于迷信專業知識、甚至爲此而傾向于輸出錯誤信息。比如通過知識文件向 GPT 自動輸入提示詞,那麽生成的信息就會有所不同。而如果不輸入預設文件,GPT 的表現則比較正常。我就遇到了這樣的情況,還專門向 OpenAI 上報了觀察結果,想搞清在 RAG 問題有最終結論之前,到底該采取什麽措施加以避免。而且之前我還嘗試把知識跟行爲區分開來做 GPT 訓練,借此建立起純知識庫。在确保知識庫内容與現實不沖突之後,再配合其他信息一起使用。第二點就是錯誤學習的問題。既然選擇把大模型向公衆開放,那能做純軟件修複的問題 OpenAI 肯定早就解決了。問題是時至今日,GPT 還是沒法在不改變形狀的前提下,把不同尺度下相同顔色的圖表正确合并。還是那句話,如果能修複的話早該修複好了。最後一點就是 GPT 号稱全球最受歡迎的 AI 模型。這個評判标準實在太模糊了,我覺得應該從功能層面做準确描述。
總而言之,當前關于 GPT 的種種報道明顯是刻意設計出來的。可怕的是 GPT 明顯還沒做好準備,因此無腦宣傳已經在扭曲中立研究、造成現實損害、甚至讓 AI 制造出更多的社會問題。有人在違規使用 GPT,甚至有人把它當作非法工具來設計和實施犯罪。我不知道這次的更新能産生多大影響,但各種違規行爲已經真實存在,甚至對普通用戶産生直接影響。我想問問 OpenAI,這一切是單靠更新 AI 模型就能解決的嗎?
值得一提的是,OpenAI 此番發布的更新針對的是 GPT-4 Turbo,即得到廣泛使用的特定 GPT-4 版本。這套模型根據截至 2023 年 4 月的最新信息訓練而成,目前僅提供預覽版本。也就是說,大家如果繼續使用 GPT-4(使用截止于 2021 年 9 月的數據訓練而成),那麽 " 變懶 " 問題可能仍将存在。