打臉奧特曼，GPT-4今年比去年還懶！網友在線實測出爐

GPT-4 變懶的問題，又有新進展。

就在今天淩晨，奧特曼發推稱，GPT-4 這個毛病在新的一年應該好多了！

關于 GPT-4 變懶，網友的吐槽已是不計其數，其中最多的就是與代碼相關的任務：

完成度不高不說，還會被分割成一個一個小塊，使用時需要逐一複制。

對于最新版本，一位博主體驗之後表示，自己嘗試給一年級的孩子做了個學習用的小遊戲，效果還不錯。

但也有人不認同，比如這位網友就發現，ChatGPT 回複的長度雖然增加了，但是很多都是車轱辘話，幹正事依舊擺爛。

他讓 ChatGPT 把一些文本翻譯成 17 種語言，結果叽裏呱啦說了一堆就是不翻譯。

爲了消除個體差異，有網友用數據集測試了新的 ChatGPT，結果……

新版反而更懶了？

這位網友用 GitHub 上開源的一套 "lazy benchmark" 測試了 0125（24 年 1 月最新版）和 1106（23 年 11 月的上一版）GPT-4 模型，發現新版甚至還不如以前，變得更懶了。

這個測試數據集包含了與代碼相關的任務，用正确完成的比例間接反應 " 懶惰 " 程度，完成率越高說明 " 惰性 " 越小。

結果，對于其中的代碼比較（Unified diffs）任務，舊版能完成的比例尚且超過了一半，爲 57%，新版的完成率卻僅有 44%，降低了近四分之一。

直觀感受上，也有人發現 ChatGPT 的 " 懶惰 " 變本加厲了——

以前就算偷懶至少還會糊弄一下，給出個大概的框架讓用戶自行補充，現在直接就是擺爛說自己幹不了。

而針對網友們的這番發現，也有人給出了銳評：

幾周之前奧特曼就說過 GPT-4 表現變好了，但是有人感覺到差别嗎？

這次，關于 GPT-4 變懶的原因，以及到底采用了什麽優化策略，奧特曼也未做進一步說明。

" 土辦法 " 可降低惰性

不過，之前的一項研究表明，GPT-4 的惰性可能與時間相關，這一結論與 GPT-4" 變懶 " 的現象出現在年末的 12 月相吻合。

按照這一理論，新年伊始，模型的表現的确會有所提升，但似乎解釋不了表現不升反降的現象。

不過，網友們也總結了一些 " 土辦法 "，能在一定程度上降低 ChatGPT 的惰性。

比如告訴它 " 我沒有手指 "，就能得到相對完整的代碼，而不是一段段碎片。

又或者，告訴 ChatGPT 自己會 " 給小費 "，也能激發它的工作動力。

甚至有人專門針對 " 小費 " 的金額進行了研究，發現 10 美元的性價比是最高的。

那麽，你覺得 ChatGPT 是變好了還是更懶了？

參考鏈接：

[ 1 ] https://twitter.com/sama/status/1754172149378810118

[ 2 ] https://aider.chat/docs/benchmarks-0125.html

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~