GPT-4 變懶的問題,又有新進展。
就在今天淩晨,奧特曼發推稱,GPT-4 這個毛病在新的一年應該好多了!
關于 GPT-4 變懶,網友的吐槽已是不計其數,其中最多的就是與代碼相關的任務:
完成度不高不說,還會被分割成一個一個小塊,使用時需要逐一複制。
對于最新版本,一位博主體驗之後表示,自己嘗試給一年級的孩子做了個學習用的小遊戲,效果還不錯。
但也有人不認同,比如這位網友就發現,ChatGPT 回複的長度雖然增加了,但是很多都是車轱辘話,幹正事依舊擺爛。
他讓 ChatGPT 把一些文本翻譯成 17 種語言,結果叽裏呱啦說了一堆就是不翻譯。
爲了消除個體差異,有網友用數據集測試了新的 ChatGPT,結果……
新版反而更懶了?
這位網友用 GitHub 上開源的一套 "lazy benchmark" 測試了 0125(24 年 1 月最新版)和 1106(23 年 11 月的上一版)GPT-4 模型,發現新版甚至還不如以前,變得更懶了。
這個測試數據集包含了與代碼相關的任務,用正确完成的比例間接反應 " 懶惰 " 程度,完成率越高說明 " 惰性 " 越小。
結果,對于其中的代碼比較(Unified diffs)任務,舊版能完成的比例尚且超過了一半,爲 57%,新版的完成率卻僅有 44%,降低了近四分之一。
直觀感受上,也有人發現 ChatGPT 的 " 懶惰 " 變本加厲了——
以前就算偷懶至少還會糊弄一下,給出個大概的框架讓用戶自行補充,現在直接就是擺爛說自己幹不了。
而針對網友們的這番發現,也有人給出了銳評:
幾周之前奧特曼就說過 GPT-4 表現變好了,但是有人感覺到差别嗎?
這次,關于 GPT-4 變懶的原因,以及到底采用了什麽優化策略,奧特曼也未做進一步說明。
" 土辦法 " 可降低惰性
不過,之前的一項研究表明,GPT-4 的惰性可能與時間相關,這一結論與 GPT-4" 變懶 " 的現象出現在年末的 12 月相吻合。
按照這一理論,新年伊始,模型的表現的确會有所提升,但似乎解釋不了表現不升反降的現象。
不過,網友們也總結了一些 " 土辦法 ",能在一定程度上降低 ChatGPT 的惰性。
比如告訴它 " 我沒有手指 ",就能得到相對完整的代碼,而不是一段段碎片。
又或者,告訴 ChatGPT 自己會 " 給小費 ",也能激發它的工作動力。
甚至有人專門針對 " 小費 " 的金額進行了研究,發現 10 美元的性價比是最高的。
那麽,你覺得 ChatGPT 是變好了還是更懶了?
參考鏈接:
[ 1 ] https://twitter.com/sama/status/1754172149378810118
[ 2 ] https://aider.chat/docs/benchmarks-0125.html
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~