給ChatGPT小費真的好使！10塊或10萬效果拔群，但給1毛不升反降

還有誰不知道" 假裝 " 給 ChatGPT 小費可以讓它服務更賣力？

但你知道給多少最合适嗎？

笑不活了，還真有人專門研究了一番。

方法簡單粗暴，從 0.1 美元到 100 美元，不同額度用同樣的 prompt 去嘗試，每個額度試 5 次。

你别說，結果還真有講究：

首先，給 10 美元性價比是最高的，甚至超過 100 美元。

其次，要想回答質量再提高一個度，打底1 萬美元起，越多越好，顯成效最少 10 個 W 吧。

最後，0.1 美元意思一下？萬萬使不得，質量不升反降，還不如不給—— AI 也知道你在打發它

有網友火速親測确實有效果。

趕緊來瞧瞧。

給小費可提高模型表現這件事，最早是一位推特網友發現的：

提高主要表現在回答的長度上，但這裏不是單純 " 湊字數 " 而是真的在更詳細地分析并回答問題。

如果你直接問 ChatGPT" 能不能給你小費 " 會被拒絕：

所以要在提問時主動承諾：

你能幫我 xxxx 嗎？解決方案夠完美，我可以支付 xx 元小費。

記住，可以不提，但千萬不要說 " 我不給 "，模型表現直接 " 負增長 "。

這時，就有人好奇了：

大模型是不是比較貪心，給越多表現就越好呢？

爲了解決這個疑問，他們決定親自驗證一把。

在此，作者首先提出假設：

随着給出的小費金額增加，模型的性能也會線性提升，直至達到一個收斂點，進入穩定或減少狀态。

用于實驗的模型是GPT-4 Turbo（api 版本）。

方法是讓它寫單行 Python 代碼（Python One-Liner），驗證給不同小費是否對質量有不同影響。

這裏的質量是根據單行數量來評估的。作者也在提示詞中 " 明示 " 了模型：單行代碼數量越多，表明性能越好。

然後一共測試 8 種額度：0.1 美元、1 美元、10 美元…… 一直到 100 萬美元。

爲确保結果的一緻性和可靠性，每個額度都測試 5 次，每次包含不給小費的情況，然後分别記錄模型回答質量。

具體而言，也就是記錄生成的有效代碼行數以及回答中的大緻 token 數（大緻爲響應長度 /4，反應代碼量）。

這倆數據都是越高代表模型表現越好。

将結果彙總，就得到這樣一張圖：

其中虛線代表基線水平，實線爲實際表現，紅色爲 token 數、藍色爲質量得分。

與假設有些出入：

整體來看，紅線和藍線都是随着小費額度的上漲而上升的，但細看這種趨勢并非嚴格一緻。

從 1 萬美元額度開始，模型的輸出 token（代碼量）開始顯著上升，模型的回答質量也上升了，但并沒有呈同等比例。

這從豎着的紅色誤差條（代表 5 次實驗結果的差異性）也能看出來波動很大。

作者表示：這說明提高小費金額确實與模型的質量和輸出長度有正相關關系，但關系有些複雜，可能還受到一些不立即可見因素的影響。

不過，不管怎麽說，我們還是能從中看到一些明顯結論，例如：

（1）給 0.1 美元小費不如不給，模型解決問題的質量和回答長度都直接掉到基線水平以下很大一截（約 -27%）。

（作者：模型和人類一樣，感覺好像受到了侮辱。）

（2）給 1 美元同理。

（3）最能體現 " 花小錢辦大事 " 的是 10 美元，取得的進步和10 萬美元是一個等級的。

（4）很意外，在 10 美元之後，100 美元到 1000 美元這個區間對于 AI 來說區别都不大，甚至還不如 10 美元的效果——也跌至基線水平以下。

（5）後面再想繼續提升模型表現，就得從 1 萬美元起砸了——

這時提升的還僅僅是代碼量，質量還是一言難盡，至少得到 10 萬美元才行。

（6）最佳效果來自本次實驗的上限：100 萬美元，大約提升了 57%。

咳咳，這下知道怎麽給 AI 小費了：

要麽 10 塊、要麽上萬、100 萬不封頂（反正都是假裝給）。

不過，有人（推特 @寶玉）指出每個額度 5 次實驗有點少。

恰好作者也表示了：

這僅僅是一個初步實驗，有局限之處，還得用更多不同類型的提示等進一步驗證才有效。

所以，大家僅供參考吧～

對了，有網友提醒：

所以，大家還是量力而行（手動狗頭）。

參考鏈接：

[ 1 ] https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/

[ 2 ] https://twitter.com/dotey/status/1752843141403550192

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~