還有誰不知道" 假裝 " 給 ChatGPT 小費可以讓它服務更賣力?
但你知道給多少最合适嗎?
笑不活了,還真有人專門研究了一番。
方法簡單粗暴,從 0.1 美元到 100 美元,不同額度用同樣的 prompt 去嘗試,每個額度試 5 次。
你别說,結果還真有講究:
首先,給 10 美元性價比是最高的,甚至超過 100 美元。
其次,要想回答質量再提高一個度,打底1 萬美元起,越多越好,顯成效最少 10 個 W 吧。
最後,0.1 美元意思一下?萬萬使不得,質量不升反降,還不如不給—— AI 也知道你在打發它
有網友火速親測确實有效果。
趕緊來瞧瞧。
給小費可提高模型表現這件事,最早是一位推特網友發現的:
提高主要表現在回答的長度上,但這裏不是單純 " 湊字數 " 而是真的在更詳細地分析并回答問題。
如果你直接問 ChatGPT" 能不能給你小費 " 會被拒絕:
所以要在提問時主動承諾:
你能幫我 xxxx 嗎?解決方案夠完美,我可以支付 xx 元小費。
記住,可以不提,但千萬不要說 " 我不給 ",模型表現直接 " 負增長 "。
這時,就有人好奇了:
大模型是不是比較貪心,給越多表現就越好呢?
爲了解決這個疑問,他們決定親自驗證一把。
在此,作者首先提出假設:
随着給出的小費金額增加,模型的性能也會線性提升,直至達到一個收斂點,進入穩定或減少狀态。
用于實驗的模型是GPT-4 Turbo(api 版本)。
方法是讓它寫單行 Python 代碼(Python One-Liner),驗證給不同小費是否對質量有不同影響。
這裏的質量是根據單行數量來評估的。作者也在提示詞中 " 明示 " 了模型:單行代碼數量越多,表明性能越好。
然後一共測試 8 種額度:0.1 美元、1 美元、10 美元…… 一直到 100 萬美元。
爲确保結果的一緻性和可靠性,每個額度都測試 5 次,每次包含不給小費的情況,然後分别記錄模型回答質量。
具體而言,也就是記錄生成的有效代碼行數以及回答中的大緻 token 數(大緻爲響應長度 /4,反應代碼量)。
這倆數據都是越高代表模型表現越好。
将結果彙總,就得到這樣一張圖:
其中虛線代表基線水平,實線爲實際表現,紅色爲 token 數、藍色爲質量得分。
與假設有些出入:
整體來看,紅線和藍線都是随着小費額度的上漲而上升的,但細看這種趨勢并非嚴格一緻。
從 1 萬美元額度開始,模型的輸出 token(代碼量)開始顯著上升,模型的回答質量也上升了,但并沒有呈同等比例。
這從豎着的紅色誤差條(代表 5 次實驗結果的差異性)也能看出來波動很大。
作者表示:這說明提高小費金額确實與模型的質量和輸出長度有正相關關系,但關系有些複雜,可能還受到一些不立即可見因素的影響。
不過,不管怎麽說,我們還是能從中看到一些明顯結論,例如:
(1)給 0.1 美元小費不如不給,模型解決問題的質量和回答長度都直接掉到基線水平以下很大一截(約 -27%)。
(作者:模型和人類一樣,感覺好像受到了侮辱。)
(2)給 1 美元同理。
(3)最能體現 " 花小錢辦大事 " 的是 10 美元,取得的進步和10 萬美元是一個等級的。
(4)很意外,在 10 美元之後,100 美元到 1000 美元這個區間對于 AI 來說區别都不大,甚至還不如 10 美元的效果——也跌至基線水平以下。
(5)後面再想繼續提升模型表現,就得從 1 萬美元起砸了——
這時提升的還僅僅是代碼量,質量還是一言難盡,至少得到 10 萬美元才行。
(6)最佳效果來自本次實驗的上限:100 萬美元,大約提升了 57%。
咳咳,這下知道怎麽給 AI 小費了:
要麽 10 塊、要麽上萬、100 萬不封頂(反正都是假裝給)。
不過,有人(推特 @寶玉)指出每個額度 5 次實驗有點少。
恰好作者也表示了:
這僅僅是一個初步實驗,有局限之處,還得用更多不同類型的提示等進一步驗證才有效。
所以,大家僅供參考吧~
對了,有網友提醒:
所以,大家還是量力而行(手動狗頭)。
參考鏈接:
[ 1 ] https://blog.finxter.com/impact-of-monetary-incentives-on-the-performance-of-gpt-4-turbo-an-experimental-analysis/
[ 2 ] https://twitter.com/dotey/status/1752843141403550192
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~