一款号稱代碼能力超越 GPT-4 的模型,引發了不少網友的關注。
準确率比 GPT-4 高出超過 10%,速度卻接近 GPT-3.5,而且窗口長度也更長。
據開發者描述,他們的模型取得了 74.7% 的 Pass@1 通過率,超過了原始 GPT-4 的 67%,登上了 Big Code 榜首。
這個模型名叫 Phind,和以其爲基礎的面向開發者的 AI 搜索工具同名。
它是由開發團隊在 CodeLlama-34B 的基礎之上微調得到的。
Phind 利用 TensorRT-LLM 在 H100 上可以跑出每秒 100 個 token 的速度,是 GPT-4 的 5 倍。
此外,Phind 的上下文長度達到了 16k,其中 12k 可供用戶輸入,另外 4k 保留給檢索結果中的文本。
針對這個産品,網友們議論紛紛,結果是喜憂參半:
支持的人,如著名創業投資公司 YCombinator 創始人 Paul Graham 表示,Phind 可以讓人們用更少的資源和大廠抗衡。
也有網友具體列出了 Phind 的優點:
不認可 Phind 的網友則說,自己之前用 GPT-4 寫的代碼,Phind 寫不出來:
更是有人吐槽說,GPT" 每天都在被打敗 ",但是從來沒被超越過。
有意思的是,在 Phind 應用當中,自研模型又被稱作 "fast model",而 "best model" 仍然是 GPT-4。
(雖然沒明說,但是 GPT-4 和 best model 的剩餘可用次數是同步變化的)
所以,這個号稱 " 擊敗了 GPT-4" 的模型到底是不是真的那麽好用,我們進行了一番實測。
正式開始之前,先來說說對 Phind 的第一印象。
它的界面十分簡潔,主要就是一個搜索框,而且不需要登錄就能無限量使用。
左下角有一個 Pair Programmer 的開關,直觀上的區别就是開啓之後回答界面更側重對話,不開啓的話則更像搜索引擎。
此外,還可以從自研模型和 GPT-4 中選擇,GPT-4 則需要登錄,而且每天隻能用 10 次。
接下來就是和 GPT-4 進行的對比測試,GPT-4 沒有開啓代碼解釋器。
首先還是從 LeetCode 題目開始測起,Prompt 就是是原問題加上下面這段話:
請用 Python 寫一段代碼解決這個問題,給出通用的解法,不需要設定參數值,代碼需要以如下内容開頭:
(LeetCode 頁面中給出的起始片段)
爲了防止 Phind 通過檢索來 " 作弊 ",我們還在 Phind 的 Prompt 結尾加入了這句話:
不要檢索任何信息,靠你自己的能力創建代碼
第一題在 LeetCode 中被歸爲組合數學問題,難度爲困難,通過率 67.1%。
Phind 給出了這樣的代碼和解釋,經過測試,20 條測試數據中有 19 項正确。
出錯的是這一條,這裏的輸出結果應該是 3,但 Phind 給出的程序運行結果是 4。
我們試着反饋給 Phind,看它能不能找出錯誤的原因,結果分析一番之後給出了新的代碼,并通過了測試。
而 GPT-4 這邊,則是一次性通過。
進入下一題,這道題目涉及到了動态規劃,通過率爲 53.9%。
這次 Phind 和 GPT-4 都是以一次通過。
第三道題目的通過率隻有約 30%,但它的難度可能在于用來判題的測試數據太龐大了。
Phind 給出的這段代碼就在通過前 12 組測試數據之後出現了運行時間超限的現象。
我們讓它試着進行優化,結果這次直接是算不對了。
而 GPT-4 則輕松解決,不過在解釋說明部分有些錯誤,因爲超級回文數的概念中的描述是 " 回文數的平方 " 而不是 " 平方是回文數 "。
三道 LeetCode 題目測試下來,Phind 以一平兩負的成績輸給了 GPT-4。
但需要說明的是,這裏我們爲了測試模型本身表現,通過提示詞關閉了 Phind 的檢索功能,但從實用角度出發,如果保留搜索,Phind 還是能很好地解決這些問題的。
接着,我們又測試了一下他們的實際開發能力,這次的題目是掃雷遊戲。
Phind 會問我們有沒有什麽特殊要求,這裏我們直接點跳過。
然後 Phind 會對任務進行拆解,對每個子任務又分别進行檢索。
這時的代碼也是分段給出的,有趣的是,在生成過程中,Phind 會使用不同來源中的代碼。
然後我們讓 Phind 給出完整代碼,并通過鏈接的第三方平台直接運行。
結果呢,我們一進去就看到程序已經非常 " 貼心 " 地把雷的位置清楚地标注好了。
不過這次,GPT-4 的代碼更加離譜一些,運行出來是這樣的:
雖然都沒做對,但硬要比較的話,這一輪,Phind 略勝一籌。
一路測試下來,很難判斷它們孰優孰劣,但考慮到搜索能力,以及免費免登錄的特性,Phind 還是可圈可點的。
參考鏈接:
https://www.phind.com/blog/phind-model-beats-gpt4-fast