網友縫合Llama3 120B竟意外能打，輕松擊敗GPT2-chatbot和GPT-4 - 青年圖摘

Llama 3 首發陣容裏沒有的 120B 型号竟意外 " 曝光 "，而且十分能打？！

最近這樣一個号稱是「Llama3-120b」的神秘大模型火了起來，原因在于它表現太出色了——

輕松擊敗 GPT-4、gpt2-chatbot 那種。

比如，面對像「觀察希格斯場是否會改變其狀态」這樣的艱深難題時。

GPT-4 冷酷而決絕：No；

但 Llama3-120b 就不一樣了，" 隻有當我們質疑量子力學的哥本哈根解釋時，讓我來解釋一下…… "

還有就是讓 LIama3-120B 解釋笑話，并同兩個 gpt2-chatbot 比較：im-a-good-gpt2-chatbot；im-also-a-good-gpt2-chatbot。

I randomly walked past the grave of bayes yesterday, but being a frequentist i didn ’ t bother taking a photo。

（昨天我偶然路過貝葉斯墓，但我是頻率學派，懶得拍照。）

首先，他們三個都判斷出這是關于兩種統計學派的笑話，以及兩個學派是相對對立的情況：

Frequentist 頻率學派隻關注從抽樣 / 實驗的結果中提取信息，Bayesian 貝葉斯學派還會設置一個主觀的先驗信息。

但兩個 gpt2-chatbot 給出進一步解釋是，正是因爲頻率學派并不認同對貝葉斯理論，所以對貝葉斯墓不感興趣，更不會以他爲榮而拍照。

而 LIama3-120B 精準指出笑點在 " i didn ’ t bother taking a photo"，并給出了更深一層的解釋。

因爲作爲頻率學派，會認爲碰到貝葉斯墓的概率幾乎爲零。這樣的小概率事件也不值得去拍照或者幹一些有意義的事情。

哦莫，說的好有道理……

另外題外話，它的回答格式十分工整，讓人看了賞心悅目。

除此之外，網友發現它還能創造出谷歌搜到 0 結果的新單詞。

以及直接回答含糊的問題，不用交代背景，這不比 ChatGPT 好多了。

（沒有說 ChatGPT 不好的意思）

有評測過後的網友感歎：它太聰明了，我不會再擺弄它了。因爲它有自己的想法。

這真的是我用過最聰明的大模型了。

有網友找了半天也找不到官方來源……

與此同時，更多版本也開始出現了，比如 170B、225B …嗯，一版更比一版強。

Llama 3 120B 竟意外能打

這兩天，社交網絡上出現了各種關于 Llama3 120B 玩法。

比如推導解釋一些理論，Omega 假設。

有創造一些新單詞，比如 prefaceate、driftift 等

并且給它一個完整的解釋和定義。

甚至還有人整了個評測，去評估這個來路不明的大模型。結果在創意寫作測試中成績還不錯，排名第 6，超過 GPT-4、Claude3-Haiku 等模型。

既然如此，這個非官方的大模型 Llama3 120B 又是怎麽來的呢？

據作者介紹，它是用 MergeKit 制作，将 Meta 官方 LIama3 70B 模型合并（Self-Merge）

MergeKit 咋是專門用來合并預訓練模型的工具包，合并可以完全在 CPU 上運行，也可以使用低至 8GB 的 VRAM 進行加速。在 GitHub 上已經收獲 3.6k 星。

目前支持 Llama、Mistral、GPT-NeoX、StableLM 等模型。

△支持的合并算法

作者 Maxime Labonne 是一位資深機器學習專家，目前在一家通用大模型創業公司 LiquidAI 工作。

他博士畢業于巴黎理工學院，他在 2019 年開始研究大語言模型和圖神經網絡，并将他們應用到不同環境中，比如研發、工業、金融等，撰寫過書籍《Hands-On Graph Neural Networks using Python》。

他也是開發者社區的活躍開發者，在 HuggingFace 上發布過各種 LLM，例如 AlpahMonarch-7B、Beyonder-4x7B、Phixtral 和 NeuralBeagle14。以及一些工具，例如 LLM AutoEval、LazyMergekit、LazyZxolotl 和 AutoGGUF。

在 GitHub 上他的關于大模型課程，收獲 29.5K Star。

不過對于這個「縫合」大模型的使用，作者建議可以用來創意寫作。

在多方評估中可以看到，它有時候會出現神經混亂，但寫作風格不錯。另外有時候還會出現拼寫錯誤，并且非常喜歡大寫字母。

而且由于覺得這個版本的推理能力比較差，于是作者再做了個 225B 的。

網友：看完更期待官方 400B 了

有網友猜測爲什麽 LIama3-120B 能這麽強。

lmsysorg 就深入分析了 LIama3 的實力，簡單來說，LIama3 在開放式寫作和創意問題上擊敗了頂尖模型，但在封閉式數學和編碼問題上就稍弱一點。

不過随着提示詞變得更加複雜，LIama3 的能力也就下降得很明顯。

以及在輸出内容上面，LIama3 的輸出比其他模型更友好，也更具對話性。

除此之外，也有網友分析這與模型深度有關。

事實上與 LIama3-70B 唯一的區别是額外的 Layer，甚至是複制的，沒有新的訓練數據。。

這意味着，120B 大模型的智能水平是從模型的深度産生的。" 這不僅僅是訓練數據的函數，它是數據和深度的結合 "。

啊這……走了走了。

有提供 GGUF 形式的 LMStudioAI，也很直接地說：不适合内存不足的人。

原作者也很逗趣地表示：是時候跟你的 RAM 做告别了。

但不管怎麽說，已經在期待更多官方型号了。

比如，400B 那種。

參考鏈接：

[ 1 ] https://x.com/spectate_or/status/1788031383052374069

[ 2 ] https://x.com/spectate_or/status/1787308316152242289

[ 3 ] https://x.com/spectate_or/status/1787295252576952325

[ 4 ] https://x.com/spectate_or/status/1787264115804606628

[ 5 ] https://huggingface.co/mlabonne/Meta-Llama-3-120B-Instruct

[ 6 ] https://x.com/maximelabonne/status/1787485038591746269

[ 7 ] https://x.com/spectate_or/status/1788102406250664171

[ 8 ] https://x.com/spectate_or/status/1787576927529615516

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~