GPT-4 的使用成本,竟然是 GPT-3.5 的 50 倍之多;
而讓大語言模型同時處理 25 個請求的時間,僅是處理單個請求的 2 倍……
這些數據聽上去可能有些出乎意料,但都是真實的。
它們出自一篇名爲《大語言模型(LLM)開發者必須知道的數字》的 GitHub 文章。
文章發布之後僅 1 天,便獲得了 1200 次星标。
文章基于真實的開發經驗,介紹了提示工程、硬件資源、價格等方面的數據。
就算沒有成爲開發者的打算,拿來擴充一下知識儲備也是極好的。
都有哪些數字值得關注
我們不妨先來看一下文章作者制作的速覽圖表:
接下來,我們就來詳細介紹一下這些數據。
提示工程
40-90%:在提示詞中加入 "Be Concise" 節約的成本
使用 LLM 是按照回複的 token 數量付費的,因此讓 LLM 的回答簡明扼要可以節約成本。
在提示詞中加入 "Be Concise"(答案簡明些),可以節約 40-90% 的成本。
1.3:每個單詞的平均 token 數
LLM 是對 token 進行操作的,token 可能包含完整單詞或其中的一部分。
如 "eating" 是由 "eat" 和後綴 "ing" 兩個 token 組成。
一篇 750 詞的英文文章中大約含有 1000 個 token。
而對于其他語言,每個詞所含的 token 數量可能更多。
價格
價格數據會存在波動,本節的價格數據主要參考 OpenAI,但其他公司數據也相似。
約 50 倍:GPT-4 與 GPT-3.5 花費的比值
效果上,GPT-4 的表現明顯好于 GPT-3.5,但其成本約爲後者的 50 倍之多。
因此,對于諸如總結這類 GPT-3.5 也能出色完成的任務,可以考慮不使用更昂貴的 GPT-4。
5 倍:GPT-3.5-Turbo 生成與使用 OpenAI embedding 的成本比
諸如 " 美國的首都是哪裏 " 這類可以通過檢索得到答案的問題,讓 LLM 生成答案的成本是檢索的 5 倍。
而如果使用 GPT-4,成本差異将高達 250 倍。
10 倍:OpenAI embedding 與自建 embedding 的成本比
這一數字爲大約數值,實際情況可能随着 embedding 的規模而變化。
6 倍:微調版與基本版 OpenAI 模型的成本比值
盡管成本較爲昂貴,但對基本 OpenAI 模型的微調是有意義的。
對基本模型進行微調的效益明顯高于定制模型。
1 倍:自建模型是否進行微調的成本比
由于參數量相同,是否進行微調對自建模型的成本幾乎沒有影響。
訓練與微調
約 100 萬美元:在 1.4 萬億 token 上訓練 130 億參數模型的成本
這一數字是建立在一切工作都十分順利、沒有發生崩潰的前提下計算出的。
Meta 的大語言模型 LLaMA 的論文當中顯示,用 2048 塊 80GB A100 GPU 進行訓練 LLaMA 一共花費了 21 天。
<0.001:微調與從頭開始訓練的成本比
這一數據有一些籠統,但微調的成本幾乎可以忽略不計。
對一個 60 億參數模型進行微調的成本大約是 7 美元。
即使是最貴的 OpenAI 模型 Davinci,1000 個 token 的微調成本也隻有 3 美分。
相對于對一部莎士比亞全集進行微調也隻需要 40 美元。
GPU 消耗
如果你要自建模型,了解其 GPU 消耗十分重要。
本節所列數據僅是推理過程所消耗的資源量,訓練和微調過程還需要更多資源。
V100: 16GB, A10G: 24GB, A100: 40/80GB:GPU 内存大小
GPU 内存大小決定了 LLM 的參數量上限。
24GB 的 A10G 在亞馬遜雲服務中的價格爲 1.5-2 美元每小時。
參數量的 2 倍:LLM 的典型 GPU 内存需求
例如,7B 參數量的 LLM 需要消耗 14GB 的 GPU 内存。
這是因爲大多數時候,每個參數需要 16bit 浮點空間。
通常情況下不需要使用超過 16bit 的精度,8bit 則會顯著降低結果精準度。
約 1GB:嵌入式模型的典型 GPU 内存需求
嵌入式模型消耗的本地 GPU 資源是很小的。
甚至可以在一塊 GPU 上同時運行多個嵌入式模型。
超過 10 倍:批量處理 LLM 請求帶來的吞吐量改善
在 GPU 上運行 LLM 時往往會有較大延遲。
一次請求消耗的時間可能長達 5 秒,相對于每秒僅能處理 0.2 個。
但如果同時發送兩個請求,消耗的時間約爲 5.2 秒。
而将 25 個請求捆綁發出的耗時約爲 10 秒,相對于每秒可處理 2.5 個請求。
約 1MB:130 億參數模型輸出 1 個 token 所需的 GPU 内存
内存消耗量與生成 token 數成正比。
512 個 token(約 380 個英文單詞)需要消耗 512MB 的空間。
作者簡介
這篇文章的作者來自開源人工智能框架 Ray 的開發公司 Anyscale。
主要貢獻者是 Google 前首席工程師 Waleed Kadous。
他也曾擔任 Uber CTO 辦公室工程戰略負責人。
其中一位華人合作者是 Google 前員工 Huaiwei Sun。
他來自江蘇昆山,本科畢業于上海交通大學工業設計專業。
期間,他參加了耶魯大學 summer school 并取得了滿績。
此後他取得了佐治亞理工學院碩士學位,研究方向爲人機交互。
此外還有其他作者也參與了這篇文章的工作,未來也可能有更多人加入。
參考鏈接:
[ 1 ] https://github.com/ray-project/llm-numbers
[ 2 ] https://www.linkedin.com/in/scottsun94/