谷歌最新大語言模型PaLM 2,更細節内幕被曝出來了!
據 CNBC 爆料,訓練它所用到的 token 數量多達3.6 萬億。
這是什麽概念?
要知道,在去年谷歌發布 PaLM 時,訓練 token 的數量也僅爲 7800 億。
四舍五入算下來,PaLM 2 足足是它前身的近 5 倍!
(token 本質是字符串,是訓練大語言模型的關鍵,可以教會模型預測序列中出現的下一個單詞。)
不僅如此,當時谷歌發布 PaLM 2 時,隻是提到 " 新模型比以前的 LLM 更小 "。
而内部文件則是将具體數值爆料了出來——3400 億個參數(初代 PaLM 是 5400 億)。
這表明,谷歌通過技術 "buff 加持 ",在參數量更小的情況下,讓模型可以更高效地完成更複雜的任務。
雖然在已經維持了數月的 AIGC 大戰中,谷歌一直 " 全軍出擊 ",但對于訓練數據的大小或其他細節信息,卻是遮遮掩掩的态度。
而随着這次内部文檔的曝光,也讓我們對谷歌最 in 大語言模型有了進一步的了解。
PaLM 2 要在廣告上發力了
關于谷歌上周發布 PaLM 2 的能力,我們就不再詳細的贅述(可點擊此處了解詳情),簡單總結下來就是:
接受了 100 多種語言的訓練,在語言理解、生成和翻譯上的能力更強,更加擅長常識推理、數學邏輯分析。
數據集中有海量論文和網頁,其中包含非常多數學表達式。
支持 20 種編程語言,如 Python、JavaScript 等常用語言。
推出了四種不同 size:" 壁虎 " 版、" 水獺 " 版、" 野牛 " 版和 " 獨角獸 " 版(規模依次增大)。
至于使用方面,谷歌在發布會中就已經介紹說有超過 25 個産品和應用接入了 PaLM 2 的能力。
具體表現形式是 Duet AI,可以理解爲對标微軟 365 Copilot 的一款産品;在現場也展示了在 Gmail、Google Docs、Google Sheets 中應用的能力。
而現在,CNBC 從谷歌内部文件中挖出了其在 PaLM 2 應用的更多計劃——進軍廣告界。
根據這份内部文件,谷歌内部的某些團隊現在計劃使用 PaLM 2 驅動的工具,允許廣告商生成自己的媒體資産,并爲 YouTube 創作者推薦視頻。
谷歌也一直在爲 YouTube 的青少年内容測試 PaLM 2,比如标題和描述。
谷歌在經曆了近 20 年的快速發展後,現在已然陷入了多季度收入增長緩慢的 " 泥潭 "。
也由于全球經濟大環境等原因,廣告商們也一直在在線營銷預算中掙紮。
具體到谷歌,今年大多數行業的付費搜索廣告轉化率都有所下降。
而這份内部文件所透露出來的信号,便是谷歌希望抓住 AIGC 這根救命稻草,希望使用生成式 AI 産品來增加支出,用來增加收入并提高利潤率。
據文件顯示,AI 驅動的客戶支持策略可能會在 100 多種谷歌産品上運行,包括 Google Play 商店、Gmail、Android 搜索和地圖等。
訓練數據缺乏透明度,越發被熱議
不過話說回來,包括谷歌在内,縱觀大多數大語言模型玩家,一個較爲明顯的現象就是:
對模型、數據等細節保密。
這也是 CNBC 直接挑明的一個觀點。
雖然很多公司都表示,這是因爲業務競争所導緻的,但研究界卻不這麽認爲。
在他們看來,随着 AIGC 大戰的持續升溫,模型、數據等需要更高的透明度。
而與之相關的話題熱度也是越發的激烈。
例如谷歌 Research 高級科學家 El Mahdi El Mhamdi 便于二月份辭職,此舉背後的原因,正是因爲他覺得公司缺乏透明度。
無獨有偶,就在 OpenAI CEO Sam Altman 參與聽證會期間,便 " 反向 " 主動提出立法者進行監管:
如果這項技術出了問題,那就可能會是大問題……我們希望合作,防止這種情況發生。
截至發稿,對于 CNBC 所爆料的諸多内容,谷歌方面暫未做出回應。
參考鏈接:
[ 1 ] https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html
[ 2 ] https://www.cnbc.com/2023/05/17/google-to-use-new-ai-models-for-ads-and-to-help-youtube-creators.html
[ 3 ] https://ai.google/discover/palm2