谷歌PaLM 2細節曝光：3.6萬億token，3400億參數

谷歌最新大語言模型PaLM 2，更細節内幕被曝出來了！

據 CNBC 爆料，訓練它所用到的 token 數量多達3.6 萬億。

這是什麽概念？

要知道，在去年谷歌發布 PaLM 時，訓練 token 的數量也僅爲 7800 億。

四舍五入算下來，PaLM 2 足足是它前身的近 5 倍！

（token 本質是字符串，是訓練大語言模型的關鍵，可以教會模型預測序列中出現的下一個單詞。）

不僅如此，當時谷歌發布 PaLM 2 時，隻是提到 " 新模型比以前的 LLM 更小 "。

而内部文件則是将具體數值爆料了出來——3400 億個參數（初代 PaLM 是 5400 億）。

這表明，谷歌通過技術 "buff 加持 "，在參數量更小的情況下，讓模型可以更高效地完成更複雜的任務。

雖然在已經維持了數月的 AIGC 大戰中，谷歌一直 " 全軍出擊 "，但對于訓練數據的大小或其他細節信息，卻是遮遮掩掩的态度。

而随着這次内部文檔的曝光，也讓我們對谷歌最 in 大語言模型有了進一步的了解。

PaLM 2 要在廣告上發力了

關于谷歌上周發布 PaLM 2 的能力，我們就不再詳細的贅述（可點擊此處了解詳情），簡單總結下來就是：

接受了 100 多種語言的訓練，在語言理解、生成和翻譯上的能力更強，更加擅長常識推理、數學邏輯分析。

數據集中有海量論文和網頁，其中包含非常多數學表達式。

支持 20 種編程語言，如 Python、JavaScript 等常用語言。

推出了四種不同 size：" 壁虎 " 版、" 水獺 " 版、" 野牛 " 版和 " 獨角獸 " 版（規模依次增大）。

至于使用方面，谷歌在發布會中就已經介紹說有超過 25 個産品和應用接入了 PaLM 2 的能力。

具體表現形式是 Duet AI，可以理解爲對标微軟 365 Copilot 的一款産品；在現場也展示了在 Gmail、Google Docs、Google Sheets 中應用的能力。

而現在，CNBC 從谷歌内部文件中挖出了其在 PaLM 2 應用的更多計劃——進軍廣告界。

根據這份内部文件，谷歌内部的某些團隊現在計劃使用 PaLM 2 驅動的工具，允許廣告商生成自己的媒體資産，并爲 YouTube 創作者推薦視頻。

谷歌也一直在爲 YouTube 的青少年内容測試 PaLM 2，比如标題和描述。

谷歌在經曆了近 20 年的快速發展後，現在已然陷入了多季度收入增長緩慢的 " 泥潭 "。

也由于全球經濟大環境等原因，廣告商們也一直在在線營銷預算中掙紮。

具體到谷歌，今年大多數行業的付費搜索廣告轉化率都有所下降。

而這份内部文件所透露出來的信号，便是谷歌希望抓住 AIGC 這根救命稻草，希望使用生成式 AI 産品來增加支出，用來增加收入并提高利潤率。

據文件顯示，AI 驅動的客戶支持策略可能會在 100 多種谷歌産品上運行，包括 Google Play 商店、Gmail、Android 搜索和地圖等。

訓練數據缺乏透明度，越發被熱議

不過話說回來，包括谷歌在内，縱觀大多數大語言模型玩家，一個較爲明顯的現象就是：

對模型、數據等細節保密。

這也是 CNBC 直接挑明的一個觀點。

雖然很多公司都表示，這是因爲業務競争所導緻的，但研究界卻不這麽認爲。

在他們看來，随着 AIGC 大戰的持續升溫，模型、數據等需要更高的透明度。

而與之相關的話題熱度也是越發的激烈。

例如谷歌 Research 高級科學家 El Mahdi El Mhamdi 便于二月份辭職，此舉背後的原因，正是因爲他覺得公司缺乏透明度。

無獨有偶，就在 OpenAI CEO Sam Altman 參與聽證會期間，便 " 反向 " 主動提出立法者進行監管：

如果這項技術出了問題，那就可能會是大問題……我們希望合作，防止這種情況發生。

截至發稿，對于 CNBC 所爆料的諸多内容，谷歌方面暫未做出回應。

參考鏈接：

[ 1 ] https://www.cnbc.com/2023/05/16/googles-palm-2-uses-nearly-five-times-more-text-data-than-predecessor.html

[ 2 ] https://www.cnbc.com/2023/05/17/google-to-use-new-ai-models-for-ads-and-to-help-youtube-creators.html

[ 3 ] https://ai.google/discover/palm2