機器之心報道
機器之心編輯部
這次,谷歌要憑「量」打敗其他競争對手。
當地時間本周二,谷歌在 Google ’ s Cloud Next 2024 上發布了一系列 AI 相關的模型更新和産品,包括 Gemini 1.5 Pro 首次提供了本地音頻(語音)理解功能、代碼生成新模型 CodeGemma、首款自研 Arm 處理器 Axion 等等。
Gemini 1.5 Pro
Gemini 1.5 Pro 是 Google 功能最強大的生成式 AI 模型,現已在 Google 以企業爲中心的 AI 開發平台 Vertex AI 上提供公共預覽版。這是谷歌面向企業的 AI 開發平台。它能處理的上下文從 12.8 萬個 token 增加到 100 萬個 token。100 萬個 token 大約相當于 70 萬個單詞,或者大約 3 萬行代碼。這大緻是 Anthropic 的旗艦模型 Claude 3 能作爲輸入處理的數據量的四倍,也大約是 OpenAI 的 GPT-4 Turbo 最大上下文量的八倍。
官方原文鏈接:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
該版本首次提供了本地音頻(語音)理解功能和全新的文件 API,使文件處理變得更加簡單。Gemini 1.5 Pro 的輸入模态正在拓展,包括在 Gemini API 和 Google AI Studio 中增加對音頻(語音)的理解。此外,Gemini 1.5 Pro 現在能夠對在 Google AI Studio 中上傳的視頻的圖像(幀)和音頻(語音)進行推理。
可以上傳一個講座的錄音,比如這個由 Jeff Dean 進行的超過 117000 個 token 的講座,Gemini 1.5 Pro 可以将其轉換成一個帶有答案的測驗。(演示已加速)
谷歌在 Gemini API 方面也進行了改進,主要有以下三個内容:
1. 系統指令:現在可以在 Google AI Studio 和 Gemini API 中使用系統指令來指導模型的響應。定義角色、格式、目标和規則,以針對您的特定用例指導模型的行爲。
在 Google AI Studio 中輕松設置系統指令
2.JSON 模式:指示模型僅輸出 JSON 對象。這種模式使從文本或圖像中提取結構化數據成爲可能。現在可以使用 cURL,Python SDK 支持即将推出。
3. 對函數調用的改進:現在可以選擇模式來限制模型的輸出,提高可靠性。選擇文本、函數調用或僅函數本身。
此外,谷歌将發布下一代文本嵌入模型,其性能優于同類模型。從今天開始,開發者将能夠通過 Gemini API 訪問下一代文本嵌入模型。這個新模型,text-embedding-004(在 Vertex AI 中爲 text-embedding-preview-0409),在 MTEB 基準測試中實現了更強的檢索性能,并且超越了具有可比維度的現有模型。
在 MTEB 基準測試中,使用 256 dims 輸出的 Text-embedding-004(又名 Gecko)優于所有較大的 768 dims 輸出模型
不過,需要注意的是,Gemini 1.5 Pro 對于沒有訪問 Vertex AI 和 AI Studio 權限的人來說是不可用的。目前,大多數人通過 Gemini 聊天機器人來接觸 Gemini 語言模型。Gemini Ultra 驅動了 Gemini Advanced 聊天機器人,雖然它功能強大,也能理解長命令,但它的速度不如 Gemini 1.5 Pro。
三大開源工具
在 2024 年的 Google Cloud Next 大會上,該公司推出多個開源工具,主要用于支持生成式 AI 項目和基礎設施。其一是 Max Diffusion,它是各種擴散模型參考實現的集合,可在 XLA(加速線性代數)設備上運行。
GitHub 地址:https://github.com/google/maxdiffusion
其二是 Jetstream,一個運行生成式 AI 模型的新引擎。目前,JetStream 隻支持 TPU,未來可能會兼容 GPU。谷歌聲稱,JetStream 可爲谷歌自己的 Gemma 7B 和 Meta 的 Llama 2 等模型提供高達 3 倍的性價比。
GitHub 地址:https://github.com/google/JetStream
第三個是 MaxTest,這是一個針對雲中的 TPUs 和 Nvidia GPUs 的文本生成 AI 模型的集合。MaxText 現在包括 Gemma 7B、OpenAI 的 GPT-3、Llama 2 和來自 AI 初創公司 Mistral 的模型,谷歌表示所有這些模型都可以根據開發人員的需求進行定制和微調。
GitHub 地址:https://github.com/google/maxtext
首款自研 Arm 處理器 Axion
谷歌雲宣布推出其首款自主研發的 Arm 處理器,名爲 Axion。其基于 Arm 的 Neoverse 2,專爲數據中心設計。谷歌表示其 Axion 實例的性能比其他競争對手如 AWS 和微軟的基于 Arm 的實例高出 30%,與相應的基于 X86 的實例相比,性能提高了最多 50%,能效提高了 60%。
谷歌在周二的發布會上強調,由于 Axion 建立在一個開放的基礎上,谷歌雲的客戶将能夠将他們現有的 Arm 工作負載帶到谷歌雲,而無需任何修改。
不過,目前谷歌還沒有發布對此進行詳細介紹的内容。
代碼補全、生成利器 —— CodeGemma
CodeGemma 以 Gemma 模型爲基礎,爲社區帶來了強大而輕量級的編碼功能。該模型可分爲專門處理代碼補全和代碼生成任務的 7B 預訓練變體、用于代碼聊天和指令跟随的 7B 指令調優變體、以及在本地計算機上運行快速代碼補全的 2B 預訓練變體。
CodeGemma 具有以下幾大優勢:
智能代碼補全和生成:補全行、函數,甚至生成整個代碼塊,無論你是在本地還是雲上工作;
更高準确性:CodeGemma 主要使用來自網絡文檔、數學和代碼的 5000 億 token 的英語語言數據進行訓練,生成的代碼不僅語法更正确,語義也更有意義,有助于減少錯誤和 debug 時間;
多語言能力:支持 Python、JavaScript、Java 和其他流行編程語言;
簡化工作流程:将 CodeGemma 集成到你的開發環境中,以減少編寫的樣闆代碼,并更快地編寫重要、有趣且差異化的代碼。
CodeGemma 與其他主流代碼大模型的一些比較結果如下圖所示:
CodeGemma 7B 模型與 Gemma 7B 模型在 GSM8K、MATH 等數據集上的比較結果。
更多技術細節和實驗結果請參閱谷歌同步放出的論文。
論文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
開放語言模型 —— RecurrentGemma
Google DeepMind 還發布了一系列開放權重語言模型 —— RecurrentGemma。RecurrentGemma 基于 Griffin 架構,通過将全局注意力替換爲局部注意力和線性循環(linear recurrences)的混合,在生成長序列時實現快速推理。
技術報告:https://storage.googleapis.com/deepmind-media/gemma/recurrentgemma-report.pdf
RecurrentGemma-2B 在下遊任務上實現了卓越的性能,可與 Gemma-2B(transformer 架構)媲美。
同時,RecurrentGemma-2B 在推理過程中實現了更高的吞吐量,尤其是在長序列上。
視頻編輯工具 —— Google Vids
Google Vids 是一款 AI 視頻創建工具,是 Google Workspace 中添加的新功能。
谷歌表示,借助 Google Vids,用戶可以與文檔和表格等其他 Workspace 工具一起制作視頻,并且可與同事實時協作。
企業專用代碼助手 —— Gemini Code Assist
Gemini Code Assist 是一款面向企業的 AI 代碼完成和輔助工具, 對标 GitHub Copilot Enterprise。Code Assist 将通過 VS Code 和 JetBrains 等流行編輯器以插件的形式提供。
圖源:https://techcrunch.com/2024/04/09/google-launches-code-assist-its-latest-challenger-to-githubs-copilot/
Code Assist 由 Gemini 1.5 Pro 提供支持。Gemini 1.5 Pro 擁有百萬 token 的上下文窗口,這使得谷歌的工具能夠比競争對手引入更多的上下文。谷歌表示,這意味着 Code Assist 能夠提供更準确的代碼建議,并具備推理和更改大段代碼的能力。
谷歌表示:「Code Assist 使客戶能夠對整個代碼庫進行大規模更改,從而實現以前不可能實現的人工智能輔助代碼轉換。」
智能體構建器 —— Vertex AI
AI 智能體是今年一個熱門的行業發展方向。谷歌現在宣布推出一款幫助企業構建 AI 智能體的新工具 —— Vertex AI Agent Builder。
谷歌雲首席執行官 Thomas Kurian 表示:「Vertex AI Agent Builder 使人們能夠非常輕松、快速地構建和部署可用于生産的、由人工智能驅動的生成式對話智能體,并且能夠以指導人類的方式指導智能體,以提高模型生成結果的質量和正确性。」
參考鏈接:
https://techcrunch.com/2024/04/09/google-open-sources-tools-to-support-ai-model-development/
https://developers.googleblog.com/2024/04/gemma-family-expands.html?utm_source=twitter&utm_medium=unpaidsoc&utm_campaign=fy24q2-googlecloudtech-blog-next_event-in_feed-no-brand-global&utm_content=-&utm_term=-&linkId=9603600
機器之心 AI 技術論壇「視頻生成技術與應用 — Sora 時代」,将于 4.13 在北京海澱舉辦。
論壇聚焦于 Sora、視頻生成技術、多模态大模型等前沿領域的技術突破和應用實踐,助力企業和從業者緊跟技術發展潮流、掌握最新技術進展與技術突破。
早鳥期即将結束,快來鎖定入場席位吧!
© THE END
轉載請聯系本公衆号獲得授權
投稿或尋求報道:[email protected]