Sora 引發的讨論還在持續。有人認爲 Sora 将是通往 AGI(通用人工智能)的快車道,也有人隻是認爲 Sora 開拓了 Transformer 架構與擴散模型相結合的全新技術路線,還有人認爲 Sora 與 AGI 沒有太大的關系,是一個産品上的重要裏程碑,但在技術上并不比 ChatGPT 更重要。
不管 Sora 的出現意味着什麽,大模型之戰都還遠遠未到終局。如果說 OpenAI 已經占據了今天閉源大模型生态的一極,那 Meta 無疑是代表開源大模型的另一極。
Meta 的 Llama(羊駝)可以說從一開始就是最強大的開源大模型之一。去年 7 月,Meta 更是發布更強的 Llama 2,最爲關鍵的是開源協議從「僅研究可用」轉向了「免費可商用」,雖然也造就了一大批「套殼」的大模型,但毫無疑問一舉改變大模型的格局。
不過 AI 世界一天一變,前有法國開源「新秀」Mistral 将 Llama 2 挑落馬下(2 月又推出了「僅次于 GPT-4」的閉源大模型 Mistral Large),後有谷歌發布 Gemma 開源大模型碾壓 Llama 2。
Llama 3 該來了。
今年 1 月,Meta CEO 馬克 · 紮克伯格(以下簡稱「小紮」)就在 Instagram 視頻中宣布,Meta AI 已經開始訓練 Llama 3。而據 The Information 最新披露,Meta 計劃在今年 7 月正式發布 Llama 3。
小紮的官宣視頻,圖 / Instagram
考慮到 Meta 在第一代 Llama 花了三個月的時間來訓練,在 Llama 2 花了大約六個月的時間來訓練,如果下一代模型遵循類似的時間表,也應該是在 2024 年 7 月的某個時間發布。
不僅如此,綜合相關報道以及 Meta 官方透露出的信息,預計将在四個月後發布的 Llama 3 還有着更大的野心,恐怕又将以開源之姿再次改變大模型世界。
至少在當下,算力依然是大模型「叠代」的關鍵因素之一,就連 OpenAI 也要時不時說明自身的算力儲備。
在 Instagram 視頻中,小紮就表示,預計到 2024 年底,Meta 将擁有 350000 塊英偉達 H100(官方定價單塊 3.5 萬美元,實際還在溢價),如果算上其他算力資源将達到近 600000 塊 H100:
目前可能也隻有微軟、谷歌擁有與之可比的算力儲備。
H00 GPU,圖 / 英偉達
小紮的言下之意其實很明顯:Meta 有足夠的 AI 算力資源來支持 Llama 3 的大規模預訓練以及生成式 AI 的技術研究。
具體的參數大小暫且無法得知,但可以預計将會延續之前的多個參數規模版本,有傳聞稱最大版本将超過 1400 億參數,直接挑戰 GPT-4 等領先的大模型。
The Information 還引用内部消息指出,Llama 3 不僅會放松「安全圍欄」,與 GPT-4、Gemini 以及 Llama 2 相比,Llama 3 在處理争議問題時提供更好的回答。Meta 顯然希望至少提供有關查詢的上下文,而不是忽略、拒絕回答用戶提出的問題。
想要做到這一點,除了要求 Llama 3 從技術更好地改善大模型的「幻覺」問題,或許也要求上下文長度的改進。在 Llama 2 上,Meta 就将上下文長度翻了一番,讓模型在推理期間(與 AI 聊天的過程)可以「記住」兩倍的 Token 上下文。
另一方面,如今大模型廠商普遍都在轉向多模态大模型(如 Gemini、GPT-4V)的研究,即在文本之外還支持和理解圖像和音頻,可以同時生成文字、圖片、聲音和視頻。Meta 大概也不例外。
小紮雖然隻确認 Llama 3 和 Llama 2 一樣将包含代碼生成功能,卻沒有明确提及其他多模式功能,不過他在官宣視頻還是談到了「人工智能」與「元宇宙」相結合的設想。
「眼鏡是讓人工智能看你所看、聽你所聽的理想産品形态,」小紮在談到 Meta x 雷朋眼鏡時指出,「它随時可以提供幫助。」雷科技在獨立 AI 終端 AI Pin 的報道中,也深入論述了可穿戴設備在 AI 視覺 / 聽覺領域的巨大潛力。
圖 / 雷科技報道團現場攝制
換言之,Meta 的方向一定是讓 AI 模型同時具備自然語言理解、視覺和聽覺能力。由此推測,Llama 3 甚至後續幾代 Llama 對于多模态的支持可以說是題中應有之義。
總得來說,我們可以合理地預期,就算 Llama 3 的規模還是維持在從 70 億參數到 700 億參數不等的範圍,仍舊會帶來顯著的性能提升,同時 Llama 3 也将帶來更大的想象空間。
更何況 Meta 還有對 AGI 的追求。
「越來越清楚的是,下一代服務需要構建全面的通用智能。」小紮明确地指出了 Meta 構建 AGI 的長期目标,「打造最好的人工智能助手、創作者人工智能、企業人工智能等等——這需要人工智能各個領域的進步,從推理到規劃到編碼到記憶以及其他認知能力。」
當然,這并不意味着 Llama 3 就将實現(甚至試圖實現)AGI。但毫無疑問,Meta 正在有意以一種他們認爲最終可能實現 AGI 的方式,進行研究和開發。
公允地說,Llama 3 開不開源,将極大地影響到整個人工智能行業。
作爲行業被應用最多的開源大模型,Llama 2 及其爲重要核心的上下遊已經開始有意識構建生态。去年 12 月,爲了對抗 OpenAI、谷歌爲代表的閉源陣營,Meta 聯合甲骨文、英特爾、AMD、IBM、索尼、戴爾等 57 家全球科技公司和研究機構成立了「AI 聯盟」。
AI 聯盟成員,圖 / IBM
這個聯盟有 6 大目标,其中很重要的一項就是搭建開源大模型生态,包括從研究、評估、硬件、安全、公衆參與等一整套流程。
小紮雖然從始至終沒有明确指出 Llama 3 開源與否,但 Llama 3 很大概率将會繼續開源。
官宣正在訓練 Llama 3 後,小紮就在 The Verge 的采訪中表示:「我傾向于認爲,這裏面臨的更大挑戰之一是,如果你構建了真正有價值的東西,那麽它最終會變得非常集中。然而,如果你讓它更加開放,那麽就可以解決由于機會和價值不平等而可能産生的一大類問題。」
如果小紮的回應更像是表達一種态度,Meta 首席人工智能科學家 Yann LeCun 的回應更加「直指根本」。在接受《連線》雜志的采訪中,Yann LeCun 指出:
當你擁有一個很多人都可以貢獻的開放平台時,進步就會變得更快。您最終獲得的系統更加安全且性能更好。(同時)想象一下未來,我們與數字世界的所有交互都由人工智能系統主導。你不希望人工智能系統由美國西海岸的少數公司控制。也許美國人不會關心,也許美國政府不會關心。但我現在告訴你,在歐洲,他們不會喜歡它。
Yann LeCun,圖 / Meta
總而言之,開源能夠吸引更多廠商進行微調,吸引更多的開發者構建應用,也吸引更多的用戶進行使用,帶動生态的快速進步。特别當 Meta 占據開源大模型的頂級生态位,除了最先進的閉源大模型,用戶恐怕會對其他所有模型失去興趣,Meta 也更容易在 OpenAI 的生态之外培育一個龐大的開發生态,甚至超越 OpenAI:
就如同當年 Android 的後來居上。
此外,監管問題也是無法回避的。考慮到人工智能的颠覆性,當人工智能的進程不是由一家公司完全主導,而是由全球公司和開發者聯手打造,也更容易被監管機構所接受。
願景是美好的,現實卻不一定。問題是,Meta 還能夠重回開源「王座」,甚至超越 GPT-4 嗎?
圖 / X(原 Twitter)
時移事易,Llama 3 發布之時,Meta 要面對的情況可能完全不同。谷歌 Gemma 的下場碾壓,Mistral 的黑馬之姿,都證明了 Meta 的開源「王座」并不穩固。尤其是谷歌,雖然次次都被 OpenAI 壓一頭,但沒有人敢真的忽視谷歌的錢、技術與号召力。
當然,這些問題最終還是要等到 Llama 3 發布之時,才會有更明确的答案。在那之前,大模型乾坤未定,一切皆有可能。