在 2024 年第三季度财報發布後,英特爾首席執行官帕特 · 基辛格(Pat Gelsinger)表示,近期英特爾所推出的 Lunar Lake 架構被設計爲一個小衆、一次性的産品,沒有直接繼任者。在财報電話會議中,他解釋說,采用外部制程節點以及 LPDDR5X 内存集成到封裝中的複雜性,導緻了低利潤率,這影響了英特爾未來産品線的決策。
根據基辛格的說法,即将推出的 Panther Lake CPU 将有超過 70% 的部分由英特爾自己的晶圓廠制造,并且将是第一款采用英特爾 18A 制程節點的客戶端 CPU,該産品計劃在 2025 年下半年發布,且将不包含封裝内存,而作爲 Panther Lake 繼任者的 Nova Lake 也不會包含封裝内存。
這意味着封裝内存隻是英特爾處理器曆史中短暫劃過的一道流星,剛出生不到兩個月就被宣判了死刑,讓人爲之惋惜之餘,也心生疑問:爲什麽要砍掉好不容易才用上的封裝内存?
ARM 難倒了英特爾
英特爾所代表的 x86 曾多次迎戰像 ARM 這樣的精簡指令集對手,最早可以追溯到上個世紀的 PowerPC,其曾經以一己之力同 IBM、蘋果、摩托羅拉這三者展開争鬥,并最終取得了輝煌的勝利,實現了消費和服務器市場兩開花,一度壓得其他廠商透不過氣。
但即便是如此強大的 x86 帝國,依舊無法涵蓋消費電子的方方面面,尤其是在以嵌入式爲代表的低功耗領域,但有意思的事情來了,ARM 似乎就是爲了這方面而生的。
最早的 ARM 處理器起源于 Acorn 代号爲 Acorn RISC 的項目,由兩位來自劍橋大學的才華橫溢的計算機科學家 Sophie Wilson 和 Steve Furber 在資源極度有限的情況下設計了一款 Acorn 自己的 32 位微處理器。
ARM1 的結構非常簡單,基于 808 行 Basic 語言創建,僅有個 25,000 晶體管,甚至沒有乘法部件,引用 Sophie 在一次電報采訪中的話:" 我們通過事先非常非常仔細地思考事情來實現這一點 ",盡管在當時并沒有引起太大反響,但卻在英國保留了一枚處理器的火種。
不過與當時最火的 386 處理器不同的是,ARM 處理器一開始的設計理念是 low-cost,low-power 和 high-performance,這顯然和移動市場不謀而合,盡管當時還未發展出真正意義上的移動市場。
幾年後,蘋果似乎看到了 ARM 的潛力,和 Acorn 以及 VLSI 共同出資創建了 ARM。蘋果當時正在爲代号爲牛頓的項目尋找低功耗處理器,這一項目的終極目标是打造地球上第一個平闆電腦。
隻可惜,牛頓項目過于超前,打造出來的平闆電腦和現在相比,性能過于弱小,很快就宣告了失敗,但 ARM 并未從此一蹶不振,反而借由這一次失敗,尋得了一片更廣闊的天空。
1993 年至 1995 年,Cirrus Logic、德州儀器、諾基亞、夏普、三星和 NEC 等公司、先後加入 ARM 陣營,通過合作,ARM 發明了 16 位的 Thumb 指令集,也真正意義上創建了基于 ARM 的 SoC 商業模式,同時還迎來了公司成立以來最重要的一顆處理器内核—— ARM7。ARM7 使用的 Die 尺寸是 80486 的十六分之一,售價僅爲 50 美金左右,較小的 Die 尺寸使得 ARM7 處理器獲得了較低功耗,适合手持式應用。
爲什麽這麽多公司,包括已經生産自己的芯片的大型電子公司,都想與 ARM 簽約?部分原因是成本優勢—— ARM 許可證并不昂貴,而且肯定比花數年時間雇傭數百名工程師從頭開始設計新芯片要便宜,而另一部分原因是 Sophie Wilson 和 Steve Furber 創造的技術遺産。ARM 芯片制造速度快、簡單,而且功耗低。
此外,ARM 還有另一張王牌:它不僅僅是一家芯片制造公司。當 ARM 與其他公司合作時,它就成爲了合作夥伴,幫助設計可根據其他公司特定需求定制的解決方案,許多公司通過與 ARM 的合作,成功研發出了符合自身需求的處理器,進而取得了商業成功。
ARM 的低功耗與精簡,以及實惠的授權費用,讓它在英特爾處理器之外的空白站穩了腳跟。
不過,ARM 處理器真正迎來自己的成功,還要等到蘋果之後的四款産品線:iPod、iPhone、iPad 和 ARM Mac。
其中最值得關注也是最有意思的,就是初代 iPhone 所搭載的 ARM 處理器。
喬布斯曾問過英特爾的 CEO 保羅 · 歐德甯是否有興趣競标,爲蘋果即将推出的手機制造芯片。當時,這家制造業巨頭正因桌面 x86 CPU 的銷售勢頭強勁,英特爾還擁有一個基于 ARM 的業務,即 1998 年從數字設備公司(DEC)收購的 XScale,因此,英特爾本來可以輕松滿足蘋果的需求。
但是歐德甯拒絕了這個提議。他計算出蘋果願意支付的每個 CPU 的最高價格低于英特爾的生産成本,而且他并不确定蘋果的手機會有很高的銷量。此外,他對支持 XScale 業務感到擔憂,特别是在英特爾正在研發低功耗的 x86 版本 Atom 的情況下。于是,他決定加碼 x86,并在 2006 年出售了 XScale 部門。
在英特爾拒絕這個合作機會後,蘋果轉向了三星,其同意爲蘋果即将推出的手機制造一款強大的新 ARM 芯片。它就是 S5L8900,這是一款 SoC(系統級芯片),采用 ARM11 核心,運行頻率(降頻)爲 412 MHz,配備 128MB 内存,最高 16GB 存儲空間,并集成了 PowerVR MBX Lite 3D 圖形處理器。這款處理器讓人想起了 1991 年的 ARM 250"Archimedes on a chip",但它并不是台式電腦,而是一部手機——一部革命性的手機。
也正是從這一年開始,ARM 憑借着自己低功耗的特性,迅速占領了手機市場,并在随後的 iPad 發布後,順勢占領平闆電腦市場,而被英特爾寄予衆望的 Atom 卻不堪一擊,市場份額很快就降至了冰點。
移動市場的失守已經讓英特爾備受煎熬了,蘋果之後還在 PC 市場對英特爾和 x86 發起了進攻:2020 年 11 月,蘋果正式發布 M1 芯片,同時宣布了搭載了該芯片的 MacBook,并宣布 Mac 在未來逐步放棄英特爾的 x86 平台,逐步轉向蘋果自研的 ARM 平台。
而 M1 芯片的最大優勢,也是 ARM 從 80 年代延續至今的優勢,就是低功耗。
低功耗并不意味着低性能,而在相同的性能下消耗更少的電量,或者在消耗相同電量的情況下,達成更高的性能。在蘋果 2020 年展示的 PPT 當中,M1 的 CPU 功耗峰值約爲 18W。而作爲對比的 x86 芯片的峰值功耗則在 35-40W 範圍内,而結論是 M1 在低核心頻率下實現了更高性能:在峰值到峰值時,M1 的性能比 x86 産品提升了約 40%,同時功耗僅爲其 40%。
英特爾在它的幾十年發展曆史中從未受到過如此沉重的打擊。
破除 ARM 高效神話
相信很多人都有過這樣的一個疑問:在同性能下,x86 一定比 ARM 功耗更高嗎?
答案自然是否定的,沒有天生低功耗的架構,ARM 現在的低功耗也是多年來持續導向和優化的結果,x86 并非沒有低功耗的嘗試,例如前文中提到過的 Atom,就是英特爾用來對标 ARM 低功耗的一條産品線。
多年來,在蘋果和高通等公司不懈努力下,ARM 架構的高效被打造成了一個神話,乃至于許多消費者都形成了這樣的固有印象,但英特爾決定自己來破除這個神話。
在今年 6 月的 Computex 前夕,英特爾在台北舉辦了 Intel 技術巡展(Intel Tech Tour),詳細介紹了其即将推出的代号爲 Lunar Lake 的移動處理器。新芯片旨在實現多種目标,從更高效能到設備上的人工智能。英特爾還特别提到,他們希望 " 打破 x86 無法像 ARM 一樣高效的神話 "。
在活動中,英特爾并未回避關于 ARM 芯片的讨論,也沒有試圖忽視這個 " 房間裏的大象 ",高通和蘋果正在不斷侵蝕原本屬于英特爾和 x86 的市場份額,英特爾要怎麽做才能挽回十幾年以來的陳規陋見呢?
首先需要明确的是,x86 是一種極其強大的架構。x86 處理器基于複雜指令集計算(CISC)架構,包含更多複雜的指令,這些指令消耗更多功率。有些 x86 指令甚至需要多個周期來執行,這會增加功耗但降低效率。
由于擁有更複雜的指令,x86 還可能具有更複雜的流水線。例如,x86 使用的是可變長度的指令集,指令長度從 1 字節到 15 字節不等,而 ARM 的指令長度是固定的(盡管 Thumb 指令可以是可變的)。由于指令複雜性,分支預測在 x86 處理器中也顯得尤爲重要,因爲這些指令通常會被轉換成更簡單的類似 RISC 的微操作。這些分支預測器非常先進,因爲錯誤預測和随後的停滞成本可能比在 ARM 架構中的停滞成本大得多。
此外,ARM 每條指令所需的晶體管較少,這也是其功耗需求較低的原因之一。這些隻是 ARM 實現高效性的一些方法,但兩種架構之間還有大量的細微差異,使得 ARM 在效率上占據優勢。然而,較少的每指令晶體管數也意味着複雜性降低,而這正是 x86 作爲強大架構的閃光點,能夠滿足巨大的計算需求。
爲了使 x86 能夠像 ARM 一樣高效,英特爾需要做大量工作。首先,從功耗角度來看,x86 的指令集本身就很 " 昂貴 ",因爲在 x86 上指令的取指、解碼和執行周期比 ARM 更複雜。将簡單的指令組合成一個單獨的微操作也有幫助,特别是在減少開銷方面。
相比之下,ARM 的 RISC 架構是一個巨大的優勢,尤其是每條指令在 ARM 中設計得更快更易執行。ARM 還采用固定長度的指令,使得解碼更簡單,而較低位的 Thumb 指令可以減小代碼大小,減少所需的内存空間。Thumb 指令更小,意味着執行時需要的内存提取更少,并且更多的指令可以放入處理器的緩存中。
此外,ARM 芯片通常是更大系統級芯片(SoC)的一部分,而不是通過主闆與計算機其他部分接口的獨立 CPU。ARM CPU 與内存控制器、GPU 和計算機硬件的其他關鍵部件的直接連接也可以帶來效率提升。這正是蘋果統一内存的運作方式,并且是其卓越電池續航能力的一個原因。
英特爾的實際做法也在相當程度上借鑒了蘋果,讓我們來看看英特爾 Lunar Lake 架構。
與去年的 Meteor Lake 架構的 Core Ultra 100 系列芯片類似,Lunar Lake 也是通過英特爾的 Foveros 技術将多顆小芯片封裝在一起。在 Meteor Lake 中,Intel 使用 Foveros 技術組合了不同公司制造的多個矽芯片——英特爾制造了主 CPU 核心所在的計算單元,而台積電則負責圖形、I/O 及其他功能模塊的制造。
在 Lunar Lake 中,英特爾仍然使用 Foveros 技術,即通過一個 " 基礎單元 " 作爲插入層,使不同的芯片之間能夠進行通信來連接整個芯片。但是這次 CPU、GPU 和 NPU 都被整合在同一個計算單元中,而 I/O 和其他功能則由平台控制單元(在之前的英特爾 CPU 中也稱爲 PCH,平台控制集線器)負責。另外還包括一個 " 填充單元 ",僅僅是爲了讓最終産品呈矩形。這次計算單元和平台控制單元都由台積電制造。
英特爾仍然将其 CPU 核心分爲高效能的 E 核(Efficiency Core)和高性能的 P 核(Performance Core),但總體核心數量相較于上一代 Core Ultra 芯片以及更早的第 12 和第 13 代 Core 芯片有所減少。
Lunar Lake 擁有四個 E 核和四個 P 核,這種配置在 Apple 的 M 系列芯片中較常見,但在英特爾中并不多見。例如,Meteor Lake 的 Core Ultra 7 155H 包含六個 P 核和總計十個 E 核;Core i7-1255U 則包含兩個 P 核和八個 E 核。Intel 還移除了 P 核的超線程(Hyperthreading)技術,騰出的矽片空間更适合用于提升單核性能。
英特爾還爲 Lunar Lake 引入了一種新的 GPU 架構,代号爲 Battlemage,它也将驅動未來的桌面 Arc 獨立顯卡,根據英特爾的說法,集成顯卡 Arc 140V 在遊戲中平均比舊的 Meteor Lake Arc GPU 快 31%,比 AMD 最新的 Radeon 890M 快 16%,具體性能會因遊戲不同而有較大差異。而 Arc 130V 顯卡少了一個英特爾的 Xe 核心(7 個,而不是 8 個),頻率也更低。
計算模塊的最後一部分是神經處理單元(NPU),它可以在本地處理一些 AI 和機器學習任務,英特爾表示,Lunar Lake 的 NPU 在不同型号的芯片中性能介于 40 到 48 TOPS 之間,滿足或超過微軟的 40 TOPS 要求,且整體性能約爲 Meteor Lake NPU 的四倍(11.5 TOPS)。
當然,Lunar Lake 最重大的改變還是将内存集成在 CPU 封裝中,而這一點恰恰就是蘋果和高通正在做的。據介紹,Lunar Lake 芯片有 16GB 或 32GB 内存[根據已發布的型号,型号以 8 結尾的(例如 Core Ultra 7 258V)爲 32GB,以 6 結尾的爲 16GB],這種封裝方式不僅節省了主闆空間,也因爲數據的傳輸距離更短而減少了功耗。
在經過這一系列大刀闊斧的改革之後,Lunar Lake 最終實現了 x86 架構下比肩 ARM 架構的功耗:根據媒體此前的測試,在搭載了 258V 的華碩 Zenbook 上,PCMark 現代辦公電池續航測試中可持續約 16.5 小時,而配置相似的 155H Zenbook 則僅持續了 12 小時出頭,這一成績和搭載 M3 的 MacBook 非常接近,是近幾年來續航最好的 x86 架構筆記本之一。
英特爾确實做到了,它用 Lunar Lake 這柄大錘打破了蘋果和 ARM 塑造的功耗神話。
壯士斷腕?
但很可惜的是,英特爾在打破神話之後卻選擇了放棄,直接宣告未來的處理器不會使用 Lunar Lake 這樣的封裝内存,再度回歸傳統的處理器設計。
有意思的是,英特爾在 Lunar Lake 正式發售的半年前,就決定了後續的 Arrow Lake、Nova Lake、Raptor Lake、Twin Lake、Panther Lake 與 Wildcat Lake 等新産品,均不采用 Lunar Lake 的封裝方式,也就是說 Lunar Lake 在英特爾内部判了死刑。
爲什麽口碑還不錯的 Lunar Lake,英特爾自己卻不看好呢?
分析師郭明錤提供了一種觀點,他認爲 Lunar Lake 的誕生有兩個原因,首先是與蘋果的競争,MacBook 采用自研芯片後市占率提升,英特爾想要證明 x86 架構也能達到相似能效和續航;
第二個原因則是對微軟 Surface 改用 ARM 處理器的回應,微軟 2Q24 的新款 Surface 系列全面采用有 45 TOPS 算力的高通處理器,針對它推出競品。
他表示,雖然英特爾稱 Lunar Lake 因封裝内存稀釋毛利率而失敗,但真正原因是品牌和代工廠商因采用零件彈性降低不利于利潤因而采購意願低、英特爾對 DRAM 供應商議價能力遠低于蘋果且需要依靠台積電代工因而不利于成本優化、AI PC 應用不成熟因而消費者不願意爲 Lunar Lake 買單。
他指出,從 Lunar Lake 失敗可見,英特爾面臨的挑戰不僅是制程落後,更深層的問題在于産品規劃能力(另一證明爲 AMD 在服務器的占有率持續提升),制程技術或許隻是表象,導緻一連串錯誤産品決策的組織機制可能才是英特爾的核心問題。
郭明錤的看法可能不是完全正确,但他确實指出了英特爾産品線的一個核心問題:混亂。
英特爾的服務器芯片暫且不做讨論,面向消費市場的芯片已經亂成了一團亂麻,試想一下,倘若一個消費者對過往幾年的英特爾處理器續航感到失望,但在 Lunar Lake 上卻驚喜地獲得了比肩 ARM MacBook 的續航,但當下一代推出時,這樣優秀的續航表現卻消失不見,消費者内心會作何想法呢?
話說回來,英特爾的 18A 制程即将量産,但對于它自己的處理器來說,卻并不是什麽好消息,這一制程目前有且隻有英特爾自家會用,尚未敲定任何大客戶,每一次制程升級都像是摸着石頭過河,對比之下,台積電卻有足夠的客戶來驗證和改良自己的最新制程,愈發凸顯英特爾的尴尬。
英特爾砍掉 Lunar Lake 的更深層原因,不僅僅是内存影響利潤那麽簡單,對于如今的首席執行官基辛格來說,最頭疼的就是如何做好處理器部門和代工部門之間的平衡,如果處理器部門未來持續選擇台積電代工,那麽代工部門處境就會更加艱難,但如果處理器部門遲遲得不到最先進的制程技術,那麽不光是服務器市場,連消費市場也會被競争對手奪走。
歸根結底,就是一個讓誰吃苦的問題,很顯然,誰都不想過幾天苦日子。
但回想一下,蘋果爲了一塊指甲蓋大小的芯片,又吃了多少苦呢,從摩托羅拉 68K 到 PowerPC,再到英特爾,三度改換門庭,手機芯片也曾一度隻能仰人鼻息,看三星的臉色行事,花了幾年導入台積電,最終推出自研的 M1 芯片,其中的坎坷都可以寫成一本血淚史了。
而英特爾如今要吃這一點苦,比起前幾十年的順風順水,又算得了什麽呢?
本文來自微信公衆号:半導體行業觀察 (ID:icbank),作者:邵逸琦