光芯片,速度驚人
最近兩年的人工智能繁榮,讓英偉達憑借 GPU 登上了芯片之巅。于是包括 AMD、Intel、Graphcore、Cerebras 和 Tenstorrent 等在内的傳統和新貴芯片企業試圖在這個領域将英偉達拉下馬。
不過,雖然他們都非常努力,但似乎依然難動英偉達分毫。于是,市場上又冒出來了一群 AI 芯片新公司,他們希望用不同的架構和思路,以期将英偉達趕下神壇。
下面我們來盤點一下最近比較熱門的挑戰者。
每個模型都要有相應的 AI 芯片
這是來自 Taalas 公司創始人 Ljubisa Bajic 的觀點。提示一下,Ljubisa Bajic 還有一個身份,那就是他也是 Tenstorrent 的創始人,Jim keller 曾經親密的合作夥伴。
在離開 Tenstorrent 一年之後,Ljubisa Bajic 終于在最近帶來了他的新公司。
Ljubisa Bajic 表示,即使是當今的專用人工智能芯片也過于通用化,無法滿足其需要。他的新初創公司 Taalas(印地語是鎖匠的意思)承諾通過開發最終針對特定型号的架構和芯片,将效率障礙再次突破幾個數量級。
據介紹,新公司已從 Quiet Capital 和 Pierre Lamond 處通過兩輪迷你融資(1200 萬美元和 3800 萬美元)籌集了 5000 萬美元,根據他們的設想,矽可以在制造時進一步優化以适應特定型号。雖然人工智能和機器學習在軟件和硬件方面都在快速發展,但我們開始看到 " 足夠好 " 模型的趨勢,專用計算路徑确實預示着更專用、更高效的芯片方法。
我們認爲 Taalas 最終将使用一種強化的可配置硬件——存在于真正固定功能 ASIC/DSP 或完全可重新配置的硬件解決方案(如 FPGA 或 CGRA)(兩者都具有在人工智能領域也找到了利基)。該領域的許多芯片設計公司都運行 eASIC(即結構化 ASIC)業務,其中底層硬件是可配置的,但在最終制造時可以鎖定爲給定的配置。這使得制造過程仍然可以創建通用可編程芯片,但可以減少部署到客戶市場的可重新配置開銷。
據 Taalas 稱,這解決了當今人工智能硬件的兩個主要問題——功效和成本。機器學習在消費者日常生活中的預期普及程度将像電力一樣無處不在,因此它将存在于從汽車到白色家電到智能電表以及所有可以電氣化的堆棧中的一切事物中。爲了滿足成本、計算能力 / 效率的需求,以及這些設備中的一些 / 大多數設備永遠不會連接到互聯網的事實,該硬件需要在部署時專用并固定。隻有當計算工作負載固定(或簡單)時才會發生這種情況,Taalas 和 Ljubisa 認爲這是一個即将到來的前沿領域(如果今天還沒有出現的話)。
在新聞稿中他們 Ljubisa Bajic 表示:" 人工智能就像電力——一種需要向所有人提供的基本商品。人工智能的商品化需要計算能力和效率提高 1000 倍,這是通過當前漸進方法無法實現的目标。前進的道路是實現 " 我們不應該在通用計算機上模拟智能,而應該将智能直接注入矽中。在矽中實施深度學習模型是實現可持續人工智能的最直接途徑。"
Taalas 正在開發一種自動化流程,用于在矽中快速實施所有類型的深度學習模型(Transformers、SSM、Diffusers、MoE 等)。專有的創新使其一款芯片能夠容納整個大型人工智能模型,而無需外部存儲器。硬連線計算的效率使單個芯片的性能優于小型 GPU 數據中心,從而爲 AI 成本降低 1000 倍開辟了道路。
" 我們相信 Taalas 的‘ direct to silicon ’代工廠實現了三項根本性突破:大幅重置當今人工智能的成本結構,切實可行地實現模型尺寸接下來 10-100 倍的增長,以及在任何消費設備上本地高效運行強大的模型。Quiet Capital 合夥人 Matt Humphrey 表示:" 對于人工智能未來的可擴展性而言,這可能是當今計算領域最重要的使命。我們很自豪能夠支持這個出色的 n-of-1 團隊來完成這件事。"
簡而言之,如果您需要在産品中使用具有 7B 參數的 Llama2 型号,并且該公司确定這就是它在整個生命周期中所需要的全部,那麽可以爲該手持設備提供最低功耗和最低成本的專用硬核 Llama2-7B 芯片和型号設備就是您可能需要的一切。
據了解,Taalas 團隊位于加拿大多倫多,擁有來自 AMD、NVIDIA 和 Tenstorrent 的專業知識。該公司将于 2024 年第三季度推出首款大型語言模型芯片,并計劃于 2025 年第一季度向早期客戶提供。
韓國 AI 芯片:功耗和尺寸大幅下降
來自韓國科學技術院 ( KAIST ) 的科學家團隊在最近的 2024 年國際固态電路會議 ( ISSCC ) 上詳細介紹了他們的 "Complementary-Transformer" 人工智能芯片。新型 C-Transformer 芯片據稱是全球首款能夠進行大語言模型(LLM)處理的超低功耗 AI 加速器芯片。
在一份新聞稿中,研究人員對瘋狂叫闆 Nvidia ,聲稱 C-Transformer 的功耗比綠色團隊的 A100 Tensor Core GPU 低 625 倍,尺寸小 41 倍。它還表明,三星晶圓代工芯片的成就很大程度上源于精細的神經拟态計算技術。
盡管我們被告知 KAIST C-Transformer 芯片可以完成與 Nvidia 強大的 A100 GPU 之一相同的 LLM 處理任務,但我們在新聞或會議材料中都沒有提供任何直接的性能比較指标。這是一個重要的統計數據,由于它的缺失而引人注目,憤世嫉俗的人可能會猜測性能比較不會給 C-Transformer 帶來任何好處。
上面的圖片有一張 " 芯片照片 " 和處理器規格的摘要。您可以看到,C-Transformer 目前采用三星 28nm 工藝制造,芯片面積爲 20.25mm2。它的最高運行頻率爲 200 MHz,功耗低于 500mW。最好的情況下,它可以達到 3.41 TOPS。從表面上看,這比 Nvidia A100 PCIe 卡聲稱的 624 TOPS 慢 183 倍(但 KAIST 芯片據稱使用的功率低 625 倍)。然而,我們更喜歡某種基準性能比較,而不是查看每個平台聲稱的 TOPS。
C-Transformer 芯片的架構看起來很有趣,其特點是三個主要功能塊:首先,Homogeneous DNN-Transformer / Spiking-transformer Core ( HDSC ) 和混合乘法累加單元 ( HMAU:Hybrid Multiplication-Accumulation Unit ) 可以有效處理動态變化的分布能量。其次,我們有一個輸出尖峰推測單元(OSSU:Output Spike Speculation Unit)來減少尖峰域處理的延遲和計算量。第三,研究人員實施了帶有擴展符号壓縮(ESC:Extended Sign Compression)的隐式權重生成單元(IWGU:Implicit Weight Generation Unit),以減少外部存儲器訪問(EMA)能耗。
據解釋,C-Transformer 芯片不僅僅添加了一些現成的神經拟态處理作爲其壓縮 LLM 大參數的 "special sauce"。韓國科學技術院的新聞稿稱,此前,神經拟态計算技術對于法學碩士的使用不夠準确。然而,研究團隊表示,它 " 成功提高了該技術的準确性,以匹配 [ 深度神經網絡 ] DNN"。
盡管由于沒有與行業标準人工智能加速器進行直接比較,第一款 C-Transformer 芯片的性能存在不确定性,但毫無疑問,它将成爲移動計算的一個有吸引力的選擇。同樣令人鼓舞的是,研究人員利用三星測試芯片和廣泛的 GPT-2 測試取得了如此大的進展。
徹底改變人工智能的芯片
最近,普林斯頓大學的先進人工智能芯片項目由 DARPA 和 EnCharge AI 支持,有望顯着提高能源效率和計算能力,旨在徹底改變人工智能的可及性和應用。
普林斯頓大學電氣和計算機工程教授納文 · 維爾馬 ( Naveen Verma ) 表示,新硬件針對現代工作負載重新設計了人工智能芯片,并且可以使用比當今最先進的半導體少得多的能源運行強大的人工智能系統。領導該項目的維爾馬表示,這些進步突破了阻礙人工智能芯片發展的關鍵障礙,包括尺寸、效率和可擴展性。
" 最好的人工智能僅存在于數據中心,有一個非常重要的限制," 維爾馬說。" 我認爲,你從中解鎖了它,我們從人工智能中獲取價值的方式将會爆炸。"
在普林斯頓大學領導的項目中,研究人員将與 Verma 的初創公司 EnCharge AI 合作。EnCharge AI 總部位于加利福尼亞州聖克拉拉,正在将基于 Verma 實驗室發現的技術商業化,其中包括他早在 2016 年與電氣工程研究生共同撰寫的幾篇重要論文。
根據項目提案,Encharge AI" 在強大且可擴展的混合信号計算架構的開發和執行方面處于領先地位 "。Verma 于 2022 年與前 IBM 院士 Kailash Gopalakrishnan 和半導體系統設計領域的領導者 Echere Iroaga 共同創立了該公司。
Gopalakrishnan 表示,當人工智能開始對計算能力和效率産生大量新需求時,現有計算架構的創新以及矽技術的改進開始放緩。即使是用于運行當今人工智能系統的最好的圖形處理單元 ( GPU ) ,也無法緩解行業面臨的内存和計算能源瓶頸。
" 雖然 GPU 是當今最好的可用工具," 他說," 但我們得出的結論是,需要一種新型芯片來釋放人工智能的潛力。"
普林斯頓大學 凱勒工程教育創新中心主任 Verma 表示,從 2012 年到 2022 年,人工智能模型所需的計算能力實現了指數級增長。爲了滿足需求,最新的芯片封裝了數百億個晶體管,每個晶體管之間的寬度隻有一個小病毒的寬度。然而,這些芯片的計算能力仍然不足以滿足現代需求。
當今的領先模型将大型語言模型與計算機視覺和其他機器學習方法相結合,每個模型都使用超過一萬億個變量來開發。推動人工智能熱潮的英偉達設計的 GPU 變得非常有價值,據報道,各大公司都通過裝甲車運輸它們。購買或租賃這些芯片的積壓已經達到了消失的程度。
爲了創建能夠在緊湊或能源受限的環境中處理現代人工智能工作負載的芯片,研究人員必須完全重新構想計算的物理原理,同時設計和封裝可以使用現有制造技術制造并且可以與現有計算技術良好配合的硬件,例如中央處理單元。
" 人工智能模型的規模呈爆炸式增長," 維爾馬說," 這意味着兩件事。" 人工智能芯片需要在數學計算方面變得更加高效,在管理和移動數據方面也需要更加高效。
他們的方法分爲三個關鍵部分。
幾乎每台數字計算機的核心架構都遵循 20 世紀 40 年代首次開發的看似簡單的模式:在一個地方存儲數據,在另一個地方進行計算。這意味着在存儲單元和處理器之間傳輸信息。在過去的十年中,Verma 率先研究了一種更新方法,其中計算直接在内存單元中完成,稱爲内存計算。這是第一部分。内存計算有望減少移動和處理大量數據所需的時間和能源成本。
但到目前爲止,内存計算的數字方法還非常有限。維爾馬和他的團隊轉向了另一種方法:模拟計算。那是第二部分。
" 在内存計算的特殊情況下,你不僅需要高效地進行計算,"Verma 說," 你還需要以非常高的密度進行計算,因爲現在它需要适合這些非常小的内存單元。" 模拟計算機不是将信息編碼爲一系列 0 和 1,然後使用傳統邏輯電路處理該信息,而是利用設備更豐富的物理特性。
數字信号在 20 世紀 40 年代開始取代模拟信号,主要是因爲随着計算的指數級增長,二進制代碼可以更好地擴展。但數字信号并沒有深入了解設備的物理原理,因此,它們可能需要更多的數據存儲和管理。這樣他們的效率就較低。模拟通過利用設備的固有物理特性處理更精細的信号來提高效率。但這可能會犧牲精度。
維爾馬說:" 關鍵在于找到适合該工作的物理原理,使設備能夠被很好地控制并大規模制造。"
他的團隊找到了一種方法,使用專門設計用于精确開關的電容器生成的模拟信号來進行高精度計算。這是第三部分。與晶體管等半導體器件不同,通過電容器傳輸的電能不依賴于材料中的溫度和電子遷移率等可變條件。
" 它們隻依賴于幾何形狀," 維爾馬說。" 它們取決于一根金屬線和另一根金屬線之間的空間。" 幾何形狀是當今最先進的半導體制造技術可以控制得非常好的一件事。
光芯片,速度驚人
賓夕法尼亞大學的工程師開發了一種新芯片,它使用光波而不是電力來執行訓練人工智能所必需的複雜數學。該芯片有可能從根本上加快計算機的處理速度,同時降低能耗。
該矽光子 ( SiPh ) 芯片的設計首次将本傑明 · 富蘭克林獎章獲得者和 H. Nedwill Ramsey 教授 Nader Engheta 在納米級操縱材料方面的開創性研究結合在一起,利用光(可能是最快的通信方式)進行數學計算 SiPh 平台使用矽,矽是一種廉價且豐富的元素,用于大規模生産計算機芯片。
光波與物質的相互作用代表了開發計算機的一種可能途徑,這種計算機可以取代當今芯片的局限性,這些芯片本質上與 20 世紀 60 年代計算革命初期的芯片相同的原理。
在《自然光子學》雜志上發表的一篇論文中,Engheta 的團隊與電氣和系統工程副教授 Firooz Aflatouni 的團隊一起描述了新芯片的開發過程。
" 我們決定聯手,"Engheta 說道,他利用了 Aflatouni 的研究小組率先開發納米級矽器件的事實。
他們的目标是開發一個平台來執行所謂的向量矩陣乘法,這是神經網絡開發和功能中的核心數學運算,神經網絡是當今人工智能工具的計算機架構。
Engheta 解釋說," 你可以将矽做得更薄,比如 150 納米 ",而不是使用高度均勻的矽晶片,但僅限于特定區域。這些高度的變化(無需添加任何其他材料)提供了一種控制光在芯片中傳播的方法,因爲高度的變化可以分布以使光以特定的圖案散射,從而使芯片能夠執行數學計算以光速。
Aflatouni 表示,由于生産芯片的商業代工廠施加的限制,該設計已經爲商業應用做好了準備,并且有可能适用于圖形處理單元 ( GPU ) ,随着廣泛應用,圖形處理單元 ( GPU ) 的需求猛增。對開發新的人工智能系統的興趣。
" 他們可以采用矽光子平台作爲附加組件,"Aflatouni 說," 然後就可以加快訓練和分類速度。"
除了更快的速度和更少的能耗之外,Engheta 和 Aflatouni 的芯片還具有隐私優勢:由于許多計算可以同時進行,因此無需在計算機的工作内存中存儲敏感信息,使得采用此類技術的未來計算機幾乎無法被黑客攻擊。
" 沒有人可以侵入不存在的内存來訪問你的信息," 阿弗拉圖尼說。
其他合著者包括賓夕法尼亞大學工程學院的 Vahid Nikkhah、Ali Pirmoradi、Farshid Ashtiani 和 Brian Edwards。