圖片來源 @視覺中國
文 | 極客電影 Geekmovie
英偉達再次站到了時代浪潮之上:
被 ChatGPT 選中的英偉達成功擺脫 " 礦圈 " 影響,并且極有可能在未來成爲 AI 領域的核 " 芯 "。
過去三十年間,英偉達制造的芯片幾乎主導了整個遊戲和計算機圖像産業,而人工智能業務的增長爲它帶來了新的盈利方向。
英偉達創始人黃仁勳在十年前的深謀遠慮,讓公司得以乘着時代風口 " 起飛 "。
縱觀英偉達的崛起,靠的絕不是運氣。
圖形處理「霸主」成長史
英偉達的英文名稱 NVIDIA 前兩個字母 NV=Next Version(下一個版本);
NVIDIA 是拉丁語" 嫉妒 "的意思,他們希望自己産品的計算速度可以快到讓所有人都嫉妒,所以選擇了代表羨慕嫉妒恨的綠眼睛作爲公司标志。
英偉達創始人黃仁勳,1963 年出生,9 歲時移民美國,後進入在俄勒岡州立大學學習電氣工程,并在斯坦福獲得碩士學位。
上世紀八九十年代,畢業後的黃仁勳曾在 AMD 和 LSI Logic 工作。在 LSI Logic 設計部門工作了兩年之後,黃仁勳轉崗到了銷售部門——這是他自認爲 " 人生最佳 " 的職業轉型,銷售經驗讓他學會了 " 産品和市場結合才是成功關鍵 "。
之後,黃仁勳結識了 Chris Malachowsky 和 Curtis Priem 兩位曾經在 SUN 工作過的技術人員,三個工程師常聚在聖何塞 Berryessa 立交橋旁的小破店 Denny's 裏喝咖啡,讨論如何加快電子遊戲中 3D 圖像的渲染速度。
1993 年,三人共同在加州一個小公寓裏創立了英偉達公司。
△ 英偉達的三個創始人
△ 黃仁勳(右)
1999 年,幾經市場失敗瀕臨破産邊緣的英偉達,在裁掉大部分員工後,推出了号稱是世界上第一款官方 GPU —— GeForce 256。
這是第一款允許自定義陰影和照明效果的可編程顯卡。到 2000 年,英偉達已成爲微軟第一款 Xbox 的獨家圖形引擎供應商。
" 微軟推出 XBOX 的時機,恰好是我們投入研究可編程着色器(Programmable shader)的時候,它定義了計算機圖形學的底層邏輯。" 創始人黃仁勳說。
天時地利人和,英偉達的 GPU 順勢成爲最主流的圖形處理芯片。
30 年前,矽谷研發圖形處理芯片的公司群雄逐鹿,如今幾乎隻剩英偉達和 AMD 還活着,首席執行官仍是創始人的公司更是少見。
這就必須提到黃仁勳在 2006 年下的大賭注——他們發布了一個名爲CUDA(Compute Unified Device Architecture)的軟件工具包。
當年 CUDA 剛問世的時候,華爾街對其市值估值爲 0 美元。" 直到 2016 年,即 CUDA 問世 10 年後,人們才突然意識到,這是一種截然不同的計算機程序編寫方式," 英偉達深度學習研究副總裁 Bryan Catanzaro 說。
正是他們搭建的 CUDA 開發者平台以其易用性和通用性,讓 GPU 可以用于通用超級計算,最終推動英偉達迅速擴張爲圖形處理領域的霸主。
從遊戲到「挖礦」,再到 ChatGPT
英偉達的 GPU 一度成爲了加密貨币領域中的硬通貨,遊戲顯卡價格被炒高,英偉達的股票也曾一度高達 319 美元。
盡管英偉達爲 " 挖礦 " 專門設計了一款 GPU(NVIDIA CMP hx series),但仍然擋不住 " 淘金者們 " 購買遊戲顯卡。
顯卡短缺大概到 2022 年初結束,同年英偉達發布的 40 系列 GPU ( GeForce RTX 4080),定價 $1199,遠遠高于 30 系列 $699 的價格,這讓遊戲玩家大爲震撼。
顯卡供需恢複正常以後,英偉達在遊戲行業的營收下降了 46%,股價随之大跌,芯片巨頭急需業務調整。
" 突然一個聽起來不可能的軟件發現了你 " —— OpenAI 購買了 10000 個 GPU 用于 AI 計算,此後,英偉達開始正式成爲人工智能背後的中堅力量。
△ 2016 年,黃仁勳向 OpenA 的創始人之一馬斯克交付全球首款用于人工智能加速分析的超級計算機 DGX-1
被 AI 選中的英偉達AI 爲什麽選擇 GPU?
英偉達在 1996 年發布 GeForce256 時,就率先提出 GPU(圖形處理器)概念,從此英偉達顯卡芯片就等同了 GPU。
GPU 包含成百上千的核心,每個核心處理一個像素點,這樣就可以在同一時間内完成對圖片中所有像素點的處理。
GPU 這種基于大量計算核心的結構,讓它特别擅長做那些計算密集且可以大量并行執行的運算,深度學習和 AI 應用就符合這個特點,而且 AI 應用裏最常見的卷積運算本質是加減乘除這類簡單運算。
這也是 GPU 與中央處理器 CPU 最大的區别:
CPU 适用于需要按時序進行的複雜運算,就像一個淵博的數學教授,什麽問題都會,但是雇他的成本很高;
而 GPU 就像一千個小學生,可同時進行大量簡單運算,又便宜又快。
GPU 如何推動 AI 人工智能的發展?
GPU 算力提升是 AI 得以實現的基礎,而 AI 領域的算法進步也讓 GPU 算力提升成爲可能。
2009 年,斯坦福人工智能研究員推出了 ImageNet,這是一個标記圖像的集合,用于訓練計算機視覺算法;
2012 年,被稱作 " 神經網絡之父 " 和 " 深度學習鼻祖 " 的多倫多大學教授傑弗裏辛頓和他的博士生 Alex 發表了AlexNet,把在 GPU 上訓練的卷積神經網絡與 ImageNet 數據結合,創造出世界上最好的視覺分類器,一舉獲得 ImageNet LSVRC-2010 競賽的冠軍,錯誤率隻有 15.3%, 遠超第二名的 26.2%。
△ AlexNet 原理
同年,英偉達發布了名叫開普勒(Kepler)的 GPU 架構,從 2012 年的 " 開普勒 " 芯片到 2020 年的安培(Ampere)架構,GPU 的芯片性能在 8 年裏提升了 317 倍。
英偉達能取得這樣成就,主要有兩個方面的原因:
首先是半導體制造工藝的進步,這部分功勞當歸功于台積電和三星這樣的芯片制造商。在芯片架構不變的情況下,單靠工藝的升級,性能也會有好幾倍的提升。
另外一個非常重要的原因,就是在英偉達自己在芯片架構上的優化:
首先是張量核心(Tensor Cores)的引入。
△ Tensor Cores 是一種專爲深度學習而設計的計算核心,它執行的是一種特别的矩陣式數學運算方式,非常适用于深度學習訓練
2017 年 12 月英偉達發布了首次采用具有 Tensor Cores 的 GPU,專門用于 AI 領域、特别是計算機深度學習。這就是爲什麽幾乎所有深度學習超級計算機都選擇了英偉達的 GPU。
△ 英偉達 Tensor Cores GPU
其次是,支持更低精度的數據運算。
這是因爲研究 AI 算法的人發現,精度下降造成的準确度下降可忽略不計,因此選擇更低的精度能大幅提升算力。
同時,Tensor Cores 使人工智能程序員能夠使用混合精度來實現更高的吞吐量而不犧牲精度,即針對不同的任務執行不同的精度需求,節約了大量算力。
同樣能帶來算力提升的,是結構化剪枝(壓縮)技術。
剪枝技術是本科畢業于清華大學,現任麻省理工副教授的韓松提出的一種 AI 模型的壓縮技術。他發現在 AI 模型中,神經元之間的聯系有着不同的緊密程度,剪掉一些不那麽重要的連接,基本不會影響模型的精度。
△ 剪枝壓縮技術
而近年來神經網絡模型裏新秀Transformer 模型,給算法技術層面帶來了大幅進步。
△ Transformer 模型
在 NLP 領域取得的研究進展都和 Transformer 息息相關 , OpenAI 采用的 GPT-3 模型,就是受到了 Transformer 模型的啓發,參數的數量達到了 1750 億個。
然而 Transformer 模型需要更大的運算量,也就意味着硬件水平得配套。于是英偉達開發了專用于 Transformer 模型的計算引擎,以适應 AI 的算力需求。
由此可見,AI 算法領域的科研成果和 GPU 的性能是彼此促進、互相提攜的。
巨頭入場,圖形芯片越來越卷
雲計算和互聯網大廠紛紛下場做自己的芯片,就是提供更強大的算力,降本增效,來滿足不同應用場景的需求。
比如蘋果的 M1 芯片,就是爲了讓它的産品在視頻剪輯等細分場景的應用上有更強表現,而舍棄了通用性。
而英偉達、英特爾設計的芯片更具通用性——芯片設計廠商在通用性和專用性上的取舍,其實體現了他們在商業價值上的自我預期。
2013 年,谷歌開始研發用于 AI 場景的 TPU 芯片,目的是爲了解決公司内部日益龐大運算需求與成本問題。這些芯片幾乎隻能用于解決矩陣運算,也算是舍棄通用性,追逐專用性的極端了。
甚至連亞馬遜都在 2013 年推出了 Nitro1 芯片,同樣是服務其自身電商業務。
國内互聯網大廠也不甘示弱:
字節的芯片團隊劃出了服務器芯片、AI 芯片、視頻雲芯片三大類;
快手發布了視頻雲服務品牌 StreamLake,推出雲端智能視頻處理 SoC 芯片 SL200,據說這款芯片擁有 " 世界上最快的 " 視頻壓縮效率;
2017 年,百度和老牌半導體公司賽靈思合作了一款 XPU 芯片,并在此基礎上自研了雲端全功能 AI 芯片 " 昆侖 "......
曾經英偉達的客戶,正在變成它的對手。面對芯片行業越來越卷,黃仁勳則很平常心,他認爲有競争是好事。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App