英偉達在 2024 年 2 月 14 号的時候推出了這麽一個産品,叫做 Chat with RTX。顧名思義,就是和英偉達的顯卡聊天。簡單來說 Chat with RTX 是一個本地部署的大語言模型工具,可以實現和大語言模型對話,還支持處理多種文件類型,用戶可以與其進行文本、PDF、Word 文檔等多種格式内容的交互。
上手體驗:有點弱
體驗了一下,無論模型選擇 Mistral 還是 Llama 2,中文的交互都不太順暢,倒是英文的表現還說得過去。Chat with RTX 的确展現了相當出色的資料索引能力,能讀懂絕大多數英文的資料。可是到看視頻的部分,除了英偉達自己發布的一些視頻外,Chat with RTX 幾乎沒辦法完全看懂任何一部視頻。一開始我以爲是跟顯卡有關,我的顯卡是 3080,性能遠不如現在的卡皇 4090。但是當看到一位使用 4090 顯卡的用戶也有相同的吐槽後,我一下子就釋懷了。
int4 量化
可以看到,出現在 Chat with RTX 裏的,并不是我們記憶裏的 Llama 2 和 Mistral,而是這兩個模型後面還帶着一行 " 小尾巴 ",上面寫着 INT4。這個 INTX 代表的是量化級别,因爲大語言模型需要在内存和顯存裏運行,所以當部署到本地的時候,考慮到個人電腦性能遠不如服務器,所以需要量化來爲模型繼續擰 " 瘦身 "。INT8 量化是使用 8 位有符号整數來近似原本 32 位浮點數(FP32)的權重和激活值,其數值範圍是 -128 至 127。INT4 量化是進一步壓縮到 4 位整數,這意味着更少的數據存儲空間,但數值範圍僅爲 -8 至 7 或 0 至 15。INT4 量化會帶來更大程度的精度損失,因爲它所能表達的數值更有限,可能導緻更多的信息丢失,特别是在需要較高精度的任務中。
Chat with RTX 最大的意義是它能真正意義上實現全程無聯網,所有計算資源、資料庫全部來自于本地數據。對于大語言模型而言,能實現到這種程度是非常難的。市面上幾乎所有号稱本地部署的模型,本質上并不能脫離聯網狀态,尤其是手機上的大語言模型。
這些模型的做法是把預處理和後處理這兩個部分放到手機裏,而訓練和推理這些消耗資源比較大的部分放到雲端來進行。我們講大模型的整個運行過程都是要放在内存裏來跑的,其中一個很重要的原因是大語言模型它是連續分布的,模型在内存中以連續的一塊内存區域存放,确保了向量和矩陣操作的連續性和并行計算的可行性。
以個人電腦的硬件水平,如果不做特殊處理是根本不可能實現的,也就意味着它不可能完全将大語言模型本地部署,最低限度也要将訓練和推理這兩個消耗比較大的部分搬到網上。
Chat with RTX 能把所有的部分全都在本地完成,而且整個運行過程中我沒有感受到電腦絲毫的卡頓,響應速度也比 ChatGPT、Gemini 要快。
意在喊話:未來還是我英偉達支配的未來
英偉達他是一個遊戲公司啊。免費推出 Chat with RTX 的本意跟所有遊戲廠商放出遊戲 demo 的性質是一模一樣的。比如就在 Chat with RTX 發布的前幾天,科樂美發布的免費遊戲《寂靜嶺:短信》,這個遊戲一共兩個小時流程,沒有任何内購内容。難道科樂美買賣不幹了,以後就指着發布免費遊戲過瘾?并不是這樣的,他是爲了日後推出的《寂靜嶺》系列重置版打廣告,賠本賺吆喝。
不過當你把 Chat with RTX 給拆開來就會發現,裏面沒有新技術,像是 RTX 加速、RAG,早就已經出現了。英偉推出這個産品最大的作用是打廣告,尤其是 Chat with RTX 裏面 TensorRT 這樣的技術,此前隻出現在 H100、H200 這種規格的 GPU 上,我們老百姓使用的 30 系列 40 系列顯卡根本沒有。而 Chat with RTX 則是完美地将這個技術呈現到了消費者層面。
但是要注意,Chat with RTX 裏面的 TensorRT 也好,RAG 也好,想要調用他們幾位大哥,都需要對應的權限。雖然我們矽星人是人工智能的媒體,不過我這裏還需要先補充一些硬件知識,以便下文做鋪墊。在計算機裏,應用程序通常是不直接調用硬件資源的,而是通過系統 API 向操作系統申請使用硬件資源。比如我打遊戲,計算機需要把遊戲畫面展示給我看,可應用程序并不會直接讀寫顯卡内存,而是調用圖形 API 如 DirectX 或 OpenGL,由它們将指令轉化爲顯卡可以理解并執行的操作。
而且不同軟件對硬件資源的訪問權限。這是由于系統爲了保護系統的穩定性和安全性,不是所有軟件都能随意訪問任意硬件設備。隻有經過授權或認證的軟件才能獲得必要的權限,比如管理員權限才能安裝新的驅動程序或者訪問敏感硬件。那麽換句話說,如果今後所有開發者需要這些技術,就必須要和英偉達共同開發,變相地形成了裙帶關系。而英偉達本身則可以利用這種局面,形成對人工智能軟件市場的壟斷。
基于 RTX 顯卡的技術可以大幅度加快大語言模型的運行速度,以實現脫網運行。根據英偉達官網給出的信息,英偉達 50 系列搭載了第四代張量核心,人工智能領域的計算性能是上一代的 4 倍。還支持 FP8 精度數據類型的加速,并提供獨立的浮點和整數數據路徑,以加速混合浮點和整數計算的執行。有了它,Chat with RTX 的性能肯定會大幅度增加。
那麽與之相對的,開發者就更要打點好和英偉達的關系。這其中就存在一個裹挾的問題,經常玩遊戲的朋友肯定清楚英偉達 DLSS 的故事。2018 年,随着 RTX 系列顯卡的發布,英偉達推出了第一代 DLSS 技術。這一技術的核心思想是通過訓練一個神經網絡模型來預測高分辨率圖像,從而替代傳統的超級采樣方法。相較于 DLSS,傳統超級采樣需要對每個像素進行多次渲染以減少鋸齒并提高畫面質量,但計算量巨大,非常消耗 GPU 資源。
就拿那時候最火的遊戲《賽博朋克 2077》來說,采用 3060Ti 顯卡,開啓 DLSS 後畫面能來到 75FPS,關閉後連 60FPS 都夠嗆。那麽好,接下來幾乎所有大作都必須得使用 DLSS,除了像《荒野大镖客 2》這種索尼限時獨占的遊戲外,不走 DLSS 幾乎沒辦法達到預期的畫面表現力。
Chat with RTX 的出現,其實也是一種預示,預示英偉達将在大模型領域開啓新的斂财模式,即販賣開發套件。你開發商不買我的開發套件沒問題,但是你沒權限調用我的張量核心,你大模型沒辦法在離線跑起來,就這麽簡單。對消費者和企業大客戶,你必須使用英偉達新的 GPU 産品才能滿足人工智能領域的新需求;對開發者,你必須購買英偉達的人工智能開發套件才有權限調用。大模型成爲了英偉達的聚寶盆。