騰訊科技《 AI 未來指北》把目光聚焦在端側大模型,希望能從模型側、終端側、硬件側立體呈現端側大模型的行業發展趨勢,本文爲第一期。
文 / 騰訊科技 郭曉靜
視頻策劃 / 騰訊科技 吳彬
今年 2 月,搭載高通第二代骁龍 8 芯片的安卓手機,就可以直接運行參數規模超過 10 億的 Stable Diffusion。五月,Google 公布了大語言模型 PaLM2,其包含四個不同尺寸的大模型,其中參數量最小的 " 壁虎 " 可以在手機上運行,即使不聯網也能正常工作,且運行速度足夠快。
與此同時,高通提出了混合 AI 的概念—— AI 處理最好要分布在雲端和終端同時進行,才能實現 AI 的規模化擴展并發揮其最大潛能。
模型和硬件的突破,讓行業看到了将大模型裝進手機終端的可能性。手機與深度學習的結合并不是一件新鮮事,在智能手機剛開始崛起的 2008 年前後,深度學習就已經開始被應用在圖像處理、AI 語音助手等功能中。
但現在的手機大模型與當時的端側機器學習有着本質不同。融入手機系統中的大模型可以打破各應用之間的壁壘,在打造自身垂直整合、軟硬結合的生态方面,意義非凡。在行業整體增長放緩的情況下,手機端大模型成爲了廠商提升自身核心競争力、打造差異化用戶體驗的重要方向。
根據 IDC 預測,到 2026 年,中國市場中近 50% 的終端設備的處理器将帶有 AI 引擎技術。目前已有多家手機廠商開始布局:榮耀 Magic V2 在今年 7 月就将 AI 大模型引入端側;華爲将智慧助手 " 小藝 " 接入盤古大模型。
手機終端的大模型之戰愈演愈烈,基于此,騰訊科技《 AI 未來指北》把目光聚焦在端側大模型,希望能從模型側、終端側、硬件側立體呈現端側大模型的行業發展趨勢。本期我們将視角聚焦在 8 月宣布入局手機大模型的小米公司。
雷軍在小米年度演講中表示:" 小米自研的 13 億參數大模型已經在手機本地跑通,且在部分場景可以媲美 60 億參數模型在雲端運行的結果。"
在官宣手機在本地跑通之後,小米技術委員會 AI 實驗室大模型團隊負責人栾劍與騰訊科技分享了小米在研發手機大模型過程中的關鍵性思考,這也是他自接任小米 AI 實驗室大模型團隊負責人之後首次與外界進行深度對話:
①小米是如何定義自己已 " 跑通 " 了手機大模型?
② 13 億參數的大模型在手機端能夠 " 跑通 ",軟硬件配合的基本要求是什麽?
③ 13 億參數大模型如何在某些場景媲美 60 億參數的雲端模型?小米更看重哪些應用場景?
⑤手機端大模型對未來的智能手機,意味着哪些可能性?
以下爲對話内容精華:
騰訊科技:手機與深度學習的結合并不是新鮮事。現在手機和大模型的結合與之前相比,有什麽本質上的不同?
栾劍:手機和 AI 的結合其實很早就有了,比如在拍照中對照片的調整——背景虛化、調整光線等。現在把大模型加入手機,應該說是一個升級。大模型提高的是自然語言的交互,包括文字處理的能力、多模态的處理能力等。
過去大家經常調侃,有多少 " 人工 ",就有多少 " 智能 ",其實主要是指自然語言的理解能力、泛化能力不夠強。手機可能 " 聽到了 ",但是 " 聽不太懂 "。加入大模型,主要就是想增強自然語言的理解能力。
騰訊科技:在不久前的小米發布會上,雷總說已經把手機端的大模型跑通了,所謂的 " 跑通 " 是如何定義的?
栾劍:我們對跑通的定義可能和很多人的理解不太一樣。在小米發布端側大模型之前,網上也有一些視頻 Demo,說在手機上已經把大模型跑通了。但是我覺得是否跑通有三個關鍵因素:
第一、内存的問題。大模型的特點首先是 " 大 ",手機上的内存是不是能夠把模型運行起來?如果工作内存的占用率過高,會影響對其它應用的使用,表現爲手機無法響應、整體性能降低、甚至死機。
第二、算力是不是能夠支撐 " 生成速度 "。如果說生成一個字就要幾秒,用戶體驗會非常不好。因爲人的閱讀速度大概一秒鍾十幾個漢字,所以 " 生成速度 " 一定要比這個速度快,不能讓用戶去等。
第三、就是功耗問題。這也是網上很多在手機上跑大模型的 Demo 沒有去關注的問題。計算芯片負載過高會帶來手機發燙,長時間使用會造成電池續航時長大大降低。
以上三個問題如果沒有解決,Demo 就隻能是 Demo,永遠無法真正落地。
騰訊科技:小米手機端側大模型公布的參數量是 13 億,按照這個參數量,需要什麽樣的硬件要求,才能做到比較好的産品體驗?
栾劍:我們當然希望最終所有或者大部分手機都能跑大模型,對硬件的要求越少越好。但是在第一步,我們會先在内存最大、算力最強的手機上做實驗。即使這樣也有很多的難點。比如從功耗上來講,我們最看好 NPU 的方案。根據之前小米在端側落地 AI 模型的經驗,同樣的模型推理,使用 NPU 的功耗會比 CPU 和 GPU 小很多。但是很多 NPU 的芯片有内存使用的上限,我們需要想辦法繞過。
另外就是語言大模型輸出序列的長度會動态變化,而 NPU 常常會需要固定序列的長度。對模型進行量化,對推理結構和算子的優化,使得每秒生成的 token 數量盡可能多。而這些處理之後還要保證計算的精度損失對生成結果影響盡可能小,以及多次推理之間結果的穩定性,等等。所以把大模型放到端側是一個複雜的過程,需要解決很多問題。
騰訊科技:還有一個關于手機跑大模型的 " 調侃 ":如果手機端都能支持大模型,那要英偉達的卡做什麽?你怎麽看這個問題?
栾劍:這個問題要分成兩件事情來看。一個是訓練,模型訓練需要巨大的算力,一定都會在雲端進行,在千卡甚至萬卡的集群上來完成。而手機端的應用,其實我們指的是推理。在推理的時候,模型可以隻激活一部分的模塊、一部分的神經元來計算,在這種情況下,我們是有機會讓算力需求更小一點,消耗的工作内存也更少一點。
端側大模型的優點是,更好地保護大家的隐私數據,第二讓大家可以用更低成本去獲取更多的功能。但絕對不是說用手機端就能解決所有的問題,我們還是會堅持端雲一體化的道路。隻是有一部分能力或者說有一部分功能,可能端側的模型就可以解決了,就沒有必要上升到雲端去。
騰訊科技:所以具體來講,拿一個場景來舉例,我想吃牛排,希望小愛同學幫我找一家最近且評分最高的牛排館,這用到的是端雲混合?
栾劍:對,這就涉及到一個比較複雜的問題,關于信息實時性的問題。如果不考慮實時性,我們把現在已有的關于餐館的所有信息,包括它的點評、美譽度等,全部都送給模型去學習的話,大模型就掌握了一個靜态的知識,實際上它也是可以幫你做推薦的,比如告訴你截止幾月幾号的時候,這家牛排餐廳最适合你。但是如果我們希望實時去更新這個信息系統的話,可能就需要結合雲端的一些能力了。
關于哪些用了端、哪些用了雲,我們其實希望對用戶來說,沒有比較明顯的感知,隻要使用起來是一個特别流暢的服務就好了。
具體來說就是一些簡單的任務,比如寫作、建議等,可能在端側就可以完成。而有一些比如說涉及到了特别複雜的知識體系,涉及到了一些特别實時性的新聞和信息,這個時候就必須要調用雲端的能力,比如說訂火車票、訂酒店。這個不太可能提前就把這些數據都學習到,比如說那家賓館現在還有沒有空房,這個信息一定是實時不斷在更新的。在這個時候就必須要結合雲端的能力了。
騰訊科技:小米的手機端大模型是完全自研的嗎?
栾劍:對,這裏一定要強調一下我們爲什麽要全部自研。因爲雷總(雷軍)其實也提到了小米的科技理念,對人類文明長期有價值的技術領域,我們會堅持長期持續投入。我們覺得大模型技術是 AI 未來發展的一個重要方向,所以我們一定需要自己從頭到尾每個環節都做一遍,積累這方面的經驗,而且去了解在操作過程中的所有細節。
紙上得來終覺淺,如果隻是閱讀論文去理解一下概念,我們覺得還不夠。将來我們如果想繼續在 AI 領域深耕,取得更多的突破,可能都必須基于大模型框架,所以我們堅持要走全自研的道路。
騰訊科技:現在有功能強大的可開源商用的模型,這樣是不是成本更低、效率更高?爲什麽不考慮開源的方案?
栾劍:首先我們需要有自己定制模型結構的能力。在各種設備終端上,使用的芯片不同,就會對模型提出各種各樣的要求,這些要求可能細節到一些算子不支持,或者某種結構運行起來效率不高。我們必須根據硬件提出的要求,對模型結構做一些調整。
如果想修改模型結構的話,就一定需要具備從頭開始訓練的能力。因爲開源模型的結構是固定的,沒有辦法調整,就不能滿足小米的需求。
騰訊科技:雷總說小米不做通用大模型,要堅持研發輕量化的大模型。這是怎麽考慮的呢?
栾劍:我們開始嘗試大模型技術其實非常早,曾經在對話大模型上做過嘗試,所以有經驗和積累,對這項技術本身也有自己的理解。
我們當時就預判可能在年底之前,行業就會出現很多複刻通用大模型能力的公司,那麽我們覺得小米應該還是去發揮自己的特色,而不要說哪裏人多就往哪去紮堆。
我們要去補足這個行業裏面大家還不太重視的,或者說還比較缺的一些方面。小米的特色是什麽?我們覺得小米的特色是有很多的端側設備,怎麽樣把這些端側的設備利用好,把大模型能夠放到端側設備裏面去。首先這就是一件很酷的事情。其次我們也考慮到很多用戶可能對個人數據上傳到雲端是有顧慮的,如果能夠在端側解決很多問題的話,用戶隐私就能得到很好的保護。
同時通用大模型的參數量很大、部署成本很高,将來用戶的使用成本也會是一個很大的問題。在這種情況下,小米又一直希望讓所有人都能體驗到科技帶來的美好生活,所以我們一定要想方設法嘗試一條道路,讓大家既能夠保護數據的安全,也能夠以盡量低的成本去使用這項技術。
騰訊科技:但是關于大模型,用一句俗話說就是 " 暴力出奇迹 ",參數越大,可能泛化能力更好,把參數做小的話,它是否會喪失某些能力?
栾劍:這是個很好的問題,我們對這件事的看法會不太一樣。我們認爲大模型技術本身并不隻是說參數量大,我們更看重的是它帶來了技術的一個新範式。大模型爲什麽會産生這樣的能力,需要首先對它的底層邏輯有一個更清楚的認識和理解。
我們覺得大模型的湧現能力,可能并不完全依賴于參數量大。在訓練數據的選擇上,在訓練策略和訓練任務的選擇上,其實帶來的影響可能更大。也就是說如果我們隻用過去某個傳統任務的數據去訓練的話,即使把模型參數規模做得再大,它可能也達不到我們現在看到的這種湧現能力。
所以我把這個新範式總結成三個 " 大 ":第一是說數據量要大;第二是任務要大;第三才是模型的參數量要大。數據量大,能從中挖掘的常識和知識的豐富度和覆蓋面才大。參數量大,模型才能存儲足夠的知識規模。任務大,或者說任務足夠複雜,才可能迫使模型内部必須将各種子能力模塊化,通過這些模塊化的子能力組合才有可能完成各種各樣的複雜任務。隻有這樣大模型才真正的泛化出一些沒有特意訓練的新能力來,産生湧現。
所以基于這個理解,模型的參數量到底需要多大,其實還有很多探索的空間。最開始的時候很多人說需要千億、萬億的參數規模才能湧現。後來也有一些論文說,我們百億參數的模型好像也能夠湧現。然後前一陣,好像也有論文說 10 億的模型也湧現了。這個趨勢和我們最初的認識非常契合。
騰訊科技:所以現在把參數量做小,13 億的參數,和以前的小模型有本質區别嗎?
栾劍:我認爲本質區别是訓練範式的變化,而不隻是模型大小的變化。因爲即使是一個參數量相對較小的模型,如果用大模型的方式去訓練它,比如預訓練采樣多種多樣的數據,從理論上來說,它還是有機會掌握和人一樣的基礎常識和知識體系。在這個基礎上再去叠代,效果上一定比以前的小模型會有顯著提升。
騰訊科技:所以 13 億參數的手機端模型,是不是也 " 湧現 " 了?
栾劍:對,我們在 13 億參數的模型上觀察到了 " 湧現 "。但是這裏也要強調一點,大家千萬不要認爲 13 億參數的端側模型就能夠完全替代或者完全媲美雲端千億參數的大模型,它們肯定還是有差距。因爲參數規模其實就代表了大模型能存儲的知識量。那麽這個差距有沒有辦法來彌補?
我們說在部分場景媲美了雲端更大的模型的效果,而不是在所有的場景。所以我們會基于對具體場景的深刻認識,專注于用戶使用頻率最高、在某個設備上最可能用到的場景。我們希望端側模型在這些場景做到極緻的效果。
騰訊科技:13 億的手機端模型,在某些場景下可以媲美 60 億參數的雲端大模型,這裏更看重哪些場景?小米内部有沒有排序?
栾劍:關于應用場景,我覺得現在大家都還在探索的階段。我們有一些思考,可能在小米将來的産品發布會上會陸續展示。但是從技術上需要提前證明,一個 13 億參數的模型在任何一個你期望它表現好的目标場景,我們都是有辦法去做定制的。在這個目标場景和需要的知識領域上,我們有能力做極緻的增強。
騰訊科技:小米的端側大模型也去打榜了,如何看待這件事?目前大模型評測并沒有國際公認的标準,爲什麽小米還要去做?
栾劍:大模型的評測确實是一件挺難的事情。剛剛說大模型是一個新的範式,其實一個範式除了對底層邏輯的解釋,也需要有一整套的訓練方法及評估方法。對大模型來說,這一整套合理的評估方法,大家還在探索中,沒有公認的标準。
那麽怎樣去驗證我們這個模型到底訓練得好不好?還是需要找一些方法去測試一下。雖然打榜可能不是一個特别全面、特别完整的方法,但是它也是我們目前能找到的一個比較好的方法,或者說大家還比較認可的方法。最近已經有越來越多的大模型參與了這幾個榜單的評估,尤其在小米發布會之後的這段時間上榜的模型特别密集,大家紛紛把榜單成績越刷越高。
但同時我們還是要清醒地認識到,目前的這些榜單絕大部分都是學科問題,而且是選擇題爲主,所以用它們對評估大模型的能力是有局限性的。如果我們把這些學科的知識、這些學科搜集到的試題,都拿來對大模型做增強學習,它的效果一定可以達到很好。但是做這樣的訓練對大模型其它方面的能力會不會帶來負面的影響呢?我們也觀察到有一些開源的大模型叠代了版本之後,打榜的分數提高得很明顯,但如果測試它的生成能力,比如寫作水平,發現其實是有下降的。
所以我們看待打榜,隻是從一個側面驗證一個基座大模型是不是能在某個領域裏做到極緻,但不代表說它就一定能給用戶帶來最好的應用體驗。
可能将來我們也不太會再強調榜單上的排名,而把主要精力放在小米的産品上面,聚焦怎樣把體驗做好,讓用戶滿意。
騰訊科技:剛才提到了小米有很多多模态的數據,未來如何看待多模态和大模型結合的應用前景?
栾劍:現在行業裏有很多公司開始做多模态大模型,已經有了一些效果,比如根據文字來生成視頻,或者是用文字來搜圖片這樣的一些功能,但是我覺得這些應用還是叫跨模态可能更加合适。
所謂跨模态就是輸入是一種模态,輸出是另外一種模态。而真正的多模态應該輸入可以是多個模态,輸出也可以是多個模态。所以我覺得多模态這條路還在探索的初級階段,其實還有很多技術難點需要解決和突破。
多模态研究的一個思路是認爲人類的絕大部分知識存在于文字當中,所以需要基于大語言模型這個框架。這也是大模型首先在自然語言這個領域取得突破的原因之一,因爲它存儲的知識量最大。
但是還有很多常識是和空間有關系、跟視覺有關系,或者跟聽覺、味覺、觸覺有關系。所以下一步需要考慮把其它模态也放進來,在同一個語義空間裏面和自然語言做對齊,在自然語言搭好的框架裏面不斷補充新的信息和内容,使得大模型最終能真正達到像人類一樣去認識和理解這個世界。
剛才提到的小米的各種設備裏面,除了視覺以外,其實還有各種其他的傳感器,比如溫度傳感器,震動傳感器,或者是海拔、加速度的感知等等,如何讓它們也通過大模型進行處理?
我覺得這是另外一種模态,由純時序的數據組成。如果大模型對它們也能夠充分理解,可能會帶來一些更奇妙的變化,比如通過家居場景的所有設備相互配合完成一些複雜的功能。
騰訊科技:對于手機廠商布局端側大模型這個動作,消費者或用戶會有強烈感知嗎?
栾劍:首先我覺得從手機廠商來說,一定會探索這種可能性。如果不探索的話,未來有可能在這個領域落後。其次從用戶角度來看這件事情,用戶可能一開始不會有那麽強烈的感知用到的是端側還是雲端。但是他們将來一定會發現在一些場景上,比如說一些特别隐私的問題,用端側會更加安全。
其實現在的一些新聞報導,也讓大家開始重視個人隐私的安全。在這種情況下,端側對用戶來說一定是有用的。但同時我覺得這也依賴于手機廠商對硬件和軟件整合的能力,把端側大模型的能力做得越來越強,這