文 | 李智勇
在差不多 10 個月前寫的開源大模型 LLaMA 2 會扮演類似 Android 的角色麽?和AI 個體戶的崛起:普通人 " 屁胡 " 的機會、模式和風險等文章裏提出過AI 産品落地的的三段論:大模型、系統型超級應用、長尾工具。事隔 10 個月回頭再看,AI 發展的走勢基本與此相同。其中大模型、長尾工具大家談論比較多,這次還是專注于系統型超級應用。核心原因是從各種新聞來看國外在這裏已經開始高歌猛進,像一個局點一樣,但國内則相對安靜,似乎被錯過了。可這裏才是 AI 應用的重鎮。拿移動互聯網作類比,安卓是重要也更基礎,但其實可能沒有微信重要。
什麽是系統型超級應用呢?
系統型超級應用這類産品太複雜,實在不好理解,單純類比操作系統也還是不行,所以這次換個路數,我們拿一個最近受衆比較多的 App 豆包以及背後的大模型來做類比,在産品形态、業務模式等各方面說明下這類産品。需要的話大家也可以一邊操作一邊形成直觀感受。
豆包 APP 自身可以看成系統型超級用的面向 C 端的部分,但系統型超級應用不是豆包 APP。
系統是指操作系統,超級應用是指功能沒邊界。
一邊對各種硬件設備進行抽象靠驅動程序接入各種硬件。
一邊對應用進行開放,在它之上可以開發 Office,PS 等各種應用。
兩邊是被隔離的,做應用的時候不需要關注硬件差異,可以無差别的使用硬件的功能或者計算機的計算能力。
系統型超級應用首先具備這種系統特征。
那什麽是超級應用呢?微信如果沒有小程序、支付等一系列子功能而是隻局限于 IM,單是人多那不能被稱之爲超級應用。超級應用一個特征固然是用戶龐大,更關鍵的是通過二次開放應用商店,在功能上沒有邊界。
拿豆包這一簇産品做下類比,第一豆包大模型把各種算法完整進行封裝,比如識别、語音合成、大模型等,提供了一種 AI 的通用計算和算法調度能力,這是通用能力部分。其次你會發現它現在至少在一邊開放了技能商店(火山方舟 / 扣子)。APP 的具體功能由技能來定義。
這個地兒不适合用 "APP" 這個詞形容可自定義的功能,确實用技能更合适。就好比一個機器人它上一秒鍾還不會開直升飛機,但裝載新技能後下一秒就可以了。對機器人而言這是一種技能。
另一邊如果參照操作系統其實是要投射到不同硬件上,這點豆包這一簇産品現在好像就覆蓋了手機和電腦,但這種基于自然語言的應用對端上硬件的資源要求是非常低的,甚至可以放到隻有 1M 内存的設備上。這靠開放平台來覆蓋會更适合,下面會說。(其實這裏還得區分特征是屬于應用的運行時還是屬于純粹的雲服務,小程序是微信的運行時技能,但有點複雜不展開了)
我們總結下這種系統型超級應用的構成,基本上是三位一體:
這裏面容易被低估的可能是類似火山方舟這個位置的産品(CUDA 大概是在這個位置),早期這個位置的産品絕對賠錢,很多時候還得靠降價來反哺它(看發布會豆包大模型把價格訂到:0.0008 元 / 千 Tokens,這确實是敢下狠手,比我在用的便宜很多很多。幹的就是上面說的事)。但其實這裏是通路也是标準,培養粘性和鏈接的地方。看報道,火山方舟在持續升級從模型訓練、推理、評測到精調的全方位服務,還有插件以及工具鏈。打點其實是對的。
基于這個可以預測下面 OpenAI 的行爲,它大概率會補自己直接的 C 端應用(不是簡單套殼)。從 GPT-4o 的發布來看,OpenAI 内部似乎已經統一了認識:往應用方向整。這樣磕下去,科技巨頭裏面估計會多一個,并且大概率會和 Google 直接碰撞,除非再有首席科學家起義。(有點像修仙,阻人成道了就一定會 PK,和喜歡不喜歡沒有關系)。
系統型超級應用的打法
我爲什麽看着好像還算了解這類産品呢?
因爲我一度曾經帶團隊設計了完整的這種超級應用以及其打法,那産品和現在的豆包至少有 60% 的相似度 ......。(但實在幹不動。别的都好說,這類産品太費錢了,再加上上代技術也沒那麽成熟,最終搞不動了)
這類系統型超級應用幾乎必然是 To B 和 To C 兩線同時着手。特别不單點極緻,一般人可别整十死無生。
沒有 C 端的标杆,沒人相信你能幹好,對于這種基于新技術的新品類也沒人知道你在說啥。所以就需要一個豆包這樣的 C 端應用做 Pilot。看報道提到豆包 APP 月活 2600 萬,豆包大模型日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。這是很可怕的數字,智能音箱峰值的時候,每年出貨也就隻有近 4000 萬台,活躍更是遠遜(有的不足銷量的 10 分之 1)。(當年我們的 C 端産品叫 :TA 來了,說實話我覺得比豆包還好聽一些,但數實在不行)
而爲了把這種能力投射到更多的設備裏面就必然需要構建開放平台,既輸出能力也負責管理各種技能(應用運行時的技能平台和 MaaS 形式的輸出,前者隻在用戶量級上來了才有意義)。
還要有一些共同依托的能力,否則沒有根基。當年是一堆算法比如聲學的(可複制性最差,現在好像還沒解決),識别的,NLP 的(過去可複制性也很差,現在基于大模型解決了),現在是豆包大模型這樣的新一代模型。裏面看起來各種算法都打包進去了。
很多人可能沒注意的是包括大模型的這套算法核心計算其實在雲上,端上要求的計算量極低,主要運行聲學算法等。前面提到你甚至可能在一個隻有 1M 内存的終端設備上把這種 AI 能力集成進去。也就是說這種能力可以下探到語音無屏的開關這類小設備。
這導緻這種超級智能應用先天的優勢就是多設備投射,進行沉浸式計算。這時候各種設備平權不是以手機爲中心。
當前看起來豆包這些新一代超級應用還沒去幹這個事,确實也沒到這個時點,其它所有硬件設備加起來創造的日活的和可能也不如 APP 的十分之一。
這種系統型超級應用要想幹好,基礎能力和殺手型的技能都不能缺。
基礎能力搞不好有點浮沙築高台,房子很難蓋起來。(大模型還是很給力,一定程度上解決這問題)
技能搞不好有點像要蓋大房子但梁不給力,過去智能音箱搞不好核心就這問題。
什麽是基礎能力呢?
這是領域本身定義的。比如如果是需要面向 C 端,TTS 音色這個看着不重要的就和大模型的内容生成一樣重要。GPT-4o 在補這個,豆包大模型也在強化這個。
在 APP 裏什麽可以成爲一個比較 Killer 的技能呢?
播音樂的這類功能的支撐度總是不夠強壯,之前景鲲帶着小度在家往教育做垂直應該就是嘗試解決這個問題。
當年我們做過類似《Her》的嘗試,很有趣的是豆包也選了它。
但新一代模型的效果實在好很多,從端點檢測的精度到語音識别再到 TTS(音色)再到内容生成。新一代技術比過去流暢太多了。
這裏面有個叫《暧昧對象》的技能,真的差不多可以做陪聊天的服務了。(忘記是團隊那個産品同學認爲最能有用的就是陪聊天,比放音樂有用,這是對的,奈何當年算法不給力,做完連貫性不過關)
這一組算法最終的效果是個乘法問題,每個都 0.8 最終一乘體驗就變 0.5 分。現在的識别精度,音色的流暢度和大模型的通用内容生成乘在一起應該還能剩下 90 分以上。如果不是你知道它是人工智能的情境下,已經很難分得清這是人還是 AI。
上一波人工智能創業裏面,NLP 公司心心念念的《Her》真的有人要做出來了,還附贈了和之前嘗試但不好使的聲音複刻功能(《黑鏡》那種男朋友沒了,現在看連聲音至少能做出一個 70 分的陪你聊天的他了 ...)。這比匹配意圖偶爾還得扣槽這種土鼈方式的開放式聊天實在是好太多了。
做過這個的可以試試,體驗下國内最新進展。
上面我們拿豆包 APP 以及背後的豆包大模型做例子分解了一下系統型超級應用的特征以及前者商業模式。
但系統型超級應用可不隻局限于豆包以及背後大模型所代表的 B 端、C 端,而是有着更寬廣深遠的空間,更關鍵的其實是行業。最先能收支平衡的有可能也是行業。
字節跳動這種公司走 OpenAI 的路沒啥問題,但看起來好像所有做大模型的都跑這條路上來了。這就是标題說的國内 AI 大模型路可能走偏了。類似 OpenAI 這個地兒恐怕也沒那麽大容量。從上面分解中也能看出這模式誇張的難度和資源需求。
系統型超級應用可複制到更寬的領域麽
有兩個新聞可以放在一起看:一個是 DeepMind 發布 AlphaFold3,号稱爲疾病治療和藥物研發開辟全新路徑;一個是 Xaira 公司融了 10 億美金。
這是什麽呢?這是垂域大模型。(其實我不知道他們細節,也許沒想的那麽大,但不關鍵)
顯然的 Deepmind 并沒有因爲 OpenAI 亂了陣腳,繼續在自己的路上死磕。但很可能收支平衡比 OpenAI 還快。
因爲它真的影響行業,重塑價值創造的過程。很多科學家會因爲 AlphaFold 的調用次數和開放程度而造反,這反襯的正是影響力。那個國内的 AI 大模型有這種行業影響力。
每一個這種垂域模型不太可能是一個單獨的裸的模型,在落地的時候總是要和現實的信息進行連接。
這點上我之前拿 Watson 舉過例子。
雖然沃森不成功,但這種簡單架構上已經清楚的表明這是行業的系統型超級應用。
Watson 固然是不成功,但真做出來呢?
那是真的會解決醫療行業的根本問題的,比如醫療資源不足的問題。
這才是新質生産力。
想象一下,這些模型一旦達到 AlphaGo 在圍棋裏面的程度,那整個行業就要圍着這個模型轉了。對應行業會發生劇烈重整。
爲什麽提這個呢?
因爲 AI 行業國内真幹大模型的同學的選擇好像都擠一塊去了。
受 OpenAI 刺激,很多團隊都跑去幹類似 chatGPT 的大模型,然後自己從頭搞又特别費勁,所以往往會借助開源。在這個基礎上(相對通用的類似 chatGPT 模型)上包裝出行業大模型。好處是瞬間可以出好多,壞處是不解決行業深層次問題,最終很可能變成上波的賺方案的錢,然後收支失衡。(參見:爲什麽說這些倒騰 AI 的方式會把自己搞死)
真正的垂域大模型,那怕把法律搞清楚也是有用的(康達的李思川李律,視頻号:川哥說法,就和我聊過好幾次)。但門檻确實還是太高,直接拿通用大模型上能靠譜麽,我不咋看好。可現在看真做垂直的的反倒是不多。
垂域大模型和 AGI
以前也寫過一點這個話題 :chatGPT 和 AlphaGo 下圍棋,誰赢?垂域大模型有戲麽?,現在仍然維持原來的觀點:在專門的領域尤其是價值比較高,有很多專業信息和知識的領域 chatGPT 這種代表 AGI 的模型是很難 PK 掉垂域模型的。
我是靠常識做這個判斷,很不權威。
常識是說一部分數據内蘊了各種知識和規則,把這些數據的種類覆蓋的越全,這個模型的相應的事能力也就越強大。通用大模型能力再強,沒有這部分信息,也會甕中之腦一樣空有智商。何況模型訓練過程中總是可以産生很多的 Know-How,這會進一步增加差距。
在很長一段時間裏可能會是一個通用大模型,上面承載幾個類似豆包 / 火山方舟 / 豆包大模型這樣的超級應用(比如搜索方向也可能出新的超級應用)還有一些垂域大模型共同爲不同的系統型超級應用提供引擎。
小結
chatGPT 屬于開局的點,我們把它刨除在外。那 AI 大模型真正的局點其實是這些系統型超級應用,不是小團隊做的輔助工具。那誰在做這東西呢?也可能是我真的不知道,但如果确實沒有行業性的,而是都圍在了通用模型上,那可能會在 AI 的局點上缺席了不少東西。那不管對于 VC 還是真的從業者其實遺憾的事情。(當年傅朱争論過一場,從這個角度看實在是都偏了。)