最近大家都很興奮,ChatGPT 的出現帶火了知識博主,增加了變現機會。很多人都在讨論 LLM 和 AI infra,如何寫詩如何畫畫,真正讨論應用的很少,讨論行業應用的就更少了。但是看了 YC 去年的 List 後覺得 AI-Native 應用的前景已經非常明朗了,AI 已經深入尋常百姓家。這個普世的轉變,對産品經理來說更是一個設計産品範式的根本性轉變,而這個轉變帶來的軟件設計模式(Design pattern)都會發生根本性的變化(後面我們會單獨讨論)
結論:
經過在自己研發的産品上幾個月的試錯和調整,我們也形成了行業軟件 /SaaS 對 LLM 能力的應用的 "Best" practice。我們将從以下幾個角度來探讨。
産品 / 軟件設計的轉變,在這一部分我們要探讨如何利用 LLM 的特性來改造我們原有的古典軟件行業,我們哪些要 LLM 化,哪些要堅守古典的結構化思維。
交互範式的轉變,在這個部分我們要一起探讨交互和用戶體驗的大幅變化,如何利用 LLM 來大幅度降低使用成本,并大幅度提高使用體驗,古典和 LLM 怎樣融合,CUI 是最終的交互形态麽?或者說 CUI 的最終交互形态是什麽?
産品的 PMF 範式的轉變,這個部分我們會把我們對 LLM 會從産品落地到用戶需求匹配,門檻降低帶來的競争格局的變化,以及 LLM 會促進什麽樣的 PMF,會打破什麽樣的 PMF。
讓我們首先來看一下 LLM 的能力和特性。
從 PC 到移動設備,智能手機的新特性帶來了重大機遇,LBS 帶來了美團和滴滴,通訊錄帶來了微信,Camera 帶來抖音和快手,語音帶來全民 K 歌,刷屏動作帶來今日頭條。
與手機相比,微信的新特性是擴大了通訊錄,使通訊錄中的聯系人數量增加了百倍,更能夠進行面對面的溝通。正是這種能力的增強才使得拼團、分銷、砍價成爲可能,其中最大的應用是拼多多。
那麽,現在新一代的 AI 又帶來了哪些新屬性呢?我想到了一些,也歡迎大家補充。
首先是語言 language,自然語言的交互方式,很底層的人類交互手段。
其次是生成式的交互方式 generative,它能夠以人類易于理解的方式進行實時生成。從生成文本和代碼,到圖像、聲音和視頻,甚至未來會生成機器人的動作。
第三是多模态,輸入 input/ 輸出 output 變得極爲豐富,但豐富也意味着極爲不可控。
從工程角度來看,實際上是對一些專業概念進行了對應,以便于産品經理和研發人員的理解。
輸入 request,現在系統可以理解直接的對話了,你說什麽它都能理解,或者裝作理解。這樣系統的輸入方式和形式以及效率都會得到大幅度的提升。但是系統邏輯不一定是最優的,或者效率最高的。
輸出 response,輸出的内容産生了極大的不确定性,雖然可能是更好的輸出,但是不可控性增強,原來返回的數據都是預設的,根據返回值要調用函數的,現在要用新的辦法來解決,我預判未來在這部分會産生很多的中間件産品,可能以開源的爲主。
數據格式 data format,數據格式可以是各種媒體格式,就算是文本也可能是組織好的表格,同樣增加了顯示層的設計和實現的難度,這塊我就不展開了,但是後續還會基于這部分内容延展出更加有意思的思考和話題。
基于以上内容,我來抛個磚,4 個月前開始考慮 LLM 對于我們的影響以及如何擁抱并形成或擴大自身産品的差異和壁壘。經過這 4 個多月的時間,很多原來的工作習慣被叠代,很多原來的認知被重置,很多原來的範式被改變。不誇張的說,這可能是,或者至少是科技行業的 " 人類的群星閃耀時 ",而且後續也将影響更多行業和從業者。下面我們從三個維度來具體分析一下。
1
産品 / 軟件設計的範式轉變
基于以上的特性,SaaS/ 軟件行業對 AI 的垂直 integration,我預想大概是可以分成三步,每一步都比上一步更深入,對 AI 模型能力的使用也更充分。
(知識類)第一步是知識庫類功能的整合,訓練或者 fine-tune 自己的模型,用一些内部或者行業的 knowhow,可以用開源模型,也可以用商業化模型,這個其實不重要,重要的是内部結構化數據和行業 knowhow 以及 best practice 的提煉和抽象。
比如 Gonex 的 AI 全球 HR 合規引擎 IRIS,HR 可以每天基于對全球 HR 法律法規以及全球各行各業 HR 最佳實踐進行檢索,并對自己的任務進行分解和實現。
就目前而言,AI 更适用于一些需要或者近似于閱讀理解類的預期結果,而已經被結構化的事實類内容在現在已經被索引過,使用傳統的方法可以實現高效率,并且對算力的要求也低得多。但并不是所有的任務都适合使用 AI,因爲有些任務用 AI 完成的效率并不一定高,比如查詢中國的最低年假。在這種情況下,直接從本地數據庫檢索可能更加高效,對算力的要求也更低。因此,在選擇使用 AI 還是傳統方法完成任務時,我們需要具體考慮任務類型和預期結果,避免浪費。
(工作 / 業務流)第二步是利用 AI 的識别和推斷進行任務和功能的調度。
利用 AI 都予以理解和上下文能力,實現更流暢的用戶體驗,逐步替換掉傳統的線性多級的工作流,實現一步到位的功能或者任務的調度。
比如我要查一下自己的工資,我到登陸系統,點開我的(my account), 查看工資單,選擇某一個月或者當月,然後顯示自己的工資單,這些步驟是傳統的線性工作流。AI 可以替代這些工作流,直接問一下我的工資,返回具體的工資數據。如果需要更多交互,可以打開完整功能。
很多流程會從線性的變成星形的。
線行流程配圖
星型流程配圖
大多數功能都可以用類似的方式完成調度,隻有極少數需求需要權限和分組等功能在授權的時候需要一些傳統的驗證和流程,其他的應該都可以滿足需求。這個就需要要對功能做基于語意和上下文分析的 mapping,相當于做配置文件以及對 prompts 的管理,需要把語意的分析抽象到具體的功能。而業務邏輯依然依靠現有的系統來完成。
個人覺得替代工作流更像一個 trade off 是兼容之前的古典軟件設計範式,而不是新的範式,新的範式是下面的第三步,完全的業務邏輯 AI 化。
(複雜業務邏輯)第三步是利用 AI 來整合業務邏輯(甚至整個 SaaS 的業務邏輯就是依靠 AI,而不需要重新定義和開發),而不僅是進行功能和數據的調度。
LLM 會逐步的部分或者全部替代掉 SaaS 的業務邏輯,但是傳統的業務邏輯是不是更高效這點需要針對不同的業務邏輯單獨的比較和驗證。
而且很多業務邏輯用自然語言描述和用數學函數描述效率并不一樣,因爲自然語言對複雜功能的描述其實不如直接抽象出來的邏輯和算法更高效,而且自然語言本身也需要被轉換成機器能理解的邏輯和算法才可以被機器識别和運行。
不過有一些傳統業務功能的局限卻可以用自然語言的形式來實現,比如輸入基礎考勤和稅務信息根據每個國家工資的算法進行月度工資的計算是非常複雜的邏輯和算法,用自然語言是不容易實現的,但是基于這個算薪結果進行比較又是用傳統的邏輯和算法無法完成的,而一般都需要人爲的查詢和比較,并解釋。
例如:請問爲什麽上個月工資和這個月差這麽多?
産品原型圖截圖
這個功能如果用傳統的方式是無法實現的,但是用 LLM 似乎是可以實現的,但是需要把現有系統的數據和算法給到模型并訓練才有可能。
基本上做到了第三步才是真正的用 AI/LLM 來定義和實現完整的軟件功能和邏輯,而不僅是交互方面的調度,我覺得可能在相當長的一段時間内都是用第二步和第三步之間的方式來實現軟件 /SaaS 的 AI/LLM 化,而不是 Native AI/LLM 軟件 /SaaS。
關于 LLM:
除了大家現在比較關心的基礎 LLM 外,未來可能會有很多的 LLM,
從業務場景的角度會有,比如完成電商業務的模型,完成 ERP 業務的模型,完成 CRM 業務的模型等。
從知識的專業性角度可能會有,比如 HR 行業模型,财務行業模型,法務行業模型等。
從數據私有性的角度,可能還有各個公司 / 組織自己的 LLM,當然也可以基于開源 LLM 來搭建。甚至也會由于數據合規性的考慮會出現個人 LLM。
每個模型都抽象了很多的業務邏輯,而這些業務邏輯是依靠 LLM 來完成功能的實現的,針對這些業務邏輯都需要對模型進行單獨的訓練,而不是簡單的用一個超大泛化模型可以實現的(除非超大模型用各行各業的數據進行訓練和修改,這樣其實對于基礎模型可能是非常不經濟的,不過也可能跟軟件行業一樣,很多軟件公司的增長也是通過收購和整合來實現的)。
未來的 LLM 可能的分層形态:
2
交互範式的轉變
交互方式的改變,從抽象流程到自然語言,conversational user interface ( CUI )
實際上人類日常的最自然的交互方式就是肢體語言,表情和對話,而古典軟件都是靠業務流程抽象化來完成目标任務的,而 LLM 的方式可以從更貼近于人類習慣的方式使用軟件功能,因此極大的降低了學習成本,未來的 AI Native 行業軟件大概率是類似的這樣的三段式 three stages CUI.
左側是傳統的抽象流程的快捷方式
中間是對話功能框,未來很多的工作流都是基于對話和上下文在對話框裏直接完成的。
右側是功能調用,限制于對話框的大小不容易完成的操作可能還是要有一個地方呼出并實現操作。
左側和右側會随着 LLM 的進化逐步弱化或者消失。
中間的對話框的下一代 conversational user interface 會随着多模态的發展,或許更多的輸入格式,比如攝像頭來收集 body language,表情等更底層的交流,麥克風來收集不僅是對話,還有環境音。
因此我認爲未來可能會爆發的移動設備并且可以一定程度替代掉手機的,就是具有邊緣計算能力的 LLM,耳機,現在的耳機已經可以透明收聲,如果耳機具有一定的 LLM 能力,《Her》的電影場景就可以實現了,基于語音的交互是最自然的對話。關于耳機的暢想我們可以後面進一步讨論。
我們現在用簡單的示例來解釋一下以上 ChatGPT 在軟件工程以及 CUI 設計上的一些基礎邏輯:
首先爲什麽是 three stages,三段式設計,不光是 PC,其實在移動設備上也是一樣,因爲如果隻不過根據屏幕大小很多内容是折疊起來的,但是大概率都要有這三段
快捷方式,用古典的方式可以找到古典的邏輯,主要爲了幫助用戶适配古典邏輯,但是古典邏輯會存在多久,這個不好說,也可能要很久。畢竟也有很多時候自然語言不一定是效率最高的方式。
中間是 CUI,主要的交互和任務都在這裏完成。
右側的部分是一些無法在對話框裏完成的任務或者目标,比如顯示的不全,比如需要單獨的視圖等。
比如在 GONEX-IRIS 這個工資查詢的場景下,用戶需要調用一些本地數據,而對話框隻能顯示一部分,如果回答太長,用戶容易 miss 掉上下文,因此需要有個地方單獨呼出,右側就是一個比較理想的方式。當然也不一定是左右的形态,也可以是下上,或者上下的形态。
中間的對話框不止是一個傳統軟件的 rich text area,這裏包含的很多的元素,其實類似的微信對話框裏不同的 format,比如一個網頁,一個文件,一個小程序,其實企業微信和叮叮也都有類似的設計,隻不過通訊 / 協同軟件更多的還是人和人對話,現在的對話框不再是或者不僅限于人和人了,更多的是人和 LLM,對話框裏要可以顯示和處理更多的格式,比如微信不支持 markdown(因爲正常人不會用這種格式跟别人交互),現在需要支持更多的文本格式,因爲用戶不僅是要在對話框裏完成對話,更重要的是要在對話框裏完成任務,完成指令,而不隻是把對話框當作信息的傳遞,具體的任務要跳出對話。比如,我要查 steve 的工資,LLM 會返回給我工資的具體内容,比如我問 LLM 有什麽的需要審批的工作,LLM 直接給我返回 5 個審批列表,我可以直接在對話框裏審批。比如我要 LLM 幫我請假,但是一些具體請假原因和流程都要在對話框裏完成。
對于 CUI,我認爲未來的交互可能不僅僅是 typing,還有聲音,圖像 / 視頻等輸入形式。人類科技最大目标就是模仿人類自己,機器總要加個 " 人 " 在後面,是爲機器人。而 AI 的目标是最大限度的讓用戶感覺坐在對面跟你對話的是人,而不是機器。因此我們應該不僅限于打字,因爲打字本身是有 PC 了以後才有的形式,幾千年的人類溝通方式是語音。因此我自己做的是行業軟件,但我依然認爲未來最大機會是更自然的溝通方式是 voice,因此在 UI 和工程領域如何更快的把 rich text area 這個 component 變成 rich voice area component 是更底層的更有意思的機會,甚至可以支持手勢,表情等,更多的輸入形式從而變成 rich communication area component,這也是我思考了很久的領域,現在已經有了結論,不過我們就不在這裏展開了。
這裏我依然要老生常談的一個點是,古典軟件工程更重要的是基于任務和流程的抽象,而 LLM 的産品要基于對話,對話不僅是文字也可以是很多其他的模态或者格式。因此這個是産品設計範式的轉變。iPhone 的早期,很多人吐槽當點 iPhone 上的 app 都很 PC,直到有的 app 用手勢 gesture 來做交互才逐漸有了現在的樣子。AI-Native 的軟件也是一樣,都要有這個過程,這個過程不會很久,正在發生。
3
PMF範式的轉變
從蒸汽機開始替代一些體力勞動者開始,社會的演進就變成了人要操作機器,因此人要受教育,學更多的知識,然後用這些知識去操作效率更高的機器。機器取代了一些初級的勞動者,而大家踴躍通過教育變成高級的勞動者去操作和管理機器,這樣就形成了一個正向的循環。
突然之間,ChatGPT 的出現,讓大家對這個社會秩序叠代的公式産生了動搖。但是如果大家看過那段資本主義萌芽的曆史就知道,當時的人們其實也找不到這個現在大家公認的路徑,大量的工人失業,社會甚至還造成了某種程度的動蕩。但是後續的故事我們都已經知道。所以大家一定要動态的看問題,焦慮往往是人類對未知的恐懼形成的潛意識,靜态的思維方式和常規的套用往往會加速這種潛意識的形成。
因此用所謂動态的站在曆史的角度出發的思考,AGI 确實會取代一些初級的腦力勞動(機械的腦力勞動,甚至知識 / 事實的學習),但是用新的教育方式來産生創造性的思維,就可以指揮或者操作 AI 來提升效率,我們的教育體系也會從知識灌輸變成思考方式和創造潛力的湧現,教育出來的這些四有新人再去創造更高維的 AGI。
就好像沒有蒸汽機就沒有機械工,沒有電腦就沒有程序員,那麽出現了 AGI 會不會就出現了新的職業呢?(也許就是 prompt engineer,誰知道呢)
讨論完以上的論述,再看看那些特性适合你現有的用戶場景。
如前所述,操作系統的機會隻有少數人,但是應用的機會是給大多數人的,而對于 LLM 而言,上層的應用形态是多樣的,但是不是所有形态都是适合應用層的。
現在看來,不論 2B 和 2C,
隻要你的數據是公開的,泛行業的,你的替代性就越高。
隻要你的 value 隻是線上薄薄的一層,哪怕再高的知識密度,你的可替代性也不會很低。
這裏說的可替代性就是被 LLM 的進化替代。當然 LLM 自身的競争不在考慮範圍内。
因此 2C/2B 級别的應用,如果你的交付是純信息的形式,開放形式的,範知識類的,那麽長期看大概率都是有風險的。如果你的交付不是純信息類的,是封閉的,是專有知識類的,那麽長期看是非常有價值的,不僅沒有風險,而且 LLM 會大幅度的提高你的生産效率。
基于以上的場景和分析
從模型的角度:
除了大家現在比較關心的基礎通用型 LLM 外,未來可能會有很多的行業 / 場景型 LLM。
從業務場景的角度會有,比如完成電商業務的模型,完成 ERP 業務的模型,完成 CRM 業務的模型等。
從知識的專業性角度可能會有,比如 HR 行業模型,财務行業模型,法務行業模型等。
從數據私有性的角度,可能還有各個公司 / 組織自己的 LLM,當然也可以基于開源 LLM 來搭建。甚至也會由于數據合規性的考慮會出現個人 LLM 和邊緣 LLM。
每個模型都抽象了很多的業務邏輯,而這些業務邏輯是依靠 LLM 來完成功能的實現的,針對這些業務邏輯都需要對模型進行單獨的訓練,而不是簡單的用一個超大泛化模型可以實現的(除非超大模型用各行各業的數據進行訓練和修改,這樣其實對于基礎模型可能是非常不經濟的,不過也可能跟軟件行業一樣,很多軟件公司的增長也是通過收購和整合來實現的)。
跟 AI 1.0 的狀态差不多,可能有很多垂類模型,也有很多行業模型,當然也有可能出現 AI 四小龍或者 N 小龍的情況,因爲很多數據,比如比銀行數據,火車數據,民航數據,都不可能被放到公有 LLM 上,還是要在自己的私有 LLM 才可行。
從平台的角度:
LLM 還解決不了線下交付的問題,理論上隻要不是專有數據,LLM 的用戶體驗可能會産生一些虹吸效應,讓用戶更多的訪問 LLM 而不是傳統的平台,平台當然可以自己做 LLM,但是投入和效果上不一定比類似的百度的或者泛化 LLM 更有優勢。
個人感覺如果百度未來的搜索結果可以放更多的軟廣,在上下文中,讓用戶更加接受,而不是現在的搜索廣告形式。但是傳統的對話方式的微信可能可以更軟,畢竟它可以直接做個人助理,助理就是個人的推薦引擎。
當然比如對于專業的訂票,旅遊,吃飯類的平台可能就是比較負面的例子了,因爲平台隻需要或者隻能做交付,平台的議價空間就更少了,但是不擁抱共有 LLM 也不行。現在在百度上隻是做廣告買流量,後面百度通過文心一言的小程序或者 Plugin 直接就把前置的所有事情都幹了,隻需要下單 API。不過這個完全是個人腦爆,畢竟旅遊行業的供應鏈管理是相當複雜和高壁壘的,我們有相當長的時間可以觀察,思考和應對。
總體上講,LLM 對未來的或現存的平台類應用是比較負面的。原因是如果出現超級 LLM,那 LLM 本身就有是平台,對現有平台産品來說可能會損失品牌,躲到 LLM 後面,淪爲工具,但不管怎麽樣,平台還是應該擁抱 LLM,利用好 LLM 的能力,也可能走出一條不一樣的路。
對初創公司反而是有利的,降低的競争的門檻,增加了市場的活力,流量的獲取更加的容易,而初創公司可以專注在專業範疇内。
所以符合私有數據和線下交付中的一項的 LLM 應用已經很有生命力了,符合兩項的又有專有數據又有線下交付的應用肯定是極大的利好,線下交付的能力不是短時間可以培養出來的。其實很多應用會産生大量的專有數據,比如購物網站産生的用戶購買行爲和偏好,比如社交應用産生的用戶行爲和交互的偏好,這些其實都有很大的價值,LLM 其實是反向逼迫大家來審視自己的數據資産,以及如何更好的利用它。
從交互的角度:
盡管我之前提到了交互式用戶界面(Conversational UI),這種界面最自然的表現形式仍然是對話(conversation)。如果這樣想的話,微信可能會成爲下一個時代的王者,甚至可以取代百度,因爲人們可以在微信上解決所有問題,包括像對話一樣自然的搜索,而不需要切換功能和場景。
然而,如果隻考慮到這一點,那麽你對于使用場景的了解可能還不夠深入。因爲最大的差異是,微信是與人進行交流,而新的交互方式是與語言模型進行對話。在這種對話場景中,聊天和表達情感隻是場景的一部分,更多的場景涉及任務下達、目标達成、情況分析和模式識别等工作,這些任務的業務邏輯比傳統的聊天要複雜和抽象得多。因此,解決這些問題需要依靠對話式用戶界面(CUI)的發展,我相信很快就會出現 AI 的類似于 iPhone 誕生後的 Gesture 時刻。
從個人的角度,我覺得 CUI 的可見模式還是會長期存在的,畢竟很多的場景都是需要操作的,但是我更進一步的認爲 LLM 的 Gesture 時刻可能不是在可見的部分,而是源于人類更底層更自然的溝通方式,conversation 最初的方式并不是 typing,而是聲音,用嘴發聲,用耳朵收聲。我覺得未來的會有一波重大的突破在耳機上,耳機可能會取代或者部分替代現有的手機,而且手機也是可移動的設備,比手機還自然的攜帶體驗,具備各種傳感器的能力,手機能有的傳感器,耳機都可以有。耳機不再隻有降噪這個賣點,而是交互的終端,是 conversation 的承載,是任務指令的下達。現在的耳機已經可以透明收聲,如果耳機具有一定的邊緣 LLM 能力,《Her》的電影場景就可以實現了,基于語音的交互是最自然的對話。
主動與被動:
其實大家日常使用的 AGI 應用無論 2B 還是 2C,幾乎所有的場景下的應用都是被動呼出的,也就是說都用戶提出問題,LLM 被動回答。用戶是 initiator,這就造成了使用場景相對單一。但是反過來想一下日常的對話都是自己發起的麽?顯然不是,實際生活中不同的場景,很多都是用戶是被動應答的。微信之所以使用時間長,并不是因爲比抖音有更牛的沉浸式推薦算法,而是因爲你的主動是對方的被動,對方的主動是你的被動,通訊錄聯系人互相成爲對方的 initiator。
因此 AGI 的出現,就可以根據設備的感知能力主動發起對話,比如中午,可以問用戶吃了麽,沒吃趕緊吃,想吃啥附近直接找到,并導航到餐館。主動發起對用戶體驗來說是一個很大的飛躍,(這裏主動發起不是類似手機的 push msg)尤其是情感領域,被動和主動區别很大,大多數國人在現代社會中都是社交被動型的,社牛太少了。很多傳統的社交軟件也都在利用數據來降低社交成本,比如點個贊,比如用手滑照片。如果能通過耳機 + 各種 sensors,還有環境音的透明收聲,則可以有更多的應用場景被挖掘出來。而不僅是任務型或者事務性的應用場景。
寫在最後:
以上都是我幾個月以來的思考在當下這個時間點的總結,未來會發生什麽,也很可能會推翻現有的結論甚至思考框架,未來一定是薛定谔的貓,LLM 這個變量将讓很多人的思考框架發生了巨大的變化。在這個 Sternstunden der Menschheit,我們可能有的隻是時間。
浪潮中,有些人追求宏大的叙事,有些人忙于性感的故事,有些人揮起鋒利的鐮刀。面對誘惑大多數人都會放棄堅守,但我還是希望大家在設計産品時問自己一個問題,我的産品能不能帶來 10 倍體驗提升,能不能帶來 10 倍成本的降低,普通人隻能點滴的改變。Make a better life for all people and their families.
關于 GONEX- IRIS:
GONEX-IRIS 是全球首創的 AI Native 的人工智能 HR 合規服務引擎,可以幫助 HR 團隊輕松應對日益增長的挑戰,提高工作效率和便利性。我們的 LLM 大模型可以利用自然語言處理技術快速處理各種 HR 數據,并自動化處理各種複雜的海外 HR 流程,如入職、離職,算薪,發薪,社保繳納等。同時,我們還可以利用機器學習進行員工滿意度和工作績效分析,提供數據驅動的洞察和建議。
使用 GONEX-IRIS,您可以在幾秒鍾内獲得關于海外員工雇傭、福利等方面的專業建議,而無需倒時差或花費大量資金雇傭當地專家 / 咨詢公司。我們的服務涵蓋從高端咨詢到日常服務,幫助您快速解決業務問題,從而實現更高的工作效率和便利性。GONEX-IRIS 還可以讓您成爲一個全球 HR 問題專家,幫助您從事事求人的 HR 文盲秒變專業的 HR 領域專家。
雷峰網