2023 年是大模型的元年,2024 年将是 AI 超級應用的爆發年,「一定要有真正貼近用戶,貼近場景,讓用戶感覺到好用、必須用的超級應用才能進一步推動 AI 發展」,在 12 月 16 日舉辦的極客公園創新大會 2024 上,印象筆記董事長兼 CEO 唐毅提出了上述觀點。
2023 年,随着 ChatGPT 引發 AIGC 熱潮,印象筆記在這一年開始将 AI 的能力由功能釋放爲服務,全面賦能自己軟硬件生态:
4 月推出了自研的大語言模型「大象 GPT」,并推出「印象 AI」;
8 月,完成「印象 AI 2.0」叠代(提供專屬模型 Adaptive Self Model ,增加跨模态能力);
6 月,硬件産品 EverPAPER 支持大象 GPT,打造了 AI 智能硬件的産品品類。
但在大模型的應用上,目前普遍存在一個「不可能三角」的困境,即難以兼顧通用性、可靠性和經濟性。
面對這個「不可能三角」,唐毅指出,C 端和 B 端分别有不同的挑戰。對 B 端而言,事實驗證性是一個關鍵挑戰,如果它的靠譜程度不上升,就很難去解決一些 B 端關鍵場景的問題;而對 C 端而言,用戶可能對模型的經濟性以及邏輯推理和湧現能力要求會很高。
在考慮大模型的「不可能三角」(通用性、可靠性和經濟性)時,需要從多個角度來看待模型和應用廠商所面臨的挑戰。唐毅提到,在開發 AI 原生應用時,無論是模型廠商還是通用模型,都需要綜合考慮六個關鍵要素:用戶、場景、交互、模型、部署和載體。
而爲了解決「不可能三角」困境,印象筆記正探索一種「混合部署」的技術方案,通過 AI 路由進行任務分配,既發揮大模型的多步複雜推理能力,也利用小模型的經濟實用性。此外還要綜合考慮用戶、場景、交互、模型、部署和載體六大要素,以實現「無處不在的 AI 界面」,适應不同場景和需求。
以下是唐毅在極客公園創新大會 2024 上的演講實錄,由極客公園整理。
用戶對大模型的擔憂
有一個觀點我先提出來,今天上午 Robin(李彥宏)也都提了,不同嘉賓也都提了:2023 年是一個大模型之年,2024 年一定是 AI 的超級應用之年,一定要有真正貼近用戶,貼近場景,讓用戶感覺到好用、必須用的超級應用才能進一步推動 AI 發展,這是我今天演講重要的核心觀點。
中國現在有 200 多家公司在做基礎模型,非常熱鬧,大家投入了非常多的時間、資金、人才,有很多進步的同時,也面臨同質化競争的問題。
一個比較典型的問題是留存率不夠。我們看一些公開的數據,不管是原來有應用 + AI 的産品,還是有大模型加應用的産品,留存率都不高。雖然模型很多,但讓大家想起來說我每天都在用,我離不開它了的「真正的超級應用」,還是很少。
所以有個問題就是,大模型和這一代新的生成式人工智能當然一定會帶來實質性的商業和社會的變革,但是它是不是正在帶來呢?
現在一個相對比較客觀和實際的情況是這樣的,用戶想用的時候,會存在比較典型的一些擔心:
第一個擔心是隐私的擔心,是不是我問模型的所有問題模型都知道?會不會我問它的問題它就記下來了,訓練到模型的大腦裏面去了?
第二點是專業能力的問題,它是不是能夠具體地幫到我一些專業問題?它的幻覺問題怎麽樣了?
第三點是使用便捷的問題,現在要使用大模型産品真的有那麽方便嗎?看起來好像無處不在,但是真正使用起來似乎又會覺得沒有那麽方便。
真正用起來就會有這三個問題,一個感覺它沒有那麽聰明,或者說話沒在點上,或者真正有一些核心的知識并不了解;還有一點是沒有那麽靠譜,幻覺的問題還是挺明顯;另外确實是不便宜,使用不是很便捷。也就是說大模型,特别是大模型的應用看起來很近,用起來還是有點遠。
大模型的「不可能三角」
從這一點引入的話,我們會覺得這裏存在一個不可能的三角,這個不可能的三角是基于通用性、可靠性和經濟性之間的不可能三角。不可能三角這個概念,代表三者其中隻能獲得 2,不能獲得 3。這意味着在大模型的實際應用中,我們很難在同一時間滿足這三個方面的要求。
從邏輯上講,模型參數越多,湧現能力、邏輯推理能力和上下文理解能力就越強。然而,僅僅通過擴大參數或優化模型和算法是無法完全解決問題的。
一定程度上,大模型具有更強大的湧現能力、邏輯推理能力和上下文理解能力,這些能力與模型一次性能處理的 Token 數量和遵循指令的能力密切相關。然而,随着模型規模的擴大,其經濟性和可靠性可能會受到影響。可靠性包括專業知識、領域能力和事實驗證等方面。
前不久矽谷有一個說法,就是說大模型的能力就是幻覺的能力,就是把所有的數據吃下去,通過标注,通過理解,當它産生輸出的時候是通過幻覺來産生的。
從另外一個角度來講也就是說,大模型能不能真正在可解釋性、安全性和事實驗證等方面做好可能存在很大的問題。就大模型應用而言,現在哪怕就是終端用戶和它聊幾句天都會感受到這三個方面的「不可能三角」。
在這三角裏面,C 端和 B 端都分别有不同的挑戰。B 端的話,比較大的問題是它的事實驗證性如果不強,它的靠譜程度不上升,它就很難去解決一些 B 端關鍵場景的問題。C 端而言,用戶可能對模型的經濟性以及邏輯推理和湧現能力要求會很高。
唐毅認爲是有方法破解大模型「不可能三角」問題的|極客公園
在考慮大模型的「不可能三角」(通用性、可靠性和經濟性)時,我們需要從多個角度來看待模型和應用廠商所面臨的挑戰。
這些挑戰包括選擇合适的載體,載體在哪裏?我們到底是用一個很熟悉的原生應用,或者移動應用中的 AI 能力,還是我們應該去到某一個平台上去用它的插件,比如 GPTS 插件等等。
數據的使用方式是什麽?數據上我們到底是跟它聊?還是像一些應用的方式,把一些文件上傳給它?還是真正用我我們的數據做一定的模型訓練?
場景上,是在什麽地方能夠解決哪些問題?應該跳出我現在的應用場景,跳出我現在的應用?還是應該留在裏面?
這些都很難決定。爲了解決這些問題,我們需要采用一種不同于以往的思維方式。
這其中一個很重要的點是,在開發 AI 原生應用時,無論是模型廠商還是通用模型,都需要綜合考慮六個關鍵要素:用戶、場景、交互、模型、部署和載體。
那麽,它們之間的關系是什麽?
如果簡單一點來看,它們之間關系串起來是這樣的——用戶在某一個場景下需要解決一個什麽樣的問題,通過什麽交互能夠更符合用戶的需求和場景特點。
在這個場景或者這個需求的鏈路上,怎樣通過模型,通過什麽樣的模型,什麽樣的模型部署,在什麽載體裏面解決這些問題?是插件?Web ? Desktop ?移動端?而在這個過程中,所有産生的數據,這些數據的問題又怎麽解決?怎麽部署?怎麽應用?哪些給模型,哪些不交給模型?
這六個元素将是持續需要考慮的,我們印象筆記在這方面的思考,随着技術的發展,基本上每兩周更新一次。比如 GPTs 出現的時候我們發現,載體好像迅速從移動端或者傳統應用跑到大模型平台上。又比如說 ChatGPT 剛剛出現的時候,有人說,未來一切的交互都變成自然語言的交互,你跟它說話就可以,但是到底是不是這麽一回事?這是否真的是未來的趨勢?
「無處不在的 AI 界面」
先從交互來說,我們觀點是交互和喚起應該是無處不在。
我們先看一個典型 LUI(語言交互界面)對話。先來看看筆記裏有哪一些影評,然後來講講《觸不可及》的電影怎麽樣,這個講述的回答完全是通過挖掘筆記裏面的内容得來的。這種交互方式是基于用戶授權的,不需要訓練或調整模型。(印象筆記将推出基于用戶個人筆記和知識庫問答的産品,真正實現打造個人的知識助理。)
另一個例子是 Copilot 性質的交互。這裏有一篇筆記,用戶可以要求 AI 總結一下這篇筆記裏面有什麽内容?筆記裏面有哪些對視頻制作的改造可以拿來分類?AI 可以挑出筆記内容,并且回答用戶的問題。它是自然語言界面和傳統 GUI 界面(圖形界面)的結合,右側的 Copilot 是輔助駕駛,主駕駛還是在傳統 GUI 界面上,主副駕駛之間是可以互相指引、指導的。
在實際工作場景中,用戶本身就是在一個文檔界面進行編輯、介紹,比如要寫一個采訪提綱,寫采訪提綱之後,還想讓采訪提綱中間一部分再多解釋一下。這種使用場景下最不需要的就是自然語言,用戶在寫,用戶隻需要在傳統的界面上寫就可以了。
所以這個工作是一個從純粹的 LUI 到純粹 GUI 過程,應該選擇在那個場景下和那個用戶的情況下最适合的一種交互方式,我們把這個稱之爲「無處不在的 AI 界面」。
第二個元素,場景和載體。不同的工作和場景需要不同的載體來實現生産力的工作流。
傳統意義上來講,這些功能通常在原生的移動、桌面或 Web 應用中産生。現在通過大模型平台,我們可以通過 API 和内容文件調用來實現這些功能。
這當中有一個問題,應該在傳統應用上實現這些功能?還是在大模型平台上實現?還有一個因素是很多不同設備。我們需要在各種設備、大模型平台(如 GPTs 類平台)、大模型新推出的原生應用産品,以及傳統移動應用之間,找到合适的解決方案——應該在什麽地方解決問題?應該在該解決問題的地方解決問題。
我們來以規劃一次旅行爲例,這當中典型的流程包括收集、整理、排版、應用、行動。
我還真沒怎麽去山西玩過,我現在在微信公衆号裏閱讀一篇關于山西旅行的文章,然後轉給我的印象筆記,它就可以幫我收藏在筆記裏面。這個場景一定先從微信開始,因爲這個信息在微信公衆号裏面。
緊接着我們打開印象筆記,通過 AI 助理來整理内容,标好标簽,并且和其他的旅遊筆記進行關聯。因爲筆記裏還有兩篇其他的筆記,可以自動把它關聯上,那麽當我想要規劃山西旅遊的時候,這三篇筆記都是相關的,可以通過 Copilot 形式展現出來,幫我更好地了解目的地。
然後我繼續在印象筆記的原生應用當中排版,這個排版很重要,因爲很多的公衆号文章存進來之後不利于閱讀,排版也沒有優化,也沒有目錄和很清晰内容标注。我們可以通過 AI 進行有效重新排版,利于閱讀。
然後現在想規劃 7 天行程,可以在原生應用内通過 AI 助理來問,也可以到一個大模型平台上面用插件對話,它的這個規劃不是用網上的公用的語料和信息來規劃,而是會專門根據所需要的場景來進行規劃。
這個規劃本身可以在微信裏進行,可以在原生的應用裏規劃,也可以在大模型平台上規劃。
唐毅詳解印象筆記在大模型上的探索路徑|極客公園
然後我們可以在大模型平台通過其他的插件,比如說某一個旅行平台的插件來進行規劃,來定機票定酒店,我們也可以同時通過印象筆記的插件反映到我們的日程表裏面,反映到我們的清單裏面,同時讓印象筆記的微信助理提醒行程。
這裏邊的邏輯是什麽呢?是要去找到「最适合的」場景和載體。如果你要做一個超級應用,不要試圖僅僅在一個平台,或者僅僅用一種交互,或者僅僅選擇一種載體,而是要讓載體和場景移動、變化、流動。
然後模型,我們認爲要解決經濟性、通用性、可靠性的「不可能三角」,就要有非常不一樣的部署。這裏不是越大越好,也不是越專越好。
也在這說一下印象筆記有自研的大模型,我們開始比較早,很早就成立了自然語言研究院并開始研究,現在知識類的專有模型擁有 170 億參數,200 億個 Token,然後這個模型是基于 1 億多的人群進行了 4 年研究和訓練而得出的。
再看一下數據,數據是一個非常敏感的問題,尤其是公共通用數據。公有通用的語料雖然很豐富,通用性很強,但是專業性不夠。
那麽在這個過程當中,印象筆記這樣的專有模型訓練廠商會利用訓練到一定程度的模型進行進一步的訓練和調優,這個方法用的是公有的專用數據,也就是知識類的數據或者其他場景下的數據,比如說交通類的數據、金融類的數據,目的是增強知識和降低幻覺,印象大模型就是這樣訓練出來的。
但個人的數據怎麽辦?個人的數據能不能用來訓練大模型,或者甚至訓練小模型?當然不能。印象筆記是不會拿個人的數據來訓練的。那麽,怎麽讓模型處理數據?一個方法是用戶明确授權。在這種情況下,我們會通過用戶授權認可的 LAG 能力來處理數據。也就是提前對數據進行向量數據庫類的處理,讓模型幫助分析數據,同時确保隐私和安全得到保護。
然後智能體是下一個 AI 的發展和應用的重要方向,印象筆記的模型訓練也是基于很多的這種任務和複雜任務流程,以及需要多步處理的數據來訓練的。
「混合模型」是答案
大模型不可能三角的問題,也就是通用性、可靠性和經濟性的問題,怎麽解決呢?
我們的「印象 AI」采用的是混合模型方案,它結合了印象筆記自家研發的輕量化大語言模型「大象 GPT」和國内外其他大語言模型。這種混合部署的方式與 MoE(混合專家模型)有相似之處,但它們之間還是存在一定差異。混合部署具有一定聯邦屬性,主要通過 AI 路由進行任務管理和任務分配。
當收到一個提示或需求時,AI 路由會對這個提示進行驗證,并确定任務是分步推理還是一次性解決。如果任務屬性與小型模型訓練語料更接近,AI 路由會選擇使用小型模型,因爲這樣更經濟、更靠譜。如果任務需要多步處理和多次推理,涉及不同模型的能力,AI 路由會将任務分配到不同的模型上進行處理。在這種情況下,任務調度能力變得尤爲重要。
印象筆記作爲一款爲大量國内和國外用戶所熟知的産品,具備一些獨特的優勢。這些優勢包括龐大的用戶基礎、豐富的私域數據、強大的交互經驗、精準流暢的場景載體以及基于智能體的自研模型。此外,印象筆記采用了獨特的混合部署架構,以解決大模型在通用性、可靠性和經濟性之間的平衡問題。這種混合部署架構有助于實現模型和應用的持續發展,爲用戶提供更優質的服務和體驗。
通過這些優勢和特點,印象筆記能夠爲上億用戶和千萬活躍用戶提供下一代的超級應用,滿足他們在不同場景下的需求。我們希望在 2024 年能夠跟用戶一起用印象筆記打造持續進化的第二大腦,也希望 2024 年的印象 AI 能夠成爲 AI 超級應用的種子選手。