内容來源:筆記俠(ID:Notesman)
責編 | 若風 排版 | 五月
第 7847 篇深度好文:5220 字 | 14 分鍾閱讀
商業
陳志傑最近有點 EMO 了。
作爲一家企業培訓公司的創始人,在 ChatGPT 熱潮崛起的時候,他就敏銳感覺到,大模型可能對自身的業務有無法估量的影響。
于是,他積極參加身邊能發現的各種大模型創業群、培訓班、研讨會,初步的估算,半年來在這些領域的花銷超過了 5 萬元。
然而就是做了這樣的準備,他也隻是将國産大模型引入到了企業員工日常的工作環節中,真正将自身企業培訓課件系統依靠大模型升級的希望,還遙遙無期。
一方面的原因是企業自身的技術人員,對于新技術接受程度比較慢,還需要一定時間的适應和轉換;
另一方面其實更加重要,在全盤深入了解大模型的運行體系後,他發現自己部署大模型提升核心業務,存在的一個沒法跨過的 bug,那就是必須将自身核心業務數據拿出來調教公有大模型。
而公有模型微調之後,相關的能力就被固化,别人想使用也可以随随便便調取。
因此,數據安全和獨立性如何保證,就成爲陳志傑這樣想擁抱大模型的企業最關心的痛點。
對此,騰訊雲數據庫副總經理羅雲有深刻認知,在接受媒體采訪時他曾表示,對中小企業而言,擁抱大模型一定離不開向量數據庫的支持。
" 因爲一個獨立的向量數據庫與大模型相結合,使企業在享受到大模型的便利同時,還能保證數據的獨立安全。
而且向量數據庫會被用于加速訓練提升大模型的時效性;通過在外部外挂一個向量數據庫幫助客戶更好地整理數據,以輸入、交互的方式提供給大模型再做最終的結果推理,這樣會效率更高。"
所謂向量數據庫,其實是相對于傳統關系型數據庫來說的。關系型數據庫的使用場景很多,過程類似在圖書館通常通過書名、作者或分類來檢索書籍。
然而,當用戶試圖通過書中的某個章節或人物的某個特征來查找書籍,或者想檢索一段音頻或一張偶然拍下的花朵照片時,這種關系數據庫就沒辦法滿足了。
在向量數據庫中,數據不再隻是簡單的标簽歸類,而是根據事物的各項特征進行向量化。
例如可以通過身高、發色、鼻梁高低、眼睛大小、聲音響度等特征,将林丹和李宗偉轉化爲向量,從而在數據世界中加以區分。
而賦予向量的特征角度越多,數據就越準确。這樣,人們就能夠在二進制世界中建立起一個精确的現實世界模型。
一本小說、一首音樂、一段視頻、一張照片都可以被數據化并可以精确被查詢。
換句話說,向量數據庫記錄的是對事物和代表數據的描述,而不是簡單事物本身的數據。也因此,向量數據庫成爲訓練大模型最核心的數據形态。
而越來越多企業應用向量數據庫成功接入大模型的事實意味着,之前無人問津又随着大模型的崛起而爆火的向量數據庫,現在成爲企業家擁抱大模型最有力的武器。
而樹立向量數據思維,就變成在大模型時代企業家推動轉型的抓手。
一、用大模型提升業務,離不開向量數據庫
陳志傑的公司并不是沒有做信息化的延展,他們在三年前就開始将全部課程網絡化,并提供各種各樣的接口,可以接入服務客戶公司的系統。
所以從某種條件上講,陳志傑的公司是擁有比較強大的信息化開發能力和人才儲備的。
加上老闆對這件事很重視,轉型大模型應用企業,其實從各方面都有着非常好的支撐。
關鍵他們在跟國産大模型開發方溝通的時候,由于具備強大的行業優勢和數據儲備,也得到了國産大模型平台方的重視,甚至提出可以根據他們的需求幫他們定制大模型的方向應用。
實際上,通用大模型在企業好不好用就看數據的訓練,有行業數據就可以快速在自身業務體系内,打通相關的應用渠道,助推企業效率上升。
然而,按照現在國内大模型廠商相關的使用方法,除非企業技術實力強大,可以自己調整一個私有模型,如果想用公有模型,唯一的辦法就是通過廠商後台提供自身數據,對模型進行微調以來适應自身的業務。
畢竟,讓企業花費精力去部署和訓練一個私有模型,其投入産出比,肯定不如在通用大模型基礎上微調來的方便快捷,且收效快。
問題是,這種微調的過程,一定要讓企業将數據共享出來。
對于像陳志傑的這類企業培訓公司,課件和培訓的内容其實是最核心産品競争力,如果将這些數據全部提供給公有大模型訓練,效果能否滿足企業需求是一方面,企業核心的資源和能力外洩是一定的。
最終,這種模式會讓企業擔心自身由于數據的外洩帶來競争力的下降,這也是陳志傑到現在也沒下決心的決定因素。
有意思的是,跟陳志傑公司業務類似的一家知名在線教育平台 " 好未來 ",卻在大模型引入提效方面,在騰訊雲幫助下對數據安全和獨立性,有了可行的解決方案。
現在好未來将自身數學和其他在線教育的課件通過轉化,放入騰訊雲提供的向量數據庫中,然後利用騰訊雲爲數據庫進行設計的 Embedding(嵌入)功能,通過自然語言就可以召回相關課程内容,再基于大模型實時依據這些内容給出回答,可以實現在控制大模型産出虛妄内容的同時,提升在線輔導的效率。
由于好未來與公有大模型的協作是從數學教育開始,數學中有很多很好的推理題目,這也讓好未來通過向量數據庫的逐漸應用,也不停促進與其合作公有大數據庫在推理能力上的發展。
整個過程中,好未來利用騰訊雲提供的向量數據庫,實現了基于自有龐大的高質量知識庫,利用公有大模型在上面去做一些啓發式的生成内容,最終讓使用好未來平台的學生和家長,都體會到了大模型帶來的便利和學習效率的提升。
實際上,好未來這樣有行業數據的公司利用大模型成功提效的案例說明,企業想引入大模型促進效率提升,向量數據庫就是最好的選擇。
一方面,向量數據本身就是用一組數字來标識數據的形态,描述給大模型聽,讓其能快速理解的,企業将核心數據向量化後可以加速調節大模型的速度。
由于大模型從開始的訓練體系都是依靠向量數據進行,所以對于向量數據庫的接受程度遠超其他的數據輸入。
而好未來就是通過對于自身數據的向量數據化,加速了跟公有大模型的對接過程。
另一方面,企業核心數據通過向量數據庫保存,與通用大模型之間有物理隔閡,能較好解決企業使用大模型又怕核心信息外洩的問題。
比如好未來就将自己的課件和積攢的各種數學題、解題思路向量化後,存入騰訊雲的向量數據庫,然後與公有大模型進行對接。
其中好未來隻是利用到了公有大模型的推理和内容生成能力,而且還指定了相關的問題,必須從好未來已經确認的向量數據庫中查詢,并依靠這些内容産生結果。
這就在保證結果準确性的同時,與公有大模型訓練數據進行了物理隔離。
使用騰訊雲新推出的向量數據庫後,好未來利用大模型對話生成内容的準确性有很大提高,做到了在保證核心能力不外洩的同時提升服務質量。
二、樹立向量數據思維,助力企業激活信息化優勢
企業使用向量數據庫核心,其實是樹立向量數據思維,就是将數據從原始的狀态轉換成可比較的狀态。
這意味着企業在日常數據的采集過程中,就要做好相關向量數據的拆分、摘要的索取等工作。
因爲有這個思維在前面,後面做大模型的應用的時候,向量數據的選取和總結會非常地容易。
關鍵,這種狀态是對于大模型的利用效率最高的。
好未來在使用騰訊雲提供的向量數據庫接入大模型的過程中發現,大模型對于企業業務助推能力的核心,是通過對企業内部知識圖譜的吸收,在企業需要利用人工智能提速的業務上實現替代,用計算代替人工經驗,最終提升企業效率。
而且向量數據庫是采用語義結合進行檢索,這就要求好未來的技術團隊提前對自身的數據進行分類和簡單向量化,找到其中的規律,好用最快的方式實現數據與大模型的對接。
這其實就是向量數據思維的落地。
某種意義上,樹立這樣的思維,其實對于企業管理也有很大好處。
從騰訊雲剛剛發布的向量數據庫的特點來看,向量數據庫是通過把數據向量化,然後進行存儲和查詢,可以極大地提升效率和降低成本。
它能解決大模型預訓練成本高、沒有 " 長期記憶 "、知識更新不足、提示詞工程複雜等問題,突破大模型在時間和空間上的限制,加速大模型落地行業場景。
整個過程中,向量數據在語義檢索、多模态檢索、大規模集群、高速讀取、自然語音召回等方面具備優勢。
如果企業樹立向量數據思維,就可以對于所有的數據通過比較、可以模糊比對等方面進行分類,可以利用原來關系數據庫沒辦法利用的數據,對于企業決策和業務拓展,提供更加精準的數據支持。
更何況,現在企業信息化呈現底層數據需要打通的狀态。之前的多年投入,讓企業各種信息化系統建立完全,但在整體數據流動上還沒做好,需要新的手段來支持。
向量數據庫的出現,其實完全可以在不對現有企業各個業務管理系統大動作的情況下,将運營産生數據向量化,利用大模型統一管理,形成真正意義上的數據流動。
這将徹底激活企業原本積累的信息化優勢。
這意味着哪怕企業不是接入大模型,光推廣向量數據,就能在企業信息化方面有很大助力,能快速幫助企業信息化向智能化叠代。
當然,如果企業建立向量數據思維後再利用向量數據庫接入大模型,那麽企業管理效率會發生翻天覆地的變化。
銷售易這家公司在引入騰訊雲向量數據庫後,發現相關的内部數據通過大模型實現的服務能力有了幾何倍數的提升。
在他們看來,以前沒有向量數據庫,大模型應用隻能去問已知的問題,對企業而言價值不大。
" 有了向量數據庫,等于說先把企業的數據庫還有支持文檔存在向量數據庫裏做優先預處理,然後解鎖完成後,再和大模型結合回答用戶的問題,在這個基礎下,企業的應用才能做出,相當于向量數據庫是企業級應用數據的根基 "。
騰訊雲數據庫副總經理羅雲說,騰訊雲重新定義了 AI Native(AI 原生)的開發範式,提供了接入層、計算層、存儲層的全面 AI 化解決方案,使用戶在使用向量數據庫的全生命周期,都能應用到 AI 能力。
在騰訊官方的數據中顯示,将騰訊雲向量數據庫用于大模型預訓練數據的分類、去重和清洗,相比傳統方式可以實現 10 倍效率的提升,如果将向量數據庫作爲外部知識庫用于模型推理,則可以将成本降低 2 — 4 個數量級。
三、向量數據庫帶來的更多可能性
銷售易屬于 SaaS 企業,他們對于客戶數據的安全性極其重視。在比對多家雲服務商後,最終選擇了騰訊雲的向量數據庫。
原因也很簡單,由于客戶企業之間的數據是隔離的,不允許混在一起,騰訊雲的向量數據庫是支持數據分區進行存儲,這讓銷售易客戶企業都有自己存儲的區域。
另外企業本身測試系統、集成應用環境、正式的生産環境,不同環境的數據都可以分開進行存儲,用起來非常方便。
而且在使用中,銷售易技術團隊發現騰訊雲項目數據庫的檢索性能很高,可以實現毫秒級的反饋。
" 原因就是騰訊雲的向量數據庫是依靠服務 AI 的理念建立的,相關技術也是一脈相承,做 AI 方面的開發很順利 "。
對于這一點,騰訊雲數據庫副總經理羅雲認爲向量數據庫是支撐 AI 大模型的重要基礎設施," 這是騰訊雲向量數據庫和其他廠商最大的不同。正是基于這樣的理念,騰訊雲向量數據庫在一開始就基于 AI 設計 "。
具體來說,在接入層,騰訊雲向量數據庫支持自然語言文本的輸入,同時采用 " 标量 + 向量 " 的查詢方式,支持全内存索引,最高支持每秒百萬的查詢量(QPS);
在計算層,AI Native(AI 原生)開發範式能實現全量數據 AI 計算,一站式解決企業在搭建私域知識庫時的文本切分(segment)、向量化(embedding)等難題;在存儲層,騰訊雲向量數據庫支持數據智能存儲分布,助力企業存儲成本降低 50%。
爲了推進向量數據庫在企業的大規模應用,騰訊雲針對企業的普遍訴求,第一時間聯合合作夥伴推出了一個端到端的向量數據庫解決方案,從文本的智能化分割,幫助客戶選擇一個好的向量化模型,幫客戶建立一個合适的索引,通過智能化排序産生端到端,通過開源等方法把端到端的召回率提高 30%。
通過這樣的方式,把數據接入 AI 的時間縮短很多。
這也讓很多核心應用大模型的企業,都開始選擇騰訊雲作爲向量數據庫的服務提供方。關鍵,騰訊雲向量數據庫是行業内首家提出 AI 原生的向量數據庫,并且落地實施的向量數據(SLA 能達到 4 個 9)。
對于銷售易這樣的行業 SaaS 企業來說,這種基于 AI 建立的向量數據庫,可以爲企業産品提供更多的可能性。
首先,銷售易之前的客服機器人,隻能用關系數據庫基于分詞語法關鍵字檢索,答案不夠準确,特别是當用戶問的極模糊時候是檢索不出答案的。
現在使用騰訊雲的向量數據庫結合大模型,可以做到模糊檢索和智能回答,甚至可以直接分析用戶自然語言提問的意圖,給出最理想的答案。
這樣回答更接近于人思考的方式,不需要維護大量同義詞、詞典或是相似的問法,這種相關性的語言可以交給向量數據庫和大模型來解決。
其次,推薦潛在客戶。以前銷售易是依據客戶的特征字段,然後去結構化信息裏檢索有相關特征的企業信息,這種檢索對這銷售人員的要求很高,必須準确地檢索上百個字段,存在使用困難和考慮關鍵字的匹配度的難點。
使用騰訊雲向量數據庫後,基于相關性的特征來檢索,比如銷售檢索某個行業或某種産品某種業務需求的客戶,就會利用這句話去做這種自然語言模糊的相關性檢索。
對銷售來說使用簡單且檢索的結果會更真實、準确,智能化效果明顯。這樣的服務以前稱爲客戶檢索,現在稱爲客戶推薦。
所以企業使用向量數據庫,是部署大模型應用的必須。
而向量數據可比較性和可描述性的特征,能指導企業反過來看自身的業務邏輯,通過将業務數據向量化過程,提升對自身管理的認知,從而找到真正影響業務提速的痛點,利用大模型的能力來提升最終的效率。
現在,騰訊雲向量數據庫最高支持千億級向量檢索規模,延遲控制在毫秒級;同時具備五百萬級每秒查詢(QPS)的峰值能力。
按照騰訊官方信息,使用騰訊雲向量數據庫後,企業接入大模型需要花費的時間,能從一個月降低至三天左右,極大降低企業的接入成本。
目前騰訊雲向量數據庫已服務騰訊内部 40 多個業務,日請求量達 1600 億次,接入外部企業達千餘家。
結語
企業發展到一定階段,原有的簡單數字化(OA、ERP、BMP 等)工業和信息時代的産物,在如今是 AI、數字孿生的新時代,已經達不到管理效率再度提升的作用。
當然,之前那些數字化工具,也爲企業接下來的轉型和發展奠定了良好的基礎。
由于數據不斷産生,業務不斷互聯網化,這使得越來越多企業,哪怕是制造業企業的業務,也可以用數據的方式存在。
再加上智能設備的滲透率非常高,以及 5G 的普及和數據存儲與算力雲時代的出現,以數字化和智能化結合爲核心的下一個時代,已經若隐若現。
而要想做到這一點,樹立向量化數據思維是關鍵。而建立在 AI 原生邏輯基礎上的向量數據庫服務,現在看是一個很好的選擇。
這次 Techo Day 技術開放日将資料和課件都整合成了一份《騰訊雲工具指南》,這份資料技術含量很高,可以幫助學習了解向量數據庫的技術優勢和價值應用。
資料包含數據庫的發展趨勢和産品價值解讀,還有實打實的向量數據庫應用案例和解決方案,感興趣的小夥伴,建議不要錯過這個福利!
* 文章爲作者獨立觀點,不代表筆記俠立場。