國内行業大模型的 " 江湖風雲 ",如今已悄然從純算法網絡 PK 轉向了 " 實戰派 " 較量。這不再是單一的技術炫技場,而是看誰能在現實世界中大展拳腳,舞出最炫的 " 應用落地 " 舞步,從真正意義上實現提效,創造出實實在在的社會價值。
9 月 20 日,浩鲸科技 · 鲸智大模型發布會在雲栖大會舉行,其中,BI 大模型受到行業廣泛關注。據了解,基于鲸智 BI 大模型構建的鲸智 ChatBI 工具在中國信通院可信 AI 評估中,跨越四大智能領域門檻,通過 20 項能力測試,成爲首批首個通過基于大模型的商業智能系統評估的産品,評級達業内最高 4+ 級,彰顯其綜合能力與智能技術的領先地位。
浩鲸科技數據智能首席專家吳名朝在發布會現場稱,BI 場景擁抱大模型過程中,在知識構建、問數準确、模型泛化等層面其實還存在很多技術挑戰。
BI 大模型落地仍存在諸多挑戰
随着數字化轉型的持續推進,企業面臨數據量與業務複雜度雙重增長的挑戰。數據架構需升級以支持高效決策,并應對跨部門、跨流程、跨系統的複雜數據分析需求,這要求分析人員具備高階數據分析能力,提供整合的數據分析、商業智能及機器學習解決方案,确保各類數據需求獲得統一、流暢的體驗。
傳統的解決方法是建立端到端的 Text2SQL 模型,通過語義理解用戶的數據請求,通過模型翻譯成可執行的 SQL 語句輸出所需數據。然而,這一方式雖有所成效,卻也暴露出顯著局限:
問法多樣,容錯性小:面對用戶多樣化的、口語化的數據需求,端到端的 Text2SQL 模型在架構層面略顯單薄;
知識點多,邏輯複雜:大量的 BI 知識分散在報表,指标元數據,視圖和腳本中,關系斷裂,知識缺失。
爲解決上述問題,浩鲸科技積極探索大模型技術與數據分析工程化的深度融合。通過結合大模型強大的自然語言理解能力和 BI 領域多年的經驗積累,實現對話式的數據查詢與快速分析,降低用戶獲取數據、理解數據的門檻。用戶隻需簡單表述其需求,系統便能迅速生成專業且美觀的數據圖表。
據吳名朝介紹,浩鲸科技鲸智 ChatBI 圍繞 " 取數、看數、用數 " 全分析流程,打造智能意圖識别、智能圖表生成、智能數據推薦、智能數據洞察等能力,幫助用戶建設易用的數據分析 " 副駕 ",讓企業用戶可以像聊天一樣隻需一句話提問,即可輕松地獲取所需的數據分析結果,無需編寫複雜的查詢語句。
技術實現:标準化數據管理,規範數據入口是第一步
從 BI 大模型的技術實現上看,基于語義理解的 SQL 生成任務需要精準理解用戶查詢的指标和相關維度。爲了增強問數服務層的數據精度與效能,浩鲸科技的 BI 大模型團隊聚焦于構建一套全面的 BI 知識數據管理體系。
該體系深刻涵蓋了業務術語、同義詞彙、原子術語、關鍵指标、多維數據以及庫表模型等核心要素的精細化管理。這一舉措旨在通過深化行業知識的嵌入,彌補基礎大模型在垂直行業的知識短闆,以及促進上下文間精确而緊密的互聯,爲大數據分析與用戶決策提供更加堅實的信息基石。
通過整理并優化行業專屬術語庫,确保每一個業務概念都能得到準确表達。同時,建立同義詞語數據管理系統,以解決自然語言處理中的語義模糊問題,使模型能夠靈活應對多樣化的語言表述。此外,針對關鍵性能指标和多維度數據的精細化管理,浩鲸科技構建了一套高效的指标與維度數據管理體系,助力用戶深入挖掘數據價值,發現潛在趨勢與規律。
更爲關鍵的是,通過庫表模型數據管理的實施,爲大模型注入了強大的結構化數據支持,這不僅增強了模型對于複雜數據關系的理解能力,還賦予了其基于先驗知識的推理與推斷能力。這一過程實現了知識數據與大模型的深度融合與相互促進,使得機器能夠更加精準地把握人類語言的深層含義,并在實際應用中展現出更高的精準度與魯棒性。
智能化知識識别和召回,解決多指标查詢難題
在 BI 問數的業務分析過程中,經常需要精确判斷用戶提及的指标是否涉及多個。面對用戶描述模糊、意圖表達不夠明确的情況,特别是當提問中包含了複雜的多主語、多層定語等結構時,通常需要先将這些提問細緻拆解,随後進行準确的識别與合理的組合,以确保能夠準确捕捉到用戶實際想要分析的所有指标。處理用戶查詢時識别和處理多指标的難點主要體現在以下幾個方面:
自然語言的不确定性和模糊性:用戶往往會用自然語言模糊表達問題,可能并未明确指出多個指标或條件。這種情況下,需要通過語言理解技術來推斷用戶潛在的意圖,并識别出其中涉及的多個主語、謂語或定語成分。
多指标的拆解與組合:當用戶的查詢涉及多個指标時,需要将這些指标進行拆解,并分别識别出它們的意義。這一過程要求智能分析系統具備良好的句法分析能力和上下文理解能力,以便确定不同成分間的關系,然後将這些指标重新組合成搜索條件進行查詢。
與許多開源方案相比,浩鲸科技鲸智 BI 大模型進一步采用了知識召回模塊和輕度弱化 Text2SQL 的整體架構。旨在通過構建一系列高精度、高容錯的 RAG 組件,降低大模型在垂直領域下實現複雜場景的難度,并最大程度地優化了 Text2SQL 的幻覺問題:
術語識别模塊:根據術語構建的專有詞典進行專有術語分詞并對存在連接詞的短語進行句子拆分。
語義解析模塊:構建針對查詢時間(時間标準化),行政區域,組織,排序條件,展示圖表,查詢目标,對比時間,統計函數(數學運算),數值條件(百分比,金額,身高,體重)等場景化的實體識别任務模塊,挖掘用戶提問中的關鍵信息點。
術語召回模塊:用戶語義語句中關鍵實體的查詢和召回,與元數據進行關聯匹配并實現一系列召回增強操作。
轉換融合模塊:對召回的多組信息進行特定策略融合,對 query 進行改寫并形成提供大模型推理的标準信息。
虛拟視圖構建 BI 大模型全新範式
在 BI 問數的實踐中,查詢信息數據往往分布在多個維度表中,每個維度表都包含了描述數據的不同統計粒度或特有屬性。
浩鲸科技首創融合虛拟視圖技術,基于 BI 問數場景獨有的數據分布特性,通過智能化方法整合查詢過程中涉及的各類字段,包括但不限于維度字段、業務指标、度量值以及查詢條件等,構建出一系列針對特定查詢需求的臨時視圖作爲大模型推理基礎依據。
這種 " 按需構建 " 的視圖策略,使大模型推理信息中僅包含查詢所必需的字段,不僅大幅減少了數據處理過程中的冗餘信息,還提高了大模型執行效率和精确度。
浩鲸科技 BI 大模型聚焦于爲特定業務領域量身打造并優化 SQL 生成模型,通過深度融合行業特定的數據庫架構(包括庫表結構)、業務邏輯中的語義信息、以及龐大的數據量等核心要素,旨在輸出針對該行業最爲适配且高效的 SQL 查詢語句。與廣泛應用的 Text2SQL 模型形成鮮明對比,此方案巧妙地借助了大型預訓練模型對複雜行業語言模式的強大理解能力,并進一步利用精細化的業務數據資源進行微調,從而顯著提升模型在捕捉并轉化業務需求爲精确 SQL 語句方面的能力,成功将行業相關用語的 SQL 正确轉換率推高至 92% 的卓越水平。
這一創新不僅代表了自然語言處理與 BI 數據庫查詢優化領域的深度融合與技術創新,更預示着在實際應用中,它能夠極大地提升業務系統的數據處理效率與準确性,爲企業級用戶帶來前所未有的數據洞察能力與業務決策支持,無疑是技術與應用雙重價值并重的典範。
在發布會的最後,吳名朝表示,"BI 大模型要完美的融入場景,還有很長的路要走,但我們願意與行業夥伴、技術夥伴攜手共進,克服更多複雜場景下的應用難題"。
* 本文系量子位獲授權刊載,觀點僅爲作者所有。
— 完 —
量子位 QbitAI
վ ' ᴗ ' ի 追蹤 AI 技術和産品新動态
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>