生成式 AI 要取代搜索引擎的聲音,出現在 ChatGPT 發布的第一天。
後來越傳越邪乎,有人設想以後大家找資料都不說 google 一下了,而是geept 一下。
還有人說,搜索引擎給的一頁 10 個藍藍的鍊接,以後就像老式撥号電話的轉盤一樣成為曆史。
谷歌剛開始還滿不在乎,随着 ChatGPT 爆火出圈也感受到威脅,内部拉響紅色警報,調整 AI 産品策略。
微軟則把這視作彎道超車的機會,計劃在必應搜索中繼承 ChatGPT 的能力。
……
不過,持不同觀點的也大有人在。
随着大家使用加深,ChatGPT 會用權威的語氣輸出錯誤信息,無法獲取最新知識等弱點暴露出來。
△一本正經胡說八道
OpenAI 的 CEO 也表示,現階段 ChatGPT 容易給人帶來一種假象,依賴它來做重要事情是不靠譜的。
Keras 之父則認為,搜索與生成根本就是兩個問題,原理上就決定了兩者無法相互取代。
有意思的是,另一搜索巨頭百度的觀點也站在這一邊。
近日,百度剛剛舉辦 Create AI 開發者大會,大會前夕,百度搜索宣布将基于百度自研的生成式模型,升級" 生成式搜索 "能力,并指出,生成式 AI 和搜索引擎是互補關系而不是替代,還說搜索底層技術和 AI 底層技術是相通的。
其實你已經用上了
百度這番話不是說說而已,而是從 2021 年就開始嘗試把 AIGC 與搜索兩者結合起來了。
十年前點擊 " 百度一下 " 的按鈕時,搜索引擎背後的工作原理相對簡單,就是通過關鍵詞索引,經過算法篩選排序,生成結果頁。
而現在,結果頁有時候已經不是單純呈現鍊接排列。
比如,買了新款 iPhone 的你,把手機翻了個底朝天,也沒找到錄音功能藏在哪。
無奈求助于百度,在搜索框輸入 " 蘋果怎麼錄音?",生成頁面最頂端出現的不是鍊接,而是一個小卡片。
AI 選出最能幫到你的答案并做摘要,顯示在最上方,無需再從搜索結果翻找。
點進去看,還是圖文并茂,步驟清晰的那種。
(世界未解之謎:蘋果的錄音機到底為什麼要叫語音備忘錄???)
又或者網絡沖浪時看到一幀截圖,想要知道出自哪部劇,描述一下,搜索引擎可基于深度語義理解問題并匹配結果,也能搜出答案來。
不信可以一起口語化描述下面這張劇照," 韓國有部電影野獸輪船在空中飄着叫什麼名字 ",然後在評論區告訴我們答案。
再比如,想了解 " 北京 GDP 和上海 GDP 誰高 ",百度可以基于權威數據自動生成多年兩地 GDP 走勢圖。
高低對比直接呈現,不用自己分别另行搜索和自行計算。
這些功能背後都是 AI 技術在支撐,也是AIGC 和搜索技術的結合,隻是用起來過于順滑,大家習以為常了,就像手機上的指紋識别一樣。
搜索引擎雖然有 20 多年曆史,但對大多數網民來說仍然是難以替代的高頻剛需,并且需求也一直在變化。
從簡單的關鍵詞命中搜索,到自然語言搜索,再到語音(特别是方言)搜索,人們使用搜索引擎的方式越來越靠近本能和直覺。
從基礎的把網頁當成文檔去搜索,到搜索知識、服務,人們越來越期待搜索提供更大的價值。
由此帶來的複雜需求與龐大計算量,使搜索依然是技術壁壘非常高的産品。
據了解,自百度發力 AI 十年來累計研發投入超過 1000 億元,每年研發占比都超過 15%,2021 年更是達到 23%。
與此同時,搜索則是百度 20 年來的核心業務,也是離大衆最近的 " 窗口 " 之一,每天處理海量的請求。
百度領先的 AI 技術都會最先落地在搜索上,讓搜索不斷跟上需求的發展,同時也是 AI 技術最好的試煉場。
兩大 " 殺手锏 " 技術公開亮相
提起百度的 AI 技術,最被人熟知的是文心大模型,産業級、知識增強是其特色。
背後還有飛槳深度學習平台,提供一系列基礎設施和工具。以及更底層的自研昆侖芯片,兼具超強算力與高性價比的成本優勢。
那麼這些技術怎麼用于搜索引擎呢?
這就要說到在百度 Create 大會上亮相的兩大 " 殺手锏 " 技術,跨模态大模型 " 知一 ",新一代索引技術 " 千流 "。
先看跨模态大模型知一,是 AI 技術在搜索場景落地的代表。
簡單來說,知一大模型可以從全網形态各異的資源中持續學習,無論是文本、圖片、視頻還是結構化信息都可以融會貫通。
打破了資源形态的界限,就更容易理解用戶的搜索需求。
從技術層面講,知一使用了百度文心大模型技術。大規模預訓練技術提升模型性能,蒸餾壓縮率高達 99% 的模型小型化技術以降低成本,得以在搜索場景全面應用。
據了解,目前知一在百度搜索的各場景中每天要進行上萬億次的推理。如此巨大的使用規模又帶來新的問題,如何把滿足需求的結果高效呈現給用戶。
這就要提到新一代索引技術千流,負責把不同維度的信息進行智能有序的組織。
千流與之前的索引技術相比,主打多領域、多維度表達的立體栅格化索引。
如何理解栅格化?
在過去,搜索引擎為提高效率會把内容按質量橫向切開,做分層處理。先從高質量内容開始檢索,滿足需求就可以及時返回結果,還未滿足再進入下一層。
在千流中,進一步把質量最高的一批内容按領域垂直分層。質量分層 + 内容命中結合,一橫一縱把内容切分成栅格按需檢索,大大減少每次檢索的計算量。
這是對搜索引擎後端架構的徹底改造,做到成本降低一半、速度快兩倍。
但這又不光是節省成本的問題。
百度工程師透露,節省下的計算量還可以投入到對内容的精耕細作中,如綜合利用多種算法提升索引質量,或者加入最新的生成式 AI 技術。
此外,在不同的栅格間也可以使用個性化算法,就好比" 一魚多吃 ",不同的部分使用不同的烹饪方法。
知一和千流兩者配合起來,一方面對用戶搜索意圖的理解更精确,一方面提高内容的質量和信息檢索效率,為搜索打開了更多可能性。
用戶的高頻需求,驅動着 AI 技術變革。新技術又能激發新用戶需求表達,兩者構成 " 雙輪驅動 ",持續推動搜索進化。
在這樣不斷反饋叠代之下,下一個質變即将到來。
搜索即創作
回到最初的話題:生成式 AI 會取代搜索引擎嗎?
作為國内最大的搜索引擎,百度的答案已經明了:
AIGC 和搜索引擎是互補而非取代關系。
百度搜索傑出架構師辜斯缪解釋了百度如此判斷的思維路徑:
當前的 AIGC 對話系統,哪怕是最火最出圈的 ChatGPT,尚有自身能力的明顯瓶頸, (比如有時胡說八道,以及不能及時獲取最新消息) ,且不能保證未來技術一定能夠解決這些問題。
因為從工業應用和落地可能性角度看,現有模型規模并不能支撐一個模型能記錄所有知識。
尤其是用戶需求量巨大的強時效性内容。
解決辦法,就是換個角度,利用 AIGC 為用戶開放式的搜索提問或定制化的信息需求 " 創作答案 "。
從單邊的搜索或生成,融合為檢索 + 生成,會達到更好的效果。
這也是從 2021 年,百度就已經着手研發生成式搜索的重要原因。
檢索和生成的結合模式,注定了百度搜索升級後的産品形式會有變化。
據了解,最終産品會與 ChatGPT 有很大不同,即雖是多輪交互,但并非單純的多輪對話。
簡而言之,用戶可以更高效地向搜索引擎提出需求,生成式搜索則在滿足需求的同時,叠代和調整這個需求。
不會 PS 的人,可以利用生成式搜索搜出一張圖片,再用語言描述想要怎麼修改這張圖片,搜索引擎就能根據要求,通過百度的 NLP 技術對圖片進行修改,給予反饋。
升級後,生成式搜索會實現三個方面的體驗提升。
信息智能整合組織。在保證權威性和準确性的前提下,梳理檢索結果,提供整合後的結構化答案。
内容創作。基于文心 · NLP 大模型,發揮自然語言處理能力,可以滿足諸如 " 寫文章 "" 寫公告 "" 智能聊天對話 " 等創作型搜索需求。
個性化内容體驗。基于不同用戶畫像和閱讀偏好,同一内容也有差異化、個性化的具體表達。
△「内容創作」示意效果圖
據介紹,百度即将在近期升級全網首個生成式搜索。
提綱挈領地梳理下來,不論是 AIGC,ChatGPT,還是生成式搜索,都是技術、尤其是 AI 技術發展到一定地步産生出來的新的機會。
如 2022 年底,百度 CEO 李彥宏在全員大會上的發言所說:
把 AIGC 這麼酷的技術變成人人需要的産品,這一步才是最難的。
百度生成式搜索會是下一個人人需要的 " 酷 " 産品嗎?
拭目以待。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~