出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|視覺中國
最近打開 AI 新聞,大塊的版面都和 AI 搜索相關,AI 巨頭們,從文生視頻的 Sora 卷到了搜索界。
這讓我想起前幾天我難住了 Kimi 的一個問題。即:100ml 咖啡粉大約是多少 g 咖啡豆。
是這樣的,雙十一我買了一包 250g 的咖啡豆,到咖啡店磨成粉來做手沖,我朋友想嘗嘗,并且一定要和我 AA,但我們沒有秤,沒法計算。最終 ta 拿來一個 ml 計量的容器,裝了 100ml。
于是我準備偷個懶問問 Kimi,Kimi 給完答案,我當場截了屏。
Kimi 閱讀了 35 個網頁告訴我,100ml 的咖啡粉大約對應于 285.71 克的咖啡豆。
而我買的咖啡豆,一共 250g。
我表示這太難了,再三勸說朋友,ta 最終放棄了和我 AA。
因此,今天寫測評,我将把 " 難題 " 作爲 prompt,來測評一下 AI 搜索哪家強。
prompt:100ml 咖啡粉大約是多少 g 咖啡豆?
參賽選手則包括月之暗面 Kimi、字節豆包、秘塔 AI 搜索、Perplexity 和 ChatGPT。
月之暗面 Kimi
首先我們再給 Kimi 一次機會,此次使用的是 Kimi 探索版,主打解決複雜的搜索問題,大約 15 秒後,Kimi 給出了自己的答案。
在 Kimi 的陳述中,100ml 咖啡粉前面需要 20g 咖啡豆,後面需要 67g 咖啡豆,這讓我感到,它沒有理解這 100ml 究竟是咖啡粉還是制作出來的咖啡。
再看 Kimi 的工作流程,它搜索了我的問題,灰色字顯示,Kimi 采用的是關鍵詞搜索方法。
在右側的搜索欄中,Kimi 搜索到最多的是咖啡的粉水比,文不對題,有一種上帝視角給出答案,但是沒有具體路徑的即視感。
這讓我多少有點失望。
我調整了自己的措辭又試了一次。打開一個新的對話,依舊使用探索版,将 prompt 改爲:把 250 克咖啡豆磨成粉,用來做手沖咖啡,取出 100 毫升咖啡粉,請問這 100ml 咖啡粉是由多少克咖啡豆制成的?
Kimi 看似開始向答案靠近,右側的搜索欄也看起來逐漸正确,但我點開右側的鏈接,前 5 個鏈接裏都找不到 Kimi 所參考的密度信息。
另外,前三個鏈接都來自一個咖啡愛好者分享的帖子,信息來源的可靠性,大概确實是:内容由 AI 大模型生成,請仔細甄别。
字節豆包
豆包的左側功能區爲 AI 搜索專門留出一個模塊,輸入 prompt 後,它在 8 秒鍾左右給了我答複。
雖然豆包的工作流程也是理解問題 - 搜索網頁 - 找到來源 - 總結陳述,但從結論上看,豆包一開始就沒有理解問題,而是根據搜索到的信息交出了一份潦草答卷。
值得表揚的是,豆包在總結文本中添加了來源引用标注,使文本更加有路可循。
那麽讓我們也對豆包友好一點,打開一個新的對話,使用更爲确切的 prompt,搜索一下:把 250 克咖啡豆磨成粉,用來做手沖咖啡,取出 100 毫升咖啡粉,請問這 100ml 咖啡粉是由多少克咖啡豆制成的?
豆包表示,由于缺少咖啡粉的密度數據,無法直接換算出對應的質量,搜索的網頁數量,從 5 變成了 6,有所進步但仍顯怠工。
于是,我嘗試了深入搜索,等待了 30 秒,豆包輸出了 1500 字長文,向我講了許多道理。其中包括 250 克咖啡豆磨粉後的粉量範圍、手沖咖啡用的咖啡粉量估算等等信息,但都沒有毫升和克重的換算。
秘塔 AI 搜索
秘塔 AI 最近風很大,此次經過 16 秒左右的等待,秘塔交出了自己的答卷。
不得不說,秘塔 AI 的表現令人驚喜。不僅在文本陳述中展現了搜索的完整路徑,還精準地鎖定了我的問題所對應的字節,給出了相應的答案。
這像極了人類使用搜索引擎查找信息的過程。
在秘塔的搜索欄中,還給出了全網、文庫、學術、圖片、推薦幾個闆塊,适應不同搜索類型的需求。另外在右側可以看到,秘塔甚至做好了下一步替我生成 PPT 的準備。
總的來說,秘塔 AI 展現了優秀的問題理解能力,我也無需再進一步明确 prompt,流暢直接。
Perplexity
Perplexity 是一家總部位于美國的 AI 初創公司,創立于 2022 年,公司創始人阿拉溫德 · 斯裏尼瓦斯來自 OpenAI。據悉,Perplexity 在 AI 搜索領域表現出色,尤其是在答案引擎方面具有顯著優勢。
2023 年 10 月,Perplexity 完成了一輪融資,估值達到 5 億美元。此外,軟銀集團願景基金二期計劃向 Perplexity 投資 1000 萬至 2000 萬美元,對 Perplexity 的估值爲 30 億美元。最近,Perplexity 正在進行新一輪融資談判,希望将其估值增加一倍以上,達到 80 億美元或更高。
Perplexity 在 8 秒鍾即給出了答複。
但從答案看來,Perplexity 也認爲我要喝 100ml 的咖啡。
考慮到中英文理解的難度,我修改 prompt 試試看:把 250 克咖啡豆磨成粉,用來做手沖咖啡,取出 100 毫升咖啡粉,請問這 100ml 咖啡粉是由多少克咖啡豆制成的?
Perplexity 的答案立竿見影地好起來了。
ChatGPT
再看 ChatGPT,輸入 prompt 後,ChatGPT 在 13 秒左右給出了我答案:
ChatGPT 活狠話不多,答案簡單明了。
首先是理解問題的能力硬挺,其次算法邏輯在 5 位選手中是一股清流,而數值和上文雖然相差較大,但也在波動範圍内。
似乎也不需要我再進一步明确 prompt 了。
AI 搜索 vs 傳統短查詢
此次測評所選取的 prompt,指向的是近期 AI 領域大熱的數學推理能力和 " 搜索引擎替代說 "。
10 月 31 日,OpenAI 發布了 ChatGPT Search,引發世界熱議,即生成式 AI 是否将就此改變人們獲取信息的方式?谷歌(Google)作爲傳統搜索引擎更是首當其沖,許多人認爲 OpenAI 的搜索引擎或将成爲未來的 "Google 殺手 "。
國内多款大模型也先後推出 AI 搜索版,它們可以直接提供實時答案,幫助用戶避免浏覽大量廣告和 SEO 優化的文章,快速找到所需信息,并以相對簡潔的格式呈現答案,同時附上信息來源的鏈接,引用的标注也可以對 AI 生成的文本進行快速校驗。
但是無論哪一家,離技術成熟都還有很長的路要走。
這不僅僅是 AI 不夠 " 聰明 " 的問題。
更深刻的問題在于,AI 搜索使用的是關鍵詞搜索,而傳統搜索引擎如 Google 最常使用的功能是導航型檢索(navigational queries)。
四個字以内的簡短查詢占據了 Google 搜索的大部分,這些通常是用戶知道但懶得逐字輸入的網址,或者隻是通過關鍵詞快速找到目标網頁的搜索。
比如 " 上海天氣 "、" 白色 T 恤 "、" 咖啡館營業時間 "、" 附近自習室 " 等等,這些查詢讓谷歌成爲數十億網民上網的入口。
我輸入 " 白色 T 恤 " 想購物,但豆包給我解釋了幾種白色 T 恤的款式、面料和設計。
大語言模型可能并不适合處理這些短提示。它通常需要完整的問題才能有效回答,因爲完整問題能創建強有力的統計模式。AI 搜索并不了解,搜索 " 白色 T 恤 " 的人可能是想購物,而不是了解這種衣物的材質。
對于這些問題,用戶可能需要像我修改 prompt 那樣,一遍一遍地具體化和精确化。
OpenAI 發言人 Niko Felix 在一份郵件聲明中表示:" 使用 ChatGPT Search 時,我們觀察到用戶比以往使用其他搜索工具時更傾向于以自然語言提問。同時——網絡導航查詢——通常較短且相當常見。我們計劃随着時間的推移改進這些查詢類型的體驗。"
Perplexity 也曾被吹捧爲 "Google 殺手 ",但它在短查詢上也遇到了同樣的問題。
Perplexity CEO Aravind Srinivas 曾談起用戶對其産品與 Google 搜索的不同使用方式," 在 Google 搜索中的查詢字數中位數在 2 到 3 之間,而在 Perplexity 上則在 10 到 11 之間。所以顯然,用戶在 Perplexity 上直接提出問題的頻率更高。而在谷歌上,用戶通常輸入幾個關鍵詞快速找到特定鏈接。"
但換個角度看,這意味着,AI 搜索在回答長問題時表現相當不錯。
類似 " 美聯儲繼續宣布降息,對全球經濟将産生什麽影響?" 這樣的複雜問題,谷歌往往難以回答,而 AI 搜索可以快速從多個網站獲取信息并提供一個合理的答案(Perplexity 在回答此類問題方面也表現出色)。
要真正替代 Google,AI 搜索需要改進人們日常生活中更常用的短查詢。但問題在于,AI 搜索爲何非替代 Google 不可呢?
AI 搜索在提供被傳統搜索掩蓋的信息方面填補了一個新空白,這本身是有價值的。
深耕知識性長問題,掘一口新井,又有何不可?