AI 能回答問題,但能不能真正 " 思考 "?
經常用 AI 搜索産品的用戶會發現,這類産品在面對複雜問題時常常 " 掉鏈子 " ——它能模仿莎士比亞的文風,解答數學題,卻可能在解決日常生活中的難題時束手無策。
這就像一個博學卻不懂變通的書呆子,知識豐富但缺乏靈活的思維能力。顯然,僅僅把 AI 搜索變成一個 " 會說話的搜索引擎 " 是遠遠不夠的。
那麽,如何讓一個智商更高、推理能力更強、會深度思考的大模型來解決普通用戶的真實問題,而不僅僅是做奧賽題呢?
月之暗面最近給出了它們的一次嘗試:他們剛剛上新了想要挑戰複雜問題搜索的 Kimi 探索版。有趣的是,Kimi 探索版沒有強調追求高精尖的科研能力,而是把目光聚焦在提升日常使用場景的體驗上,試圖在普通用戶和 " 高階 "AI 之間找到一個平衡點。
據說,Kimi 探索版學會了像人一樣拆解複雜問題,通過自主規劃解答思路分步執行、海量窮盡式自主搜索、即時反思搜索結果,最終幫助用戶找到更全、更準的答案。
具體使用效果如何,矽星人也在第一時間進行了體驗。
當大模型開始像人類一樣思考
Kimi 探索版現已全量上線,使用方式很簡單,不需要切換模型,入口就在 Kimi 的對話框底部的開關裏,打開 " 探索版 " 開關即可開始使用。
對比投資收益
最近 A 股的過山車行情讓股民們體驗了一把 " 心跳過速 " 的刺激——昨天還在爲暴漲歡呼雀躍,今天就因暴跌捶胸頓足。我們先讓 Kimi 探索版來對比兩種投資方案的收益:如果我今年春節後的首個交易日開盤時買了比亞迪股票,對比一下,同期在上海黃金交易所投資黃金,截至 9 月最後一個交易日結束。哪個方案的收益更高?列個表格
上面的問題實際上至少包含了三個子問題,如果用傳統的方式需要進行多次手動搜索和操作,可以看到 Kimi 的思維過程,通過分别查找比亞迪股價、金價以及最後生成表格進行對比給出了答案。
麥肯錫經典面試題
既然 Kimi 探索版重點強調的是帶推理的搜索能力,我們再來試試對邏輯推演要求更高的咨詢面試題。
這類題目通常需要高度結構化的思維方式,如問題分解、邏輯樹構建等。而且往往需要在給定信息的基礎上進行實時推理和假設檢驗,傳統的 LLM 主要基于預訓練數據,難以像人類那樣靈活地進行即時分析。
問:如果所有鋼琴都定期調律,估算一下北京需要多少名全職的鋼琴調律師
我們可以看到,Kimi 能處理包含多個變量和假設的邏輯推理問題,按照步驟逐層分析,通過費米估算(分解問題、假設合理性、結果的數量級估算)的方法進行估算,拆解的邏輯是:鋼琴數 * 每年調音次數 * 調音時長 = 每年總調音時長。在得出結論之後,Kimi 還提供了兩個相關信息作爲補充。
在過程中,Kimi 通過搜索結合了不同來源的數據,最後進行綜合分析,類似于用戶輸入問題後的多步思考與反思過程。
上面的問題可能太常見,再來個 " 題庫 " 裏沒有的問題:如果要用風力發電完全取代中國 2023 年的煤電産量,需要建造多少台風力發電機?這些風力發電機占地面積相當于多少個上海市?
提取關鍵信息、分步計算,清晰的推理之後,Kimi 很高效的給出了答案。
用 Perplexity 付費的 Pro 模式進行對比,在經過一番計算之後,Perplexity 給出了一個比較離譜的答案,檢查後發現 Perplexity 在估算風力發電機的數量和占地面積的步驟出現了明顯的問題。
開個腦洞
再來問一個更開腦洞的問題:估算一下如果要用 3D 打印技術重建整個羅馬鬥獸場,需要多少材料?多長時間?成本大約是多少?與原始建造方法相比有什麽優勢和劣勢?
Kimi 首先通過信息檢索獲取相關數據,對問題進行了分解,比如計算 3D 打印羅馬鬥獸場所需的材料、時間和成本。接着,它基于這些數據進行估算和分析,逐步回答每個問題,并對比 3D 打印和傳統建造方法的優缺點,最終給出完整且清晰的解決方案。我們可以看到從信息獲取、數據處理到邏輯推理和建議的完整思考過程。
看來下次腦洞不夠用的時候,可以找 Kimi 幫忙了。
我們繼續測試 Kimi 探索版在信息收集、數據處理和複雜任務處理方面的能力極限。
首先是涉及大量數據處理的任務,問:2024 年 9 月,哪些 A 股上市公司經曆過漲停,請按照時間先後順序列個表格,并分析漲停原因。
要正确回答這個股市問題,Kimi 探索版需要具備實時數據訪問和處理能力、信息整合和梳理能力,金融領域知識的理解能力。
尤其是這個問題涉及大量公司和漲停原因的信息,我們看到了 Kimi 探索版的批量信息處理與自動化能力,可以一次閱讀大量網頁,快速搜集、篩選、整理多家公司漲停的原因,并生成系統性的報告。
面對同一個問題,Perplexity 在第一步就出現了信息不完整的問題。
再來一個涉及最新企業和地理信息的複雜任務:2024 年《财富》中國科技 50 強企業中,哪些公司的總部在北京?
提出問題後,Kimi 快速從 232 個的網頁中檢索了相關信息,包括問題中提到的 2024 年《财富》中國科技 50 強企業名單及總部信息,接着将檢索到的各公司總部所在地進行分類整理,并直觀地呈現給用戶。
值得一提的是,Kimi 在給出答案之後,還進行了 " 反思後的補充 ",具體到這個問題中,可以看到 Kimi 對自己的答案進行了一次 " 查缺補漏 ",補充了聯想和小米。
這也是 Kimi 探索版的一個特點,在提供答案的基礎上,KImi 會進一步通過 " 反思後的補充 ",引導用戶思考或補充額外信息,從而得到更完整和深入的答案。但這種反思不是每一個問題都會觸發,可能是避免進行不必要的延伸。
除了金融和曆史,再來看看 Kimi 探索版是否能夠理解技術演進的複雜性:追溯 iPhone 中使用的三大關鍵技術:電容觸摸屏、锂聚合物電池和手機 CPU 的發展曆程。這些技術的起源可以追溯到什麽時候?分别經曆了哪些關鍵的技術突破,才最終成就了 iPhone ?
Kimi 探索版依舊按照邏輯清晰的步驟進行逐步拆解,包括從技術起源、關鍵突破到現代應用的全過程,提供了較爲全面的提供全面的背景和推理,感覺再讓 Kimi 擴展續寫一下一篇分析類的文章就出來了。
更多花式用法
Kimi 探索版除了增強了其處理複雜問題的能力,這種能力使得 Kimi 能夠理解用戶的問題,進行多層次的分析和推理,也讓 Kimi 在實際生活中有了更多的玩法。
讓 Kimi 幫你找電影:有一部日本動畫電影,講述了一個住在海邊小鎮的女高中生的故事。她有聽力障礙,戴助聽器。影片中有很多關于手語的鏡頭。男主角是她的同學,開始學習手語來和她交流。電影風格溫馨細膩,有不少關于青春和成長的主題。這是哪部電影?
讓 Kimi 幫你規劃旅遊路線:幫我查詢 10 月上海迪士尼各個遊樂項目在一天不同時段的平均排隊時長,列成表格。再根據這個設計一條耗費排隊時間最少的遊玩路線
讓 Kimi 幫你對比咖啡店買咖啡 VS 自己煮咖啡:假設你每天在咖啡店買一杯咖啡需要花費 30 元,而自己煮咖啡的成本每天爲 5 元,但你需要先購買一台 1500 元的咖啡機,每月還要花 100 元購買咖啡豆,自己煮咖啡每天會花費 10 分鍾。請計算一個月(30 天)後,在咖啡店買咖啡和自己煮咖啡的總花費分别是多少?并推算出多久後自己煮咖啡的累計成本會低于每天在咖啡店買咖啡的花費?此外,如果考慮時間成本(假設你每小時的時間價值爲 50 元),哪種方式最終更省錢?
結語
如果說長文本處理能力爲 Kimi 提供的是更好的 " 記憶力 ",那 " 推理 " 能力顯然是提高了 Kimi 的智力,Kimi 通過模拟人類的推理和思考能力,對複雜問題進行拆解,從而 step by step 的進行解決,在執行過程中還能調用代碼、搜索等工具,最後還能像人一樣進行自我反思和修正。
顯然,這次 Kimi 探索版并不是要做一個 o1 出來,他們的底層思路可能是類似的,但落到用戶層面,Kimi 探索版更多瞄準的還是它的大盤用戶:知識工作者以及大學生。通過 搜索來解決用戶日常場景中那些曾經很難用大模型來解決的問題。
如果說 o1 是面向科研和高階用戶的特化模型,現在的 Kimi 探索版更像是一個面向更廣泛用戶的搜索調研工具。
真正改變世界的技術創新,往往是從解決日常問題開始的。模拟人類的推理思考過程,配合海量的窮盡式搜索和不斷反思叠代搜索結果的特性,的确讓 Kimi 有了某種 " 超能力 ",用戶在使用 Kimi 找答案的時候體驗到了一種前所未有的效率與精确性。
另外,據說 " 深度搜索 " 隻是第一步,Kimi 探索版後續還會更新其他新能力。
在保持期待的同時,大家可以先把 Kimi 探索版用起來了。