快科技 3 月 11 日消息,國産大模型 DeepSeek-R1 爆火後,許多第三方平台陸續接入了該模型,比如騰訊、階躍星辰、螞蟻集團、百度、字節跳動等等。
今日,中文大模型測評基準 SuperCLUE 發布 DeepSeek-R1 聯網搜索能力首測,公布了 10 家第三方平台測評結果。
從結果來看,騰訊元寶是本次測評中唯一一個超過 80 分的第三方平台,以 80.61 分領跑聯網搜索測評榜單,騰訊元寶在總分、基礎檢索能力和分析推理能力三個關鍵指标上均位列第一。
階躍 AI 以 74.49 分的總分位居第二,支付寶百寶箱以 73.47 分位居第三,而其他平台在本次測評中則處于不同的梯隊,性能存在一定的差異。
各個第三方平台在基礎檢索能力上平均得分爲 95.45,而在分析推理能力上的平均得分僅有 35.35,相差近 60 分。
同一平台在基礎檢索能力和分析推理能力兩大維度上的表現也同樣差異明顯,所有平台的分析推理能力得分都明顯低于基礎檢索能力。
SuperCLUE 表示,這反映出在更高級的認知任務,例如理解、分析、推理和解決複雜問題方面,仍有很大的進步空間。
回複率上,飛書知識問答、階躍 AI、騰訊元寶和支付寶百寶箱在聯網搜索回複率方面表現優秀,完整回複率均爲 100%,截斷率和無回複率均爲零,成爲第一梯隊。
秘塔 AI 搜索、納米 AI 搜索和天工 AI 緊随其後,構成第二梯隊,其他平台也均有超過 85% 的完整回複率,都表現出了較強的穩定性。
耗時方面,總平均耗時從最少的字節火山引擎 ( 17.12 秒 / 題 ) 到最多的 MiniMax ( 73.51 秒 / 題 ) ,差距非常顯著。
整體來看,耗時分布範圍較廣,不同平台之間的搜索效率差異較大。
另外,所有平台在分析推理能力上平均耗時都明顯高于基礎檢索能力。


