解題準确率較GPT高出70% 誇克大模型多項考試評測成績領先行

" 大模型時代，誇克有巨大機會創造出革新性搜索産品。"11 月 22 日，誇克大模型公布了其面向搜索、生産力工具和資産管理助手的大模型技術布局。數據顯示，誇克千億級參數大模型登頂 C-Eval 和 CMMLU 兩大權威榜單，誇克百億級參數大模型同樣在法律、醫療、問答等領域的性能評測中奪冠。

憑借在搜索業務和智能技術上的長期積累，誇克大模型利用數據、平台、知識增強等優勢，可以大幅提升知識正确性。在醫療健康領域，誇克大模型已經可以将問答内容的幻覺率降低至 5%，處在行業領先水平。

誇克推進搜索革新，自研大模型打造技術新底座

在互聯網高速發展的 30 餘年中，搜索曾經高效地滿足了用戶主動獲取信息的需求。但是随着移動互聯網内容生産和供給模式的轉變，傳統搜索逐步變得封閉化、孤島化。基于大模型的 AIGC 技術将會給搜索産品帶來全新變化，推進搜索革新已經成爲行業共識。

誇克技術負責人蔣冠軍表示，誇克大模型是面向搜索、生産力工具和資産管理助手的應用型大模型。在搜索應用中，将通過圖文多模理解、專業知識生成、交互方式創新進一步拓寬應用場景，提升用戶體驗。

△誇克技術負責人蔣冠軍

誇克大模型的優勢源自于智能技術實力與搜索業務基礎，蔣冠軍認爲，誇克大模型有四大優勢：第一、最全面的通用知識數據和行業知識數據，以及知識理解和評估體系；第二、得益于搜索技術體系的積累，擁有千億級參數平台的模型訓練能力；第三、擁有長期智能化産品經驗的智能技術産運團隊。第四、擁有全行業的知識增強技術體系及能力。

面向未來，要解決大模型的應用問題，關鍵要解決知識正确性問題。據悉，基于強大的搜索産品和智能技術積累，誇克大模型在知識增強上的優勢可以大幅提升知識正确性。同時，在醫療健康領域，誇克已經可以将問答内容的幻覺率降低至 5%，處在行業領先水平。誇克大模型也将是持續推動誇克 App 産品體驗創新和邁向新一代搜索的技術底座。

誇克大模型性能評測奪冠四大能力提升用戶效率

日前，阿裏巴巴智能信息事業群發布全棧自研、千億級參數的誇克大模型，将應用于通用搜索、醫療健康、教育學習、職場辦公等衆多場景。誇克大模型的整體水平超越 GPT-3.5，在多語言翻譯、寫代碼、安全合規、内容創作等方面處在國内行業頭部水平。

針對 AIGC 技術與搜索産品在大模型領域的協同發展，清華大學新聞學院教授、博士生導師沈陽認爲，依托搜索平台，誇克大模型擁有高質量的各類數據，在中文語境下，模型能力處在行業領先水平。在教育、醫療等垂直領域中，誇克在對話、解題上的能力取得了新的突破，是國産自研大模型的優秀代表之一。同時，在安全性能上，誇克經曆了搜索場景下的長時間考驗，累積了非常豐富的經驗和能力。

數據顯示，誇克大模型接連登頂 C-Eval 和 CMMLU 兩大權威評測榜單，多項性能優于 GPT-4。在國内大模型賽道火熱的當下，誇克大模型具備較好的語義理解、知識掌握與應用、邏輯推理能力，整體水平達到行業一流水平。

另外，在最新的百億參數測試集中，誇克同樣在法律、醫療、問答等多個領域中排名第一，誇克大模型在不同參數量級的對比中均表現優秀。

在大模型技術落地層面，誇克大模型的能力體現在四個方面，可以幫助用戶提升工作、學習效率。知識能力，擁有廣泛的知識覆蓋、信息搜集和多語言支持等，支持外接專業知識增強，提升跨領域的知識和語言理解能力；對話能力，具備較強的上下文理解、語境推理、關鍵信息保持和記憶能力，更好地适應不斷變化的語境，理解用戶的意圖和需求，确保對話回複準确、合理、連貫；創作能力，能夠根據主題或關鍵詞，生成連貫、有邏輯、有深度的文本内容，支持續寫、潤色、仿寫、批改等多種不同寫作需求；安全能力，具備較好的世界觀、價值觀，對于明顯的虛假信息，均能做到準确識别、正确回答或者給出合理指引。

以用戶需求出發，打造工作、學習、生活的 AI 助手，誇克 App 持續叠代進化。據悉，誇克大模型将全面升級誇克在搜、用、存上的智能化體驗，幫助用戶進一步提升效率。同時，基于多年累積的搜索優勢，誇克将借助 AI 驅動推進搜索革新，加速邁向下一代搜索。