大模型技術進入人們視野已經 1 年,帶來的生産效率提高有目共睹。然而,真正的現象級應用還沒有誕生,留下了極大的機會。
阿裏、騰訊、百度、字節等公司,紛紛宣布用大模型重構其原有應用,拼多多最近也被曝光加入自研大模型的行列。而近期,另一個令人期待的玩家,也加入了戰局。
11 月 14 日,阿裏巴巴智能信息事業群發布了千億級參數的自研誇克大模型,一經發布,就登頂 C-Eval 和 CMMLU 兩大權威評測榜單。乘借 AI 重構應用的風潮,誇克大模型将對旗下産品矩陣和服務進行全面升級。
誇克技術負責人蔣冠軍表示:「在去年 GPT 發布以後,我們就加速了大模型的相關工作,早期的模型能力就達到了比較高的水平。現在發布,就是希望在産品側能做出具體的應用和體驗後再對外。」
誇克 App 在 2018 年推出,從推出之際,就想成爲年輕人的智能助手。目前,誇克 App 已經集成了搜索、掃描、網盤、文檔等多種功能。在自研大模型的加持下,誇克打算在教育和健康兩個領域率先發力,成爲一款領先的智能信息産品。
大模型「學霸」,升學、職考水平全面超越 GPT-3.5
此次誇克發布的大模型,是一個千億參數的通用大模型。蔣冠軍表示,誇克大模型整體水平優于 GPT-3.5,在多語言翻譯、寫代碼、安全合規、内容創作等方面處在國内行業頭部水平。
與其他公司發布的大模型相比,誇克大模型具有更強的知識正确性。
目前,國内外的任何大模型,都不能宣稱自己能夠完全擺脫幻覺,不過已經有不少如監督微調(SFT)的技術,能夠降低模型的錯誤率。
誇克大模型對自己的知識正确性能力顯得十分自信。在不少廠商都閉口不談幻覺率的時候,誇克主動給出一個數字:5%。
在健康等非常重要的領域中,誇克已經可以将問答内容的幻覺率降低至 5%。
誇克模型解決幻覺的能力領先
能夠做到這些,誇克大模型在解決幻覺問題上着實下了不少功夫。
據蔣冠軍介紹,首先,在模型的預訓練過程中,誇克就花了大量的時間和精力,進行了數據準确性的校驗和對齊。
第二,是人類對齊。誇克大模型對于 SFT 人工标注樣本的準确率要求非常高。誇克使用了非常細緻的方法進行初審、抽查和再審查。
在這兩點中,誇克的搜索引擎能力,爲誇克大模型的建設,起到了很好的支撐作用。「我們之前做通用搜索,積累了許多行業數據。同時,因爲我們之前做搜索,本身就需要對網頁内容有一個理解對齊和校驗的體系,可以很好地遷移到大模型的對齊能力上來。」蔣冠軍表示。
除此之外,作爲一個千億模型,模型參數的量級和誇克團隊對模型本身的改進,也降低了幻覺問題。
爲了展現自己的知識正确性能力,誇克大模型不但在常見的大模型測試榜單上對大模型進行了測試——在 CMMLU 榜單評測中,誇克大模型以平均 77.08 分的成績位列總成績第一,并占據社會科學和其他兩個類目的首位。在 C-Eval 榜單中,誇克大模型平均分達到 89 分,穩居行業第一,同時在社會科學、人文科學和其他三個類目中位列榜首——還讓大模型來到真實世界,像考生一樣,開考人類的試卷。
誇克大模型的團隊爲誇克搜集了 2020-2023 年間的 45 種考試,包括初考、中考、高考、考研考試和包括注冊會計師和國家司法考試等各項職業考試的試題。誇克大模型的整體表現非常突出,整體超越了 GPT-3.5 的水平,部分超越了 GPT-4 的水平。準确率>80% 的科目爲 11 科,堪稱「學霸」。
誇克大模型考試成績
作爲一個用高質量中文語料訓練出的大模型,誇克大模型在高考語文、教育學聯考、國家公務員考試等極具中國特色的考試中,準确率高于 GPT 70%。而同時,其英文能力仍然極強——蔣冠軍表示,誇克大模型的英文試卷幾乎是滿分。
AI 升級「搜 用 存」,教育、健康領域率先發力
在多個領域中,誇克大模型更強調自己在教育和健康兩個領域的發力。
據悉,誇克用戶超過 50% 都來自于 25 歲以下的年輕群體。在誇克大模型推出前,誇克 App 已經在教育領域累計了許多相關的應用,比如誇克學習,用戶可以選擇年級後,就能看到本地試卷、備考錦囊、典型題精講等不同學習内容。
這些都涉及到獲取教育全行業數據,包括各種資料、教案、題庫、知識點。而這些優質的教育數據,又轉而幫助誇克更好地完成大模型訓練階段,這也是誇克大模型之所以能夠成爲學霸的原因之一。
與其他大模型相比,誇克大模型從訓練時就更關注除了答對問題之外,能輸出它是如何一步步解決問題,能理解題目中考查了哪些知識點。
在現場演示中,蔣冠軍向大模型提出了一個問題,「英語介詞中的 in 和 on 有什麽區别?」大模型首先給出了一段兩個詞定義上的區别,兩個介詞含義不同、用法不同、側重點不同。接下來對大模型的追問中,誇克大模型還能進一步舉出兩個詞在英語語境中的例子。
誇克技術負責人蔣冠軍
蔣冠軍表示,「AI 基本上可以教我女兒英語了。」而後續,這樣的能力,将被嵌入進誇克的教育應用中。
「目前,大模型做教育主要有兩方面的問題。一方面是大模型的推理和梳理能力還沒那麽好,另一個是圖像多模态的能力在教育領域還發揮得不好。即使是 OpenAI 的模型目前也做不了幾何題。」蔣冠軍表示,「我們會根據用戶需求,先去做大量的 AIGC 内容,升級目前已有的文檔資料的閱讀理解和錯題收集。在這個基礎上,未來像教授 in 和 on 的這種模式,已經有點像初級家教了,這是我們努力的方向。」
健康則是誇克大模型目前努力的另一垂直領域。在發布大模型之前,誇克就做了很多健康行業的數據建設和知識建設。
由于誇克健康數據都是經過醫生三審三校的結果,本身就很強調知識正确性的誇克大模型,在健康數據上的準确率能到達 95%,因此可用性更強。
「關鍵錯誤率實際上更低的。目前 5% 的錯誤率實際上包括了一些易混淆的相似症狀等非關鍵錯誤。」蔣冠軍表示。
在健康行業,誇克會提供健康信息的查詢服務,比如科普問答等。與教育應用一樣,誇克大模型會更重視大模型是如何得到結論的。用戶從誇克大模型中獲取了某項建議後,還将可以點擊查看大模型的某句建議具體來自于哪條健康指南和教科書。
在未來,誇克大模型還希望能夠構建更加友好的用戶服務方式,比如圍繞健康場景,用戶描述症狀後,大模型可以進一步詢問用戶是否具有常見的相關症狀。
除了行業的特殊能力外,誇克 App 核心的三個功能:搜、用、存,也已經開始進行大模型方向的升級。比如「存」的功能,誇克網盤目前上線的 AI 自然語言搜索功能,僅通過模糊詞、形容詞等關鍵信息,就能快速找到照片、文檔等雲端資料,核心就來自于大模型的能力。
未來,誇克大模型将進一步應用于搜索、智能工具和資産管理助手等場景,爲年輕人工作、學習、生活提供更全面的服務。
搜索引擎團隊做大模型的天然優勢
一經公布就霸榜 CMMLU 和 C-Eval,在解決幻覺、健康和教育等領域都有突出優勢,離不開誇克 App 多年的搜索經驗。
「研發大模型時,我們一開始比較緊張。但是很快我們就确信了,誇克大模型在國内不會太差。」蔣冠軍表示。其中,核心的原因就是誇克是做搜索領域出身的團隊,「我們做大模型有天然的優勢」。
這點在大模型領域也得到了一再地驗證:國外頭部的模型和應用訓練者谷歌和微軟,都具有做搜索引擎的經驗。
微軟推出基于大模型的搜索引擎 New Bing
蔣冠軍總結了搜索引擎經驗對于團隊研發大模型的幾點助力:
首先是數據的優勢。做搜索引擎的經驗,讓誇克積累了非常全面和高質量的數據。做通用搜索引擎本身就需要覆蓋千行百業的知識和數據,甚至需要積累英語和其他語言的知識。
不但如此,做搜索引擎的經驗,還讓團隊積累了一套對于網頁内容質量的評估體系。「搜索引擎本身就意味着海量的網頁數據。我們在千億級别的網頁裏,選擇了數億質量特别高的網頁,這個篩選特别複雜。不是做搜索引擎的廠商,要完成這項任務,成本和代價非常高。」蔣冠軍表示。
第二是人才的優勢。在通用搜索中,網頁搜索、圖片搜索、視頻搜索、文檔搜索等等,本來就需要多種的多模技術能力,而這些人才,都可以轉而沉澱到大模型的團隊中。據悉,爲了實現全棧自研的技術路線,誇克搭建了數百人規模的獨立産研團隊。
第三,是算力優化方面的優勢。大模型目前面對的一大問題是在線推理太貴。而做過搜索引擎的團隊,在優化大算力請求方面,也有比較好的解決方案。「誇克之前就能服務億級别的在線請求。」蔣冠軍表示。
除了做搜索引擎的經驗,誇克在研發大模型方面還有一些自己獨特的優勢。
比如在所有大模型團隊都要面臨的優質 SFT 數據稀缺,對齊的問題上,由于誇克很早就深耕教育、健康領域,誇克能夠拿到許多其他大模型團隊沒有的優質數據。
「我們不止有行業的比較好的數據積累,在這些行業裏,我們團隊中之前做過醫生或當過老師,且他們的主要工作就是生産專業的醫學知識。開始做大模型後,我們轉而很快建立了專業團隊,生産大模型需要的 SFT 樣本和知識體系。這個上面,我們在國内走得比較前列。」蔣冠軍表示。
在許多大模型都意在提供通用服務之時,誇克大模型的誕生從一開始就是爲誇克 App 量身定做的,利用誇克獨有的數據優勢,意在把誇克打造成真正的智能助手。雖然具有千億參數的模型,但更注重将模型應用到産品中,穩紮穩打的誇克大模型或将成爲國内大模型中獨特的一極。