機器之心報道
機器之心編輯部
「被門夾過的核桃,還能補腦嗎?」
在中文網絡上流傳着這樣一段話:弱智吧裏沒有弱智。
百度「弱智吧」是個神奇的地方,在這裏人人都說自己是弱智,但大多聰明得有點過了頭。最近幾年,弱智吧的年度總結文章都可以順手喜提百度貼吧熱度第一名。所謂總結,其實就是給當年吧裏的弱智發言排個名。
各種高質量的段子在這裏傳入傳出,吸引了無數人的圍觀和轉載,這個貼吧的關注量如今已接近 300 萬。你網絡上看到的最新流行詞彙,說不定就是弱智吧老哥的傑作。
随着十幾年的發展,越來越多的弱智文學也有了奇怪的風格,有心靈雞湯,有現代詩,甚至有一些出現了哲學意義。
最近幾天,一篇人工智能領域論文再次把弱智吧推上了風口浪尖。
引發 AI 革命的大模型因爲缺乏數據,終于盯上了弱智吧裏無窮無盡的「數據集」。有人把這些内容拿出來訓練了 AI,認真評測對比一番,還别說,效果極好。
接下來,我們看看論文講了什麽。
最近,大型語言模型(LLM)取得了重大進展,特别是在英語方面。然而,LLM 在中文指令調優方面仍然存在明顯差距。現有的數據集要麽以英語爲中心,要麽不适合與現實世界的中國用戶交互模式保持一緻。
爲了彌補這一差距,一項由 10 家機構聯合發布的研究提出了 COIG-CQIA(全稱 Chinese Open Instruction Generalist - Quality Is All You Need),這是一個高質量的中文指令調優數據集。數據來源包括問答社區、維基百科、考試題目和現有的 NLP 數據集,并且經過嚴格過濾和處理。
此外,該研究在 CQIA 的不同子集上訓練了不同尺度的模型,并進行了深入的評估和分析。本文發現,在 CQIA 子集上訓練的模型在人類評估以及知識和安全基準方面取得了具有競争力的結果。
研究者表示,他們旨在爲社區建立一個多樣化、廣泛的指令調優數據集,以更好地使模型行爲與人類交互保持一緻。
本文的貢獻可以總結如下:
提出了一個高質量的中文指令調優數據集,專門用于與人類交互保持一緻,并通過嚴格的過濾程序實現;
探讨了各種數據源(包括社交媒體、百科全書和傳統 NLP 任務)對模型性能的影響。爲從中國互聯網中選擇訓練數據提供了重要見解;
各種基準測試和人工評估證實,在 CQIA 數據集上微調的模型表現出卓越的性能,從而使 CQIA 成爲中國 NLP 社區的寶貴資源。
論文地址:https://arxiv.org/pdf/2403.18058.pdf
數據地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA
論文标題:COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning
COIG-CQIA 數據集介紹
爲了保證數據質量以及多樣性,本文從中國互聯網内的優質網站和數據資源中手動選擇了數據源。這些來源包括社區問答論壇、、内容創作平台、考試試題等。此外,該數據集還納入了高質量的中文 NLP 數據集,以豐富任務的多樣性。具體來說,本文将數據源分爲四種類型:社交媒體和論壇、世界知識、NLP 任務和考試試題。
社交媒體和論壇:包括知乎、SegmentFault 、豆瓣、小紅書、弱智吧。
世界知識:百科全書、四個特定領域的數據(醫學、經濟管理、電子學和農業)。
NLP 數據集:COIG-PC 、COIG Human Value 等。
考試試題:中學和大學入學考試、研究生入學考試、邏輯推理測試、中國傳統文化。
表 1 爲數據集來源統計。研究者從中國互聯網和社區的 22 個來源總共收集了 48,375 個實例,涵蓋從常識、STEM 到人文等領域。
圖 2 說明了各種任務類型,包括信息提取、問答、代碼生成等。
圖 3 演示了指令和響應的長度分布。
爲了分析 COIG-CQIA 數據集的多樣性,本文遵循先前的工作,使用 Hanlp 工具來解析指令。
實驗結果
該研究在不同數據源的數據集上對 Yi 系列模型(Young et al., 2024)和 Qwen-72B(Bai et al., 2023)模型進行了微調,以分析數據源對模型跨領域知識能力的影響,并使用 Belle-Eval 上基于模型(即 GPT-4)的自動評估來評估每個模型在各種任務上的性能。
表 2、表 3 分别顯示了基于 Yi-6B、Yi-34B 在不同數據集上進行微調得到的不同模型的性能。模型在頭腦風暴、生成和總結等生成任務中表現出色,在數學和編碼方面表現不佳。
下圖 4 顯示了 CQIA 和其他 5 個基線(即 Yi-6B-Chat、Baichuan2-7B-Chat、ChatGLM2-6B、Qwen-7B-Chat 和 InternLM-7B-Chat)的逐對比較人類評估結果。結果表明,與強基線相比,CQIA-Subset 實現了更高的人類偏好,至少超過 60% 的響應優于或與基線模型相當。這不僅歸因于 CQIA 能夠對人類問題或指令生成高質量的響應,還歸因于其響應更符合現實世界的人類溝通模式,從而導緻更高的人類偏好。
該研究還在 SafetyBench 上評估了模型的安全性,結果如下表 4 所示:
在 COIG Subset 數據上訓練的模型性能如下表 5 所示:
© THE END
轉載請聯系本公衆号獲得授權
投稿或尋求報道:[email protected]