如果讓你在互聯網上給大模型選一本中文教材,你會去哪裏取材?是知乎,是豆瓣,還是微博?一個研究團隊爲了構建高質量的中文指令微調數據集,對這些社交媒體進行了測試,想找到訓練大模型最好的中文預料,結果答案保證讓你大跌眼鏡——
弱智吧。
弱智吧是百度貼吧上的一個子版塊,這是一個非常神奇的地方,吧友們熱衷于創作和分享一語雙關、一詞多義、因果倒置、諧音梗等帶着邏輯陷阱的内容,而且部分帖子甚至帶有一定的哲學意味。但是,拿這些東西訓練全知全能偉大的大模型?能行嗎。
别急,我們先來看看這個研究團隊做了什麽實驗。
這是一篇題爲《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》的論文,作者來自多個國内外高校,簡單來說,他們提出了一個中文指令微調數據集 COIG-CQIA(全稱爲 Chinese Open Instruction Generalist-Quality Is All You Need)。
對于中文大模型開發者來說,目前的一個重點挑戰就在于沒有一個高質量中文數據集,研究團隊認爲,各種中文社交媒體、論壇對于大模型的訓練應該是很好的語料來源。
于是爲了給這個數據集取材,他們從不同的社交平台(如問答社區、維基百科、考試材料、已有的 NLP 數據集等)收集了高質量的人工編寫的文本集合,這些文本經過嚴格篩選和細緻處理,最終才構建出了這個數據集。
論文稱,這個數據集的目的是構建一個多樣化、廣泛的服務于中文大模型的指令調優數據集,以更好地使模型行爲在中文環境下與人類互動相一緻,提高指令響應的能力。
這裏也科普一個概念,那就是大模型雖然有強大的知識儲備,但是它是爲解決通用自然語言處理任務而設計的,因此沒有辦法處理特定問題。此時,就需要對其進行 " 微調 ",來讓其輸出結果符合特定問題的預期。而指令微調就是說明确了模型應執行的任務類型、輸入要求、輸出格式等具體細節情況下,再給出正确的結果。比如我用中文提問,并要求模型用西班牙語回答,那麽模型的開發者爲了滿足我後半句話的要求,就得對模型進行指令微調。
這時就需要一個 " 指令微調數據集 "。這類數據集通常包含大量的 " 指令 - 輸出 " 對,其中每個對包括一個明确的指令(instruction),即用戶希望模型執行的任務說明,以及與之對應的理想輸出(output),即模型在接收到該指令後應當生成或執行的結果。
COIG-CQIA 就是這樣一個數據集。研究團隊首先是對數據集進行了嚴格的篩選和清洗,确保數據集是比較健康的。具體做法是根據預設的篩選标準,去除無關或低質量的文本。這可能包括删除廣告、無意義的灌水内容、含有敏感信息或違反社區規則的帖子等。
之後,團隊還做了人工幹預:對處理後的文本進行人工審核,确保其内容正确無誤,符合預期的語義和知識标準,同時也确保數據集與真實的中文用戶交互模式相一緻。尤其是在一些諸如弱智吧語錄這樣深層隐喻比較強,模型基本沒辦法完全理解采集到的段子的含義,那就需要進行人工标注,提供明确的指令 - 輸出示例,爲模型微調提供精确的訓練信号。
在做完了整理工作後,研究團隊使用 COIG-CQIA 數據集對多個開源中文大模型做了微調。
而爲了評估這些不同來源的數據質量,團隊分别用不同的社交網站的數據微調了同一個模型,并做了測試。
在論文展示的對微調後的 Yi 系列模型的評估表現中,神奇的一幕出現。
在 Yi-6B 的性能對比中,在多個比分中(開放式問答,頭腦風暴,分類問題,生成問題,封閉式問答和編程),用弱智吧的數據訓練的模型表現在多個分類中表現是最好的。
而對微調後的 Yi-34B 的評測中,基于弱智吧數據訓練出來的表現,更是直接拿了幾乎全部領域的第一,綜合評分遙遙領先。
除了性能外,COIG-CQIA 還對其安全性能進行測試了,使用的是開源評估框架 SafetyBench。可以看到,CQIA-Sub-6B 的 SafetyBench 高達 81.7,比 GPT 3.5 的 SafetyBench 還高。這麽高的評分代表 COIG-CQIA 能夠準确識别風險,并區分出含有有害信息、潛在違規内容、隐私敏感信息、誤導性建議等不安全選項,選擇出最符合安全原則的答案。換句話說,其具備一定的商業化潛力。
而其中,弱智吧的表現又亮了。超過了 GPT3.5 。
論文裏也對此感到驚訝,作者嘗試做了分析:" 有意思的是,弱智吧數據集在多個子集上的平均排名中最終位居第二,我們認爲這可能是因爲弱智吧的數據特性有助于增強模型的邏輯推理能力,從而在大多數遵循指令的任務中表現出色。"
在看完這篇論文後,我又去弱智吧看了看這些天才般的語料,這是有人整理的一部分弱智吧經典語錄:
玉皇大帝住的是平流層 ( ) 還是對流層?
導盲犬禁止入内,是給盲人看的,還是給導盲犬看的?
空腹能吃飯嗎?
變形金剛買保險是買車險還是人險?
我買了一斤藕,爲什麽半斤都是空的?
雷公電母放的是直流電還是交流電?
每天吃一粒感冒藥,還會感冒嗎?
請問孕婦打人算群毆嗎?
去自首的路上被抓了還算自首嗎?
吃止痛藥去打架,算開挂嗎?
被門夾過的核桃,還能補腦嗎?
考慮到大模型最欠缺的就是邏輯能力,看來這些更像腦筋急轉彎的問答确實是大語言模型的好語料。
而在弱智吧最近的首頁上,一個排名靠前的帖子也很應景:
" 什麽工作都可能會被人工智能取代,但弱智不會。"
真的,有道理呢。