青年圖摘
  • 理财
  • 社會
  • 娛樂
  • 健康
  • 汽車
  • 科技
  • 财經
  • 軍事
  • 互聯網
  • 遊戲
  • 親子
  • 科學
  • 教育
  • 電影
  1. 首頁
  2. 科学

賈佳亞韓松團隊新作:兩行代碼讓大模型上下文窗口倍增

2023-10-01 HKT

隻要兩行代碼 +11 個小時微調,就能把大模型 4k 的窗口長度提高到 32k。

規模上,最長可以擴展到 10 萬 token,一口氣就能讀完一本小說。

賈佳亞韓松聯合團隊提出的這個基于 LoRA 的全新大模型微調方法,登上了 GitHub 熱榜。

這種方式叫做 LongLoRA,由來自香港中文大學和 MIT 的全華人團隊聯合出品。

在一台 8 個 A100 組成的單機上,增大窗口長度的速度比全量微調快十到二十倍。

網友看了之後不禁表示,這個效率實在是令人印象深刻:

那麽,用 LongLoRA 微調之後,模型會有什麽樣的變化呢?

一口氣讀完一部小說

研究團隊的實驗當中使用的模型是 Llama 2。

經過 LongLoRA 方法微調之後,Llama 2-7B 的窗口長度最高可提升到 10 萬 token。

實測發現,微調後的模型可以一口氣讀完一部小說,然後回答各種問題。

比如總結一下大劉在《三體》第三部中體現的中心思想,比總結内容還高出了一個層次。

模型給出的答案是與外星文明首次接觸的危險性、星際旅行之困難與人類文明之脆弱,以及團結協作的重要性等内容。

的确每條在原著中都有所體現,而且也比較全面了。

除了對整部作品進行概括提煉,局部内容當然也可以詢問。

小說中的角色也能對答如流,比如《西遊記》中孫悟空是怎麽開花成長的。

模型告訴我們,孫悟空很有智慧,但又有一顆頑皮的心,在伴随唐僧取經的過程中走向了成熟。

這次的總結依舊是很到位。

而且不僅是單個角色,不同人物之間複雜的關系也能了如指掌。

提問的方式可以簡單粗暴些,直接要求描述這本書(《哈利波特》)中的人物關系。

模型以哈利 · 波特爲中心,介紹了他的朋友韋斯萊、赫敏,敵人馬爾福,以及鄧布利多教授等人物。

除了看小說,LongLoRA 微調後的 Llama 還可以讀論文,生産力一下子就提高了(喜)。

無論是整體概括還是局部詢問,微調後的模型都能準确地給出答案:

△中文部分爲谷歌機翻

爲了從宏觀上把握模型的表現,研究團隊用了如下數據集進行了測試:

PG19:來自書籍的長篇文檔數據集,用來測試語言建模效果。

Proof-pile:來自 arXiv 的數學論文數據集,用來測試語言建模效果。

LongQA:作者自行構建的長序列問答數據集,用于有監督的微調。

LongChat:第三方構建的長對話理解數據集,用來測試長序列叙述理解效果。

結果顯示,LongLoRA 在 PG19 和 Proof-pile 上的困惑度與全量微調接近。

在問答數據集上,LongLoRA 微調出的模型表現也很優異,長文本理解方面更是達到了 SOTA 水平。

當然,LongLoRA 的意義不僅在于提高了窗口長度,關鍵在于用更少的消耗提高了窗口長度。

以 7B 參數量的 Llama-2 爲例,如果使用全量微調,從 4k 提升到 32k,在一台 8 個 A100 的單機上需要五天。

而改用 LongLoRA 方式,則隻用 11.3 小時就能完成,連半天都不到,效率提升近十倍。

如果提升到 65k,全量微調所需時間将超過 1000 小時,LongLoRA 卻隻用 52.4 小時。

那麽 LongLoRA 又是怎麽做到的呢?

" 大而化小 " 降低計算量

LongLoRA 建立在 LoRA 的基礎之上,引入了一種稱爲 " 移位短注意力 "(shift short attention)的機制。

這種機制隻需要兩行代碼就能實現:

Transformer 架構的核心是自注意力(Self-attention)計算。

短注意力就是将訓練文本劃分爲多個組,使自注意力計算在每個組内分别進行,從而達到降低運算量的目的。

而在這一過程中注意力頭也被進行了分組,通過注意力頭的位移,就實現了組間的信息交互。

劃分出的每個組之間有重疊部分,确保了數據可以在全文中流通。

這樣一來,每次計算都隻需要對組内的 token 進行操作,運算量大大降低。

除了對輸入進行分割之外,LongLoRA 相比于 Lora 還可以微調 embedding 層和 normalization 層。

這兩項内容占的參數量很小,以 Llama 2-7B 爲例,embedding 層隻占 1.94%,normalization 層更是不到十萬分之四。

消融實驗結果表明,除了核心的 Attention 層,這兩個占比很小的部分也起到了重要作用。

除了核心的短注意力機制,研究團隊引入了 DeepSpeed 和 FlashAttention 方式,進一步降低了訓練消耗。

目前,LongLoRA 微調過後不同參數量和窗口長度的 Llama 2 已經開源,感興趣的話可以到 GitHub 頁面中查看。

論文地址:

https://arxiv.org/abs/2309.12307

GitHub 項目頁:

https://github.com/dvlab-research/LongLoRA

熱門排行
  • 年度期待大翻車,顔值再高也救不了 年度期待大翻車,顔值再高也救不了 郟君昊 | 9天前
  • 國務院聯防聯控機制倡導互聯網醫療服務,多家互聯網平台提供7x24免費在線防疫咨詢 國務院聯防聯控機制倡導互聯網醫療服務,多家互聯網平台提供7x24免費在線防疫咨詢 郟君昊 | 2天前
  • 《阿凡達2》票價再創新高,但電影仍然不是個人人賺大錢的行業 《阿凡達2》票價再創新高,但電影仍然不是個人人賺大錢的行業 幸聽楓 | 3天前
  • 田亮森碟現身活動與賭王四太合照 網友:長大了 田亮森碟現身活動與賭王四太合照 網友:長大了 甄正浩 | 8天前
  • 完美日記淪為國貨反面教材 完美日記淪為國貨反面教材 衛青柏 | 8天前
  • 感染新冠後亂吃藥,女子被送進ICU!這麼吃藥,無效又傷身! 感染新冠後亂吃藥,女子被送進ICU!這麼吃藥,無效又傷身! 繁綺文 | 8天前
  • 秋瓷炫回中國随丈夫聚餐,于曉光摟着異性熱聊,秋瓷炫神情嚴肅 秋瓷炫回中國随丈夫聚餐,于曉光摟着異性熱聊,秋瓷炫神情嚴肅 集玲琳 | 2天前
  • 普京:俄羅斯絕不會走自我封閉的道路 普京:俄羅斯絕不會走自我封閉的道路 繁綺文 | 4天前
  • 人際關系再重要,也要學會翻臉,做到這五點,不吃啞巴虧 人際關系再重要,也要學會翻臉,做到這五點,不吃啞巴虧 集玲琳 | 1天前
  • 謝娜大變樣快認不出!五官怪異臉變男相 謝娜大變樣快認不出!五官怪異臉變男相 幸聽楓 | 7天前
  • 小米迷你主機拆解:長江存儲SSD加持 小米迷你主機拆解:長江存儲SSD加持 郜萌運 | 2天前
  • 深圳首個不限購“住宅”産品入市,剩44年産權 深圳首個不限購“住宅”産品入市,剩44年産權 嬴覓晴 | 7天前
  • 老人家中陽台上常有鳥類停栖感染鹦鹉熱:可通過接觸疫鳥或吸入疫鳥排洩物氣溶膠感染 老人家中陽台上常有鳥類停栖感染鹦鹉熱:可通過接觸疫鳥或吸入疫鳥排洩物氣溶膠感染 袁曼雁 | 2天前
  • 飛凡汽車攜手謝晖呈現《追回來》,緻敬每一個“非凡的開始” 飛凡汽車攜手謝晖呈現《追回來》,緻敬每一個“非凡的開始” 郟君昊 | 2天前
  • 瘋搶黃桃罐頭 瘋搶黃桃罐頭 郜萌運 | 9天前
  • 王思聰能接班王健林麼?二代接班的謎之困局 王思聰能接班王健林麼?二代接班的謎之困局 甄正浩 | 2天前
  • 暴雪元老克裡斯·梅森回歸《魔獸争霸》項目組,擔任創意顧問 暴雪元老克裡斯·梅森回歸《魔獸争霸》項目組,擔任創意顧問 郜萌運 | 9天前
  • 從馬蘇、楊幂到秦岚,魏大勳一手串起泰迪姐妹團的十年更叠 從馬蘇、楊幂到秦岚,魏大勳一手串起泰迪姐妹團的十年更叠 衛青柏 | 5天前
  • 美财長耶倫:明年通脹料大幅下降 衰退并非必然結果 美财長耶倫:明年通脹料大幅下降 衰退并非必然結果 習又夏 | 6天前
  • 少兒體育訓練品牌尋找有意做體育素質項目的合作夥伴 少兒體育訓練品牌尋找有意做體育素質項目的合作夥伴 郟君昊 | 4天前
  • ChatGPT死活不認27能被3整除,網友:不是說AI要統治世界了嗎? ChatGPT死活不認27能被3整除,網友:不是說AI要統治世界了嗎? 幸聽楓 | 2天前
  • 今年車市大局已定!還要不要“拯救”燃油車? 今年車市大局已定!還要不要“拯救”燃油車? 嬴覓晴 | 5天前
  • 退燒藥大賣,醫藥股又爆發,這隻新龍頭6天漲68%! 退燒藥大賣,醫藥股又爆發,這隻新龍頭6天漲68%! 繁綺文 | 2天前
  •  劉嘉玲曬家中巨型聖誕樹,堆滿奢侈品,罕見穿百元衣服 劉嘉玲曬家中巨型聖誕樹,堆滿奢侈品,罕見穿百元衣服 郟君昊 | 4天前
  • 小米首款車型2024年量産!目标超比亞迪大衆 但計劃可能有變? 小米首款車型2024年量産!目标超比亞迪大衆 但計劃可能有變? 惠惠君 | 6天前
  • 蘋果為iCloud引入端到端加密實現高級數據保護 蘋果為iCloud引入端到端加密實現高級數據保護 寸飛蘭 | 8天前
  • 江西:《關于發展科技金融支持創新創業的若幹措施》 江西:《關于發展科技金融支持創新創業的若幹措施》 繁綺文 | 4天前
  • 黃桃剛囤完,電解質水又賣斷貨!專家提醒 黃桃剛囤完,電解質水又賣斷貨!專家提醒 惠惠君 | 7天前
  • 從大企業到了小公司,要改變生存策略 從大企業到了小公司,要改變生存策略 衛青柏 | 9天前
  • 宋仲基新劇引爆韓國!暗諷三星,撕開韓國财閥黑暗内幕 宋仲基新劇引爆韓國!暗諷三星,撕開韓國财閥黑暗内幕 寸飛蘭 | 2天前
  • 香港金管局:基準利率上調至4.75% 香港金管局:基準利率上調至4.75% 嬴覓晴 | 6天前
  • 到底要多喪心病狂,才會想着把“傑尼龜”做成海龜湯? 到底要多喪心病狂,才會想着把“傑尼龜”做成海龜湯? 幸聽楓 | 6天前
  • 昨天6.5,今天逆襲華語十佳 昨天6.5,今天逆襲華語十佳 繁綺文 | 3天前
  • 拍成這樣,就别再糟蹋經典了 拍成這樣,就别再糟蹋經典了 幸聽楓 | 4天前
  • 1000TOPS算力時代來臨 1000TOPS算力時代來臨 賁芳蕤 | 4天前
  • 這陣容有點怪,怪期待的 這陣容有點怪,怪期待的 繁綺文 | 3天前
  • 張蘭首回應更改國籍!曝有不得已原因,居國内無退休金醫保? 張蘭首回應更改國籍!曝有不得已原因,居國内無退休金醫保? 佼昌翰 | 3天前
  • 漲價潮前,傳統車企轉型冰火兩重天 漲價潮前,傳統車企轉型冰火兩重天 惠惠君 | 6天前
  • 跑一公裡隻花3毛錢,後排空間又夠寬敞,國産大牌就選這幾款! 跑一公裡隻花3毛錢,後排空間又夠寬敞,國産大牌就選這幾款! 郜萌運 | 5天前
  • iPhone出現大bug:未開專注模式也會靜音通知 漏接大量電話 iPhone出現大bug:未開專注模式也會靜音通知 漏接大量電話 衛青柏 | 2天前

©2022 青年圖摘 版權所有

隱私政策 | 服務條款 | 聯繫我們