多個中國團隊斬獲EMNLP‘24最佳論文！UCLA華人學者中三篇傑出論文，明年頂會落戶蘇州

剛剛，EMNLP 2024最佳論文獎新鮮出爐！

5 篇中榜論文中，華人學者參與三篇，分别來自 CMU、上海交通大學、中國科學院大學等機構。

其中，Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method主要由中科院網絡數據科學與技術重點實驗、中國科學院大學的學者完成。

論文一作 Weichao Zhang；通訊作者郭嘉豐，現任中科院網絡數據科學與技術重點實驗室常務副主任。

這項研究提出了一個新的數據集和方法，用于檢測給定文本是否爲 LLM 預訓練數據的一部分，有助于提高 LLM 訓練數據透明度。

EMNLP ’ 24 今年收錄論文總共2978 篇，比去年增長 5%，其中 2455 篇主會議論文，523 篇 workshop 論文。

除最佳論文外，傑出論文也揭曉了，超半數華人學者參與。

順便提一嘴，EMNLP 2025 将于明年 11 月 5-9 日，在中國蘇州舉辦！

國内學者們可以搓搓手準備起來了 ~

接下來，具體康康獲獎論文有哪些～

上交大 CMU 等團隊獲最佳論文

此次共有 5 項研究成果獲得 EMNLP ’ 24 最佳論文獎。

1、An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance

（圖像能表達千言萬語，但每個人都能傾聽嗎？關于圖像再創造的文化相關性）

這篇來自 CMU 的論文研究了圖像跨文化再創作任務。鑒于多媒體内容興起，翻譯需涵蓋圖像等模态，傳統翻譯局限于處理語音和文本中的語言，跨文化再創作應運而生。

作者構建了三個包含 SOTA 生成模型的管道：e2e-instruct 直接編輯圖像，cap-edit 通過字幕和 LLM 編輯後處理圖像，cap-retrieve 利用編輯後的字幕檢索圖像，還創建了概念和應用兩部分評估數據集。

結果發現，當前圖像編輯模型均未能完成這項任務，但可以通過在循環中利用 LLM 和檢索器來改進。

2、Towards Robust Speech Representation Learning for Thousands of Languages

（爲數千種語言實現穩健的語音表征學習）

這篇來自CMU、上海交大、豐田工業大學芝加哥分校的論文，介紹了一種名爲 XEUS 的跨語言通用語音編碼器，旨在處理多種語言和聲學環境下的語音。

研究通過整合現有數據集和新收集的數據，構建了包含 4057 種語言、超 100 萬小時數據的預訓練語料庫，并提出新的自監督任務（聲學去混響）增強模型魯棒性。研究結果顯示，XEUS 在多個下遊任務中表現優異，在 ML-SUPERB 基準測試中超越了其他模型，如在多語言自動語音識别任務中實現 SOTA，且在語音翻譯、語音合成等任務中也表現出色。

該團隊超半數都是華人，其中一作William Chen目前是 CMU 語言技術研究所的碩士生，此前獲得佛羅裏達大學計算機科學和曆史學學士學位。

3、Backward Lens: Projecting Language Model Gradients into the Vocabulary Space

（逆向透鏡：将語言模型梯度投射到詞彙空間）

了解基于 Transformer 的語言模型如何學習和調用信息成爲行業一個關鍵目标。最近的可解釋性方法将前向傳遞獲得的權重和隐藏狀态投射到模型的詞彙表中，有助于揭示信息如何在語言模型中流動。

來自以色列理工學院、特拉維夫大學的研究人員将這一方法擴展到語言模型的後向傳遞和梯度。

首先證明，梯度矩陣可以被視爲前向傳遞和後向傳遞輸入的低秩線性組合。然後，開發了将這些梯度投射到詞彙項目中的方法，并探索了新信息如何存儲在語言模型神經元中的機制。

4、Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

（大語言模型的預訓練數據檢測：基于散度的校準方法）

這篇論文作者來自中科院網絡數據科學與技術重點實驗、中國科學院大學、中關村實驗室、阿姆斯特丹大學。

通訊作者郭嘉豐，現爲中國科學院計算技術研究所研究員、中國科學院大學教授、北京人工智能研究院研究員，中科院網絡數據科學與技術重點實驗室主任。目前研究方向是信息檢索 ( Neural IR ) 和自然語言理解的神經模型。

他們的研究旨在解決大語言模型預訓練數據檢測問題，因模型開發者不願透露訓練數據細節，現有方法在判斷文本是否爲訓練數據時存在局限。

基于這樣的原因，他們提出 DC-PDD 方法，通過計算文本的詞元概率分布與詞元頻率分布的交叉熵（即散度）來校準詞元概率，從而判斷文本是否在模型預訓練數據中。實驗在 WikiMIA、BookMIA 和新構建的中文基準 PatentMIA 上進行，結果顯示 DC-PDD 在多數情況下優于基線方法，在不同模型和數據上表現更穩定。

5、CoGen: Learning from Feedback with Coupled Comprehension and Generation

（CoGen，結合理解和生成，從反饋中學習）

來自康奈爾大學的研究團隊研究了語言理解和生成能力的耦合，提出在與用戶交互中結合兩者以提升性能的方法。

具體通過參考遊戲場景，部署模型與人類交互，收集反饋信号用于訓練。采用聯合推理和數據共享策略，如将理解數據點轉換爲生成數據點。

實驗結果顯示，耦合方法使模型性能大幅提升，理解準确率提高 19.48%，生成準确率提高 26.07%，且數據效率更高。在語言方面，耦合系統的有效詞彙增加，與人類語言更相似，詞彙漂移減少。

傑出論文

再來看看傑出論文的獲獎情況，此次共有 20 篇論文上榜。

GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory，香港科技大學研究團隊完成，論文共同一作 Wei Fan、Haoran Li。

團隊提出了一個新框架，基于情境完整性理論來調整大語言模型使其符合隐私法律，提高其在不同情境下檢測隐私風險的能力。

Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge，南京大學團隊完成，論文共同一作 Jiahuan Li、Yiqing Cao。

論文研究了大語言模型在訓練數據中存在沖突信息時的學習傾向。