明天直播|ACL2024精選5篇論文直播分享

(本文閱讀時間:8分鐘)
2024年的 ACL 大會於8月16日完美謝幕。在這場自然語言處理(NLP)和計算語言學領域的頂級國際盛會中,微軟亞洲研究院今年共有14篇論文入選。
近期我們邀請粉絲朋友對感興趣的論文進行了投票,根據投票結果選出的人氣最高的5篇論文將在9月3日(明天)下午14:00進行直播分享!
直播資訊
直播時間:
2024年9月3日(明天) 14:00-16:30
直播地址:
微信影片號“微軟亞洲研究院
B 站賬號“微軟科技”直播間

論文及講者介紹
杜大猷
微軟亞洲研究院
異構計算組實習生
杜大猷來自香港科技大學(廣州),目前在微軟亞洲研究院實習,研究興趣主要集中在機器學習系統與模型壓縮等領域。他正在探索如何實現大型語言模型的高效能推理加速。
分享內容:
BitDistiller: 透過自蒸餾釋放低於4位元大模型的潛力
BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation
論文摘要:
大語言模型的精度和效能在低於4位元的時候會嚴重下降。BitDistiller 協同量化感知訓練和知識蒸餾,能夠顯著提高4位元以下 LLM 在各種複雜任務上的效能,同時減少資料和訓練資源需求。
論文連結:
https://aclanthology.org/2024.acl-long.7/
GitHub連結:
https://github.com/DD-DuDa/BitDistiller
王亮
微軟亞洲研究院
高階研究員
王亮,現任微軟亞洲研究院高階研究員。主要研究方向為資訊檢索和基礎模型的增強。2014年和2017年分別獲得北京大學學士和碩士學位。在國際會議和期刊發表論文30餘篇,主導開發的 E5 系列文字嵌入模型曾獲得廣泛關注。
分享內容:
E5-Mistral:大語言模型增強的文字嵌入
Improving Text Embeddings with Large Language Models
論文摘要:
本文提出了一種僅用合成數據和輕量級微調即可獲得高質量文字嵌入的方法,無需複雜的多階段訓練流程或大量的標註資料。訓練得到的 E5-Mistral 模型重新整理了基準測試的最佳結果,並得到眾多後續研究工作的跟進。
論文連結:
https://arxiv.org/pdf/2401.00368
GitHub連結:
https://github.com/microsoft/unilm/tree/master/e5
宋愷濤
微軟亞洲研究院
高階研究員 
宋愷濤,博士畢業於南京理工大學。其研究方向為自然語言處理、大語言模型、AI 智慧體。其發表了超過40篇國際學術會議論文和期刊,包括 NeurIPS、ICML、ICLR、ICCV、ACL、EMNLP、KDD、AAAI、IJCAI 等,同時擔任多個學術會議和期刊的審稿人。其代表作包括 HuggingGPT / JARVIS 等智慧體研究以及 MASS、MPNet 等基礎模型訓練。
分享內容:
提高大型語言模型在事件關係邏輯預測中的表現
Improving Large Language Models in Event Relation Logical Prediction
論文摘要:
儘管大語言模型(LLMs)在眾多領域取得了突破性進展,但我們發現現有的 LLMs 在充分掌握事件關係邏輯的複雜性方面仍然存在困難,常常表現出一致性不足和推理能力有限的問題。針對這一點,我們對現有 LLMs 的邏輯推理能力進行了深入分析,並從生成式,檢索式以及微調式的方法出發,來設計有效的方法並提升大模型到實際應用中的效能。
論文連結:
https://arxiv.org/pdf/2310.09158
姜慧強
微軟亞洲研究院
研發工程師
姜慧強的研究主要集中在加速推理和訓練的高效方法上,包括動態稀疏注意力機制(MInference)、提示壓縮(LLMLingua)、KV 快取壓縮、推測解碼、模型壓縮、稀疏推理(PIT)、神經架構搜尋(NAS)以及高效調優,特別是對大語言模型(LLMs)的研究。此外,他還致力於解決自然語言處理中的常見挑戰。
分享內容:
LongLLMLingua:透過提示壓縮加速和增強長文字LLMs
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
論文摘要:
長上下文場景中,LLMs 面臨更高的計算/API成本、更長的延遲以及效能下降等挑戰。一些研究表明,LLMs 的效能依賴於輸入提示中關鍵資訊的密度和位置。基於此,我們提出 LongLLMLingua 進行提示壓縮,以提升 LLMs 對關鍵資訊的感知,從而應對這些挑戰。評估結果顯示,在廣泛的長上下文任務中,LongLLMLingua 能以更少的成本和更短的延遲實現更高的效能。
論文連結:
https://arxiv.org/abs/2310.06839
張良
中國人民大學
博士研究生
張良,中國人民大學資訊學院2020級博士研究生,師從金琴教授,以第一作者身份在 NeurIPS、AAAI、ACL 等頂級會議上發表多篇研究論文,曾在微軟亞洲研究院自然語言計算組實習,研究方向為多模態理解和多語言學習。
分享內容:
用我的語言回應:基於大語言模型的回應生成中的語言不一致性緩解
Respond in my Language: Mitigating Language Inconsistency in Response Generation based on Large Language Models
論文摘要:
基於單語言微調的大模型會出現回應語言不一致問題。本文探索解決該問題以實現零樣本多語言指令跟隨。我們首先分析問題成因,並從訓練和推理兩個階段提出解決方法。實驗表明,在無需多語言指令資料的情況下,我們的方法可以大幅提高模型一致語言回應的能力。 
論文連結:
https://aclanthology.org/2024.acl-long.229/
日程安排
14:00-14:30
分享內容:
BitDistiller: Unleashing the Potential of Sub-4-Bit LLMs via Self-Distillation
分享者:
杜大猷
14:30-15:00
分享內容:
Improving Text Embeddings with Large Language Models
分享者:
王亮
15:00-15:30
分享內容:
Improving Large Language Models in Event Relation Logical Prediction
分享者:
宋愷濤
15:30-16:00
分享內容:
LongLLMLingua: Accelerating and Enhancing LLMs in Long Context Scenarios via Prompt Compression
分享者:
姜慧強
16:00-16:30
分享內容:
Respond in my Language: Mitigating Language Inconsistency in Response Generation based on Large Language Models
分享者:
張良
鎖定直播間,我們不見不散!
你也許還想看:

相關文章