
©PaperWeekly 原創 · 作者 | 張彧
隨著學術會議論文提交數量的迅速增加,我們越來越依賴有效的論文-評審人匹配模型。此前在這一領域的研究考慮了多種因素來評估評審人與論文之間的相關性,例如論文與評審人過往工作之間的語義相似性、主題相似性以及引用關係。然而,大多數研究僅專注於單一因素,導致對論文-評審人相關性的評估不夠全面。
為了解決這一問題,我們提出了一種統一的匹配模型,該模型綜合考慮了語義、主題和引用三大因素。具體而言,在訓練階段,我們對一個所有因素共享的語言模型進行指令微調,以捕捉這些因素的共性和特性;在推理階段,我們將三種因素串聯起來,實現逐步、從粗到精的搜尋,為給定的論文找到合適的評審人。

論文題目:
Chain-of-Factors Paper-Reviewer Matching
https://arxiv.org/abs/2310.14483

論文-審稿人匹配作為一個文字挖掘任務已被廣泛研究,其目標是根據投稿論文的文字(如標題和摘要)以及審稿人此前發表的論文,評估該審稿人對該投稿論文的審稿資質。
從直觀上看,如下圖所示,相關研究主要考慮三個重要因素:
1. 語義(semantic):將投稿論文 𝑝 視為查詢,如果與該查詢在語義上最相關的論文由審稿人 𝑟 撰寫,則 𝑟 應被認為有資格審稿 𝑝。這一直覺被先前方法如 Toronto Paper Matching System(TPMS)所採用,其中使用 tf-idf 來計算語義相關性。
2. 主題(topic):如果審稿人 𝑟 之前發表的論文與投稿論文 𝑝 共享許多細粒度研究主題,那麼 𝑟 被認為是 𝑝 的專家審稿人。這一假設被一些主題建模方法利用。
3. 引用(citation):投稿論文 𝑝 所引用論文的作者更有可能是 𝑝 的專家審稿人。一些科學領域的語言模型(如 SPECTER 2.0)採用了論文的引用資訊進行模型預訓練,並在論文-審稿人匹配任務上獲得了準確率的提升。

儘管先前研究探討了各種因素,但我們發現大多數方法在實踐中通常只考慮其中一個因素。直觀上看,語義、主題和引用這三者之間是相互關聯的,但無法完全替代彼此。因此,僅考慮其中任何一個因素都會導致對論文與審稿人相關性的評估不夠全面。
此外,這些因素之間是互相補充、相輔相成的。例如,理解一篇論文引用另一篇論文的意圖,有助於評估它們之間的語義和主題相關性。因此,可以預期一個聯合學習這三種因素的模型將在每個單獨因素上的表現更加準確。進一步而言,這三個因素應該以逐步推進、由粗到細的方式進行考慮。
具體來說,語義相關性是最粗粒度的訊號,可用於篩選完全不相關的審稿人;在考察語義因素之後,我們可以將每篇投稿論文和每位相關審稿人分類到細粒度的主題空間,並檢查他們是否在相同的研究領域中。

本文提出了一個因素鏈(Chain-of-Factors)框架,將語義、主題和引用這三個因素統一到一個模型中,用於論文-審稿人匹配。這裡的“統一”包含兩個方面:1)預訓練一個聯合考慮三種因素的模型,從而提升每個因素的表現;2)在推理階段,將三種因素串聯起來,支援逐步推進、由粗到細的專家審稿人搜尋。
為了實現這一目標,我們從多個來源收集不同因素的預訓練資料,用於訓練一個論文編碼器。該編碼器在所有因素中共享,以學習通用知識。同時,考慮到每個因素的獨特性以及指令微調在多工預訓練中的成功應用,我們引入了針對各因素的專屬指令,以引導編碼過程,從而獲得具備因素感知能力的論文表示(如下圖所示)。



我們在四個不同領域的資料集上進行了實驗,其中第四個資料集由我們新標註,規模比前三個更大,幷包含更多最新發表的論文(連結在我們的GitHub README中:https://github.com/yuzhimanhua/CoF)。
實驗結果表明,我們提出的因素鏈模型在四個資料集上均穩定優於以往的論文-審稿人匹配方法和預訓練語言模型。進一步的消融實驗驗證了 CoF 模型有效的三個原因:
2. CoF 將這三種因素以鏈式方式串聯,實現了逐步篩選相關審稿人的過程,而非一次性合併所有因素;

3.2 應該使用審稿人此前發表的哪些論文來進行匹配?
我們是否應將候選審稿人之前撰寫的所有論文納入與投稿論文的匹配,還是應該設定某些標準?在此,我們探討三種直觀標準對模型的影響:
1. 時間跨度:如果僅包含審稿人在最近 𝑌 年內發表的論文會怎樣(因為早期論文可能已偏離審稿人當前的研究興趣)?
例如,在 KDD 2020 會議中,如果 𝑌 = 5,我們只將 2015-2019 年間發表的論文納入審稿人的發表檔案。下圖展示了在 𝑌 = 1、2、5、10 和 20 時 CoF 模型的表現。結果表明,納入更多論文通常是有益的,但在 𝑌 = 10 時效能開始收斂。
2. 發表會議:如果只包含發表在頂級會議上的論文會怎樣?
下圖對比了使用審稿人所有論文與僅使用“頂會”論文的表現。這裡“頂會”指 CSRankings 在 2020 年列出的 75 個會議(包括 KDD)。結果表明,即使是不在頂會發表的論文,對刻畫審稿人的專業領域仍有積極貢獻。
下圖也展示了僅使用審稿人作為一作、尾作論文及兩者合併後的模型表現。儘管合併後的表現明顯優於單獨使用其中之一,但仍明顯弱於使用審稿人所有論文的情況。


在這項工作中,我們提出了一個因素鏈框架,以逐步推進、由粗到細的方式,將語義、主題和引用三種訊號聯合考慮,用於論文-審稿人匹配。我們設計了一種基於指令引導的論文編碼過程,從而學習具備因素感知能力的文字表示,以建模論文與審稿人在不同因素上的相關性。在四個資料集上的實驗結果驗證了 CoF 框架的有效性。
更多閱讀



#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
