
MLNLP
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
轉載自 | 智源社群
採訪&撰文 | 李夢佳、熊宇軒
導讀:現實對話中,「多喝熱水」、「早點睡」等直男語錄讓人啼笑皆非。從某種意義上說,現有的對話系統就好比「直男」,對於情緒的感受力較弱。因其僅僅根據文字表面的意義進行分類,無法理解文字背後更深層的意思,無法與對方實現真正的「共情」。
如何提高陪伴機器人的共情能力,實現更專業、自然的情緒支援人機對話?香港理工大學李嫣然博士團隊在這方面做了大量的工作。團隊透過真人多輪情感支援對話中的中文語料資料探勘語言背後的情緒流,進而針對AI的情緒探索和反饋能力等方面進行了有效地最佳化。
近日在由MLNLP(機器學習演算法與自然語言處理)社群 和 中國中文資訊學會青年工作委員會 聯合舉辦的第九期 MLNLP 2022 學術研討會上,李嫣然博士分享了題為「2022年了,陪伴對話機器人離我們還有多遠?」的報告。同時,智源社群針對該項工作的靈感和初衷進行了獨家訪問。

李嫣然,博士畢業於香港理工大學,師從李文捷教授。其曾任小米人工智慧實驗室高階演算法工程師、場景對話團隊負責人,同時也兼任著北京大學心理與認知學院的行業導師。她在 ACL/EMNLP/ICLR/AAAI等國際頂級會議及期刊上發表論文二十餘篇,涵蓋情感計算、人機對話、自然語言生成等研究領域,累計引用次數超過1800次。同時她也擔任了多年的NLP相關會議的領域主席及審稿人。個人主頁:https://yanran.li/
1
『基於陪伴機器人的願景,解決現代社會的情緒問題』
Q1:您所在團隊這項研究的靈感來源於?
A:情感對話的一系列研究,都基於我們對於實現陪伴型機器人的願景。為此,我們也學習了許多心理諮詢、溝通交流相關的書籍和文獻。經典的心理學書籍在此不列舉了,對我個人影響最大的論文有《Dialogue Model
and Response Generation for Emotion Improvement Elicitation》和《ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning》。
Q2:多輪真人對話中文語料資料,這些資料來源於哪裡?
A:多輪真人對話是研究團隊出資進行的付費眾包,我們提供特定的場景以及希望對話雙方扮演的角色,參與眾包的人員按照要求進行限定場景的多輪對話。在收集原始語料中,我們會盡心嚴格地篩選和清洗,最終得到了這份不涉及任何隱私、涵蓋日常生活各種場景、具備真人交流的同理心和常識的中文對話資料。我們也將其開源希望回饋給學界,推動相關研究發展。
Q3:在人機互動中,我們往往遇到的問題是,AI在對話中彷彿理解了,但又沒有真的理解。未來,想要真正實現有情緒的聊天,還有望採取哪些技術手段?目前的研究成果還有哪些不足之處?
A:現有的對話模型、大部分 NLP 甚至 AI 模型,基本都是資料驅動的,導致很多時候模型學到的都是資料之間的相關性,就會導致模型彷彿理解了又沒有真的理解的情況。我個人認為常識對於我們的模型是必不可缺的。現在,我們雖然已經有了大規模的常識知識庫,也有了一些可以進行常識推理、融合常識的模型,但都還有很多提升的空間。我也一直在關注這些方面的進展,比如如何從海量資料、超大規模語言模型中自動提取/蒸餾結構化的常識,如何透過人機互動、人機協作(如 human-in-the-loop)的方式,為模型學習常識提供更輕量化、精細化的監督訊號等等。
Q4:未來這些工作將具體應用到哪些心理學領域?具體對於躁鬱症等精神疾病的治療有哪些幫助?
A:作為一個心理學業餘愛好者,我瞭解到情緒問題和情緒疾病還是兩個不同的層面。通常來說,現代社會的人們都或多或少會面臨情緒問題,比如焦慮,這些是一種短期的、不穩定的負面狀態。只有當情緒問題嚴重到一定程度才會被稱為情緒疾病,比如抑鬱,而情緒疾病的診斷就像其它生理疾病一樣是有科學的標準的。目前我們的工作還主要是為了緩解人們生活中的情緒問題,比如疏導工作壓力大的上班族,關懷獨自在家的老年人,引導考前焦慮的學生等等。如果說到專業的情緒疾病診斷和治療,前段時間釋出的論文《D4: a Chinese Dialogue Dataset for Depression-Diagnosis-Oriented Chat》可能更相關一些。

在本次報告中,李嫣然博士首先介紹了構建情感支援陪伴對話機器人的研究背景,進而從「感知->認知」、「資料驅動->策略驅動」、「單模態->多模態」三個方面介紹了其團隊的相關工作,最後對該領域未來 2-3 年內的發展方向進行了展望。

2
『研究背景』
目前,全球範圍內有近 10 億人患有精神障礙。據好心情釋出的「數字化精神心理健康服務行業藍皮書」統計,新冠疫情爆發後,全球抑鬱症和焦慮障礙的患病人數顯著增加,其中抑鬱症患者激增 5,300 萬、增幅達 27.6%;焦慮障礙患者激增 6,200 萬,增幅達 20.8%。隨著這一趨勢的發展,人們對於情感治療/疏導的需求日益增加。

然而,培養心理諮詢師和社會志願者的成本較高。相較於巨大的需求,發展中國家、低收入/中等收入國家向該領域投入的資源較為有限,有 76%-85% 的精神障礙患者得不到及時的治療。因此,對於情感支援陪伴對話機器人的研究具有很強的現實意義。
3
『研究方法』
得益於深度學習、對話系統等技術的發展,自 2015-2016 年起,湧現出了一批有關情感支援陪伴對話機器人的研究工作,形成了新的研究方向。近年來,該領域的研究突飛猛進,每年大約有 5-10 篇相關的工作會發表在相關的頂級會議和學術期刊上。在 CCAC 2021 上,清華大學黃民烈教授也發表了題為「Emotional Intelligence in Dialogue Systems」的主題報告。

目前學界主要認為,情感對話領域的研究工作主要包含以下四個方向:(1)情緒理解(Emotion Understanding),即讓機器理解來訪者透過語言表達的情緒。(2)有情緒的聊天,即探究機器如何在回應中表達特定的情緒。(3)共情對話,即機器需要自主決定該表達怎樣的情緒。(4)情感支援,即如何有策略地透過連續數輪的互動顯著緩解來訪者的情緒壓力。其中,清華大學黃民烈老師也給出了(2)-(4)三個子任務之間的聯絡,如上圖右上角所示。
感知->認知

如今,研究者們對情感對話的探索有逐漸從感知走向認知的趨勢。如上圖所示,許多已有的情緒理解工作會將該任務建模為一個分類問題,針對一段給定的對話輸出一個情緒的標籤。然而,由於人可能因為各種事件誘發產生某種情緒,這種單一的標籤往往不能涵蓋全面的資訊。因此,2020 年末開始,一些工作展開了對全面、細粒度的情感認知的研究。

在 AAAI 2021 上,騰訊 AI Lab 發表了論文「Knowledge Bridging for Empathetic Dialogue Generation」,提出了模型 KEMP。作者認為,在對話過程中,說話人的請求和另一方的回覆往往存在一定不對稱的 Gap,回覆中有時會出現一些請求中未涉及的新資訊。我們需要將知識作為橋樑,從而對資訊之間的關聯建模。具體而言,該論文的作者採用情感詞典提供外部知識,從而針對使用者的陳述給出共情的回覆,表達對於使用者情緒狀態的理解,實現從簡單的情緒分類走向豐富的情緒認知。

在此基礎上,清華大學團隊在 AAAI 2022 上發表了論文「CEM:Commonsense-aware Empathetic Response Generation」,引入了目前最為先進的常識知識庫「ATOMIC」、並採用了常識推理模型「COMET」生成與對話情境、說話人情緒等相關的常識知識。透過上述方式,我們可以針對某個事件進行多角度的推理。
如上圖所示,如果一個人發現自己的電話出現了故障,根據圖譜中反應推理「React」的邊,機器可能會判斷事件主體(使用者)會產生沮喪的情緒;根據圖譜中需求推理「Want」的邊, 機器可能會判斷該使用者需要購買一個新的電話。透過這種多維度的推理,我們可以對事件的前因後果、可能引發的情緒、產生情緒的動機等要素建模,更加全面、立體地實現對事件背後情緒的認知。
基於 COMET 得到的常識,CEM 模型提出了「情感編碼器」(Affective Encoder)和「認知編碼器」(Cognitive Encoder),分別對感知和認知任務建模,進而生成最終的回覆。

實驗結果表明,儘管在引入認知圖譜後取得了一定的效能提升,CEM 在涉及 32 類情緒的分類任務中的準確率仍然只有約 39%。可見,由於人們對於情緒的描述具有主觀性和不確定性,不同人對於某件事產生的情緒可能有所差異,描述文字的差異也可能較大。因此,準確的情緒理解和認知仍然是一項困難的任務。
從某種意義上說,現有的對話系統就好比「直男」,對於情緒的感受力較弱。如果僅僅根據文字表面的意義進行分類,會造成很多尷尬的局面,無法與對方實現「共情」。我們認為,引入認知圖譜會有助於改善「直男式」的回覆。

為了實現從感知到認知的轉變,我們仍然需要解決一系列難點,例如:(1)由於認知圖譜存在一定的多樣性,我們需要應對存在的歧義。如上圖所示,在 ATOMIC 圖譜中,三元組中的頭「PersonX adopts a cat」發出的影響推理(Effect)邊可能指向兩個不同的尾——「發現對貓過敏」和「變得不那麼孤獨」,而這兩個三元組代表了完全相反的情緒。因此,對尾實體的推理對於正確的情緒理解至關重要。(2)回覆也需要考慮知識的多樣性。在上述例子中,我們可能需要關注貓的來源(如貓舍或寵物救助站),如果不能對此上下文加以分辨,可能會導致回覆中存在衝突和重複的現象,產生較差的使用者體驗。因此,我們需要在對話中獲取到更準確的知識,提升情感理解和回覆的效能。

為此,李嫣然博士團隊於 ACL 2022 上發表了論文「C3KG:A Chinese Commonsense Conversation Knowledge Graph」,構建了面向中文的常識知識對話圖譜,考慮了更豐富的上下文,更為全面地刻畫了對話過程中的資訊流(Flow)。具體而言,李嫣然博士團隊從以下四個方面構建了常識對話圖譜中的對話資訊流,並使用三元組方式表示:
(1)情緒原因流,導致事件發生的情緒。
(2)事件流,事件之間的關聯
(3)概念流,與事件流類似,粒度不同
(4)情緒意圖流,某項陳述背後所表達的意圖以及我們可能給出的回覆。

為此,李嫣然博士團隊透過眾包方式,收集了大量的真人撰寫的中文對話資料,構建了 CConv 資料集,並進行了說話人情緒和對應意圖的標註。在此基礎上,李嫣然博士團隊基於資料增強、遠端監督等方法挖掘了大量的對話流,從而構建了上文提到的4種對話資訊流。

實驗結果表明,透過上述方法挖掘的對話流具有非常強的通用性,其中 96% 的流也存在於另一個微信團隊釋出的對話資料中。透過使用該圖譜,研究團隊在情緒理解和意圖識別任務上取得了顯著的效能提升。
資料驅動->策略驅動

現有的大多數對話模型都由資料驅動。相較於策略驅動的方法,資料驅動方法對於資料標註的需求較低,完全依賴神經網路強大的學習能力提取知識。然而,資料驅動方法仍然存在一些弊端,例如:(1)回覆內容過於通用(2)訓練語料無法實現共情。
為此,研究者希望透過策略驅動的方式,在心理諮詢、情緒疏導等對話任務中引入人類的先驗知識。如上圖所示,紅色加粗的部分是我們在回覆中使用的一些策略。例如,當來訪者表示自己很沮喪時,機器可以首先透過詢問了解發生了什麼事。根據來訪者陳述的事實,機器可以透過肯定和安慰的策略來表達對其遭遇的理解,從而實現共情。

為了學習到這種策略,在 ACL 2021 上清華大學黃民烈教授團隊發表的論文「Towards Emotional Support Dialog Systems」中,作者將策略作為特殊詞例標籤,拼接在生成模型中編碼結果的最前端,初步實現了這一功能。

然而, 在實際情況下,諮詢師在單輪迴復中往往會用到多種策略,而這些策略又相互交疊。具體來說,多輪情感支援對話通常可以被劃分為三個階段:(1)探索(2)安慰(3)行動。其中,在探索情緒產生的原因時,我們可能會用到詢問、複述、反映情感、自我表露等策略;在安慰階段,我們可能會用到反映情感、自我表露、肯定與安慰等策略;在行動階段,我們可能用到自我表露,肯定與安慰、提供建議、提供資訊等策略。可見,對話過程中存在策略的互動和重疊,而論文「Towards Emotional Support Dialog Systems」中提出的模型無法實現這一功能,會產生標籤一不一致的問題,無法學習到的真實資料分佈。

針對上述問題,李嫣然博士團隊在 ACL 2022 上發表了論文「MISC: A Mixed Strategy-Aware integrating COMET for Emotional Support Conversation」,嘗試實現對多重策略的建模。由於現有的資料集大多隻為每個回覆賦予了一個標籤,研究者需要考慮在缺乏完整標籤資訊的條件下進行多策略建模。
在本文中,李嫣然博士團隊採用了 soft attention 的方式,並構造了策略編碼表,即策略矩陣表示了 8 種策略,其中矩陣的每一行代表一種策略的表徵。在獲得上下文編碼向量後,我們首先基於策略矩陣表徵計算分佈的注意力,注意力值的大小代表了當前上下文的權重,我們根據該權重來組合各種策略。透過將混合策略表徵輸入解碼器,我們就可以得到考慮多重策略的回覆。實驗結果表明,該方法在 ACC、BLEU、PPL 等指標上都獲得了顯著的效能提升。

此外,該論文透過編碼表注意力機制引入了一定的離散性,我們可以顯式識別出在回覆中使用到的策略。如上圖所示,機器在對話中依次使用了紅色、綠色、粉紅色的策略。機器首先進行自我表露,表示自己也經歷過分手;然後,機器說明自己的當時的反應,表達感同身受;最後,機器為來訪者提供更多的資訊和建議,表示生活還要繼續。在回覆生成過程中,隨著解碼的進行,資料的分佈可能會產生一些變化,我們可以靈活、動態地計算當前需要使用的策略,提高使用者的使用體驗。
單模態->多模態

近年來,「視覺-語言」等多模態學習的研究工作受到了越來越多的關注。在情感陪伴對話的過程中,我們也可以基於對話式推薦技術,在安撫來訪者的過程中推薦一些多模態物料的回覆(例如,歌曲、電影、書籍)。在對話式推薦任務中,我們需要考慮多輪對話推薦的策略,透過動態生成的決策序列為使用者提供更好的對話體驗,提升推薦過程的效率。

為了實現上述目標,李嫣然博士團隊在 SIGIR 2022 上發表了論文「Conversational Recommendation via Hierarchical Information Modeling」,透過利用對話歷史和協同過濾來建模對話場景。
在協同過濾方面,研究者透過層次化的圖構建了物料的層次化資訊。從縱向看,研究者為每個使用者構建了一個圖,圖與圖之間透過使用者之間的邊來聯通。從橫向看,使用者節點與一些屬性節點相連,屬性節點又與一些物料相關。透過對圖的編碼,我們可以計算使用者之間的關聯,整合各種資訊,將序列化的圖建模結果作為對話建模的輸入。
在對話過程中,研究者利用了時序中的層次化的互動資訊。我們不斷髮掘對使用者有價值的、符合其喜好的物料,整個實現過程可以被看做透過多輪的詢問和對話進行對圖的剪枝。隨著對話歷史的推移,我們可以動態地得到當前的圖表示,迭代式地將上一輪圖表示作為下一輪學習的輸入。

在此基礎上,我們將序列化圖建模的結果傳遞到動作空間中,得到更好的對動作的表徵,最終透過深度強化學習模組完成對話式推薦。實驗結果表明,該論文提出的方法在各類資料集上實現了顯著的、普遍的效能提升。
4
『對未來的思考』
(1)更好的認知能力。引入更多、質量更高的知識圖譜幫助常識推理,透過符號神經計算等方式更好地將知識引入到深度學習推理模型中。代表性的工作有論文「Moral Stories: Learning to Reason about Norms, Intent, Actions and their Consequences from Short Narratives」。他們提出了一個新的常識推理知識庫,為學習添加了符合常理邏輯、社會規則、法律道德的約束。
(2)更好地適應多個域。結合情感支援、對話式推薦、面向任務的對話等任務,使用更加專業的資料集,即時地為不同人群提供更具有針對性的服務。代表性的工作有,「D4: a Chinese Dialogue Dataset for Depression-Diagnosis-Oriented Chat」、「AUGESC: Large-scale Data Augmentation for Emotional Support Conversation with Pre-trained Language Models」,前者嘗試在心理諮詢、心理診療等領域使用情感支援技術,後者利用自動化的資料增強技術緩解了訓練資料不足的問題,使模型具有更好的泛化效能。
(3)更好地融合各種技能。機器在對話中需要具備各種子方向上的能力,具備一定的背景知識、社交屬性,具有一定的人格。例如,情感對話任務中可能包含情緒理解、情感回覆生成等子任務,使用的資料集、外部知識、甚至預訓練框架可能是不同的。代表性的工作有「Emily: Developing An Emotional-Affective Open-Domain Chatbot with Knowledge Graph-based Persona」等。
(4)更好的統一學習架構。透過統一的框架解決一大類任務是目前比較流行的研究正規化,這種做法在很多具體的任務中都取得了成功,在情感支援方向具有很大的研究潛力。代表性的工作有,邱錫鵬老師等人發表的論文「A Simple Language Model for Task-Oriented Dialogue」等。
(5)更合理地評價「共情」。BLEU、PPL 等指標難以真實反映機器的共情能力,我們需要針對共情回覆構建更好的評價指標。代表性的工作有「Towards Facilitating Empathic Conversations in Online Mental Health Support: A Reinforcement Learning Approach」等。
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
