社會模擬的世界模型SocioVerse:復旦聯合創智學院、羅切斯特大學、小紅書開源100萬真實使用者池,助力計算社會科學的交叉研究

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 復旦DISC
導讀
隨著大語言模型角色扮演能力的提升,越來越多的學者將大語言模型引入到社會科學研究中,在模擬社會調查、評估傳播效果、模擬政治行為等場景都取得了正面的結果。現有的研究存在兩個侷限性:(1)泛化能力不足。當前研究聚焦在某個特定場景/任務,方法和結論難以推廣和複用。(2)可擴充套件性不佳。當前的研究往往以大語言模型為中心設計模擬過程,缺乏系統性的視角,難以擴充套件到更復雜場景。
大規模社會模擬透過構建現實世界的參照,達到建模目標群體的行為模式、預測群體事件的演化趨勢、輔助現實重大決策的目的。社會模擬研究的核心問題在於模擬過程如何做到與現實世界的“對齊”。基於此,復旦大學交叉學科團隊聯合上海創智學院、羅切斯特大學、小紅書提出了一種面向社會模擬的世界模型 SocioVerse,首次提出從環境、目標使用者、互動機制和行為模式四個維度的“對齊”理念,並設計了包含社會環境、使用者引擎、場景引擎和行為引擎的對齊框架,構建了1000萬真實人口池,以實現高精度、系統性、可泛化的大規模社會模擬。
SocioVerse 在美國總統大選、新聞熱點傳播、社會經濟調查三個場景中展現出高精度的對齊效果。專案開源100萬英文社交媒體平臺的使用者池,推出眾生 · SocioVerse社會調查模擬平臺,提供線上社會模擬模擬,助力交叉學科研究。
  • 眾生 · SocioVerse專案地址:http://www.fudan-disc.com/socioverse/(點選文末閱讀原文訪問並試用)
  • 論文:https://arxiv.org/abs/2504.10157
  • 評測倉庫:https://github.com/FudanDISC/SocioVerse
  • 使用者池地址:https://huggingface.co/datasets/Lishi0905/SocioVerse
SocioVerse在俄烏衝突事件中的模擬流程示例。本文提到的關於環境、使用者、場景和行為的對齊問題都被較好地考慮和處理到。
社會模擬的關鍵挑戰:對齊
為了理解人類在社會情境中的行為,傳統方法通常採用如問卷、訪談和行為觀察等方式,但是面臨著高成本、小樣本和倫理問題等限制。因此,社會模擬作為替代手段逐漸興起,運用數學建模、大資料分析等方法,透過構建智慧體模擬觀察個體決策如何匯聚成群體行為。隨著大語言模型的發展,智慧體的推理與互動能力顯著增強,從而能夠構建更加真實和複雜的社會模擬。然而,現有方法在與真實世界對齊時仍面臨四個關鍵挑戰:
  • 1. 環境對齊:如何使模擬環境與即時發生的現實世界事件同步。
  • 2. 使用者對齊:如何精準對齊模擬智慧體與目標使用者的特徵與分佈。
  • 3. 互動機制對齊:如何設計統一、可擴充套件的互動方式來匹配現實中的交流模式。
  • 4. 行為模式對齊:如何確保智慧體生成的行為能真實反映使用者群體的多樣性和偏好。
為此,我們提出了 SocioVerse,一個由大模型智慧體驅動的大規模社會模擬世界模型,具備四個對齊模組,並配備一個包含一千萬真實使用者的池。我們在政治、新聞和經濟三大場景中驗證其有效性,結果顯示 SocioVerse 能夠高效、可信地模擬大規模群體行為。
SocioVerse框架
SocioVerse框架示意圖,包含四個強大的對齊元件。社會環境為模擬提供了事實的上下文資訊。在模擬過程中,行為引擎接受來自使用者引擎和場景引擎的使用者畫像資訊和模擬場景設定,結合社會環境提供的資訊生成針對查詢語句的模擬結果。
SocioVerse的整體框架包括四部分:社會環境模組、使用者引擎、場景引擎、行為引擎。
1. 社會環境模組
  • 作用:為模擬注入最新事件、社會統計與偏好內容,使模擬環境與現實環境對齊,幫助智慧體對當前社會背景作出合理反應。
  • 元件
    • Updated Events(事件更新):構建帶時間戳的新聞事件庫、事件詞條庫,供LLMs檢索與引用,實現事件軌跡追蹤與情境還原。
    • Social Statistics(社會統計):提供結構化資料,如人口分佈、城市結構與社會習俗,使智慧體行為更符合所在的群體特徵。
    • Preference Content(偏好內容):透過推薦系統為不同智慧體推送興趣相關內容,提升行為生成的多樣性和個性化。
2. 使用者引擎
  • 作用:根據真實使用者取樣模擬樣本,構建複雜的目標使用者畫像,確保模擬智慧體的人群特徵與現實分佈對齊。
  • 元件
    • User Pools(使用者池):使用來自 X 和 Rednote 等平臺的歷史發言構成 1000 萬用戶的大規模池。
    • User Labels(使用者標籤):結合了可標註的硬標籤(如性別、年齡)與可訓練的軟表徵向量。其中,硬標籤利用多個LLM進行初步標註,人工校驗後訓練分類器,實現15類人口屬性的自動推斷(如種族、政黨、性格等)。
3. 場景引擎
  • 作用:將模擬場景與真實場景對齊,根據任務型別設計相應的互動結構,並按人口分佈將模擬推廣至大規模群體。
  • 元件
    • Questionnaire(問卷):1對多的單輪結構,用於收集大規模樣本對某一話題的觀點意見(如選舉、民意調查)。
    • In-depth Interview(深入訪談):1對1多輪互動,便於挖掘受訪者的態度動機,適用於使用者體驗與心理研究。
    • Behavior Experiment(行為實驗):1對多或多對多結構,在控制條件下觀測個體與群體的決策行為與社會偏差。
    • Social Media Interaction(社互動動):多對多場景下構建多智慧體的動態發帖與評論,模擬輿情演化、資訊擴散與網路影響。
4. 行為引擎
  • 作用:在模擬過程中結合使用者畫像、場景結構與社會背景,驅動智慧體生成合理的模擬行為,確保其行為模式與真實使用者群體對齊。
  • 元件
    • LLM Agents(大模型智慧體):包括三類(1)通用型LLM:如GPT或Qwen,透過提示對齊使用者畫像;(2)專家型LLM:為特定領域微調,用於生成專業行為;(3)領域LLM:應對複雜任務或知識密集型模擬。
    • Traditional ABM(傳統建模智慧體):基於規則或數學模型,透過啟發式或理論函式實現互動,適合低影響力的邊緣使用者建模,具有效率優勢。
千萬真實使用者池
1. 資料收集
使用者池的資料主要來自多個社交媒體平臺,如 X(原Twitter) 和 Rednote(小紅書),涵蓋不同語言、文化與年齡層的使用者群體。為了保障使用者隱私,資料僅包含公開可見的內容,如文字、互動行為(點贊、評論、轉發)等。在構建過程中,透過設定文字重複率閾值,可以識別並剔除機器人與廣告賬戶,從源頭保障資料質量。按使用者索引並清洗後的資料構成如下:
2. 人口統計學標註
由於使用者的人口統計資訊無法直接獲取,我們設計了一個人口屬性標註系統,用於推斷和標註使用者特徵。該流程首先由多個大語言模型作為初始標註器,對使用者在多個人口統計維度上進行分類。隨後,人類標註員對LLM生成的標籤進行評估與修正,從而確保使用者標籤資料集的可靠性。經過人工稽核後的資料集將用於訓練人口屬性分類器,從而以成本較低的方式支援大規模的自動標註。具體而言,我們在15個人口統計維度上對使用者進行了標註,包括:年齡、性別、職業、種族、收入、教育水平、居住型別、地區、就業狀態、婚姻狀況、宗教信仰、政黨傾向、意識形態、大五人格特質(BigFive)以及興趣愛好。每一項屬性均由對應子資料集訓練的專用分類器進行推斷。在小紅書和X資料上經過如上標註流程後,各個標註模型與人類標註的一致性如下表所示:
在標註器訓練部分,我們採用多個大語言模型(LLM)之間多數投票的標籤結果來構建訓練資料集。鑑於不同平臺所使用的主流語言存在差異,我們在X平臺的資料上使用 LongFormer 模型,在Rednote平臺的資料上使用 Bert-base-chinese 模型。最終標註器在測試集的各個人口統計學特徵中的標註表現如下:
場景模擬實驗
三個場景模擬實驗的示意圖
我們在三個場景模擬實驗中測試了SocioVerse的效能表現。當前,三個場景實驗均為基於問卷的單輪調查模擬。
  1. 美國總統選舉預測:按1/1000取樣全美51個州的人口進行選舉投票預測,模擬30w智慧體的投票結果。
  2. 熱點新聞反饋模擬:從社交媒體中取樣對科技領域感興趣的目標人群,模擬1w使用者對ChatGPT(生成式人工智慧)的問世的觀點態度。
  3. 中國國民經濟調查:從中國31個省級行政區(除港澳臺外)中按人口比例取樣,模擬共1.6w智慧體日常各項消費支出的水平。
1. 整體實驗結果:SocioVerse可以支援多樣且精確的大規模社會模擬
  • 總統選舉預測:模擬結果能準確還原美國總統選舉的州級結果,尤其在“贏家通吃”規則下能準確預測90%以上的州的選舉結果,呈現出對現實宏觀格局的高度還原。DeepSeek-V3與Qwen2.5-72b在準確率和RMSE上表現優異,而DeepSeek-R1-671b 則存在“過度思考”導致偏差的情況。
  • 熱點新聞反饋:各模型對公眾態度的模擬與真實使用者群體表現一致。Qwen2.5-72b 在KL散度和NRMSE兩個評價維度上與真實使用者的態度一致性分別達到83%和70%,能較準確捕捉傳播效果與觀點分佈。
  • 國民經濟調查:所有模型在模擬各地區消費支出時均接近真實統計資料,尤其在發達地區表現更佳。Llama3-70b 在該場景中表現最強,在所有地區和發達地區與真實居民的消費一致性分別達到69%和76%,說明 SocioVerse 能有效模擬使用者在經濟決策中的行為模式,特別是在發達地區。
2. 拓展分析:先驗的人口統計學分佈與真實世界經驗顯著提升了選舉預測精度
在總統選舉模擬中,我們透過消融實驗評估“真實使用者知識”和“先驗人口分佈”的作用。結果表明先驗分佈顯著提升了預測精度,而隨機分佈下模型準確率明顯下降。同時,歷史發言資料可提升細粒度效能,尤其是在RMSE方面表現明顯。這說明SocioVerse框架中的兩項關鍵輸入——先驗分佈與使用者知識——對於提升模擬的現實對齊性至關重要。
3. 拓展分析:熱點新聞反饋模擬中的群體偏好與觀點能被有效還原
在 ChatGPT問世事件的反饋模擬中,我們將觀點問卷量化為六個維度的1–5 分Likert 量表,並將模擬結果與真實使用者群體逐項比對。結果表明,多數模型在六個維度(公眾認知PC, 感知風險PR, 感知利益PB, 信任度TR, 公平性FA, 公眾接受度PA)上均與真實使用者高度一致。同時,也需要注意,所有模型的模擬回答整體偏保守,暗示著模擬中可能存在一定由於LLM引入的偏差風險。
4. 拓展分析:模型在經濟調查中對不同領域的模擬表現差異顯著
在全國經濟調查中,模型需預測共八項月度消費支出。結果表明:所有模型在大多數維度上與真實資料高度一致,尤其在“日用品”維度表現最優。在“住房支出”這一複雜領域,各模型誤差普遍偏大,說明 LLM 對高複雜經濟行為的模擬仍具挑戰。Llama3-70b 在整體表現上優於其他模型,說明其在高穩定性場景中更具優勢。
SocioVerse大規模社會調查模擬平臺
平臺功能介紹與影片
SocioVerse大規模社會調查模擬平臺基於大模型智慧體與千萬級真實人群資料庫,突破傳統調研的時空與成本限制,支援複雜社會現象的動態推演,幫助學術研究、政策制定、商業分析等領域使用者快速獲取群體行為反饋。
END
復旦大學資料智慧與社會計算實驗室
Fudan DISC
聯絡方式:[email protected]
地址:復旦大學邯鄲校區計算中心
點選“閱讀原文”跳轉至專案地址試用SocioVerse

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章