上財開源首個金融領域R1類推理大模型，7B模型媲美DeepSeek-R1671B滿血版效能

該專案由上海財經大學統計與資料科學學院張立文教授與上海財經大學統計與資料科學學院博士生郭鑫、碩士生劉趙偉和課題組核心成員蔡維格、牛晉怡、曾凌峰、婁方齊、王子璇、胥佳傑、趙學前、楊子緯，以及財躍星辰白祚博士和團隊成員陳德智、許晟、李超共同完成。

近日，上海財經大學統計與資料科學學院張立文教授與其領銜的金融大語言模型課題組（SUFE-AIFLM-Lab）聯合資料科學和統計研究院、財躍星辰、滴水湖高階金融學院正式釋出首款 DeepSeek-R1 類推理型人工智慧金融大模型：Fin-R1，以僅 7B 的輕量化引數規模展現出卓越效能，全面超越參評的同規模模型並以 75 的平均得分位居第二，與引數量為 671B 的行業標杆 DeepSeek-R1 平均分差距僅為 3.0%。

Fin-R1 基於 Qwen2.5-7B-Instruct 模型開發，透過構建高質量金融推理資料集與兩階段混合框架訓練，實現了金融推理的邏輯閉環，其技術創新表明高校在垂直領域大模型研發中實現了從技術突破到產業落地的閉環，標誌著高校在金融科技領域的自主創新邁入新高度。

Github 地址：https://github.com/SUFE-AIFLM-Lab/Fin-R1
技術報告：https://arxiv.org/abs/2503.16252
模型地址：https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1

1、簡介

當前推理型大語言模型在眾多領域正迅速發展，然而當通用推理模型落地金融領域時，仍面臨垂直場景適配性不足的挑戰。金融推理任務常涉及法律條款、經濟指標、數理建模等知識，不僅需要跨學科知識融合，更要求可驗證的、分步驟的決策邏輯。在實際的金融業務場景中，模型應用普遍面臨知識整合困難、決策過程不透明、業務泛化能力不足等問題。

為此，我們從多個權威資料來源蒸餾並篩選出約 60k 條面向金融專業場景的高質量 COT 資料集 Fin-R1-Data，該資料集涵蓋中英文金融垂直領域的多維度專業知識並根據具體任務內容將其分為金融程式碼、金融專業知識、金融非推理類業務知識和金融推理類業務知識四大模組，可有效支撐銀行、證券以及信託等多個金融核心業務場景。在 Fin-R1-Data 資料的基礎上我們以 Qwen2.5-7B-Instruct 為基座進行指令微調 (SFT) 預熱和強化學習 (RL) 訓練得到金融推理大模型 Fin-R1。我們透過構建金融高質量 CoT 資料集與結合指令微調（SFT）和強化學習（RL）進行訓練的兩階段工作框架為模型在金融領域的應用提供了堅實的理論支撐、決策邏輯以及技術實現能力，同時能有效提升模型的金融複雜推理能力和泛化能力，使模型在金融推理任務中展現出卓越效能。

圖 1 Fin-R1 應用場景示例

Fin-R1 的總體工作流程如下：我們首先透過構建 60k 規模的金融推理資料集 Fin-R1-Data，幫助模型重構知識體系，然後採用 "兩步驟訓練框架" 塑造模型認知和推理能力，最後在多個金融基準測試上驗證模型的效能突破，實現了從 “資料構建 – 模型訓練 – 效能驗證 – 模型部署 – 場景應用” 的完整技術閉環。

圖 2 Fin-R1 總體工作流程

2、場景應用 —— 強大的多場景適配能力

金融程式碼是指在金融領域中用於實現各種金融模型、演算法和分析任務的計算機程式設計程式碼，涵蓋了從簡單的財務計算到複雜的金融衍生品定價、風險評估和投資組合最佳化等多個方面，以方便金融專業人士進行資料處理、統計分析、數值計算和視覺化等工作。

金融計算是對金融領域的各種問題進行定量分析和計算的過程，其核心在於透過建立數學模型和運用數值方法來解決實際金融問題，可為金融決策提供科學依據，幫助金融機構和投資者更好地管理風險、最佳化資源配置和提高投資回報率。

英語金融計算強調在跨語言環境下使用英語進行金融模型的構建和計算，並能夠以英語撰寫金融分析報告和與國際同行進行溝通交流。

金融安全合規聚焦於防範金融犯罪與遵守監管要求，幫助企業建立健全的合規管理體系，定期進行合規檢查和審計，確保業務操作符合相關法規要求。

智慧風控利用 AI 與大資料技術識別和管理金融風險，與傳統風控手段相比，智慧風控具有更高的效率、準確性和即時性，它透過對海量金融資料的深度挖掘和分析，能夠發現潛在的風險模式和異常交易行為，從而及時預警和採取相應的風險控制措施。

ESG 分析透過評估企業在環境（Environmental）、社會（Social）、治理（Governance）的表現，衡量其可持續發展能力，確保投資活動不僅能夠獲得財務回報，還能促進可持續發展和社會責任的履行。金融機構和企業也透過提升自身的 ESG 績效，來滿足投資者和社會對企業更高的期望和要求。

3、資料構建 —— 破解知識碎片難題

傳統的金融資料分散、標註成本高，而且缺乏對複雜推理邏輯的針對性設計，導致模型難以適配金融業務場景，為將 DeepSeek-R1 的推理能力遷移至金融場景並解決高質量金融推理資料問題，我們用 Deepseek – R1（滿血版）針對涵蓋行業語料（FinCorpus、Ant_Finance），專業認知（FinPEE），業務知識（FinCUGE、FinanceIQ、Finance-Instruct-500K），表格解析（FinQA），市場洞察（TFNS），多輪互動（ConvFinQA）以及量化投資（FinanceQT）的多個數據集進行領域知識蒸餾篩選，構建了約 60k 條面向專業金融推理場景的高質量 COT 資料集 Fin-R1-Data 。

圖 3 Fin-R1 資料生成流程

3.1 資料蒸餾

在蒸餾過程中，我們構建了基於 Deepseek – R1 的資料蒸餾框架。在蒸餾過程中，嚴格遵循 DeepSeek – R1 官方規範配置引數，具體引數配置如下：

將 temperature 設定為 0.6；
針對數學型別資料，採用 "請用 \\boxed {{}} 格式包裹最終答案" 作為標準化提示詞；
防止跳出思維模式，強制在每個輸出的開頭增加 "\n"，再開始生成資料。

3.2 資料篩選

為了保證資料質量，專案組首創 “答案 + 推理邏輯” 雙輪打分機制，雙輪質檢，嚴把資料關。

第一輪：用規則匹配和 Qwen2.5-72B-Instruct 對答案准確性進行打分，確保資料 “零錯誤”；
第二輪：深度校驗推理邏輯的一致性和術語合規性，讓 AI 的 “思維鏈條” 嚴絲合縫。
第三輪：引入金融專家團隊對關鍵資料進行人工複核，保障訓練資料高質量。

圖 4 Fin-R1 資料分佈

表 1 Fin-R1 資料量表

4、模型訓練 ——“劃重點 – 考試 – 打分”

4.1 特訓成果：金融界的 "最強大腦"

針對金融領域複雜推理任務，我們利用 Qwen2.5-7B-Instruct 進行兩步驟微調訓練得到金融推理大語言模型 Fin-R1 。首先透過高質量金融推理資料的 SFT (Supervised Fine-Tuning) 幫助模型重構知識體系，然後在 GRPO（Group Relative Policy Optimization) 演算法的基礎上結合格式獎勵和準確度獎勵進行強化學習，以此提升金融推理任務的準確性和泛化能力。Fin-R1 能夠完整地呈現思考過程，為金融決策提供深入且有價值的洞察，更為金融投資、風險管理、智慧投顧以及量化交易等金融業務領域提供了可靠的技術底座。未來，這樣的 "金融特訓營" 模式有望在更多專業領域複製推廣。

4.2 微調訓練（SFT 指令微調）

針對非推理類模型在 RL 訓練過程中存在訓練不穩定等問題，研究團隊對 AI 進行專項知識補課，像教學生一樣訓練模型，讓非推理類模型掌握金融推理的基本功。使用金融推理資料集對模型進行定向訓練（SFT），使模型初步具備長思維鏈思考模式，降低模型訓練難度，保證訓練穩定性。

4.3 實戰最佳化（RL 強化學習）

透過考試和專家打分（RL 強化學習），不斷糾正 AI 在複雜場景中的判斷失誤，確保每個決策都經得起推敲。在模型掌握基礎知識後，透過 "考試 + 專家打分" 機制（RL）持續提升專業性：

智慧考官把關：引入 Qwen2.5-Max 作為驗證器用於檢查答案對錯，比傳統正則表示式方式準確度更高。
雙軌打分制：採用 “基於規則的格式獎勵 “和” 基於模型驗證的準確性獎勵 “兩種獎勵訓練模型，實現金融文字生成 “形神兼備”。

圖 5 Fin-R1 模型訓練流程

5、效能驗證 —— 專業場景效能超越，驗證技術閉環價值

在覆蓋多項金融業務場景的權威評測中，我們考慮模型的推理能力與資源消耗，將 Fin-R1 與涵蓋輕量級和高效能的不同模型進行了全面評估。最終 Fin-R1 以僅 7B 的輕量化引數規模展現出顯著的效能優勢，以 75.2 的平均得分位居第二，全面超越同規模參評模型，同時與行業標杆 DeepSeek-R1 平均分差距僅 3.0，且超越 DeepSeek-R1-Distill-Llama-70B（69.2）6.0 分。此外，Fin-R1 在聚焦真實金融表格數值推理任務的 FinQA 以及多輪互動場景的 ConvFinQA 兩大關鍵任務測試上分別以 76.0 和 85.0 的得分在參評模型中登頂第一，展現出了模型在金融推理場景及金融多輪互動場景中的強大處理能力。

Fin-R1 的評測表現不僅反映出模型在投顧服務、投資者會議等多輪互動場景中具有長對話跟蹤能力，能避免傳統模型常見的上下文遺忘或邏輯跳躍問題並生成邏輯連貫的漸進式建議，同時展現出模型在處理財務報表重組、財務比率交叉驗證時的強大數值推理能力。精準覆蓋金融行業對可解釋性、合規性、數值嚴謹性的核心訴求。具體評測結果如下：