Light-R1：低成本復現推理模型之路｜360智腦演算法資深專家鄒昊晟演講預告

2025年4月1-2日，2025中國生成式AI大會（北京站）將在北京中關村東昇科技園萬麗酒店舉行。中國生成式AI大會已成功舉辦三屆，現已成為國內人工智慧領域最具影響力的產業峰會之一。

本次大會繼續由智一科技旗下智猩猩、智東西共同發起，以“大拐點新徵程”為主題，計劃邀請50+位重量級嘉賓同臺分享和討論，深入透視DeepSeek帶來的顛覆與重構，全面展示國內生成式AI重大進展。

大會主會場將進行開幕式、GenAI應用論壇、大模型峰會；分會場將進行DeepSeek R1與推理模型技術研討會、AI智慧體技術研討會和具身智慧大模型技術研討會。其中，三場研討會為閉門制，主要面向持有閉門專享票、貴賓通票的觀眾開放。大會同期也設有展區，將展示工業界在大模型、GenAI應用等產業關鍵環節的優秀產品和解決方案。

在大會首日下午分會場進行的DeepSeek R1與推理模型技術研討會上，360智腦演算法資深專家鄒昊晟將帶來報告，主題為《Light-R1：低成本復現推理模型之路》。

嘉賓介紹

鄒昊晟博士現任360智腦演算法資深專家，主導了開源專案Light-R1和360-LLaMA-Factory。他博士畢業於清華大學TSAIL朱軍教授組，本科畢業於清華大學電子系。在大模型之前歷任米哈遊和第四正規化的強化學習研究員，是TF版tianshou的作者。

報告概要

360智腦在3月4日開源了Light-R1模型及全部訓練資料和程式碼，用較低的訓練成本即可從零訓練得到推理模型，在開源時首次實現領域內評測超越DeepSeek-R1-Distill。報告將介紹Light-R1背後的課程學習SFT、RFT、DPO等方法上的資料心得和訓練策略，和QwQ-32B、TinyR1等相關工作在訓練資源、方法等各方面的比較。雖然Light-R1僅使用數學資料訓練了模型的長推理能力，但在非數學任務上也表現出了泛化性及有效性。隨著訓練和推理技術的不斷發展，未來長推理模型將更加普及，Light-R1 正為低成本快速訓練一個領域專精推理模型提供了重要參考。

大會日程