DeepSeek滿血微調秘籍來了，全網首發打破低價內卷！解鎖升級版全家桶

新智元報道

編輯：編輯部 HYZ

【新智元導讀】全網首發！DeepSeek V3/R1滿血版低成本監督微調秘籍來了，讓高達6710億引數AI巨獸釋放最強效能。

DeepSeek V3/ R1火爆全網，基於原始模型的解決方案和API服務已隨處可見，陷入低價和免費內卷。

如何站在巨人肩膀上，通過後訓練（post-training）結合專業領域資料，低成本打造高質量私有模型，提升業務競爭力與價值？

已收穫近4萬GitHub Star的Colossal-AI，釋出開源大模型後訓練工具箱，包含：

DeepSeek V3/ R1滿血671B LoRA低成本SFT微調
完整的強化學習工具鏈 PPO，GRPO，DPO，SimPO等
無縫適配DeepSeek系列蒸餾模型在內的HuggingFace開源模型
相容支援英偉達GPU、華為昇騰NPU等多種硬體
支援混合精度訓練，gradient checkpoint等訓練加速降低成本
靈活的訓練配置介面，支援自定義獎勵函式、損失函式等
提供靈活的並行策略配置介面，包括資料並行、模型並行、專家並行、ZeRO和Offload等，以適應不同硬體規模

開源地址：https://github.com/hpcaitech/ColossalAI

低成本監督微調滿血版DeepSeek V3/R1 671B

DeepSeek V3/R1滿血版引數高達6710億，如何低成本進行低成本微調呢？僅需以下幾個步驟，即可快速完成。

資料集準備

該指令碼接收JSONL格式的檔案作為輸入資料集，例如：

https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_sft_data.jsonl

資料集的每一行應為一個聊天對話列表。例如：

[{"role": "user", "content": "你好，最近怎麼樣？"}, {"role": "assistant", "content": "我很好。今天有什麼可以幫你的嗎？"}]

[{"role": "user", "content": "火燒赤壁 曹操為何不撥打119求救？"}, {"role": "assistant", "content": "因為在三國時期，還沒有電話和現代的消防系統，所以曹操無法撥打119求救。"}]

該資料格式，相容Huggingface chat template，支援自定義system prompt，因此可靈活按需配置。

模型權重準備

為保證更好的微調效果，使用BF16權重進行微調。

如果已下載了FP8的DeepSeek V3/R1權重，可以使用DeepSeek官方指令碼https://github.com/deepseek-ai/DeepSeek-V3/blob/main/inference/fp8_cast_bf16.py透過GPU將權重轉換為BF16。

對於使用國產華為昇騰算力，可以下載https://gitee.com/ascend/ModelZoo-PyTorch/blob/master/MindIE/LLM/DeepSeek/DeepSeek-V2/NPU_inference/fp8_cast_bf16.py指令碼轉換權重。

使用方法

在準備好資料集和模型權重後，可使用Colossal-AI提供的一鍵啟動指令碼：

https://github.com/hpcaitech/ColossalAI/blob/main/applications/ColossalChat/examples/training_scripts/lora_finetune.py

該指令碼與常見SFT指令碼類似，且完全相容HuggingFace PEFT，啟動命令：

colossalairun--hostfilepath-to-host-file--nproc_per_node 8 lora_finetune.py--pretrainedpath-to-DeepSeek-R1-bf16--datasetpath-to-dataset.jsonl--pluginmoe--lr 2e-5--max_length 256 -g--ep 8 --pp 3 --batch_size 24 --lora_rank 8 --lora_alpha 16 --num_epochs 2 --warmup_steps 8 --tensorboard_dirlogs--save_dirDeepSeek-R1-bf16-lora