FP8模型不再挑卡！DeepSeek推理成本減半速度翻番，清華團隊開源「赤兔」推理引擎

機器之心原創

作者：聞菲、張倩

「國產大模型 + 國產引擎 + 國產晶片」的完整技術閉環正在加速形成。

隨著 DeepSeek 引燃市場對於大模型私有化部署的熱情，模型部署的效率與成本成為企業 AI 落地的關鍵瓶頸。

今天，清華系科創企業清程極智與清華大學翟季冬教授團隊聯合宣佈開源大模型推理引擎「赤兔」（Chitu），率先實現了非 H 卡裝置（英偉達 Hopper 架構之前的 GPU 卡及各類國產卡）執行原生 FP8 模型的突破。

在 A800 叢集上的實測資料顯示，用赤兔引擎部署 DeepSeek-671B 滿血版推理服務，相比於 vLLM 部署方案，不僅使用的 GPU 數量減少了 50%，而且輸出速度還提升了 3.15 倍。

赤兔引擎程式碼已釋出至 GitHub 開源社群：

https://github.com/thu-pacman/chitu

赤兔 (Chitu) 開源：

國產大模型基礎設施又一里程碑

當前，擁有完整自主可控的 AI 技術棧已成為國家戰略性需求。DeepSeek、QwQ 等優秀的國產開源大模型正在重塑全球科技產業格局，但在大模型推理部署領域，業界仍高度依賴國外開源工具。

赤兔引擎的開源為業界提供了國產開源新選擇，也意味著「國產大模型 + 國產引擎 + 國產晶片」的完整技術閉環正在加速形成。

「我們看到國內大模型領域取得了顯著進步，但在基礎設施層面，尤其是推理引擎這一核心環節仍缺乏生產級開源產品。」清程極智 CEO 湯雄超表示，「開源赤兔引擎是我們助力國內 AI 生態建設的重要一步。」

作為清華大學高效能計算研究所所長，翟季冬教授長期致力於高效能計算與系統軟體最佳化研究。翟教授指出：「赤兔引擎凝結了團隊多年的平行計算與編譯最佳化技術積累，目標是建立一個真正適合國內多元算力環境的高效能推理引擎，能夠彌合先進模型與多樣化硬體之間的差距，為中國大模型的產業落地提供關鍵支撐。」

本次開源的版本特別聚焦於當前市場最迫切的需求 —— 即實現 DeepSeek FP8 精度模型在存量英偉達 GPU 上的無損且高效部署。團隊還透露，針對多款國產晶片特別最佳化的版本也將相繼對外開源。這一突破不僅降低了大模型落地門檻，也為國產 AI 算力的發展帶來了新的契機。

赤兔引擎核心優勢：

全場景效能最佳化與架構適應性

隨著 DeepSeek V3 和 R1 等新一代模型採用 FP8 混合精度訓練併發布，企業面臨新的部署挑戰。這些 FP8 模型針對 NVIDIA Hopper 架構（H100/H200）深度定製，在其他硬體上部署時（包括 NVIDIA 其他架構 GPU 和國產晶片）需要進行額外的適配。

「最先進的模型與最難獲取的硬體繫結，這是當前企業大模型落地的最大痛點之一」湯雄超表示。隨著更新一代模型和晶片往 FP4 等新型資料精度方向的發展，這種代際效應將愈發顯著。

另一個挑戰是現有開源推理引擎對多元算力環境的支援不足。當前，vLLM 等主流引擎主要針對 NVIDIA 最新架構最佳化，對國產晶片或較老款 GPU 的適配並不理想。在國內企業私有化部署場景中，NVIDIA 的 Ampere 系列 GPU、國產晶片等多元算力佔據了相當比例，這些場景亟需更加靈活的解決方案。

赤兔從一開始就定位於「生產級大模型推理引擎」，並且充分考慮了企業 AI 落地從小規模試驗到大規模部署的漸進式特點，專注於提供以下重要特性：

多元算力適配：不僅支援 NVIDIA 最新旗艦到舊款的多種型號，也為國產晶片提供最佳化支援。
全場景可伸縮：從純 CPU 部署、單 GPU 部署到大規模叢集部署，赤兔引擎提供可擴充套件的解決方案。
長期穩定執行：可應用於實際生產環境，穩定性足以承載併發業務流量。

在效能最佳化方面，赤兔的設計理念是「對症下藥」，支援「低延遲最佳化」、「高吞吐最佳化」和「小視訊記憶體最佳化」，可以根據不同場景需求，在不同硬體配置和系統環境下，針對不同負載的特性，提供相應的最優解決方案。在實際部署中，這意味著赤兔引擎可以根據系統資源狀況，在 GPU 利用率、記憶體效率和網路傳輸之間尋找最佳平衡點。

本次開源的技術突破是實現非 H 卡裝置原生執行 DeepSeek FP8 精度模型。「我們沒有走簡單的量化路線，而是透過在運算元內部高效處理 FP8 資料，確保模型推理質量不受任何影響。」湯雄超表示：「具體來說，我們對 GeMM、MoE 等一系列關鍵運算元進行了指令級的最佳化，實現了 FP8 資料的原生處理能力。」

這種技術實現的難點在於需要深入理解不同硬體架構的指令集特性，以及 FP8 與其他精度格式之間的數學等效關係，結合硬體特性分析並最佳化。得益於團隊在系統軟體人才方面的積累，才能夠在較短時間內實現這一突破。傳統上為每種晶片架構人工編寫最佳化程式碼的工作量巨大，而團隊所具備的智慧編譯技術有助於加速高效能運算元的開發過程。

在 A800 叢集上的實測結果表明，與 vLLM 相比，赤兔引擎實現 DeepSeek-671B 滿血版推理所需 GPU 數量減少 50%；儘管只用了一半的算力，但推理速度卻達到其 3.15 倍。這意味著企業可以用一半的硬體資源獲得更高的推理效能，極大降低了部署門檻和運營成本。

「部署大模型的最低算力成本是一個時常被忽視但極其重要的指標。」清程團隊強調，顯著降低推理成本對推廣 AI 應用至關重要，赤兔推理引擎在設計之初就將降低使用者的算力成本納入核心考量。

開源共建

為國產晶片「搶時間」

赤兔推理引擎的開源標誌著清程極智的業務發展進入新的階段。清程極智在持續提供企業級軟體部署運維服務和全套人工智慧解決方案的同時，將把更多實際業務中的經驗透過開源的方式回饋社群。

「目前英偉達 GPU 在大模型推理市場佔據主流地位，未來幾年可能出現國外 AI 晶片和國內 AI 晶片百花齊放的態勢。」湯雄超分析指出：「我們希望赤兔引擎成為連線多元算力與大模型應用的橋樑，同時透過推理一體機產品為企業提供端到端的大模型部署解決方案。」

清程極智的推理一體機產品基於赤兔引擎，適配多種硬體和模型，能夠為企業提供開箱即用的私有化部署方案，並配套專業的運維與最佳化服務。

對於國產 AI 基礎設施而言，赤兔引擎的開源有助於彌合國產晶片與國際先進晶片之間的「時間差」—— 當新模型架構和新資料型別出現時，赤兔引擎可以幫助國產晶片快速適配。

其次，開源引擎減輕了晶片廠商的軟體開發負擔。晶片廠商可以專注於硬體創新，而不必每家都重複開發完整的軟體棧。翟季冬教授表示，「我們目前與多家國產晶片廠商進行合作，各方可直接向赤兔專案貢獻程式碼，共同建設一個更強大的開源生態。」

「開源就是做給大家用，用了才知道好不好。我們把程式碼放到 GitHub 上，有問題提 issue，有想法提 PR，一起把它做得更好。」湯雄超說。

「無論用什麼卡，赤兔都是高性價比的選擇。」

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]

dignews.cc

FP8模型不再挑卡！DeepSeek推理成本減半速度翻番，清華團隊開源「赤兔」推理引擎

相關文章

北京市新增34款已完成登記的生成式人工智慧服務，小米AI搜尋、AI寫作等在列；阿里通義語音團隊負責人鄢志傑離職丨AIGC日報

AI早知道｜百度釋出文心4.5與X1大模型；拓斯達推出新一代機器人控制平臺

9點1氪：抖音闢謠HR與員工互毆；梁建章建議每孩一次性補貼10萬元；特斯拉否認與百度合作智駕

驍龍8至尊版登場！CPU牙膏擠爆成安卓最強晶片？首批旗艦機型揭曉….

告別“伺服器繁忙”！清程極智基於十餘家國產晶片推出DeepSeek私有化部署

好文推薦#27｜特朗普、列寧與世界革命時刻；特朗普產業政策會是什麼樣？產業政策能重振製造業嗎？中國AI企業在美國限制下仍迎頭趕上

真我Neo7SE上手：2K檔的電競機甲「戰神」

今日看點#63｜AI會不會讓人越用越笨？自然雜誌：中國如何打造頂尖AI模型震驚世界；關於DeepSeek的誤解;一份AI術語表

相隔兩年半，全國密度最高的兔猻種群還在嗎？

無限穩幀！最強遊戲手機來了，至尊雙芯，3999元起真香…