讓“算力奢侈品”變為“辦公桌標配”。

來源｜智慧湧現（ID：AIEmergence)

封面來源｜視覺中國

2025年2月，當DeepSeek-R1以”開源即巔峰”的姿態引爆AI界時，某AI科技團隊卻陷入了兩難：這款擁有類專家級推理能力的模型，既是AI應用效果困局的鑰匙，也是吞噬企業算力預算的黑洞——雲服務持續過載導致關鍵實驗中斷，而組建百萬級私有云叢集的方案，讓這個幾十人團隊望而卻步。

在很多領域，尤其是金融、能源、政府等關鍵領域，70%以上企業明確要求本地化部署，資料安全與穩定性的優先順序高於一切。這成為了大家共同的困境：頂尖AI智力與落地成本之間，橫亙著一道難以逾越的鴻溝。

在“智慧無妥協”的理想國背後，殘酷現實正在上演

DeepSeek R1主要分為兩大類別，共計8個版本，但效能與GPT-o1抗衡的版本只有671B滿血版本。其他蒸餾版模型雖經過了調優，但效能仍與滿血版有差距。然而，根據傳統的私有化部署方案，執行671B引數的大模型需組建H100/H200 16卡伺服器叢集，啟動成本動輒數百萬，運維還需專業機房與高能耗散熱系統。

對預算有限的中小團隊來說，這相當於吃掉創新團隊全年研發預算的60%，試錯成本過於高昂，無疑會對其正常的業務運營造成巨大的壓力。

這種情況迫使中小企業要麼放棄部署，要麼選擇效能降級的“閹割版”模型或者更小的模型，但智慧斷崖可能導致試點專案得出負面結論。根據IDC的調查，70%的CIO報告稱他們的自建AI應用專案失敗率達90%。企業最終陷入“部署不起”與“用不好”的雙重困境。

更令人焦慮的是，延遲智慧化升級可能導致企業在市場競爭中處於劣勢，錯失潛在的經濟和社會效益，錯失政策支援與機遇。打破”頂尖本地化AI智力=天價門檻”的魔咒，讓中小團隊用有限預算獲得智算中心級推理能力是大模型落地的關鍵。

技術破局金鑰：強稀疏化MoE模型需要全新的私有化架構設計

破局的本質還是需要回到技術層面，不僅是DeepSeek系列的大模型，目前主流的大模型大多是MoE架構，這種架構的核心是將模型中的任務分配給不同的專家模組，每個專家模組專注於處理特定型別的任務，也就是說，雖然擁有千億引數，但由於MoE架構的稀疏性，每次推理僅啟用不到10%的神經元。

雲上方案固然是一種解法：將專家模組分散式部署於大規模叢集上，用海量併發攤薄成本。但中小團隊及對安全性有高度要求的關鍵領域，需要全新的私有化架構設計來進行私有化部署。

基於此，趨境科技給出了全新的技術答案：利用MoE大模型架構的稀疏性，採用GPU/CPU異構協同和以存換算，小規模叢集也可執行滿血版DeepSeek R1，要成本也要更強智慧。

具體到技術實現上，趨境科技透過算力劃分和高效能運算元，將來自儲存、CPU、GPU、NPU的算力高效融合，充分釋放全系統的存力和算力，以提升大模型推理效能；同時利用儲存空間，為大模型加入處理快取記憶的能力，面對全新的問題也可以從歷史相關資訊中提取可複用的部分內容，與現場資訊進行線上融合計算，進而降低計算量。

值得一提的是，趨境科技聯合清華 KVCache.AI 團隊也剛剛更新了開源專案——異構推理框架KTtransformers，支援單GPU本地執行 DeepSeek-R1 671B滿血版。更新發布後，引起全球開發者的強烈關注和復現熱潮，在x、Reddit、B站等國內外社群均有開發者自發釋出復現結果及教學影片，B站up主的教學影片釋出當天播放量近20萬，登頂全站熱榜第一名。

趨境AI大模型推理軟硬一體工作站——讓大模型推理門檻降低10倍

在產品層面，趨境科技以四大革新重新定義企業級AI部署：

僅用傳統部署方案成本的10%，獲得頂尖大模型的能力。DeepSeek-R1/V3滿血版的部署成本從數百萬壓縮至數十萬級，且能夠達到286 token/s的預填充和14 token/s的生成速度，比開源版本的llama.cpp最高快28倍。
異構算力釋放極致效能，從“分鐘級等待”瞬間邁入“秒級響應”，讓中小團隊以“輕量級”硬體獲得“智算中心級”的推理能力。
國產晶片相容生態閉環，深度整合英偉達、昇騰等多種晶片，實現從指令集到應用層的全棧最佳化。
工作站採用液冷散熱與軟硬一體設計，開箱即用，安靜無噪，可置於辦公室角落。