國產AIInfra變革進行時:新勢力正在崛起

DeepSeek 方法論重構 AI 基礎設施,驛心科技實現 AI Infra 軟硬整合架構突破。
作者丨朱可軒
編輯丨陳彩嫻
近日,“源神”Deepseek 密集開源了一系列程式碼庫,包括FlashMLA、DeepEP、DeepGEMM、DualPipe 等專案及 3FS 系統,幾乎實現了對 AI Infra 底層計算、網路、儲存的全覆蓋式最佳化,這對於 AI Infra 而言也能提供許多有價值的參考。
當前,國內 AI Infra 領域公司圍繞 DeepSeek 帶來的一系列啟發,也正在思考下一步大模型訓推最佳化更好的解決方案,驛心科技便是其中之一。
上週 DeepSeek 開源 3FS 等一系列元件,充分說明了從儲存到網路往 GPU 裡面傳輸資料的能力是 AI 訓練和推理中最重要的問題,這也正是驛心科技想解決的核心技術問題。
據瞭解,驛心科技於 2023 年 9 月由前曠視科技創始合夥人吳文昊成立,致力於從基礎架構做研發,基於 GPU 伺服器本地儲存與通用乙太網絡,提供與傳統智算基於 RDMA 的儲存網路、單獨部署商業訓練儲存同等的能力,大幅降低模型落地成本與加速部署,方便後續在 DeepSeek 等通用模型層面做最佳化,加速模型的執行效率。
值得注意的是,驛心所用的硬體完全是使用標準企業伺服器以及標準網路,不需要任何的定製硬體、網路和軟體。相比之下,過去 AI Infra 部署使用的傳統高效能檔案儲存往往需要使用定製硬體伺服器,特定網路交換,以及定製的作業系統核心和客戶端。
換言之,驛心所提出的 AI Infra 整體解決方案效率更高、價效比更高。
1
重構之下的新機會
在常規視野中,AI Infra 包含供應鏈和雲兩層,但經過兩年的 AGI 技術躍進,大模型逐漸成為基礎設施的趨勢已然明朗,許多觀點認為模型甚至可能成為新的“OS”。
而在此之中,架構重構和供應鏈重構為 AI Infra 帶來了創業空間。
架構方面,HPC、雲和 AI 所需要的 Infra 均存在差異。首先,雲的計算、網路和儲存並非專門為 AI 或者 HPC 設計最佳化的,當中的不匹配會帶來價值差:雲圍繞網路而生,透過 CPU、網路、儲存資源的超賣解決利潤問題,不能超賣則沒有利潤來源。
隨著 AI Infra 的大規模興起,這個價值點已經被重構了,因為 AI Infra 以 GPU 為中心,基於此,雲大廠很難提供最為最佳化的底層 Infra,因為其還需要照顧到自身雲原生應用的 Infra 需求。
此外,AI 雖然從 HPC 孵化而來,二者也都追求千卡萬卡的規模,但從計算正規化上看存在差距:本質在於 HPC 聚焦於做模擬、模擬世界的執行,追求確定性,需要高精度計算,而 AI 追求機率,需要的是 next token 夠準確。
除技術架構外,國內晶片供應鏈重構也正在催生巨大的 AI Infra 機會,DeepSeek 無疑進一步推動了重構的發生。
在重構發生的同時,算力裝置、能耗、機房空間和資金四大瓶頸也限制了 AI 算力的發展。對此,驛心依託 GPU 伺服器本地儲存與通用乙太網絡,構建了一套獨具優勢的一體化解決方案:
Tier 0 ← Tier 1
首先是 AI 叢集一體化方案技術創新:驛心的 Tier-0 儲存方案能有效利用 GPU 伺服器內部儲存,在搭建AI基礎叢集設施時,不需要再構建專屬的儲存叢集以及儲存網路,大幅削減了模型落地成本,顯著加速了部署程序。
這不僅為企業和科研機構減輕了經濟負擔,更讓先進的人工智慧模型能夠以更快的速度從理論走向實踐,賦能千行百業。
其次在 AI 儲存層面,驛心科技能支援多雲多資料中心的全域性檔案系統(Global Namespace),讓大模型的上載與更新完全無縫進行,提供統一的儲存管理,讓 AI 資料訪問更高效。
不僅能夠支援傳統的檔案和物件儲存,也能利用好 DeepSeek 剛剛開源的 3FS 並行檔案系統;具備智慧的資料分層和快取機制,可快速響應 AI 工作負載對資料的需求,提升訓練和推理速度;有強大的資料安全與保護功能,保障 AI 資料的完整性和機密性;還能靈活擴充套件,輕鬆應對 AI 專案中不斷增長的資料量需求。
在模型最佳化層面,驛心科技立足前沿,積極佈局和擁抱開源生態。其解決方案為後續在 DeepSeek 等通用模型的最佳化工作提供了堅實基礎,能夠深度挖掘模型潛力,全方位加速模型執行效率,讓人工智慧真正做到快而準,助力客戶在瞬息萬變的市場競爭中搶佔先機,引領行業發展新潮流。
驛心的解決方案無疑精準解決了目前 AI 訓練與推理的主要痛點,這些痛點的洞察背後,實際上也與吳文昊橫跨 HPC、雲計算和 AI 的經歷有一定關係:
從 1999 年清華本科畢業到美國,直到 2008 年去微軟,這期間吳文昊一直在做 HPC,博士期間他主要做矩陣計算高效能實現與平行計算 MPI 協議研發,2008 年到微軟之後負責微軟 HPC 及微軟雲 Azure 產品管理,2011 年,吳文昊作為微軟雲 Azure 儲存團隊的 PM 負責了 Mellanox 進微軟雲 Azure 的專案。
隨後的 2013 年,吳文昊離開微軟,加入企業快閃記憶體市場“開拓者”Fusion-io,並於 2015 年回國加入曠視,此後一直聚集於 AI,一直到 2020 年正式離開曠視。
當前的驛心科技,已重點佈局三個領域:
一是雲和大模型,這部分客戶的痛點主要在於自研、交付及客戶服務成本高,繼而需要專業儲存、獨立網路互聯互通、多雲資料同步與遷移,以及輕量級客戶服務介面。
據吳文昊介紹,這方面驛心目前已經在國內頭部網際網路大廠完成了 技術驗證,並且後者在全球只評測了兩家,除驛心外還有一家美國儲存公司。
二是AI研發類客戶,涵蓋汽車、自動駕駛,乃至機器人等垂直行業,其對 AI 和 GPU 儲存能力需求不斷攀升。這類企業利用 AI 技術最快完成行業內 AI 閉環,如自動駕駛,通常透過物理產品與 VLA 模型服務(視覺 + 語言 + 行動)實現 AI 閉環。
對此,就需要驛心提供專業 AI Infra 解決方案以及 VLA 模型與資料能力,來幫助他們構建垂直行業解決方案。目前,驛心也正加深同比亞迪電子的合作,繼而提供針對AI研發類客戶的一體機聯合解決方案。
值得一提的是,吳文昊也將這部分客戶描述為“AI 工廠”。在他看來,“從第一性原理出發,DeepSeek 的出現正說明了中國是真正的‘AI 工廠’。先不論 GPU 在哪生產,如果要打造 AI 工廠,最終供應鏈仍將來自中國。”
第三類客戶為傳統客戶,包含半導體、製造、金融、能源等行業,它們需要安全、可擴充套件的儲存解決方案。與 AI 研發類企業相比,這類企業 AI 需求增長較快,也在向 AI 領域發力,逐步迭代,完成商業閉環後有望成為 AI 研發類企業。
就此,驛心也透過與 OEM 廠商的合作,提供了針對細分行業及整合核心行業應用的存算一體機方案。
2
寫在最後
開源和工程化的實現讓 DeepSeek 在 AGI 之路上往前邁進了一步,同時,也揭示了中美兩國在 AGI 軟硬一體上的兩種不同思路:
美國的 AGI 在 Infra 上追求平臺化發展,而中國的 AGI 如 DeepSeek 更強調透過演算法驅動的軟硬一體最佳化來降低底層Infra 成本與提高效率。
驛心也是如此——在海外市場聯合 HammerSpace 提供的儲存方案更為水平化,而驛心則針對國內市場給出了更加垂直的一體化方案。吳文昊認為,正如 DeepSeek 從模型往下軟硬一體整體最佳化的方法論所展示的巨大市場影響力,整個AI Infra的軟硬一體最佳化與整合同樣會存在諸多市場空間。
對此,驛心和 DeepSeek 的做法有什麼異同點呢?
驛心創始人吳文昊告訴 AI 科技評論,“Necessity is the mother of invention。對於 LLM 這樣的超級單一應用,對資料使用的 pattern 趨於簡化統一,更易於針對這些 pattern 做最佳化。“
他認為,“從儲存到網路往 GPU 裡面傳輸資料的能力在 LLM 時代才是關鍵。因此,我們的 AI Infra 能力聚焦在儲存與模型層面。”
再次,在儲存層面,針對大模型訓練和推理,透過 Tier-0 方案直接整合 GPU 伺服器內部的儲存空間。如無必要,勿增實體,這樣直接整合不僅解決成本,機房空間,能耗等核心瓶頸問題,而且極大提升儲存效能與資料頻寬。
在模型最佳化層面,針對類似於 DeepSeek 這樣的主流模型,驛心結合算力、網路、分散式 KV Cache 等能力,提高LLM叢集的吞吐,同時透過可靠的 Tier-0/Tier-1 儲存方案保證模型與資料的可靠性,同時支援模型的後訓練與推理加速。
當前,驛心最新一輪融資即將 Close。之後在多模態和端側方面,驛心將尋求更多突破:“未來 AI Infra 特別是 AI 儲存將會迎來巨大增長,因為多模態的資料量較之語言模型要大幾十上百倍。”吳文昊告訴 AI 科技評論。
另外,“端側 AI 也需要經過兩三個週期才能達到如今語言模型的水平,所以未來在端側,資料生成、合成、儲存使用也存在許多值得關注的問題,這當中也蘊藏著新的機遇。”
總得來講,中國 AI 行業整體邁向 AGI,不僅需要演算法人員的創新,也需要更多像驛心一樣有實力的 Infra 創業團隊加入。如此,整個行業才能攜手定義下一代 AI Infra 的發展,這才是核心關鍵點所在。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章