英偉達4億美元收購95後華人青年AI創業公司,為提高GPU利用率再增“新砝碼”

前腳 AMD 剛剛收購加拿大 AI 初創公司 Untether AI,後腳英偉達就斥資 億美元收購了一家華人 95 後和導師聯合創辦的加拿大AI 初創公司CentML[1]這位青年名叫王尚,此前擔任 CentML 的聯合創始人兼 CTO據瞭解,王尚出生于山東省青島市,高中就讀於青島二中。2018 年其本科畢業於加拿大多倫多大學,後又在該校先後獲得碩士學位和博士學位。他的碩博導師都是多倫多大學的根納季·佩基門科(Gennady Pekhimenko)教授,而佩基門科教授本人則是 CentML 的聯合創始人兼 CEO。值得注意的是,更早之前王尚還在谷歌、英特爾和華為加拿大分公司實習過。
圖 王尚(來源:http://www.cs.toronto.edu/~wangsh46/
在收購 CentML 之前,英偉達擊敗了競標者併成為最終贏家。據介紹,CentML 開發的軟體能在 AI 模型和晶片之間執行,從而利用尚未得到充分利用的硬體容量,並能採用其他技巧使系統執行得更好。CentML 通過出售軟體的訂閱服務來盈利,其還與雲服務提供商簽訂了收入分成協議,進而將其技術捆綁到服務方案中,旨在幫助客戶確定到底使用哪些硬體可以提高機器學習模型的效能並降低其成本,進而幫助客戶從現有硬體中獲得更多價值。
圖 | CentML 公司官網(來源:https://centml.ai/
據瞭解,CentML 於 2025 年 月 日終止了其加拿大聯邦商業註冊。一封發給 CentML 客戶的電子郵件被曝光在社交媒體上,郵件顯示 CentML 的運營將於 2025 年 月 17 日正式結束。與此同時,該公司更新了它的註冊資訊、董事以及通訊地址。新列出的董事是三名英偉達高管,其通訊地址為英偉達位於美國加利福尼亞的總部。
事實上,這次收購可謂謀劃已久。英偉達首次涉足 CentML 是在 2023 年 10 月,當時它為 CentML 提供了一筆 2700 萬美元的種子輪融資。該輪融資由谷歌旗下專注於 AI 的 Gradient Ventures 基金領投,德勤創投、湯森路透創投和 Radical Ventures 等知名風投公司跟投。當時,這筆資金曾用於在 2024 年底前將 CentML 的 32 人團隊擴大一倍。
據一位訊息人士告訴外媒,CentML 的出售對其投資者和股東而言價值遠超 億美元。但另一位訊息人士表示,考慮到包括以達到業績目標為條件的承諾在內的因素,該交易的總價值可能升至 億美元以上,因此這筆交易可能會為 CentML 的早期投資者帶來豐厚回報。
圖 | CentML 的四位聯合創始人。從左到右分別是:聯合創始人兼首席架構師阿南德·賈亞拉詹(Anand Jayarajan)、聯合創始人兼 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)、聯合創始人兼 CEO 根納季·佩基門科(Gennady Pekhimenko)、聯合創始人兼 CTO 王尚(來源:資料圖)
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助最佳化訓練工作負載以便提高 GPU 效能,也就是說他第一次在英偉達負責的工作內容和後來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,並由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授一職,並指導著將近 20 名學生。在 CentML 的四名主要創始成員中,除了佩基門科之外,其餘三位創始成員中有兩名都是自己的學生,而其中一名便是王尚。那麼,他為何選擇王尚一起創辦了 CentML?王尚有著怎樣的技術成果?關於此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別於 2020 年和 2021 年發表在機器學習與系統會議(MLSysMachine Learning and Systems)上。手握至少兩篇頂會一作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那麼,這兩篇論文分別講了什麼?
在兩篇論文中所展示的王尚當時的照片(來源:http://www.cs.toronto.edu/~wangsh46/
在 2020 年的一作論文中,王尚和同事旨在提高反向傳播的可擴充套件性,為此他和同事將反向傳播重新表述為一種掃描操作。掃描操作是一種原語,它按順序對一系列值進行聚合,並返回每一步的中間結果。然後,透過改進之後的布萊洛克掃描演算法(Blelloch scan algorithm),在並行系統上擴充套件這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎迴圈神經網路進行了訓練評估,並使用 IRMAS 資料集針對帶有門控迴圈單元的迴圈神經網路進行了訓練評估,結果顯示這一方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,並證明針對剪枝後的網路進行重新訓練可以作為這一方法的實際應用場景。
將反向傳播重新表述為一種掃描操作的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/
在 2021 年的一作論文中,王尚等人分析了來自頂尖研究機構的 GPU 叢集使用統計資料,以深入瞭解典型深度學習訓練任務所實現的硬體效率。這一研究表明,當單加速器訓練任務被重複啟動時,例如當用於超引數調優時,它們可能會在叢集範圍內的資源消耗中佔據主導地位,同時卻在很大程度上並未充分利用硬體。研究中,王尚等人觀察到這類工作負載具有以下獨特特徵:一是工作中的模型通常具有相同型別和形狀的運算元,二是這類運算元的模型間水平融合等同於其他已經過良好最佳化的運算元。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬體利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTAHorizontally Fused Training Array)。HFTA 是一個深度學習框架擴充套件庫,它能夠橫向融合來自不同重複性任務的模型,直至運算元級別,然後在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用於在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上執行每個作業的標準做法相比,HFTA 在提高硬體利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。
圖 | HFTA 的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/
由此可見,王尚在五年前就開始關注大模型,並在提高 GPU 利用率上做出了一定成果。而在 2025 年 月,也就是 CentML 被英偉達收購的不久之前,王尚接受一家外媒採訪並介紹了 CentML 的業務進展。
在上述採訪中,王尚表示 CentML 的開源機器學習編譯器 Hidet 可以直接對接該公司基於 vLLM 的服務引擎 CServe,進而與 CentML 的一體化 AI 基礎設施方案實現順暢整合。藉助 CentML 平臺,開發者能夠選擇 LlamaMistral 或 DeepSeek 等任何開源模型,並將其部署在任何硬體上(從英偉達 H100AMD MI300X 到 TPU 均可),後續的效能最佳化和部署工作則由該技術棧自動完成。王尚表示,透過 CentML 平臺,他和同事對於經 AWQ 量化的 DeepSeek-R1 模型進行了最佳化和部署。在 GPU 核心層面,CentML 藉助 Hidet 編譯器的領域特定語言 Hexcute,為 DeepSeek -R1 的關鍵組成部分——混合專家層構建了一個全融合 GPU 核心。相比基於 Triton 編譯器打造的同類最佳方案,這一做法將 MoE 層的速度提升了 到 11 倍。此外,在推理引擎層面,CentML 構建了 EAGLE 推測式解碼技術,該技術利用一個更小的草稿模型來減少原始大模型的工作量並助力其實現並行化,從而能夠實現 1.5 到 倍的速度提升。
同樣是在上述採訪中,王尚還介紹了 CentML 團隊發表在 2025 年機器學習與系統會議的一篇論文。該論文介紹了一款名為 Seesaw 的大模型推理引擎,其專門針對吞吐量導向型任務最佳化打造而來。Seesaw 的核心思想是動態模型重分片,該技術能夠促進不同階段間並行化策略的動態重構,從而在兩個階段均實現吞吐量最大化。為了減輕重分片開銷以及最佳化計算效率,CentML 團隊採用了分層 KV 快取緩衝和過渡最小化排程的方法。這些方法透過協同作用能夠減少因頻繁的階段轉換所帶來的開銷,同時還能確保批處理效率的最大化。評估結果表明,與目前應用最廣泛的頂尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。
圖 | Seesaw 的相關論文(來源:https://arxiv.org/pdf/2503.06433
而此次 CentML 被英偉達收購以後,包含王尚在內的幾位 CentML 創始人均已入職英偉達。原 CEO 佩基門科目前在英偉達擔任 AI 軟體高階總監,同時仍在多倫多大學擔任教職;作為原 CTO 的王尚目前在英偉達擔任 AI 軟體系統經理;原首席架構師阿南德·賈亞拉詹(Anand Jayarajan)目前在英偉達擔任工程經理;原 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)目前在英偉達擔任 AI 軟體高階經理。綜合媒體報道和職業網站資訊,英偉達此次還從 CentML 收編了十幾名技術人員。總的來說,等待王尚等人的將是一個新的職業生涯。
參考資料:
1https://thelogic.co/news/exclusive/nvidias-deal-centml-us400m/
http://www.cs.toronto.edu/~wangsh46/
https://thelogic.co/news/exclusive/centml-nvidia-acquisition-canada-ai/
https://www.theglobeandmail.com/business/article-nvidia-acquires-canadian-machine-learning-company-centml/
https://arxiv.org/abs/2402.16731
https://arxiv.org/abs/2102.02344
https://arxiv.org/abs/1907.10134
https://www.linkedin.com/in/anandj91/
https://www.linkedin.com/in/gpekhimenko/
https://www.linkedin.com/in/akbarnurlybayev/?originalSubdomain=ca
https://www.linkedin.com/in/shang-sam-wang-52851489/
https://centml.ai/
05/ 哈佛團隊構建“賽博胚胎”,透過胚胎髮育實現全腦探針植入,實現跨越大腦發育全時程連續記錄


相關文章