

作者 | 陳駿達
編輯 | 漠影
隨著大模型的快速演進和模型引數規模的快速增長,AI算力需求正呈現爆發式態勢。然而,支撐晶片發展的摩爾定律已逼近物理極限,電晶體微縮帶來的成本呈指數級上升,效能提升幅度卻逐年收窄。
這一根本性矛盾促使業界亟需探索一種能繼續擴充套件AI基礎設施的解決方案。超節點技術應運而生,透過數十張乃至數百張加速卡的高頻寬互連,將相對獨立的計算資源整合為統一的超級計算單元,突破了傳統架構在規模擴充套件上的瓶頸。
不過,在國內環境中,由於高階算力的缺乏,國產超節點方案往往需要整合更大規模的叢集,這對互連技術提出了更高的要求。在頻寬、能耗、傳輸距離上較傳統電互連方案更具優勢的光學方案的應用,有望逐步成為推動超節點效能提升的關鍵驅動力。
就在昨天,國內光電混合算力獨角獸曦智科技在世界人工智慧大會(WAIC)上釋出了國內首個光互連光交換GPU超節點光躍LightSphere X,並聯合壁仞科技、中興通訊首次進行示範應用,即將於上海儀電國產超節點算力叢集落地。

憑藉全球首創的分散式光交換技術,光躍LightSphere X獲得世界人工智慧大會的最高獎項,2025 SAIL獎,併成為SAIL四大評價維度(Superior, Application, Innovation, Leading)中“Innovation”(創新)維度的標杆案例。

近日,智東西與曦智科技創始人兼CEO沈亦晨博士、曦智科技聯合創始人兼CTO孟懷宇博士以及曦智科技互連產品線副總裁朱劍進行了近2個小時的深入溝通,他們向智東西等媒體剖析了光躍LightSphere X背後的技術創新與曦智科技對光電混合算力行業的長期展望。
01.
超節點互連技術路徑分野
國產方案如何突圍?
當下,海外的超節點方案基本由英偉達主導,使用電交換構建單櫃達72卡的大規模超節點,也就是所謂的GB200 NVL72。
該解決方案依賴於一個在國內看來幾乎有些“奢侈”的前提——每張GB200的算力數倍於國產卡。若要實現同等效果,國產超節點可能需要進行成百上千卡的互連,在現有條件下,基本難以在單機櫃內實現。
即便從理論上可行,單機櫃內構建如此密集的電互連方案本身也面臨極高的技術挑戰和投入成本,對於目前國內的產業基礎來說,依然是一項極具挑戰性的任務。

因此,國產解決方案更可行的路徑或許是透過增加機櫃數量,先確保計算卡的總量,再透過高效互連技術組成超節點。
沈亦晨博士稱,在多機櫃場景下,傳統的銅導線連線距離一旦超過1-1.5米,就無法滿足超節點對頻寬和延時的嚴苛要求,光互連幾乎成為必選項。
谷歌曾在其TPU光互連超節點方案採用集中式光交換,實現GPU叢集間的跨機櫃通訊。不過,該方案專為TPU定製,硬體成本高昂,對全棧軟體能力要求較高,目前除了谷歌外尚未有其他廠商採用。
前段時間帶火超節點概念的華為昇騰CloudMatrix 384超節點,也使用了光互連網路,配備近7000個光模組,讓數百塊GPU能實現高效協同。
此外,要打造高效的超節點方案,交換也是極為關鍵的一環。
沈亦晨博士介紹,在模型訓練過程中,不同階段GPU間的通訊拓撲存在動態變化。英偉達採用NVSwitch電交換晶片集中排程NVLink訊號,類似交通訊號燈統一分配各GPU間的通訊路徑。
然而,國內GPU廠商普遍缺乏同類高效能電交換晶片,現有解決方案在效能上仍與英偉達存在顯著差距。此外,國內GPU廠商的互連線口協議也各不相同,傳統交換機無法做到統一排程。
面臨種種挑戰,國產超節點方案究竟應該如何破局?作為國內乃至全球領先的光電混合算力提供商,曦智科技依託其在光子計算和光子網路的技術積累,交出國內首個光互連光交換GPU超節點解決方案光躍LightSphere X。
02.
首創分散式光交換晶片
相關成果獲頂會認證
光躍LightSphere X的核心技術,是曦智科技全球首創的基於矽光子技術的分散式光交換dOCS(distributed Optical Circuit Switch)晶片。
若把傳統集中式的交換晶片比為中央物流中心,將每張計算卡比為一個車間,分散式光交換技術所進行的調整,就是取消了中央物流中心,轉而在每個車間旁邊設定小型物料中轉站,使物料傳輸路徑更短、更直接。

得益於這一架構,光躍LightSphere X可靈活配置超節點的規模,並可靈活切換GPU間互連拓撲結構,以適應不同模型負載對通訊模式的差異化需求。
在大規模訓練、推理場景中,上述解決方案在GPU冗餘率上展現出明顯優勢。傳統超節點必須整體運作,單卡故障會導致整個節點下線,冗餘成本高;而分散式光交換讓超節點支援動態重組——當檢測到異常時,系統可自動移除故障節點,接入備份伺服器重新組網。

這種“卡級冗餘”相比傳統“節點級冗餘”大幅降低備用資源需求,將冗餘比例從整節點壓縮到單卡級別,冗餘率僅為英偉達、谷歌等方案的1/10。
光躍LightSphere X解決方案在商用光電轉換模組的基礎上,增加了用於光交換功能的晶片,以較低的成本實現了分散式的光交換。分散式設計方案几乎可以無限擴充套件,突破了傳統交換晶片對連線數量的限制。
在本屆WAIC期間釋出的光躍LightSphere X獲得了SAIL獎(WAIC最高獎項),也成為該獎項創新維度的標杆案例。而dOCS相關方案則收錄於國際通訊網路旗艦會議SIGCOMM 2025。
除了技術方面的突破之外,光躍LightSphere X還對國產算力生態起到了一定的推動作用。
當下,國產GPU型別、架構龐雜,協議各有區別,難以形成協同效應。而光交換本身不依賴於特定的資料傳輸協議,這意味著它能無縫相容不同廠商使用的互連協議。這有效緩解了開放生態中缺乏高效Scale-Up交換晶片的現狀,推動了基於光交換的Scale-Up技術路徑。
此外,dOCS晶片基於矽光技術,其設計與製造不依賴於先進半導體工藝節點,這對提升算力基礎設施供應鏈的安全性與韌性也有較大意義。
03.
矽光技術迎來歷史機遇期
5年內矽光晶片佔比或將達30%
光躍LightSphere X是曦智科技在AI算力需求大爆發的當下,對光電混合算力的最新探索,這離不開曦智成立8年多來在矽光技術上的長期投入。該公司擁有光子矩陣計算(oMAC)、片上光網路(oNOC)和片間光網路(oNET)三大領域的核心技術,並打造了光子計算和光子網路兩大產品線。

沈亦晨認為,近兩年,矽光技術在國際上的熱度和重視度不斷攀升,可能已經走到歷史上最好的階段。面臨這一歷史機遇期,曦智從兩年前便開始聚焦產品化、商業化,業務收入在過去3年內快速增長,今年晶片出貨量已經達到數萬顆。
放眼未來,曦智科技的高管們一致認為,隨著算力叢集和算力需求越來越大,矽光是必然的解決方案。雖然國際上純電互連仍佔主導,但華為這一主流廠商已將光互連引入超節點解決方案,英偉達的下一步也可能是如此。
此外,光互連和光交換技術當前仍屬於系統級方案,透過外接光模組實現,透過不斷迭代,未來光互連和光交換器件有望與主晶片實現共封裝,從而進一步提高頻寬和能效。
沈亦晨預測,未來五年,矽光晶片在智算中心的佔比有望提升至30%以上。隨著規模化量產,矽光晶片成本將成倍下降,推動成本降低到應用普及的正向迴圈。
具體來看,他認為光互連有望率先在未來幾年出現指數級增長;光計算則從大模型推理、AI for Science等追求極致效能的場景切入,逐步擴充套件通用性。
曦智科技目前擁有一支近250人的團隊,核心成員由來自麻省理工學院的頂尖科學家和擁有豐富半導體行業經驗的業界知名人士組成,在上海、杭州、南京、北京、新加坡等地均設有辦公室及實驗室。
自成立以來,曦智科技在產品進展、技術研發、融資規模等方面均位居全球光電混合賽道前列。孟懷宇博士透露,曦智在光學晶片、模擬晶片、先進封裝技術等方面都擁有前瞻性的技術儲備。
負責互連產品線的朱劍則稱,曦智有很多先進的技術儲備,但該公司會採取較為務實的態度,根據市場的發展階段提供適合的解決方案。
04.
結語:實現從0到千卡突破
光電融合已成行業大勢
光電混合算力作為一項前沿技術,在落地的時候必然面臨客戶原有技術路徑的慣性問題。沈亦晨透露,直到如今,曦智仍需要花精力“教育市場”,逐步說服廠商採用這一技術。
令人慶幸的是,曦智已在光躍LightSphere X方案上實現了從0到千卡突破,將對光互連超節點方案的魯棒性和成本效益驗證起到極大的推動作用。
在智東西與曦智的溝通中,我們清楚地感受到其發展路徑:以光電混合算力技術為支點,逐步撬動算力基礎設施的升級,同時保持對“光替代電”的長期信仰。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
