公眾號記得加星標⭐️,第一時間看推送不會錯過。
人工智慧蓬勃發展,AI晶片成為全球討論熱點。憑藉GPU先發優勢,英偉達在領先算力和友好生態的支援下近乎壟斷市場,公司業績和市值屢創新高。AMD CEO Lisa Su在日前的採訪中也預測道:“僅用於AI和大型計算系統的加速器市場規模在幾年內就會超過 5000 億美元。”正是在這樣的市場現狀下,無論是做晶片的,還是使用晶片的,都對加速計算倍加關注,進而催生了倚仗不同架構、不同技術的算力演進之路。
在世界人工智慧大會WAIC前夕,國內全功能GPU廠商摩爾線程帶來了他們的分享與最新實踐。摩爾線程創始人兼CEO張建中表示,在面向未來的AI基礎設施建設中,具備計算功能完備性與精度完整性的全功能GPU,將是支撐多元場景的核心基石。基於此,摩爾線程正試圖打造生產智慧的“AI工廠”,以系統級的技術創新和工程化的能力,提升AGI時代先進模型的生產效率。

全功能GPU,持續加速計算
在摩爾線程看來,算力革命的進化史,就是一部全功能GPU的發展史。
上世紀末面世的第一張遊戲卡只幹一件事——加速3D圖形計算,其他任務都是CPU來完成。這種產品有點類似當下的ASIC:任務單一,不靈活,很難程式設計。對程式設計師、開發者來講不太友好;到了本世紀初,我們才真正迎來了圖形處理器,因為它真正開放了程式設計介面,每個人都可以在上面開發,發揮各自的創意。
進入21世紀第二個十年,DirectX 12的推出給GPU帶來了更多的可能。而隨著多倫多大學研究生Alex Krizhevsky和Ilya Sutskever及其導師Geoffrey Hinton開發的AlexNet在ImageNet比賽上大殺四方之後,GPU加速了人工智慧時代的到來。
盤點全球排名TOP 100的HPC,當中80%都是被GPU廠商佔據,這意味著GPU的通用性,加速了圖形影像、超級計算、人工智慧等一系列計算平臺的革命。換而言之,當今幾乎所有關鍵算力,都已由全功能GPU承載。
所謂全功能GPU有四大核心引擎:一是AI計算加速;二是現代3D圖形渲染;三是物理模擬和科學計算;四是超高畫質影片編解碼。與此同時,全功能GPU具備全精度計算,支援從FP64至INT8的完整精度譜系。

正是基於全功能GPU的技術積累,成立於2020年的摩爾線程已構建起完整的計算加速體系:成功推出四代GPU架構和智慧SoC產品,拓展出覆蓋AI智算、專業圖形加速、桌面級圖形加速等領域豐富完整的計算加速產品矩陣,全面支援雲計算、邊緣計算及終端裝置市場,滿足從政務、企業智慧計算到個人消費場景的多層次需求。
圍繞GPU的加速技術革命,還在持續進化。這場革命的起點,以OpenAI釋出ChatGPT開始,一場轟轟烈烈的生成式AI競賽席捲全球。領先的開發者也正在以前所未有的速度更新大模型。作為這場“戰役”的關鍵,聚焦“算力”的AI基礎設施正在以空前的速度擴建。
OpenAI CEO Sam Altman日前曾表示,將在今年年底前推出超過 100 萬個 GPU,未來,他的目標是將GPU擁有數量提高100倍。xAI的創始人Elon Musk隨後也表示,“xAI 的目標是在 5 年內實現 5000 萬個與 H100 相當的 AI 計算能力(但能效更高)。”
在單卡算力有限的前提下。如何打造有效算力更強大的基礎設施,已經成為全球爭奪的重點。
基於此,摩爾線程將打造生產先進模型的“AI工廠”,以系統級技術創新和工程能力,致力於解決大模型訓練效率瓶頸,為AGI時代提供可靠的底層算力支撐。
在摩爾線程看來, “AI工廠”是一個系統性、全方位的變革,需要實現從底層晶片架構創新、到叢集整體架構最佳化,再到軟體演算法調優和資源排程系統的全面升級。這種全方位的基礎設施變革,將推動AI訓練從千卡級向萬卡級乃至十萬卡級規模演進,以系統級工程實現生產力和創新效率的飛躍。
五大技術構建“AI工廠”
如圖所示,這座“AI工廠”的智慧“產能”,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產效率 = 加速計算通用性 × 單晶片有效算力 × 單節點效率 × 叢集效率 × 叢集穩定性。

首先看加速通用性方面,如前文所說,這是摩爾線程從成立伊始就堅持全功能GPU的發展方向。在擁有了全功能GPU之後,還需要有“全精度”。作為國內極少數具備FP8大模型訓練平臺,能把訓練和推理整合到一起的企業,是摩爾線程的另一個優勢。
其次看單晶片有效算力,而架構作是晶片設計的核心基礎,決定了晶片的功能、效能和功耗等關鍵指標。這時候,公司自研架構的優勢就完全顯現出來。
據介紹,摩爾線程自研的MUSA架構不僅突破了傳統GPU功能單一的限制,還在保障通用性的同時顯著提升資源利用率。其引數化配置可伸縮架構,允許面向目標市場快速裁剪出最佳化的晶片配置,大幅降低了新品晶片的開發成本。作為國內首批實現FP8算力量產的GPU廠商,其FP8技術透過快速格式轉換、動態範圍智慧適配和高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算效能提升約30%。

正是基於這個先進架構,讓摩爾線程在單晶片GPU上即可整合AI計算加速、圖形渲染、物理模擬及超高畫質影片編解碼能力,充分適配AI訓推、具身智慧、AIGC等多樣化應用場景。在計算精度方面,摩爾線程支援從FP64至INT8的完整精度譜系,並透過FP8混合精度技術,在主流前沿大模型訓練中實現20%~30%的效能躍升,為國產GPU的算力效率樹立行業標杆。
這還遠遠不夠,記憶體系統方面,摩爾線程透過多精度近存規約引擎、低延遲Scale-Up、通算並行資源隔離等技術,實現了50%的頻寬節省和60%的延遲降低。在通訊和互聯領域,獨創的ACE非同步通訊引擎減少了15%的計算資源損耗。透過上述計算、記憶體、通訊三重突破,顯著提升單晶片有效算力。
來到“單節點計算效率”方面,要在這方面實現提升,則需要全棧的系統軟體。
據介紹,在軟體棧方面,摩爾線程首先透過提供高效的GPU驅動提升了工作效率(核函式啟動時間縮短50%);在運算元方面,摩爾線程的muDNN運算元也獲得了極致的效能最佳化(GEMM運算元算力利用率達98%,Flash Attention 運算元算力利用率突破95%);至於通訊方面,摩爾線程讓MCCL通訊庫實現RDMA網路97%頻寬利用率;基於非同步通訊引擎最佳化計算通訊並行,叢集效能提升10%。
此外,摩爾線程在細粒度方面可以重計算,這也是一個非常重要的點,讓訓練精度能保持更高,累計誤差更小。摩爾線程的FP8最佳化與重計算技術顯著降低了訓練開銷。

要獲得一個高效率的節點,除了軟體棧之外,生態系統的支援和幫助也非常重要。

於是,為了讓開發者更好地將算力強勁的晶片用起來,摩爾線程打造了包括Torch Profiler,監控、管理,performance tuning等在內的一套完整的軟體開發工具。在這些工具和生態的支援下,開發者能讓摩爾線程的軟硬體的協調工作,提升整體的效率和效能。如圖所示,摩爾線程基於Triton-MUSA編譯器 + MUSA Graph 實現DeepSeek R1推理加速1.5倍,全面相容Triton等主流框架。
為了提升“AI工廠”的生產效率,還需要關注“叢集效率”和“叢集穩定性”。
所謂的AI算力叢集,是指透過高速網路,將大量高效能計算節點互聯,從而形成的一種分散式計算系統。在單卡或單節點,甚至超節點算力受限的當下,這是發展AGI的必經之路。因此,如何將效率和穩定性提高,就成為評價一個叢集是否好用的關鍵。這也是摩爾線程“誇娥”叢集致力於實現的目標。
資料顯示,“誇娥”是摩爾線程推出的,以全功能GPU為硬體核心,軟硬一體化、完整的系統級算力解決方案,旨在為大規模GPU算力的建設和運營管理提供系統級支援。KUAE為智算中心提供端到端解決方案,支援萬卡級規模擴充套件能力,單叢集可部署超1,000個計算節點,每節點整合8顆自研OAM模組化GPU,透過3D全互聯拓撲實現亞微秒級通訊延遲,為大模型預訓練提供穩定高效的算力支撐。其中,KUAE1是支援千卡互聯的第一代智算融合中心產品;KUAE2是2024年底推出的第二代大規模智算融合中心產品,支援萬卡互聯。

據介紹,藉助整合資料、模型、張量、流水線和專家並行技術創新5D並行訓練,誇娥全面支援Transformer等主流架構,顯著提升大規模叢集訓練效率;基於自主研發的Simumax工具,誇娥能面向超大規模叢集自動搜尋最優並行策略,精準模擬FP8混合精度訓練與運算元融合,為DeepSeek等模型縮短訓練週期提供科學依據;針對大模型穩定性難題,誇娥還創新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,提升GPU有效算力利用率。
為了保證誇娥穩定執行,摩爾線程創新推出零中斷容錯技術,故障發生時僅隔離受影響節點組,其餘節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE叢集有效訓練時間佔比超99%,大幅降低恢復開銷。此外,KUAE叢集還透過多維度訓練洞察體系實現動態監測與智慧診斷,異常處理效率提升50%;結合叢集巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。
賦能開發者,服務千行百業
從圖形渲染基石到AI算力引擎,摩爾線程全功能GPU持續加速計算革新。以“KUAE+MUSA”為智算業務核心,摩爾線程將加速賦能千行百業,推動全功能GPU驅動的AI技術在物理模擬、AIGC、科學計算、具身智慧、智慧體、醫療影像分析、工業大模型等關鍵領域的應用與部署。
展望未來,摩爾線程希望能透過全功能的GPU和“AI工廠”,用好的推理引擎,賦能更多開發者,讓他們服務千行百業。

在WAIC 2025現場,摩爾線程還展示了聯合國內科研機構,基於國產SPONGE和DSDP軟體,打造的軟硬體協同的生命科學解決方案;在物理模擬方面,摩爾線程攜手硒鉬科技,開啟AI for Science科研新正規化;此外,摩爾線程還帶來了聯合超圖共同構建的、覆蓋訓練、推理到視覺化的完整國產化鏈條的遙感大模型解決方案,補齊了遙感智慧解譯方案全國產關鍵一環。

不僅如此,全功能GPU賦能的創娛教育、智慧製造、智慧醫療和智慧駕駛,也是摩爾線程WAIC 2025展位上其他不得不提的亮點。

正如大家所見,人工智慧正在改變每一個行業,但要實現真正的人工智慧,需要面對的挑戰毋庸置疑。因此,筆者認為。擁有夯實技術底座的摩爾線程,必然能在“AI+時代”扮演重要角色。
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4108期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟
求點贊

求分享

求推薦
