GMICloudKingCui：AI應用落地全球化加速，AI推理從單點爆發到全球擴容丨GenAICon2025

推理服務及時性、擴充套件性、穩定性成AI應用全球化核心挑戰。

4月1日-2日，以“大拐點新徵程”為主題的2025中國生成式AI大會（北京站）隆重舉行。

在這場匯聚了50餘位產學研嘉賓、1500名觀眾的盛會上，GMI Cloud 亞太區總裁 King Cui發表了主題為《AI推理的全球算力革命：從單點爆發到全球擴容》的演講，其提到，GMI Cloud的核心價值在於：透過頂級生態協作獲取高階硬體資源，依託自研Cluster Engine雲平臺和Inference Engine推理引擎雲平臺實現算力的全球化智慧排程、擴容與極致效能釋放，在目前這個AI推理的時代，重構AI算力的成本效益模型，為AI應用的研發提供“隨需而變”的全球化算力底座，助力企業在使用者激增、競爭激烈的全球市場中，以算力優勢構築商業壁壘，推動“全球AGI”從技術可能邁向商業必然。

隨著DeepSeek等國產大模型改寫全球商業競爭格局，AI應用出海浪潮席捲全球。King 在演講中分享了一個數據：“中國AI應用下載量年增速超100%，但算力穩定性與成本效率仍是核心瓶頸。”在全球AI應用爆發式增長的產業變革期，算力已成為驅動技術落地與商業擴張的核心生產要素。

作為NVIDIA全球TOP10 NCP，GMI Cloud 目前已在北美、歐洲、亞太部署12座資料中心，幫助企業實現全球算力排程與擴容。GMI Cloud深耕AI全球化的算力基礎設施領域，以“技術縱深+全球佈局”雙輪驅動，構建起覆蓋硬體適配、彈性排程、效能最佳化與穩定保障的全棧解決方案，破解企業出海面臨的算力部署難題。

以下為King Cui的演講實錄精華：

大家下午好！我是來自GMI Cloud的King Cui，今天為大家分享的主題是《AI推理的全球算力革命：從單點爆發到全球擴容》。從GMI Cloud的角度出發，我們探討如何幫助企業實現全球化的推理雲服務。

01.

GMI Cloud：

從GPU硬體架構到頂層應用

建立全棧AI基礎設施平臺

在今天正式演講之前，我首先快速地和大家再介紹一下GMI Cloud，我們是一家AI Native Cloud公司，致力於為全球化AI應用提供英偉達最新的GPU雲服務。作為NVIDIA全球TOP 10的NVIDIA Cloud Partner（NCP），GMI Cloud與NVIDIA保持密切合作，定期進行技術交流，以幫助我們將AI應用做的更完善。同時，得益於投資者的支援，GMI Cloud在亞太地區擁有最新的GPU分配權，能夠快速獲取最新、最強的GPU雲服務。

我們推出了“Cluster Engine自研雲平臺”，專注於為從事大語言模型、文生圖、文生影片模型的公司提供訓練雲平臺的支援。同時，因為GMI Cloud相信，未來的AI應用將快速遍佈全球，未來將是一個全新的“推理世界”，Token changes the world，因此GMI Cloud面向全球打造了AI推理引擎平臺“Inference Engine”。

(上圖）從技術架構來看，GMI Cloud提供從底層GPU硬體到支援應用層的全棧服務：

第一，底層提供NVIDIA生態體系內最新、最強的GPU雲資源，同時也提供適合AI儲存的雲服務，支援NVMe高速儲存和普通儲存，適配不同場景的儲存介質，提供不同的雲服務。在網路層面，我們提供高速頻寬的資料通道，確保AI應用的高效執行。再往上就是MaaS( Model as a Service)模型的推理，同時我們集成了大量已經開源的大模型，並且基於自己的技術自研了InferenceEngine推理引擎平臺。

第二，GMI Cloud研發了一套計算儲存網路，具備laaS能力。在計算資源方面，提供裸金屬伺服器、雲主機、K8s雲服務等多種計算形態。

第三，MaaS（Model as a Service）層集成了大量開源大模型，並基於Inference Engine自研推理引擎平臺，將英偉達H100、H200或更先進的B200進行適配，以提升模型的token吞吐速度。同時，我們具備端到端的監控能力，幫助企業快速發現、定位和解決問題。

第四，應用層得益於各行業企業的實踐。特別強調的是，IaaS層和MaaS層均為GMI Cloud自主研發，MaaS層還支援所有B2B服務企業接入，以MarketPlace的方式為企業提供更好的MaaS服務。

02.

AI 應用全球化服務趨勢下

推理服務及時性、擴充套件性、穩定性

成核心挑戰

自2022年底OpenAI釋出ChatGPT以來，AI產業在算力和模型方面投入巨大，每隔三到六個月，大模型能力便提升一個臺階。

如今，多模態大模型的生成內容質量更高，同時，如今的大模型對物理世界的理解及生成質量的可控性也更強，而且許多公司都已經具備這些能力，在產業層面，這為應用層的爆發提供了很大基礎。可以說，AI的應用爆發具備了技術條件。

2024年，全球AI應用產品已有1890個，其中中國相關產品有356個，出海產品有143個。從訪問量來看，2024年初為30多億，年底已超過140億，增速超過300%。AI下載的應用數量也比以前有所增加，中國AI應用出海在大規模高速增長。

所以如果大家要做出海，就需要了解在就近國家是否有相應的應用算力提供服務。我們摘取了中國頭部應用出海的下載量情況（如圖）：

中國AI應用出海主要集中在美國、印度、亞太、德國和歐洲等地區。收入方面，美國付費意願較強，亞太地區則以東北亞和東南亞部分地區為主。

中國頭部出海AI產品的下載主要集中在印度、亞太、德國和歐洲地區。從收入角度來看，美國的付費意願相對較強。

從全球化角度分析，中國的AI應用已經得到了全世界的廣泛認可，大家的出海在商業化層面已經邁出了一大步。這裡有幾個例子，首先是Manus，前段時間非常火爆，釋出7天之內達到了200萬的等待清單，原因是後端的算力和Web Service不足以支撐那麼多使用者的請求。Deepseek在春節前也非常火爆。它創造了全球所有應用獲取使用者從0~1億的最快速度，7天達到1億。當時大家用時發現很多服務不被響應，這也是因為後端算力不足以支撐這麼多請求量。當大量使用者湧入時，如果後端的推理雲服務算力能夠及時跟上，整個服務的穩定性和響應及時性將顯著提升，從而幫助提高使用者留存率。

從這兩個案例中，我們發現在AI全球化服務浪潮下，推理服務的及時性、可擴充套件性和穩定性是提高使用者留存的核心。

總結一下就是，當AI應用選擇出海，它將會分佈在歐洲、美洲、東南亞、東北亞以及拉美等各個地區，因此大家需要找到在不同地區提供就近的推理算力服務商，以響應AI應用請求。當用戶增長爆發時，推理相關的算力彈性還需要提高才能滿足客戶需求，這意味著雲廠商的推理服務需要具備自動擴容能力。

在具備大規模使用者線上時，我們要考慮如何保障AI應用的穩定性和可靠性。

03.

Inference Engine四大核心能力

破解AI應用全球化難題

GMI Cloud推出的推理服務能夠有效應對上述挑戰。在英偉達技術峰會GTC上，我們釋出了GMI Cloud Inference Engine。這套Inference Engine部署在我們自己研發的Cluster Engine上，Cluster Engine專注於做雲管平臺，目前整個中間態部分，這是一套自己研發GM I雲推理引擎的全球排程策略，能夠幫助企業客戶在全球範圍內就近排程所需要的GPU雲服務。

為了應對AI應用的推理需求，Inference Engine主要包括四個特性：

1、彈性伸縮，跨叢集自動擴容

AI應用的全球使用者分佈廣泛，資源靠近使用者可顯著降低延遲，而在推理過程中，資源越遠，使用者推理請求的延時就越高。當用戶量快速增長時，系統需快速彈性擴容，提供大量GPU雲服務。在CPU雲時代，大家都知道ECS的CPU雲服務速度非常快，每分鐘可以談論幾十萬核，而在GPU時代，對資源的可控性和排程準確性要求非常高。

根據不同客戶的需求，我們的服務節點主要分佈在歐洲、美洲和亞洲（尤其是東北亞和東南亞地區），Inference Engine能夠動態感知使用者網路壓力負載，根據負載變化調整負載均衡；基於不同IP請求排程到不同地區，並且利用不同地區的資源提供inference服務。同時，我們的排程服務也支援與企業內部自建的GPU叢集之間進行打通，實現統一排程。

2、視覺化部署工作流，快速高效部署

對於AI應來說，部署分散式推理叢集雖然不難，但整個流程較為複雜。首先需準備對應資源，然後下載模型服務，進行資源配置，最後進行軟硬體調優。這整個流程耗費企業的Inference團隊人力資源。

針對熱門開源模型（如DeepSeek、通義千問和Llama等），GMI Cloud已完成高階GPU雲資源的適配，企業可直接在Marketplace上部署；針對自研模型，Inference Engine提供視覺化工作臺，支援從部署映象構建到推理服務上線的全流程視覺化操作、零程式碼操作。

3、整合最先進的高效能GPU，提供高效推理效能

Inference Engine已整合英偉達最先進的高效能GPU服務。根據英偉達提供的DeepSeek-FP4版本報告，最佳化後的H200的token吞吐量是H100的6倍，B200的token吞吐量更是達到H100的25倍。從效率和經濟成本來看，使用更先進、更高效能的GPU，實際上綜合成本會下降。黃教主說，”The More You Buy，The More You Save“。

4、主動監控：自動容錯+故障診斷+極速恢復

大家都知道提供目前的雲服務不可能是SLA Service 100%，但GMI Cloud儘可能提供主動監控功能，幫助所有企業使用者及時發現問題。

GMI Cloud擁有一個視覺化的雲推理監控服務平臺，可以看到整個IP請求從進來到落到每臺伺服器上，以及整個網路鏈路上出現擁塞。我們可以精準定位問題、找到問題原因並以最短的停機時間快速修復。所有流程都可以在Inference Engine控制檯上實現視覺化。同時GMI Cloud可以將API暴露給所有企業，幫助企業提升自己的監控管理平臺。