GDC2025全球開發者大會回顧:演算法與算力的雙重革新

本文來源於3C AGI Partners:
2025年2月21日,全球開發者大會(Global Developers Conference, GDC) 在上海線下盛大召開。本次大會聚焦人工智慧技術的最新突破,圍繞演算法算力 兩大核心議題展開深入探討,展示了AI技術如何驅動產業升級與場景落地的最新成果。
作為AI領域的重要盛會,GDC吸引了全球頂尖的開發者、技術專家和產業領袖參與。大會中涵蓋了從演算法最佳化到智慧算力升級再到具身AI的技術探索的諸多前沿主題,深入探討了大模型、強化學習、稀疏化技術、算力適配和機器人互動等領域的最新趨勢與應用。
以下是本次大會的核心內容總結,重點闡述演算法和算力的技術躍遷與突破,以及 具身智慧的探索與創新。我們誠邀您跟隨3C,一起探索本次大會揭示的人工智慧領域的最新進展和未來趨勢,並分析這些發現對投資者可能帶來的影響。
1
前沿洞察:演算法、算力與具身智慧的最新趨勢
1. 演算法趨勢:從Dense模型到Sparse模型,從短序列到長序列,從單模態到多模態
本屆大會上,關於演算法的討論聚焦在以下幾個關鍵趨勢:
  • 從Dense模型到Sparse模型:密集連線(Dense)模型正向稀疏(Sparse)模型轉型,引數量從千億級增長到萬億級甚至十萬億級,同時透過稀疏化技術降低計算成本,提升效率。
  • 從短序列到長序列的演進:傳統大模型多用於短序列任務,而未來的演算法將進一步最佳化長序列建模能力,支援更復雜的輸入場景,如超長對話生成、文件理解等。
  • 從單模態到多模態的轉型:模型正在從單模態任務逐步擴充套件到多模態融合,能夠統一處理文字、影像、影片等多種資料形式,提升模型的通用感知能力。
2. 算力趨勢:異構算力與開發者生態的繁榮
算力是AI技術發展的基礎支撐,本次大會上也探討了多項算力趨勢:
  • 開發者生態的爆發:算力門檻的降低正在推動開發者生態的繁榮,結合算力資源與工具鏈支援,開發者能夠更高效地完成大模型的訓練、微調和應用釋出。這種趨勢將進一步推動AI技術的普及,也可能對傳統技術崗位帶來一定衝擊。
  • 雲算力的靈活性:雲算力設施正在向高效能GPU叢集方向發展,同時電力成本最佳化也成為關鍵考量因素。具備靈活API呼叫和高視訊記憶體支援的雲服務,能夠更好地滿足大模型訓練和推理任務的需求。
3. 具身智慧趨勢:虛擬與現實的深度融合
具身智慧(Embodied AI)領域也成為本次大會的重要探討方向。相關技術正在推動虛擬智慧體與物理機器人之間的深度融合,從虛擬模擬環境到實際裝置執行任務的閉環正在逐步建立。未來,具身智慧將在工業機器人、家庭服務和多模態互動等場景實現更多落地。
2
核心內容:演算法與算力的雙重革新
1. 演算法:技術躍遷與未來趨勢
稀疏注意力機制與長序列最佳化
稀疏注意力機制正在成為大模型演算法最佳化的關鍵方向,尤其是在處理長序列任務時,其在計算效率和資源利用率上的優勢逐步凸顯。
NSA(Native Sparse Attention):硬體對齊的稀疏注意力
Deepseek最新的論文提出了 NSA(Native Sparse Attention),這是一種專為處理長序列建模而設計的新型架構,透過利用Softmax Attention的內在稀疏性提升效率。NSA在理論與實際應用中實現了真正的效能突破,其核心創新包括:
  • 硬體對齊的推理速度最佳化:透過記憶體高效演算法減少在預填充和解碼階段的計算瓶頸,實現與FlashAttention相當的推理速度。
  • 訓練感知的演算法設計:引入可訓練的運算子,降低訓練成本,同時保留模型效能。
NSA藉助Triton實現硬體對齊的稀疏Attention核心,並採用共享KV快取(如GQA/MQA)最佳化大語言模型的記憶體和計算效率。其關鍵創新在於核心設計:
  • 查詢分組(GQA分組):將共享稀疏KV塊的查詢分組載入到SRAM中,避免了低效的記憶體訪問模式。
  • 雙迴圈操作:外部迴圈載入查詢至SRAM,內部迴圈獲取稀疏KV塊並在SRAM中完成Attention計算。這種設計最大化了算術強度,優化了記憶體利用率。
透過這些硬體感知的最佳化設計,NSA成功在理論稀疏性與實際部署之間架起橋樑,在推理和訓練任務中均達到了近乎最佳的效能。
MoBA(Mixture of Block Attention):動態稀疏化的突破
月之暗面最新提出的 MoBA(Mixture of Block Attention) 架構,則透過引入動態稀疏化技術,顯著降低了長序列模型的計算成本,同時保留了複雜任務中的模型表現力。MoBA的創新點在於:
  • 塊稀疏注意力(Block Sparse     Attention):透過分塊機制將上下文分割為多個塊,並採用門控機制(Gating Mechanism)為每個查詢Token動態選擇最相關的KV塊,從而降低計算成本。
  • 動態路由:引入類似Mixture     of Experts(MoE)的動態選擇策略,使每個查詢Token僅與相關塊互動,從而實現高效的計算分配。
實驗結果表明,MoBA顯著提升了長序列任務的效率,尤其在涉及大量上下文資訊的任務中表現出色。其架構不僅減少了訓練和推理成本,還為長序列建模提供了可擴充套件的解決方案。
推理與強化學習的結合:PPO與GRPO的對比
在推理與強化學習的結合領域,階躍星辰在GDC的開放日提到了他們在強化學習演算法領域的最新研究。
Deepseek團隊的R1論文曾經介紹了 GRPO(Grouped Policy Optimization),一種無需值模型的強化學習方法。GRPO透過分組評分替代傳統的值函式估計,大幅降低了訓練資源需求。當與Deepseek-V3-Base模型結合時,GRPO在數千次強化學習步驟後展現出強大的推理能力,並在推理基準測試中表現優異。
PPO的極簡最佳化與開源突破
然而,Harry Shum和姜大昕團隊的研究表明,GRPO並非推理模型的必要條件。他們提出了一種極簡的強化學習方法,基於標準PPO(Proximal Policy Optimization)與GAE(廣義優勢估計)相結合,輔以簡單的規則化獎勵策略,成功開發了 Open-Reasoner-Zero——首個開源大規模推理強化學習框架。
  • 低資源成本:與Deepseek-R1-Zero-Qwen-32B對比,該方法僅需1/30的訓練步驟即可在GPQA     Diamond基準測試中取得更優結果。
  • 全面開源:包括程式碼、引數配置、訓練資料和模型權重,進一步推動推理強化學習領域的開放創新。
線性注意力機制的技術突破
Minimax作為全球首個商用 線性注意力機制 的公司,在會議中分享了其技術應用的最新成果。其核心技術在於透過最佳化Transformer架構,解決了傳統Attention機制在長序列建模中的 計算複雜度瓶頸。這一突破使得模型在處理複雜任務時的效率顯著提升,尤其是在以下方面表現突出:
  • 長序列任務:當前大模型技術已從短序列遷移到長序列任務應用場景,例如複雜文件理解、超長對話生成等。Minimax的線性Attention機制可以高效處理 400萬Token 的長文字輸入,是GPT-4的20-30倍。
  • 多模態融合:線性Attention機制增強了不同模態(如文字、影像、影片等)之間的資訊互動能力。這種最佳化使得多模態模型在統一感知與決策上更進一步。
此外,RWKV-7架構也在大會上受到高度關注。RWKV元始智慧的創始人表示:
“RWKV-7引入高效高效能的訓推一體設計,超越了attention/linear attention正規化。”
RWKV-7以其高效高效能的設計獲得了與會開發者的高度認可。許多開發者紛紛表示,未來將在更多實際場景中從傳統Transformer架構切換到RWKV-7。RWKV團隊還在會議期間展示了RWKV-7的實際應用成果和demo演示,進一步證明了其在推理效率、資源佔用率和商業化潛力方面的價值。
3C團隊視角
演算法創新是核心驅動力,我們持續重點關注長序列建模、多模態融合和稀疏化技術的底層突破。演算法的效率最佳化需求將反向推動算力基礎設施升級,算力最佳化與演算法適配的上下游協同機會一直是我們投資的主要主題之一,後續也會繼續加註。
2. 算力:雲服務與國產晶片的雙重發力;雲算力:高效與靈活的全面升級
隨著AI技術的發展,雲算力的需求大幅提升,GDC大會重點討論了雲算力基礎設施的最佳化和創新:
UCloud指出,AI技術對算力設施的要求正不斷提高,高效能GPU伺服器(如H800/A800)成為主流需求。UCloud的烏蘭察布資料中心憑藉低電力成本優勢,成為高功耗計算需求的理想部署基地。雲算力的靈活性進一步增強,支援高視訊記憶體和多GPU需求(如兩臺H20或A800支援),並透過靈活的API呼叫方式最佳化開發者體驗。
阿里雲展示了其透過DeepSeek 和Qwen distill model 幫助開發者快速完成大模型微調和應用釋出的能力。開發者社群閉環:結合算力資源與社群生態,阿里云為開發者提供了更高效的算力支援,推動了AI工具在不同場景下的普及。智慧化應用的落地:透過AI技術的普及,開發者能夠快速構建聯網搜尋大模型等智慧化應用。
3. 晶片:國產化與異構算力的突破
在算力需求不斷攀升的背景下,國產晶片和異構算力成為重要的技術方向。
商湯科技透過多年實踐,成功實現了對NVIDIA GPU和國產晶片(如壁仞、天數、摩爾、沐曦)的全面適配,並透過 異構晶片混訓,構建了高效的算力排程體系。商湯透過分層通訊和任務動態分配技術,實現了異構晶片的高效協同。在混訓場景中,商湯提出的算力排程介面和效能最佳化工具,有效解決了通訊瓶頸和任務分配難題。另外商湯釋出的OpenPPL推理引擎,針對國產晶片的最佳化顯著提升了算力效率。在推理任務中,Attention加速效能提升3倍,視訊記憶體佔用減少10%,進一步增強了國產晶片的競爭力。在大語言模型(如InternLM2 102B)的訓練和推理任務中,商湯最佳化後的國產晶片效能已接近國際主流硬體。
3C團隊視角
投資應聚焦算力基礎設施的核心升級,包括異構算力適配、綠色資料中心和雲算力服務。另外算力平臺的開放性將為大模型開發者和中小企業帶來更多創新機會,我們會繼續關注具有強開發者生態的相應標的。
4. 具身智慧:虛擬與現實的深度融合
具身智慧領域是本次大會的一大亮點,在具身智慧Hackathon上多個團隊和平臺展示了以下關鍵進展:
NVIDIA的Isaac Sim平臺透過虛擬模擬技術,為機器人和具身AI提供了從資料採集到訓練的一站式解決方案。多個開發團隊使用Isaac Sim完成機器人智慧體的訓練和開發,同時,開源硬體公司Seeed透過開放式硬體平臺與開發工具,為開發者提供了更容易上手的具身AI開發環境。這種開放生態推動了更多具身AI創新專案的誕生。
5. 具身智慧的未來方向
未來,具身智慧將在以下方面實現突破:
  • 虛擬與現實的無縫連線:虛擬環境中的學習成果可直接遷移至物理機器人中,形成閉環體系。
  • 多模態互動:從單一任務擴充套件到支援語音、影像、動作等多模態互動的複雜任務。
  • 產業落地:隨著硬體成本的降低與工具鏈的完善,具身智慧將在工業、醫療、教育等領域實現更廣泛的應用。
3C團隊視角
全球人形機器人市場展現出強勁的長期增長潛力。根據預測,美國市場的營收預計將突破1萬億美元,而中國的人形機器人市場規模預計將達到6萬億元人民幣。2024年見證了人形機器人領域的諸多技術進步,2025年企業正在致力於進一步推動這一技術的發展。具身智慧是我們3C團隊一直看好的投資方向,我們將會持續重點關注和投入該領域。
透過本次GDC 2025大會,我們看到了AI技術在演算法和算力領域的全面革新。作為支援AI技術發展的重要力量,我們將持續關注技術突破與產業化落地,為投資者挖掘更多價值機會。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章