本文來源於3C AGI Partners:

2025年2月21日,全球開發者大會(Global Developers Conference, GDC) 在上海線下盛大召開。本次大會聚焦人工智慧技術的最新突破,圍繞演算法與算力 兩大核心議題展開深入探討,展示了AI技術如何驅動產業升級與場景落地的最新成果。
作為AI領域的重要盛會,GDC吸引了全球頂尖的開發者、技術專家和產業領袖參與。大會中涵蓋了從演算法最佳化到智慧算力升級再到具身AI的技術探索的諸多前沿主題,深入探討了大模型、強化學習、稀疏化技術、算力適配和機器人互動等領域的最新趨勢與應用。
以下是本次大會的核心內容總結,重點闡述演算法和算力的技術躍遷與突破,以及 具身智慧的探索與創新。我們誠邀您跟隨3C,一起探索本次大會揭示的人工智慧領域的最新進展和未來趨勢,並分析這些發現對投資者可能帶來的影響。
前沿洞察:演算法、算力與具身智慧的最新趨勢
1. 演算法趨勢:從Dense模型到Sparse模型,從短序列到長序列,從單模態到多模態
本屆大會上,關於演算法的討論聚焦在以下幾個關鍵趨勢:
-
從Dense模型到Sparse模型:密集連線(Dense)模型正向稀疏(Sparse)模型轉型,引數量從千億級增長到萬億級甚至十萬億級,同時透過稀疏化技術降低計算成本,提升效率。
-
從短序列到長序列的演進:傳統大模型多用於短序列任務,而未來的演算法將進一步最佳化長序列建模能力,支援更復雜的輸入場景,如超長對話生成、文件理解等。
-
從單模態到多模態的轉型:模型正在從單模態任務逐步擴充套件到多模態融合,能夠統一處理文字、影像、影片等多種資料形式,提升模型的通用感知能力。
2. 算力趨勢:異構算力與開發者生態的繁榮
算力是AI技術發展的基礎支撐,本次大會上也探討了多項算力趨勢:
-
開發者生態的爆發:算力門檻的降低正在推動開發者生態的繁榮,結合算力資源與工具鏈支援,開發者能夠更高效地完成大模型的訓練、微調和應用釋出。這種趨勢將進一步推動AI技術的普及,也可能對傳統技術崗位帶來一定衝擊。
-
雲算力的靈活性:雲算力設施正在向高效能GPU叢集方向發展,同時電力成本最佳化也成為關鍵考量因素。具備靈活API呼叫和高視訊記憶體支援的雲服務,能夠更好地滿足大模型訓練和推理任務的需求。
3. 具身智慧趨勢:虛擬與現實的深度融合
具身智慧(Embodied AI)領域也成為本次大會的重要探討方向。相關技術正在推動虛擬智慧體與物理機器人之間的深度融合,從虛擬模擬環境到實際裝置執行任務的閉環正在逐步建立。未來,具身智慧將在工業機器人、家庭服務和多模態互動等場景實現更多落地。
1. 演算法:技術躍遷與未來趨勢

稀疏注意力機制與長序列最佳化
稀疏注意力機制正在成為大模型演算法最佳化的關鍵方向,尤其是在處理長序列任務時,其在計算效率和資源利用率上的優勢逐步凸顯。
NSA(Native Sparse Attention):硬體對齊的稀疏注意力
Deepseek最新的論文提出了 NSA(Native Sparse Attention),這是一種專為處理長序列建模而設計的新型架構,透過利用Softmax Attention的內在稀疏性提升效率。NSA在理論與實際應用中實現了真正的效能突破,其核心創新包括:

-
硬體對齊的推理速度最佳化:透過記憶體高效演算法減少在預填充和解碼階段的計算瓶頸,實現與FlashAttention相當的推理速度。 -
訓練感知的演算法設計:引入可訓練的運算子,降低訓練成本,同時保留模型效能。
NSA藉助Triton實現硬體對齊的稀疏Attention核心,並採用共享KV快取(如GQA/MQA)最佳化大語言模型的記憶體和計算效率。其關鍵創新在於核心設計:
-
查詢分組(GQA分組):將共享稀疏KV塊的查詢分組載入到SRAM中,避免了低效的記憶體訪問模式。 -
雙迴圈操作:外部迴圈載入查詢至SRAM,內部迴圈獲取稀疏KV塊並在SRAM中完成Attention計算。這種設計最大化了算術強度,優化了記憶體利用率。

透過這些硬體感知的最佳化設計,NSA成功在理論稀疏性與實際部署之間架起橋樑,在推理和訓練任務中均達到了近乎最佳的效能。
MoBA(Mixture of Block Attention):動態稀疏化的突破
月之暗面最新提出的 MoBA(Mixture of Block Attention) 架構,則透過引入動態稀疏化技術,顯著降低了長序列模型的計算成本,同時保留了複雜任務中的模型表現力。MoBA的創新點在於:
-
塊稀疏注意力(Block Sparse Attention):透過分塊機制將上下文分割為多個塊,並採用門控機制(Gating Mechanism)為每個查詢Token動態選擇最相關的KV塊,從而降低計算成本。 -
動態路由:引入類似Mixture of Experts(MoE)的動態選擇策略,使每個查詢Token僅與相關塊互動,從而實現高效的計算分配。
實驗結果表明,MoBA顯著提升了長序列任務的效率,尤其在涉及大量上下文資訊的任務中表現出色。其架構不僅減少了訓練和推理成本,還為長序列建模提供了可擴充套件的解決方案。
推理與強化學習的結合:PPO與GRPO的對比
在推理與強化學習的結合領域,階躍星辰在GDC的開放日提到了他們在強化學習演算法領域的最新研究。

Deepseek團隊的R1論文曾經介紹了 GRPO(Grouped Policy Optimization),一種無需值模型的強化學習方法。GRPO透過分組評分替代傳統的值函式估計,大幅降低了訓練資源需求。當與Deepseek-V3-Base模型結合時,GRPO在數千次強化學習步驟後展現出強大的推理能力,並在推理基準測試中表現優異。

PPO的極簡最佳化與開源突破
然而,Harry Shum和姜大昕團隊的研究表明,GRPO並非推理模型的必要條件。他們提出了一種極簡的強化學習方法,基於標準PPO(Proximal Policy Optimization)與GAE(廣義優勢估計)相結合,輔以簡單的規則化獎勵策略,成功開發了 Open-Reasoner-Zero——首個開源大規模推理強化學習框架。
-
低資源成本:與Deepseek-R1-Zero-Qwen-32B對比,該方法僅需1/30的訓練步驟即可在GPQA Diamond基準測試中取得更優結果。 -
全面開源:包括程式碼、引數配置、訓練資料和模型權重,進一步推動推理強化學習領域的開放創新。
線性注意力機制的技術突破
Minimax作為全球首個商用 線性注意力機制 的公司,在會議中分享了其技術應用的最新成果。其核心技術在於透過最佳化Transformer架構,解決了傳統Attention機制在長序列建模中的 計算複雜度瓶頸。這一突破使得模型在處理複雜任務時的效率顯著提升,尤其是在以下方面表現突出:
-
長序列任務:當前大模型技術已從短序列遷移到長序列任務應用場景,例如複雜文件理解、超長對話生成等。Minimax的線性Attention機制可以高效處理 400萬Token 的長文字輸入,是GPT-4的20-30倍。 -
多模態融合:線性Attention機制增強了不同模態(如文字、影像、影片等)之間的資訊互動能力。這種最佳化使得多模態模型在統一感知與決策上更進一步。

此外,RWKV-7架構也在大會上受到高度關注。RWKV元始智慧的創始人表示:
“RWKV-7引入高效高效能的訓推一體設計,超越了attention/linear attention正規化。”
RWKV-7以其高效高效能的設計獲得了與會開發者的高度認可。許多開發者紛紛表示,未來將在更多實際場景中從傳統Transformer架構切換到RWKV-7。RWKV團隊還在會議期間展示了RWKV-7的實際應用成果和demo演示,進一步證明了其在推理效率、資源佔用率和商業化潛力方面的價值。
|
2. 算力:雲服務與國產晶片的雙重發力;雲算力:高效與靈活的全面升級
隨著AI技術的發展,雲算力的需求大幅提升,GDC大會重點討論了雲算力基礎設施的最佳化和創新:

UCloud指出,AI技術對算力設施的要求正不斷提高,高效能GPU伺服器(如H800/A800)成為主流需求。UCloud的烏蘭察布資料中心憑藉低電力成本優勢,成為高功耗計算需求的理想部署基地。雲算力的靈活性進一步增強,支援高視訊記憶體和多GPU需求(如兩臺H20或A800支援),並透過靈活的API呼叫方式最佳化開發者體驗。

阿里雲展示了其透過DeepSeek 和Qwen distill model 幫助開發者快速完成大模型微調和應用釋出的能力。開發者社群閉環:結合算力資源與社群生態,阿里云為開發者提供了更高效的算力支援,推動了AI工具在不同場景下的普及。智慧化應用的落地:透過AI技術的普及,開發者能夠快速構建聯網搜尋大模型等智慧化應用。

3. 晶片:國產化與異構算力的突破
在算力需求不斷攀升的背景下,國產晶片和異構算力成為重要的技術方向。
商湯科技透過多年實踐,成功實現了對NVIDIA GPU和國產晶片(如壁仞、天數、摩爾、沐曦)的全面適配,並透過 異構晶片混訓,構建了高效的算力排程體系。商湯透過分層通訊和任務動態分配技術,實現了異構晶片的高效協同。在混訓場景中,商湯提出的算力排程介面和效能最佳化工具,有效解決了通訊瓶頸和任務分配難題。另外商湯釋出的OpenPPL推理引擎,針對國產晶片的最佳化顯著提升了算力效率。在推理任務中,Attention加速效能提升3倍,視訊記憶體佔用減少10%,進一步增強了國產晶片的競爭力。在大語言模型(如InternLM2 102B)的訓練和推理任務中,商湯最佳化後的國產晶片效能已接近國際主流硬體。
|
4. 具身智慧:虛擬與現實的深度融合
具身智慧領域是本次大會的一大亮點,在具身智慧Hackathon上多個團隊和平臺展示了以下關鍵進展:
NVIDIA的Isaac Sim平臺透過虛擬模擬技術,為機器人和具身AI提供了從資料採集到訓練的一站式解決方案。多個開發團隊使用Isaac Sim完成機器人智慧體的訓練和開發,同時,開源硬體公司Seeed透過開放式硬體平臺與開發工具,為開發者提供了更容易上手的具身AI開發環境。這種開放生態推動了更多具身AI創新專案的誕生。

5. 具身智慧的未來方向
未來,具身智慧將在以下方面實現突破:
-
虛擬與現實的無縫連線:虛擬環境中的學習成果可直接遷移至物理機器人中,形成閉環體系。 -
多模態互動:從單一任務擴充套件到支援語音、影像、動作等多模態互動的複雜任務。 -
產業落地:隨著硬體成本的降低與工具鏈的完善,具身智慧將在工業、醫療、教育等領域實現更廣泛的應用。
|
透過本次GDC 2025大會,我們看到了AI技術在演算法和算力領域的全面革新。作為支援AI技術發展的重要力量,我們將持續關注技術突破與產業化落地,為投資者挖掘更多價值機會。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

為什麼中國只有一個 DeepSeek?

萬字梳理:揭秘 DeepSeek 中的 RL 與 AGI 下一步丨AIR 2025

Andrej Karpathy 最新影片盛讚 DeepSeek:R1 正在發現人類思考的邏輯並進行復現
