
DeepSeek透過軟硬體協同的的全棧最佳化策略,在有限的硬體資源下實現了極致的效能提升。
比如利用FlashMLA技術針對多頭潛在注意力進行最佳化,能夠充分釋放GPU算力。此外,DeepSeek還透過底層程式語言PTX直接對硬體資源進行調配,實現了暫存器分配、執行緒排程的細粒度最佳化。在軟體層面,DeepSeek透過FP8混合精度訓練、KV Cache快取最佳化、平行計算等技術,進一步提升了系統的整體效率。
DeepSeek的成功,充分證明了軟硬體協同最佳化的巨大潛力,也為AI Infra的未來技術發展提供了新的思考方向和借鑑思路。
3月18日19點,智猩猩「DeepSeek大解讀」系列公開課第5期將開講,由清華大學電子工程系博士後曾書霖主講,主題為《DeepSeek對軟硬體協同最佳化的啟示與思考》。
曾書霖博士主要從事軟硬協同最佳化研究和AI加速器設計,實現了全球首個多模態大模型推理LPU IP,並首次在單卡FPGA上實現7B大模型和文生影片的端到端推理,獲得了FPGA 2025最佳論文。
本次公開課,曾書霖博士首先會分享DeepSeek在軟硬體協同最佳化方面的創新和思考,之後會圍繞大語言模型推理 IP FlightLLM、影片生成大模型推理 IP FlightVGM,闡述團隊基於FPGA的大模型軟硬體協同工作。最後,曾書霖博士還將深入講解面向智慧終端的推理LPU IP設計。

第5期資訊
主 題

《DeepSeek對軟硬體協同最佳化的啟示與思考》
提 綱
1、從DeepSeek看軟硬體協同最佳化
2、基於FPGA的大模型軟硬體協同
3、面向智慧終端的推理LPU IP設計
主 講 人
曾書霖,清華大學電子工程系博士、博士後,博士期間主要從事軟硬協同最佳化研究和AI加速器設計,發表高水平國際會議/期刊論文20餘篇。實現全球首個多模態大模型推理LPU IP,首次在單卡FPGA上實現7B大模型和文生影片的端到端推理,獲FPGA 2025最佳論文。
直 播 時 間
3月18日19:00-20:00
直播預約
本期公開課將以影片直播形式在智猩猩GenAI影片號進行,大家可以點選下方影片號卡片,提前預約。
如何報名與入群
針對此次公開課,也會組建交流群。希望入群與更多同仁探討的,可以掃描下方二維碼新增小助手“小石頭”,私信傳送“DeepSeek05”。

END
點選下方名片 即刻關注我們