

提醒:更新下載,已領請忽略!
《伺服器基礎知識全解終極版(第二版)》、SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。由於打包資料持續增加,考慮已買讀者權益價格也即將會隨之上漲,因此,買的早就是優勢。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
知識全解系列
(持續更新中…)
本文來自“鯤鵬原生開發技術白皮書(2025)”,鯤鵬原生開發的核心技術理念:基於鯤鵬硬體 +openEuler+ 鯤鵬開發套件DevKit+ 鯤鵬應用使能套件 BoostKit,實現 1 套程式碼 +1 條流水線構建多平臺版本,效率更高、效能更優。
鯤鵬原生開發包含程式碼開發階段和流水線階段:
-
程式碼開發階段:透過鯤鵬 DevKit、BoostKit 開發程式碼,充分應用鯤鵬架構優勢,效能更優。
-
流水線階段:鯤鵬 DevKit 以命令列方式 1 小時接入 CI/CD,便捷釋出多平臺版本。

鯤鵬 BoostKit 應用使能套件,基於鯤鵬硬體、基礎軟體和應用軟體的全棧最佳化,提供高效能開源元件、基礎加速軟體包和應用加速軟體包,使能應用極致效能,其針對大資料、分散式儲存、資料庫、虛擬化和 ARM 原生等場景進行了深度最佳化鯤鵬架構特性,如記憶體管理、計算排程等方面的技術優勢,透過預置的高效能庫和框架,賦能開發者輕鬆構建適應鯤鵬架構的高效能應用。

鯤鵬 BoostKit 提供效能倍增的應用加速軟體包,使能資料處理極致效能、資料訪問極致高效和雲手機極致體驗。


ARM 原生
鯤鵬BoostKit ARM 原生利用 ARM 指令集同構優勢,支援移動應用無損上雲,同時將多年技術積累濃縮到 Kbox雲手機容器、指令流引擎、影片流引擎核心能力等元件,形成了雲手機 Turbo 套件,降低了開發難度,提升整機的密度,降低雲手機單路成本。

分散式儲存
鯤鵬 BoostKit 分散式儲存使能套件聚焦開源 Ceph 儲存的效能低、成本高等關鍵挑戰,透過儲存演算法加速庫和儲存 Ceph 加速庫等特性提升系統性能和降低儲存成本,充分發揮鯤鵬算力優勢,提供高性價比儲存方案。
機密計算
鯤鵬 BoostKit 機密計算 TrustZone 套件是基於 ARM TrustZone 技術的一個機密計算軟體套件,包含華為自研 TEE(可信執行環境)安全作業系統,鯤鵬伺服器 BMC 和 BIOS 等,結合開源的作業系統驅動以及 SDK,旨在幫助夥伴更便捷地為行業客戶構建機密計算解決方案,從而為使用者的關鍵資料提供完整性、機密性保護和可信使用。

系統性能分析工具簡介
系統性能分析是針對基於鯤鵬的伺服器的效能分析工具,能收集伺服器的處理器硬體、作業系統、程序 / 執行緒、函式等各層次的效能資料,分析出系統性能指標,定位到系統瓶頸點及熱點函式,給出最佳化建議。該工具可以輔助使用者快速定位和處理軟體效能問題。

資料庫
鯤鵬 BoostKit 資料庫對開源 MySQL OLAP 查詢效率低、OLTP 場景高併發下鎖導致的效能問題等關鍵挑戰,提供MySQL 可插拔向量化分析引擎、MySQL 無鎖最佳化、MySQL 可插拔執行緒池和 CRC32 指令最佳化等加速軟體包,深度優化了 OLAP 查詢分析效率和 OLTP 線上交易事務處理能力,充分發揮多核算力極致效能。提供主流開源和商業資料庫最佳實踐,幫助開發者高效完成開源元件遷移和調優。
虛擬化
鯤鵬 BoostKit 虛擬化使能套件聚焦虛擬化輕載效能低、網路損耗大、資源碎片嚴重及開源生態可用性等關鍵痛點,提供了 OVS 流表網絡卡加速等特性提升系統性能,充分發揮鯤鵬多核架構、核間完全隔離的優勢,釋放鯤鵬極致算力。
HPC
HPC 聚焦資源排程效率低、應用效能最佳化難等關鍵挑戰,透過全棧架構創新、軟硬體自研、基礎軟體最佳化和行業應用效能調優等技術構建全棧高效能計算基礎平臺。

多瑙管理平臺透過視覺化介面為使用者提供了便捷的 HPC 集群系統資料管理和軟硬體資源管理功能,串聯整個工作流程,幫助使用者合理地進行作業排程和資源分配,提升集群系統計算能力利用率。
鯤鵬 BoostKit 基礎加速
鯤鵬 BoostKit 加速庫提供基於 ARM 指令深度最佳化和基於鯤鵬 KAE(鯤鵬硬體加速引擎)開發的加速庫,覆蓋系統庫、壓縮、加解密、媒體、數學庫、儲存、網路和 AI 庫等 8 類加速庫,為大資料加解密、分散式儲存壓縮、影片轉碼等應用場景提供高效能加速。

系統庫
鯤鵬BoostKit 系統庫包括如下元件:
Glibc-patch:主要對記憶體、字串、鎖等介面基於華為鯤鵬微架構特點進行了加速最佳化。微架構特點進行了加速最佳化。
Hyperscan:一款高效能的正則表示式匹配庫,增加鯤鵬計算平臺分支,且完全相容 armv8-a,透過使用NEON 指令、內聯彙編、資料對齊、指令對齊、記憶體資料預取、靜態分支預測、程式碼結構最佳化等方法,實現在鯤鵬計算平臺的效能提升。
AVX2KI:一款介面集合庫,將傳統平臺的 Intrinsic 介面集合使用鯤鵬指令重新實現,並封裝為獨立的介面模組(C 語言標頭檔案方式),以減少大量遷移專案重複開發的工作量。
KQMalloc:鯤鵬高效能記憶體庫,是專為鯤鵬設計的記憶體分配器。此分配器分為單執行緒和多執行緒應用場景,最大限度地減少內部快取佔用空間,最大限度地減少內部快取未命中,可極大地提升應用效能。
加解密
KAE 加解密是鯤鵬加速引擎的加解密模組,使用鯤鵬硬加速模組實現 RSA/SM3/SM4/DH/MD5/AES 演算法,結合無損使用者態驅動框架,提供高效能對稱加解密、非對稱加解密演算法能力,相容 OpenSSL 1.1.1a 及其之後版本,支援同步& 非同步機制。
媒體
鯤鵬 BoostKit 媒體庫包括如下元件:
HMPP:鯤鵬超媒體效能庫(Hyper Media Performance Primitives,HMPP),包括向量緩衝區的分配與釋放、向量初始化、向量數學運算與統計學運算、向量取樣與向量變換、濾波函式、變換函式(快速傅立葉變換),支援 IEEE 754 浮點數運算標準。
x265:針對 FFmpeg 影片轉碼場景,對 X265 的轉碼底層運算元使用鯤鵬向量指令進行加速最佳化,提高整體效能。
x264:採用 GPL 授權的影片編碼免費軟體,主要功能實現 H.264/MPEG-4 AVC 的影片編碼。
KVSIP:鯤鵬向量訊號處理庫,提供了高效能計算介面,包括向量基礎運算、矩陣基礎運算和快速傅立葉運算功能。
數學庫
鯤鵬數學庫(Kunpeng Math Library,KML)是華為提供的基於鯤鵬平臺最佳化的高效能數學函式庫,主要完成標量、向量、矩陣上的數學計算,包括基本的四則運算、三角函式、對數函式、指數函式、線性代數計算等,數學庫所有介面由 C/C++、組合語言實現,部分介面相容 Fortran 語言呼叫,部分提供 Java 語言封裝的介面。
儲存
鯤鵬 BoostKit 儲存庫包括如下元件:
Smart Prefetch:創新性地採用快取記憶體盤配合高效的預取演算法,提升系統儲存 IO 效能,進而提升上述解決方案中儲存 IO 密集型場景的整體效能。
SPDK:高效能儲存開發包(Storage Performance Development Kit,SPDK)透過使用網路技術、處理技術和儲存技術來提升效率和效能。透過執行為硬體設計的軟體,SPDK 已經證明很容易達到每秒鐘數百萬次 IO 讀取,透過使用許多處理器核心和許多 NVMe 驅動去儲存,而不需要額外解除安裝硬體。
ISA-L:ISA-L(Intelligent Storage Acceleration Library)提供 RAID、糾刪碼、迴圈冗餘檢查、密碼雜湊和壓縮的高度最佳化的函式。
網路
鯤鵬 BoostKit 網路庫包括如下元件:
XPF:XPF(Extensible Packet Framework)在 OVS(Open vSwitch)軟體內部實現了一個智慧解除安裝引擎模組,該模組用於跟蹤資料報文在 OVS 軟體中所經歷的所有流表和 CT 表,將執行的 CT 行為和所有流錶行為項進行綜合編排成一條綜合行為項並結合統一匹配項生成一條整合流表項。後續的資料報文在進入 OVS 後,若匹配命中該整合流表,則直接執行綜合行為,相比開源的處理流程,查詢次數將減少,效能將大幅度提升。
DPDK:資料平面開發工具包(Data Plane Development Kit,DPDK),為使用者空間高效的資料包處理提供資料平面開發工具集,包括庫函式和驅動。
AI 庫
KAIL_DNN:深度神經網路運算元庫(Deep Neural Network Library),結合鯤鵬處理器微架構特性,透過向量化、彙編、演算法最佳化等手段,提升 DNN 核心運算元效能,並透過外掛化形式對接開源 oneDNN 庫提供完整能力。
KAIL_DNN_EXT:深度神經網路運算元拓展庫(Deep Neural Network Extension Library),旨在作為 KAIL_DNN 的拓展庫,深度最佳化 softmax、random_choice 等運算元,為 AI 特定場景封裝為 Python 語言介面庫直接提供給使用者呼叫。
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
寒武紀AI晶片分析報告 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

