低調平頭哥,吹響先進存力商業化號角

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI
“在AI時代,我們必須全面提升先進存力。”
這就是平頭哥半導體產品總監周冠鋒,在中國儲存界的盛會MemoryS 2025儲存峰會上給出的關於AI存力發展的號召。
要知道,相比於各種形態的算力設施,儲存裝置在AI基礎設施當中受到的關注是相對較少的——
顯然,人們從未滿足於算力的發展水平,但在聚光燈效應之下,存力發展更加不充分的現狀卻沒有得到充分重視
實際上,如果把AI算力比作水力發電,那麼儲存就像水庫,同樣會對AI等各種大規模資料應用形成制約。
2018年成立的平頭哥,憑藉自研的SSD主控晶片鎮嶽510,已經成為儲存設施建設的重要力量。
在這屆峰會上,AI存力的發展建設成為了重要議題,在諸多與會者面前,平頭哥展示出了AI存力的鎮嶽510方案。

不讓儲存拖AI的後腿

上線一年多的鎮嶽510,帶來了商業化落地的新進展——
鎮嶽510已在阿里雲的EBS規模化上線,大幅提升了整體系統的IOPS和吞吐頻寬,更大幅最佳化IO延遲,相當於在同等資源條件下,幫助阿里雲EBS客戶承載更多訪問量,間接實現降本增效。
更重要的是,鎮嶽510也讓跑在阿里雲EBS業務上的客戶應用獲得了更快的響應,從而贏得了更好的使用者體驗。
雲計算場景之外,平頭哥也為SSD整盤廠商提供了新的選擇
例如憶恆創源的PBlaze7 7A40系列SSD產品,就基於鎮嶽510打造,成為業界首款具有100萬IOPS的4K隨機寫效能的企業級SSD產品
得瑞領新剛剛釋出的旗下首款PCIe 5.0高效能企業級NVMe SSD D8436/D8456系列,也利用鎮嶽510,相比上一代PCIe4.0產品實現了70%效能功耗比的提升
高IO吞吐、高傳輸頻寬、低IO延……一系列特性都瞄準了存力發展不足給AI帶來的制約。
那麼,SSD對於AI應用來說都起到了什麼樣的關鍵作用呢?
運算、傳輸、儲存……馮·諾依曼的計算機設計思想將AI基礎設施的運轉劃分出了多個流程,既相對獨立,各個環節之間又彼此關聯
就以大模型為例,其訓練過程中的GPU的利用率,直接受限於資料的供給速度。並且由於SSD的I/O延遲(50-100 μs)遠高於DRAM延遲(50-100 ns),資料從儲存到記憶體的傳輸,正是大模型訓練資料供給速度的瓶頸。
到了推理階段,很多行業大模型需要在極短時間內進行實施決策,也需要更高的資料訪問速度和更低的資料時延。
此外,在AI大模型的訓練和部署中會間歇性的大量寫入Checkpoint檢查點環節,儲存裝置需要具備所需的高寫入吞吐量。
反過來看,在算力一定的情況下,提高儲存裝置的資料供給速度,就能拉高單位算力的利用效率,節省出算力時間。
上個月的DeepSeek開源週中,DeepSeek在最後一天開源了3FS檔案系統,就是一個有效例證。3FS的目標就是把SSD的頻寬利用率提升到極致,從而降低模型的訓練總成本。
這還是在儲存能力本身沒有提高情況下的結果,如果儲存裝置自身的能力得到提升,那麼對AI訓練的降本增效更加有所裨益。並且相比於堆更多算力,對存力地提升也是一種更加經濟的選擇
所以,周冠鋒認為,DeepSeek的3FS,一方面在刺激著AI從業者將儲存設施升級到效能更高的PCIe 5.0介面裝置,另一方面也在激勵做存力的廠商進一步提高其產品的效能
也就是說,DeepSeek將作為催化劑,同時從需求和供給兩側,推動改善存力裝置相對於算力發展的不足。更為有利的是,DeepSeek這個“催化劑”帶來的這波新機遇,剛好貼合了SSD行業固有的演進節奏
周冠鋒介紹,結合SSD行業固有的節奏,以及伺服器、CPU他們的演進節奏,2025年會是PCIe 5伺服器的大規模上線的崛起之年。這樣的節奏,剛好匹配了基於鎮嶽510的SSD大規模上線的節奏
實際上,SSD是一個長週期行業,鎮嶽510早在2021年開始立項,當時就定下了PCIe 5的介面方案,讓鎮嶽510在產品上市之後剛好匹配市場需求。這對從業者的前瞻性視野和對行業規律的精準把握,無疑都具有極高的要求。
而現在,鎮嶽510在阿里雲EBS的上線,以及合作伙伴整盤產品的推出,已經證明了平頭哥的這個選擇,給鎮嶽510帶來了成功。
當然,如果說前瞻性的視野為平頭哥找到了成功的方向,那麼還需要有足夠的驅動力,才能走向成功。
這個驅動力,無疑就是技術。

儲存主控的“六邊形戰士”

在鎮嶽510的研發過程中,平頭哥進行了晶片架構和演算法的全面創新。
鎮嶽510採用平頭哥自研緊耦合晶片架構,能夠適應AI等高效能應用場景。
它可以對SSD任務進行高度抽象,將表項管理、佇列管理、Buffer管理等可固化任務硬化為加速運算元,以提升效能,地址分配、錯誤處理等FTL關鍵任務則運行於CPU,以保持靈活性。
鎮嶽510每秒可處理高達340萬次IO,相當於1萬塊高效能機械硬碟(HDD)的效能總和,資料頻寬達到了14GByte/s
同時鎮嶽510還支援最新的PCle 5.0主機介面以及DDR5.0記憶體介面,進一步提升了晶片的資料吞吐速率。
延時上,鎮嶽510實現了4μs的超低時延,比業界主流降低30%以上;在阿里雲EBS上的實測結果也表明,鎮嶽510將讀寫混合99.99%長尾延時降低了92%。
這得益於平頭哥創新的IO自動化處理機制,將前端IO的解析與處理交由專用硬體模組自動完成,也得益於晶片的實現了IO/SYS/GC全鏈路隔離,極大地降低這些任務之間的相互干擾。
此外,平頭哥也提前預見AI的發展會對IO模型帶來的差異,採取了靈活性的設計,使得一年多之後的今天仍然能夠適配已經今非昔比的AI場景,讓AI發展不再受制於先進存力的短缺。
在準確率上,鎮嶽510實現了低至10^-18的UBER(不可修復的錯誤位元率),相當於每讀取百億億筆資料,才可能有一筆資料糾錯失敗,比業內標杆領先了一個數量級。
因為在演算法層面,鎮嶽510採用了平頭哥自研的高效能LDPC(奇偶校驗碼)糾錯演算法,編碼效率逼近夏農極限,同時還利用TappingSet消除演算法,消除工作過程中產生的譯碼環,從而將ErrorFloor降低一個數量級。
平頭哥還自研了快閃記憶體電壓預測演算法,採取拋物線擬合方式,在各種快閃記憶體的不同工況、壽命、溫度等條件下,準確預測快閃記憶體電壓漂移,進一步降低LDPC解碼器的輸入誤位元速率。
另外,鎮嶽510也更加節能,每瓦功耗可提供42萬筆的IO訪問
以一個部署了10萬塊SSD的資料中心為例,相比目前主流的PCIe 4.0 SSD,鎮嶽510在相同的效能下,僅主控晶片即每年節省260萬度電,相當於2.6萬塊100度汽車電池的總能量。並且,選擇更加節能的儲存晶片,不僅是出於電力成本或環境保護
算力裝置進步的同時,功耗和發熱也大幅增加,在算力設別擁有絕對話語權的背景之下,有限的散熱能力也會被優先分配給算力裝置,使得存力裝置不得不在功耗上做出升級。

劈開行業應用的存力枷鎖

平頭哥擁有更多基礎設施、應用場景,可透過阿里雲業務對其產品進行實際驗證。在驗證取得成功之後,平頭哥也希望推動存力生態建設,拓展行業合作,將先進存力帶到更多應用場景。
  • 比如在金融行業,一個微小的錯誤就有可能帶來不可挽回的損失,因而可靠、安全是最重要的指標;
  • 在智慧電力排程當中,需要根據情況進行即時決策研判,低延時就成了最關鍵的考量;
  • 還有在搜尋行業,併發量大又成了一個典型特徵,給IOPS帶來了更大的需求;
  • 除此之外,在不同行業間,甚至行業內部,對成本的把控同樣是要考慮的問題……
所以,平頭哥把鎮嶽510做成了集容量、時延、成本、能效、可靠和帶寬於一體的“六邊形戰士”,在硬體上對每個行業的不同需求都能夠提供保障。
結合鎮嶽510的靈活性設計,就可以再根據行業特點,透過不同的韌體軟體對行業看中的最關鍵因素進行專門化增強,從而遊刃有餘地走向千行百業
總之,平頭哥憑藉著全面的技術和演算法創新,突破了各行各業先進存力發展的瓶頸,未來將全面加速創新。
不難看出,平頭哥在先進存力上,展現出了十足的野望——
劈開行業應用的存力枷鎖,將先進存力推向百業千行
時間上,平頭哥趕上了儲存裝置迭代與AI在千行百業的廣泛落地的雙重機遇;資源方面,平頭哥的阿里背景也給其提供了堅實的保障;
再看平頭哥自身,也對存力發展的規律有著全面的把握和前瞻性的眼光,並同時在軟硬體上不斷創新;天時地利人和之下,平頭哥立志要成為這一波存力裝置升級換代潮當中的引領者。
低調的平頭哥,這次註定要高調地將先進存力SSD這塊短板補上。
—  —
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章