公眾號記得加星標⭐️,第一時間看推送不會錯過。

在AI模型引數量呈指數級增長的時代背景下,資料中心正經歷一場從"算力至上"向"頻寬驅動"的深刻變革。在這場算力架構革新的浪潮中,HBM(High Bandwidth Memory,高頻寬儲存器)正悄然崛起,成為支撐大模型計算的核心基礎設施。
步入"後AI"時代,HBM已不僅僅是高效能AI晶片(如GPU、TPU)的標配元件,更演變為半導體巨頭間激烈角逐的戰略制高點。
無論是三星、SK海力士,還是美光,這些儲存領域的領軍企業都不約而同地將HBM視為未來營收增長的關鍵引擎。它們似乎達成了一個共識:要想在儲存市場稱霸,就必須率先掌握HBM這一核心技術。
那麼,在這場沒有硝煙的競爭中,都有哪些技術值得關注呢?讓我們一起來深入分析分析。
定製化是唯一齣路?
定製化可能是HBM的最終歸宿之一。
事實上,早在兩年多以前,HBM初步嶄露頭角之際,海力士和三星就討論過定製化這一趨勢,伴隨著雲巨頭紛紛定製自己的AI晶片,對HBM的需求只增不減,定製化藉此成為了必然需求之一。
而在去年8月,SK海力士副總裁柳成洙表示:“所有M7(Magnificent 7,指的是標準普爾500指數中的七大科技股:蘋果、微軟、谷歌Alphabet、亞馬遜、Nvidia、Meta和特斯拉。)公司都來找我們,要求我們做定製HBM(高頻寬記憶體)。”
而在今年6月,韓國媒體表示,SK海力士已同時鎖定了英偉達、微軟(MS)、博通(Broadcom)等有望成為定製HBM市場“重量級客戶”的公司。其近期已與英偉達、微軟、博通達成協議,將向其供應定製型HBM,並已開始根據各家公司的需求開展設計工作。
據悉,SK海力士是以其最大客戶英偉達的供貨計劃為核心,優先確定其他客戶名單。業內人士表示:“考慮到SK海力士的產能以及各大科技公司AI服務的推出時程,無法一口氣滿足M7全部客戶的需求”,但也指出“考慮到HBM市場情況的變動,未來或將新增若干客戶”。
SK海力士也在今年4月宣佈,從第七代HBM(HBM4E)開始將轉向定製化,其已和臺積電展開合作。計劃在HBM4基礎裸片上採用臺積電的先進邏輯(Logic)工藝,預計其首批定製HBM產品預計將於明年下半年問世,
值得一提的是,由於SK海力士成功拿下了多家重量級客戶,其在下一代定製HBM市場中延續主導地位的可能性大大提升。根據TrendForce的資料,SK海力士目前在HBM市場的佔有率約為50%,遠超三星電子(30%)和美光(20%)。若僅看最新的HBM3E產品,SK海力士的市佔率更是高達70%。
另一方面,三星電子也被曝正就定製HBM的供應問題與多家客戶進行討論。鑑於其近期已成功向全球第二大AI晶片廠商AMD供應HBM3E,業界預計其不久後也將拿下HBM4及定製HBM的客戶。據稱,目前三星已在就HBM4產品與博通、AMD等客戶進行具體協商。
與兩家韓國廠商相比,遠在美國的美光顯得遲鈍了不少。今年6月,美光雲記憶體業務部高階副總裁兼總經理 Raj Narasimhan 表示,HBM4 的生產計劃將與客戶的下一代 AI 平臺準備情況緊密結合,以確保無縫整合和及時擴大產量以滿足市場需求。
其表示,除了向主流客戶提供最新的 HBM4 之外,客戶還在尋求定製版本,下一代 HBM4E 的開發也正在進行中。與特定客戶合作開發定製化的 HBM 解決方案,將進一步提升記憶體產品的價值。

這時候,可能很多人想問了,定製HBM都有哪些好處,為什麼DRAM廠商和雲巨頭都趨之若鶩呢?
受限需要明確的是,定製化HBM(cHBM)的關鍵在於將基礎晶片(base die)的功能整合進由SoC團隊設計的邏輯晶片(logic die)中。這包括控制I/O介面、管理DRAM堆疊、以及承載用於診斷和維護的直接訪問(DA)埠。
這一整合過程需要與DRAM廠商緊密合作,但它賦予SoC設計人員更大的靈活性和更強的對HBM核心晶片堆疊訪問的控制能力。設計人員可以更緊密地整合記憶體與處理器晶片,並根據具體應用在功耗、效能與面積(PPA)之間進行最佳化。
SoC設計人員可以自由配置和例項化自己的HBM記憶體控制器,透過DFI2TSV橋接與HBM DRAM堆疊直接互動。邏輯晶片還可以整合增強功能,如可程式設計的高質量內建自測試(BIST)控制器、芯粒間介面卡(D2D adapter)以及高速介面(如通用芯粒互連標準 UCIe),從而實現與處理器晶片在完整3D堆疊中的通訊。由於該晶片使用邏輯製程而非DRAM製程製造,因此可以複用現有設計。
而定製HBM的一個重要優勢在於顯著減少中介層(interposer)在資料路徑中引入的延遲,降低相關的功耗與效能損失。它透過複用現有的高速裸晶片互連(如UCIe),有效地將記憶體與處理器晶片距離拉近。這種靈活性可應用於多種場景,比如雲服務提供商用於邊緣AI應用,對成本和功耗要求極高的場合,以及用於複雜AI/機器學習計算場景,追求最大容量和吞吐率的系統等。
不過,定製HBM目前也面臨著一些挑戰,其整個理念仍屬新興,技術也處於早期發展階段。如同所有創新一樣,前路必然伴隨挑戰。將基礎晶片功能整合至邏輯晶片意味著終端使用者需從晶片生命週期管理(SLM)的視角考量整個生命週期——從設計、試產、量產,到現場應用。例如,在晶圓級HBM晶片堆疊後,DRAM單元缺陷的篩查責任將落到終端使用者身上。這帶來了一些問題,比如使用者該如何處理供應商推薦的特定DRAM演算法?以及使用者能否在計劃性停機期間,進行全面的HBM現場測試與診斷?
目前來看,要成功部署定製HBM,需要一個完整的生態系統,彙集IP提供商、DRAM廠商、SoC設計方以及ATE(自動測試裝置)公司。例如,由於互連數量多、密度高,傳統ATE已無法用於定製HBM測試。
總而言之,定製HBM已經成為一大趨勢,不論廠商是否喜歡,它都將在HBM4標準中佔據相當重要的地位。
混合鍵合,繞不開的技術難題?
除了定製化外,混合鍵合(Hybrid Bonding)也是未來HBM重要的發展方向之一。
目前,隨著堆疊層數的不斷增加,傳統焊接技術面臨顯著的挑戰。目前所使用的助焊劑(Flux)雖能去除金屬表面氧化物並促進焊料流動,但其殘留物會引發堆疊間隙增大、熱應力集中等問題,尤其在高頻寬記憶體(HBM)等精密封裝領域,這一矛盾更為突出。
而包括三星、SK海力士甚至是美光,都在考慮在下一代HBM中採用混合鍵合技術。

先來了解一下目前HBM晶片的鍵合技術。在傳統的倒裝晶片鍵閤中,晶片被“翻轉”,以便其焊料凸塊(也稱為 C4 凸塊)與半導體基板上的接合焊盤對齊。整個元件被放置在迴流爐中,並根據焊料材料均勻加熱至 200ºC-250ºC 左右。焊料凸塊熔化,在接合和基板之間形成電氣互連。
隨著互連密度的增加和間距縮小到 50µm 以下,倒裝晶片工藝面臨一些挑戰。由於整個晶片封裝都放入烤箱中,晶片和基板會因熱量而以不同的速率膨脹(即不同的熱膨脹係數,CTE),從而產生變形,導致互連出現故障。然後,熔融焊料會擴散到其指定區域之外。
這種現象稱為焊料橋接,會導致相鄰焊盤之間出現不必要的電連線,並可能造成短路,從而導致晶片出現缺陷。這就是TCB(Thermal Compression Bonding 熱壓鍵合)工藝發揮作用的地方,因為它可以解決間距縮小到某個點以下時倒裝晶片工藝出現的問題。
TCB的優勢在於,熱量是透過加熱工具頭區域性施加到互連點上,而不是在迴流焊爐(倒裝晶片)中均勻施加。這樣可以減少向基板的熱量傳遞,從而降低熱應力和 CTE 挑戰,實現更強大的互連。對晶片施加壓力以提高粘合質量並實現更好的互連。典型的工藝溫度範圍在 150ºC-300ºC 之間,壓力水平在 10-200MPa 之間。
TCB 允許的接觸密度比倒裝晶片更高,在某些情況下每平方毫米可達到 10,000 個接觸點,但更高精度的主要缺點是吞吐量較低。雖然倒裝晶片機每小時可以達到超過 10,000 個晶片的吞吐量,但 TCB 的吞吐量則在 1,000-3,000 個晶片的範圍內。
標準的 TCB 工藝還需要使用助焊劑。在加熱過程中,銅可能會氧化並導致互連故障,助焊劑是一種用於去除銅氧化物的塗層。但當互連間距縮小到 10µm 以上時,助焊劑會變得更難清除,並會留下粘性殘留物,這會導致互連發生微小變形,從而造成腐蝕和短路。
無助焊劑鍵合技術(Fluxless Bonding)由此應運而生,但無助焊劑鍵合技術只能進一步縮小間距尺寸至20μm,最大可達10μm,僅能作為過渡技術來使用,而當I/O間距小於10μm時,就需要用到混合鍵合技術了。
混合鍵合技術透過銅與銅的直接連線(copper-to-copper bonding),實現DRAM晶片堆疊,無需傳統的凸點(bump)結構,這種方式不僅能顯著縮小晶片尺寸,還能將能效與整體效能提升一倍以上。
據業內人士透露,截至5月7日,三星電子與SK海力士正推進將混合鍵合技術用於其下一代HBM產品的量產。預計三星最快將於明年在HBM4(第六代HBM)中採用該技術,而SK海力士則可能在第七代產品HBM4E中率先引入。
當前的第五代HBM——HBM3E仍使用熱壓鍵合技術,在晶片間透過加熱加壓及凸點連線方式進行固定堆疊。三星主要從其子公司SEMES以及日本新川電機(SHINKAWA)採購TC裝置,SK海力士則依賴韓美半導體和韓華半導體。而向英偉達提供HBM的美國美光(Micron)也採購韓美和新川的裝置。
隨著混合鍵合市場的初步開啟,該技術有望引發半導體裝置領域的一場重大洗牌。一旦成功匯入,混合鍵合將可能成為未來HBM堆疊的主流工藝。
為搶佔先機,美國的應用材料公司已收購全球唯一具備混合鍵合先進裝置量產能力的企業——荷蘭Besi公司9%的股份,並率先將其混合鍵合裝置匯入系統級半導體市場,搶佔應用先機。
與此同時,韓美半導體與韓華半導體也在加速研發下一代晶片堆疊裝置,這兩家韓國廠商不僅在迅速推進混合鍵合裝置研發,還在積極開發無助焊劑鍵合裝置,以此來增強市場競爭力。
如果說定製化HBM是DRAM廠商和雲巨頭間的角力的話,那麼混合鍵合就是DRAM廠商與鍵合裝置廠商之間的對弈,伴隨著HBM在今年下半年正式邁入HBM4時代,混合鍵合所受到的關注度可能會進一步提高。
還有哪些新技術?
值得一提的是,在今年6月,韓國國家級研究機構——韓國科學技術院(KAIST)釋出了一份長達371頁的研究論文,系統性地描繪了HBM技術從HBM4一路發展到HBM8的演進路徑。內容涵蓋頻寬、容量、I/O介面寬度、熱設計等方面的提升,以及封裝方式、3D堆疊結構、嵌入式NAND儲存的記憶體中心架構,甚至包括基於機器學習的功耗控制方法。
值得強調的是,這份文件並非商業公司釋出的產品路線圖,而是基於目前產業趨勢和科研進展,對未來HBM技術潛在演變的學術預測,但它也足以讓我們一窺未來HBM的可能發展方向。

先來看下HBM4至HBM8的各代產品技術特色:
HBM4:定製化設計的先鋒
HBM4作為新一代HBM技術的開端,最大的創新在於定製化基礎裸片設計。透過整合NMC(近存計算)處理器和LPDDR控制器,HBM4實現了對HBM和LPDDR的直接訪問,無需CPU介入。這一設計顯著減少了資料傳輸延遲,提升了整體系統效率。
HBM4支援多種靈活的資料傳輸模式,包括GPU與HBM的直接讀寫、HBM與LPDDR間的資料遷移,以及GPU透過HBM間接訪問LPDDR。雙命令執行能力的引入進一步提升了多工處理效率,為複雜的AI工作負載提供了有力支撐。
HBM5:3D近存計算的突破
HBM5將3D近存計算技術推向新的高度。透過整合NMC處理器裸片和快取裸片,並採用專用TSV互連和電源網路,HBM5實現了高能效的計算架構。分散式電源/接地和熱TSV陣列的引入有效降低了IR壓降,提高了散熱效率。
特別值得關注的是,HBM5開始引入AI設計代理最佳化技術,透過智慧演算法最佳化TSV佈局和去耦電容放置,顯著減少了電源噪聲誘導抖動(PSIJ)。這一創新不僅提升了系統穩定性,還為後續產品的智慧化設計奠定了基礎。
HBM6:多塔架構的創新
HBM6的最大亮點是四塔(Quad-Tower)架構的引入。四個DRAM堆疊共享一個基礎裸片,透過8,096個I/O通道實現8 TB/s的驚人頻寬。這一架構設計不僅提升了頻寬效能,還透過資源共享提高了成本效益。
L3快取的整合是HBM6的另一個重要創新。透過減少對HBM的直接訪問需求,L3快取顯著提升了LLM推理效能。實測資料顯示,HBM6的L3快取嵌入使HBM訪問減少73%,延遲降低87.3%。交叉開關網路的引入實現了HBM叢集互連,優化了高吞吐量、低延遲的LLM推理效能。
HBM7:混合儲存生態
HBM7構建了一個完整的混合儲存生態系統。透過整合高頻寬快閃記憶體(HBF),形成HBM-HBF儲存網路,總容量達到17.6 TB,能夠滿足大規模AI推理的儲存需求。與3D堆疊LPDDR的結合進一步擴充套件了儲存層次,在玻璃中介層上實現了4096 GB/s的互連頻寬。
嵌入式冷卻結構的全面應用是HBM7的重要特徵。透過熱傳輸線和流體TSV技術,實現了從晶片到冷卻流體的高效熱傳遞。LLM輔助的互動式強化學習(IRL)技術的引入,使得去耦電容放置和PSIJ最佳化更加智慧化和精準化。
HBM8:全3D整合時代
HBM8代表了HBM技術的巔峰,實現了真正的全3D整合和HBM中心計算。雙面中介層設計支援GPU-HBM-HBM、GPU-HBM-HBF和GPU-HBM-LPDDR等多種3D擴充套件架構,為不同應用場景提供了靈活的配置選擇。
全3D GPU-HBM整合架構是HBM8的核心創新,GPU位於儲存堆疊頂層,不僅有利於散熱,還實現了儲存與計算的無縫融合。AI設計代理的全面應用使得3D佈局和佈線最佳化更加智慧化,考慮了熱-訊號完整性的協同最佳化。
從整體發展趨勢來看,HBM技術的演進呈現出明顯的量級躍升特徵。在頻寬方面,從HBM4的2.0 TB/s到HBM8的64 TB/s,實現了32倍的驚人增長。這一突破主要透過兩個維度實現:一是I/O數量的大幅增加,從2,048個增至16,384個;二是資料速率的穩步提升,從8 Gbps增長至32 Gbps。
而在容量擴充套件方面,單模組容量從HBM4的48 GB提升至HBM8的240 GB,這一提升透過增加堆疊層數和單裸片容量共同實現。同時,功耗從75W逐步增長至180W,雖然功耗有所上升,但考慮到效能的大幅提升,整體能效比仍有顯著改善。
關鍵技術創新路徑
HBM技術演進的另一個顯著特徵是3D整合技術的持續突破。從HBM4開始,技術路線逐步從傳統的微凸點鍵合過渡到無凸點Cu-Cu直接鍵合技術。這一轉變不僅顯著減少了接觸電阻,還大幅提高了互連密度,為後續的高密度3D堆疊奠定了基礎。
TSV(矽通孔)技術作為3D整合的核心,實現了垂直堆疊裸片間的高效電氣連線。透過縮短互連長度,TSV技術有效降低了RC延遲和功耗,為高頻寬資料傳輸提供了硬體保障。到HBM8階段,同軸TSV技術的引入進一步提升了訊號完整性,支援32 Gbps的高速資料傳輸。
中介層技術的發展同樣令人矚目。從單一的矽中介層發展到矽-玻璃混合中介層,這一創新突破了純矽中介層的尺寸限制,同時保持了優異的訊號完整性。混合中介層技術結合了矽中介層的高頻寬特性和玻璃中介層的大尺寸擴充套件能力,為複雜的多塔架構提供了技術支撐。
值得關注的是,隨著HBM效能的不斷提升,散熱問題成為制約技術發展的關鍵瓶頸。HBM技術路線圖展現了一條清晰的冷卻技術演進路徑,從傳統的風冷逐步升級為更加先進的冷卻方案。
HBM4採用直冷式液冷(D2C)技術,直接對晶片進行液體冷卻,相比傳統風冷具有更高的散熱效率。到HBM5和HBM6階段,浸沒式冷卻技術成為主流,將整個模組浸入絕緣冷卻液中,實現更加均勻和高效的散熱。
最為先進的是HBM7和HBM8採用的嵌入式冷卻技術,透過流體TSV(F-TSV)和微通道結構,實現了晶片級的精準冷卻。這種技術透過熱傳輸線(TTL)將熱量從HBM裸片直接傳遞到冷卻流體,實現了前所未有的散熱效率。
當然,HBM技術的演進帶來了顯著的效能提升。在LLM推理方面,HBM6的四塔架構使LLaMA3-70B模型的推理吞吐量提升126%。在能效方面,HBM7的NMC架構減少了資料移動,使GEMM工作負載的功耗降低30%以上。
系統級擴充套件能力的提升同樣令人矚目。HBM8的全3D架構支援多GPU-HBM叢集,總頻寬可達1,024 TB/s,為Exascale計算提供了強大的儲存支撐。這些效能提升不僅滿足了當前AI應用的需求,還為未來的人工通用智慧(AGI)奠定了技術基礎。
寫在最後
從定製化HBM到混合鍵合,從新一代中介層到融合型儲存架構,HBM技術正在加速演進,迭代節奏愈發迅猛。
但在這場高度複雜的技術競賽中,唯有具備系統級視野、並能深度整合多維工藝與生態資源的玩家,才有機會脫穎而出。隨著SK海力士將基礎裸片代工交由臺積電,DRAM廠商在HBM製造流程中的主導能力已逐步減弱。這一技術體系已不再是單一廠商可以獨自完成的任務,而是一個需要多方協同、跨界整合的新戰場。
究竟是SK海力士、三星,還是美光將在未來佔據上風,答案仍未揭曉。但可以確定的是,在後AI時代,HBM的競爭才剛剛開始,而且只會愈演愈烈。
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4091期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟
求點贊

求分享

求推薦
