HiPi聯盟！多晶片整合，業界呼喚Chiplet設計工具！

👆如果您希望可以時常見面，歡迎標星🌟收藏哦~

上個月底參加了HiPi聯盟大會，以及在近期多場和3DIC、先進封裝有關的會議中，國內設計界對EDA的呼聲可謂此起彼伏。這幾天方得空整理了一下若干專家對此的討論和分享。由於流程環節繁多，內容龐大，本文僅挑一些要點做分享，如有更適合的場合再分別做詳細介紹。

Contents

引

01 架構設計

02 設計實現

03 模擬

04 PV驗證/籤核

05 供電/功耗

06 標準/底座/生態

07 商用工具現狀

本篇主要分享從設計視角，對於Chiplet tool的真實需求。在開始前，我們略去了Chiplet設計的必要性和後摩路徑的好處（在其他篇中我們再分享），但是我們從一個基本的角度來看必須用Chiplet來構建未來系統，尤其是算力系統的必要性——電晶體transistor的增長。

2024年，成功商用單片（蘋果M3 max@3nm）電晶體最多達920億個；而Chiplet先進封裝整合（英偉達B200@4nm）電晶體最多達2080億個。預測到2030年：單片配置的電晶體極限是2000億個，而3D異構整合的電晶體將達10000億個。可見，Chiplet是必由之路。

對於形形色色的先進封裝，需要有統一完備的設計工具來完成系統架構，其意義是多方面的，不僅僅是快速敏捷完成設計，更是對SoC進行下一代的迭代，可以藉助先進封裝的設施完成效能、scaling-up、scaling-out、成本和良率各方面的進階。所以不僅僅是工藝實現，更多的是架構的設計。

目前，3DIC結構的設計，從2D往後，均稱為Chiplet設計，對應Chiplet自動設計Tool，通常包括：

架構設計

基於有限的設計資料，如何探索更優的系統堆疊方案，支援早期驗證評估，進而支援頂層時序、電源、低功耗等方案設計？
設計實現

當SRAM和Logic Die面積不一樣，如何確定上下die面積和規劃mem的位置，以及跨die訊號的尋優，提升PPA？
模擬設計

如何支援多工藝PDK的3DIC檢查和編輯，以及如何解決多工藝檔案和複雜結構完整RC提取困難的問題？

PI模擬

如何針對3D跨die電源網路、分立工藝以及成倍增加的電路規模進行準確且效能可接受的模擬驗證
電磁模擬

當TSV等結構破壞了背景均勻介質的假設時，如何完善和最佳化die內及die間的全金屬鏈路的電磁高質量分析？
底座和標準

面對多Netlist/多Tech建模，以及模型儲存、規模顯著增加。如何進行底座建模支撐後續平滑演進並具備一定相容性？

我們來聽一下業界在3DIC給設計和EDA帶來挑戰中，實踐先驅們的聲音。

1.架構設計

我們直接從架構設計開始講。在3DIC中（包括2.5D/3D/大規模晶圓整合）架構設計是對SoC直接重構的方法。本次聽專家們分享，在這個點上可謂“叫苦不迭”，因為不少案例都是因為架構設計不夠充分，或甚至沒有什麼架構設計就開始把Die拼接和堆疊的，導致在籤核的各種分析中無法得到想要的結果而重返最初的設計。

在傳統2D SoC設計中，所需要的floorplan以處理器為核心單元，擺放上各種IP，然後電源規劃，或者一些sensor，隨後匯流排、SerDes、PLL、時鐘，都跑完後到封裝的Bump或者wire bond，一切都是x、y的。

但是到了3D，就變成了x y z，從垂直方向有了上下的Die（若2.5D就是水平互連），根據不同的封裝元件，在操作之初構建這樣的多晶片系統，就要求tool有強大的擺放、視覺化與位置跟蹤功能。

對於多Die在floorplan階段的位置擺放，觀察對齊、是否有位置缺陷、或者memory沒有對齊，或者TSV，或者Hybrid bonding，或是mismatch，都需要工具的細節。

第二，在架構設計階段，或者說在比較早期的floorplan，就希望看到早期的分析，比如給一個thermal的功耗資訊。當然，功耗來自於綜合，但是綜合若是來自其他的工具，那麼資料未必能有效傳遞的。

2D裡面傳統上用標準格式DEF/LEF，或者物理資訊、網表，資料互動時可能會有一些loss，但是在3D場景中，尤其早期設計，不能用那麼多子流程工具，需要據高效的、無損的傳遞。所以在這個點上，首先就呼喚一個統一的資料底座了。

如果有這樣的原生資料基座，就可以快速跑power、然後static的IR drop，然後看電源的強弱，如果哪裡不夠強，就可以拿上補，再跑做驗證。所以整體上，早期驗證要跑得很快才夠做架構方案，架構探索。

更多的Partition的需求會從物理實現的時候看到，比如做全域性擺放先，再進一步做Partition，這可能就會來回迭代，這一點更像是空間探索的需求，我們在物理實現部分中詳述。

2. 物理實現

Implementation是晶片從RTL綜合完之後，從Netlist一直到GPS out中間的所有過程，在2D時代是晶片設計的核心，通常在限定的面積框裡，讓工具去算所有的邏輯怎麼去走，所有的data path、timing，然後讓面積和功耗，達到同時最小。即PPA（Performance、power和area）三個因素的trade off，怎麼讓讓你在的PPA得到最優，是PR工具的一個價值。

在3D中，存在上下(左右)Die的聯動、上下(左右)Die的互動。這時候若單獨調一個Die（或者說）各Die之間分別跑PR，則可能會出現“你往東、我往西”的指標拉扯的情形。

若要上下(左右)Die互動，距離被拉扯的很遠，亦或是有些的應該放到上Die，比較好、有些邏輯（組合邏輯、計算單元）放到上Die，就不用在下Die去試，否則也會來回detour。因為有各Die聯動的設計情況，所以APR是PPA的基礎。（當然，會遇到3D場景中的，不僅是傳統視角的PPA，而是PPPAC，後續再展開。）

除此之外，更多的一各需求是完成基於電源網路或者熱感知的詳細布線，所以現在業界也叫APR（auto placement and routing）。APR工具的需求量，依然會很大，因為3D後期可能走向designer各自需要的各異的、定製堆疊，混合堆疊都有可能。

另外，是關於協同設計的，即在APR的時候，多Die可以根據設計指標，協同去收斂，這一點在3D場景中，很難透過工程師的經驗來做，因為對於電源網路和熱，很難預測。當然，對於不同資源（如邏輯）放到上Die好還是放到下Die好，更應該在早期Partition的時候做。

比如傳統手機晶片中，或者是網路基站，可能只能非常local地（限於2D空間內），如果核心邏輯互動不大的話，或許人為地把它放到下Die，或者是放到某Die；但比如說這塊邏輯互動地別多，就會考慮相對獨立地去做拆分（拆分開後功能的實現會更好，這是partition的意義）。若該邏輯和周圍都在互動，卻把和它互動的放到下Die，就會造成下Die的很多signal的穿插，則不利於我們3D（Design）的實現。

從這裡就引申出來tool的需求，EDA應該怎麼幫助designer去partition和做APR。有一種方法叫GP-based partition。就是基於全域性佈局（或FP）完成90%的大概位置，做Partition，當然也要看是否足夠拆分成更多的Die。

所以，APR和design partition的迭代最佳化，是真正3D的esigner一個很強烈的需求。就目前來看，還是沒有比較好用的工具。

第三是3D架構引入對於過程呼叫的分析與驗證，即協同設計和最佳化。3D和2D相比，它帶來了大量的TSV、Hybrid bonding等新的結構要素，這些在2D裡面是沒有的。如果設計的產品有非常多TSV的話，不管是供電，或者是訊號，一定會對planner中擺放的core的區域的效能會打折，尤其是密密麻麻的TSV陣列情況。

和以往2D 設計對於核心邏輯放中間，IP、IO放周邊，最大資源讓給core的基本設計，有了完全的改變，因為通孔互連，很可能你的core已經被3D架構的新要素給打成篩子了，所以（傳統）工具也就不再適應，自然PPA的結果就會非常差了，所以需要專門的Chiplet tool去考慮新架構引入呼叫的協同設計最佳化。

3. 模擬

模擬來自架構設計驗證和完整3D設計的多物理模擬。

首先是對整個系統的模擬，或者說是高層次模擬。對於有上萬或者數十萬互連凸點的高速高效能多Die系統，模擬算量是很大的。迫切需求是能夠實現快速建模與高效模擬的系統級功能模型工具或平臺。理想情況下，要能夠在一週內完成整個系統模型的搭建與完善。

從晶片設計的視角出發，理想的設計流程應從系統級建模開始，確保軟體層面的系統能夠正常執行。鑑於晶片設計需面向特定應用場景，若以人工智慧（AI）應用為例，需能夠在系統模型中執行類似大語言模型（LLM）的複雜程式。透過這種方式，可以精準評估系統的真實效能，定位關鍵路徑，並計算功耗指標。

為實現這一目標，需要構建系統級的數字孿生模型，全面涵蓋系統的物理特性，包括但不限於晶片的電學特性、熱學特性等。透過對物理模型的精確建模，並將其抽象為軟體可處理的引數，再將這些引數反饋到系統級軟體模擬中，從而實現對系統性能的準確預測。當然，工具或平臺可能由一家公司獨立開發，也可能是多家公司聯合打造的計算平臺都可以。然而，快速建模與高效模擬這兩個目標的實現頗具挑戰。

我們亟需提升模擬效率，核心訴求在於實現多核平行計算能力。當前雖有論文探討利用多 CPU 叢集（含超級計算機）或 GPU 加速系統級架構模擬 ——GPU 憑藉其大規模流處理器陣列（Streaming Processor Array）具備天然的平行計算優勢，但尚未出現能同時滿足快速建模與高效模擬的成熟解決方案，若能開發此類工具，其市場潛力極為可觀。

多物理模擬方面，對熱力、以及多物理場，希望能在floorplan已經定了情況下，也有綜合工具的話，可透過綜合工具基於我的floorplan資訊，基於我給你基本的70~80%準確度的功耗分佈，基於此我跑fast file。

可能會相對來說，可以在早期的去做一些事情，而不是到最後就是那個就是還是沒有辦法挽回，或者重新去設計架構了。所以，在3D場景中，不是單單要多物理模擬的feature和精度，更多需要的是物理設計時候的協同模擬和最佳化。

4. PV驗證/籤核

驗證、籤核可以分為靜態籤核、PV驗證和PI驗證。

首先是跨Die的RC提取和跨Die的STA。如圖所示，跨Die的情況是非常複雜的，之前設計者只考慮Die內的RC抽取就好了。其中電路尚比較容易，電容會比較麻煩一些，基本上就是M4/M5/M6的的串擾。到了3D場景，就有高層（與層高度）的，還有TSV陣列這類走線的cross talk，還有並行的在上下底層的走線，這都是三維場景的新的影響。

以及，上下兩個Die透過3D的中間的一層z方向到上下兩個Die的介面處的RC是怎麼佐證有效的抽取？如何把上下Die加上中間的整個鏈路的RC，完整抽取、表現出來？就設計多種Die間的場景。所以，對於垂直堆疊於通道鏈路的複雜結構，有效提取強依賴這方面的EDA。

跨Die的寄參提取，是為了確保高效的STA。如果上下Die這種層次不一樣的話，對RC的抽取、有STA迭代與迭代效率都會有一定影響。如果是超大規模，STA可能會跑不完，或者跑太久。所以，3DIC的tool需要考慮簡化提效的。

STA還會考慮PVT的問題。

Process：多個Die不一定是相同的process（工藝），可能是兩個、多個（工藝）就會有影響。比如說一些計算晶片，可能有專門負責AI的logic，還有專門的memory Die。後者可能對memory不用特別考慮成本，可能不太會去用特別先進的工藝，因為要考慮到良率。即先進工藝與沒有那麼先進工藝的兩個process，天然會產生更大的variation。

Voltage：多Die間因為工藝不一樣，低壓設計也不同，不論調壓，或是關斷策略也不一樣，所以其工作機制是非常複雜的。

Temperature：可能工作問題範圍，當不同Die貼到一起後，若出現不同Die之間的溫差，如上Die125度，下Die-45度的極端的情況，就要考慮多個溫度檔了。不同檔位temperature的STA的分析，超大規模分析須要覆蓋這所有的PVT檔案。完美的STA的覆蓋，其實就是所有的corner都是要覆蓋到，對Sign-off最基本的需求，即完備性、準確性和效率。

PV驗證，即DRC和LVS。產品質量的physical verification，就是DRC/LVS。如果不同工藝的兩家Fab的PDK，驗證中需要融合到一起，能在3D的場景裡面其中的差異，都需要驗證。

LVS需要檢查跨Die結構的connectivity效能，可能分開獨立驗證，需要各Die之間互聯的一致性。DRC也要考慮上面的Die和中間的封裝資源（Bump+interposer）以及下面Die間的連線的DRC。

其次是PI/EMIR的分析。

PI裡會考慮到支援model和flatten的兩種驗證模式。model based是完成die後抽取，這種情況考慮支援更多的埠，比如hybrid bonding、Micro-bump這些。Flatten方式是帶上所有instance一起看，雖然精度好，但是計算量大，而3D結構的hybrid bonding的量是非常驚人的，一些大廠有測試過一些工具可能在大規模互連下，工具就直接跑掛了。就算業界的標杆工具也還有很多不足的，比如抽取速度特別慢，或者精度問題。

另外就是呼叫性和對記憶體的使用最佳化。前者，獨立呼叫方面，如翻轉率、功耗這些東西，你要支援客戶反標。後者，是希望runtime提升，能支援Days級的迭代，如果模擬時間超過一週，就很難跟得上設計的變更了。

5. 供電/功耗

特別值得一提的是供電或者說功耗問題。

隨著晶片複雜度提升，Chiplet 架構下的系統功耗已呈現量級躍升 —— 傳統單 Die 晶片的峰值功耗通常為 200-300W，而多 Die 整合的 Chiplet 系統往往突破千瓦級。

功耗激增衍生出多重耦合問題，包括熱管理複雜性，從而需要需引入液冷、均熱板、微流等先進散熱技術；熱應力效應，溫度梯度引發的熱膨脹失配（CTE mismatch）導致封裝結構產生機械應力，威脅晶片可靠性；電氣-熱-機械耦合，由功率密度提升導致的高溫不僅影響器件電學效能（如電晶體閾值電壓漂移），還會與供電網路產生協同效應（如 IR 壓降加劇溫升）等。

這些問題呈現強關聯性，要求在設計階段採用多物理場協同模擬，透過精確建模供電網路拓撲、熱傳導路徑及應力分佈，實現電源完整性（PI）與熱可靠性的同步最佳化。

所以首先是Chiplet之間功率建模標準的需要，包括不同功率模型需要採取的標準和資料介面。其次是高電流密度下Chiplet老化模型，不僅與電學引數相關，還與物理空間佈局密切相關。由於bump將電源引入晶片，再利用微互連供電分配，所以在複雜結構中供電從晶片外部傳出，經TSV、μBump再返回晶片內部，所受的IR drop就非同小可。

可見電源完整性是一個非常複雜的問題。熱梯度效應導致的區域性溫升、寄生引數（如寄生電阻、電感）引發的訊號畸變，以及動態負載變化下的電壓波動等問題相互耦合。不同芯粒（Chiplet）間的製程差異進一步引入新的變數維度 —— 傳統單 Die 設計只需關注有限的電源噪聲因素，而 Chiplet 系統需同時處理多工藝節點的電學特性差異、三維堆疊帶來的傳輸延遲變化，以及異構整合導致的功率分佈不均。

這些維度疊加顯著增加設計複雜度和驗證成本，所以對於供電和功耗的分析工具在早期分析和精確分析上均需要增加tool的功能。

6. 標準和底座

最後，標準和底座，以及生態。這幾件相較2D晶片設計，更加把設計-封裝製造-EDA要求緊密結合在一起。

底座方面，要求多Netlist/多工藝建模，底座建模的複雜度更高，架構設計難度更大，製程後續平滑演進也要一定的相容性。不同工藝tech file和lib需要多netlist共享（海外已經從3DK演變到5DK）。

3D模型的儲存方面，需要引入TSV/HB建模，引入3D連線關係，全域性座標系等。規模顯著增加會帶來對於儲存需要，減少冗餘資訊，做好聚類和資訊複用的需求。以及做好同質化的聚類，提升並行化處理的能力。

這裡不得不參考TSMC快速帶動的底座生態，2023年的委員會由四家頭部EDA、TSMC和Intel。

從行業生態角度，設計者們希望EDA vendor能整合頭部企業的實踐經驗，將 Chiplet 設計中的電源完整性最佳化、熱協同模擬、異構介面適配等解決方案整合至工具平臺。透過構建標準化的設計流程與生態化工具鏈，降低中小公司的技術門檻，推動 Chiplet 技術的普惠應用。這也凸顯了 EDA 工具在晶片產業協同創新中的核心樞紐作用 —— 其不僅是設計載體，更是行業技術共享與生態構建的關鍵媒介。

7. 商用工具現狀

本篇就略提商用工具現狀了，這方面的資料還是非常多的。總之，三大家都在積極佈局3DIC的方方面面，不僅限從傳統強勢2D工具的延伸和升維，包括在AI/ML的運用，在空間探索、在佈線解決方案、在建模和提取提速等等。

特別值得一提的是，在2024年初Synopsys和Ansys的合併，快速在半年之間就佈局了Chiplet EDA全流程從架構設計到物理實現，從大規模模擬到多物理籤核的工具整合。