來源:內容編譯自pcwatch,謝謝。
為什麼首先要使用小晶片?從廣義上講,這一切都歸結為使用越來越多電晶體的願望。圖1是TSMC session的一份文件,從2018年左右開始,使用大規模語言模型的趨勢越來越明顯,更高的處理效能成為必要,特別是在訓練這些模型時。話雖如此,大部分的處理都是卷積,雖然計算本身很簡單,但所需的處理量卻非常龐大。
幸運的是,這種計算很容易並行化,因此排列多臺計算機並同時處理它們比以極快的速度旋轉單個核心要快得多。方法論有很多種,比如採用大規模SIMD或者大規模VLIW,或者將大量小規模SIMD/VLIW引擎以網狀結構排列並以資料流方式執行,甚至可以採用記憶體計算,但底線是一樣的:排列大量計算單元並執行它們。
如果你嘗試排列大量的計算單元,那麼你將需要大量的電晶體。圖1中的點(和線)表示計算效能(左軸),豎線表示實際產品中的電晶體數量(右軸)。不難看出,計算能力和電晶體數量的趨勢大致是相互關聯的。
然而,不可能無限增加半導體中的電晶體數量。首先,它是建立在直徑為 300 毫米的晶圓上,因此它最大程度上會達到這個直徑,而在到達那麼遠之前它就會達到曝光極限(光罩極限)。簡單來說,就是將LSI圖案投影到晶圓上,再進行蝕刻製作電路時,所能投影的最大尺寸。這個面積通常剛好超過 800 平方毫米,如果不適合這個面積,那麼根本就無法制造。這意味著,在這剛好超過800平方毫米的面積裡,能夠容納的電晶體數量已經達到了最大值。
工藝小型化涉及使電晶體越來越緊湊,這意味著增加可裝入剛好超過 800 平方毫米的區域內的電晶體的數量。
如今,制約因素不再是電晶體本身的尺寸,而是連線電晶體的佈線,我們在如何處理這些佈線方面遇到了很多困難。
英特爾以PowerVIA為名釋出的BSPDN(背面供電網路)也是其中一項舉措,但BSPDN雖然只是暫時的解決辦法,但並非根本解決辦法,因此首先在現有的Cu/Co(銅/鈷)配線的基礎上考慮使用Ru(釕),之後也提出了使用碳奈米管等配線的方案,但Ru要到2020年代末或2030年左右才能投入實用,碳奈米管則還要更久以後,因此無法解決現狀。
圖1中提到的2024年2000億顆電晶體的晶片,是指NVIDIA的Blackwell,但這是指兩款晶片合計2000億顆,也就是每款晶片1000億顆。這大致就是當前的極限。
Celebras 使用整塊晶圓
所以,“我們想要 2000 億個處理器,但我們無法制造它們,所以讓我們使用 chiplet 將它們連線在一起,建立一個偽 2000 億的處理器”的想法是相當合理的。這種方法的終極示例是 Celebras 的“WSE-3”(圖 2),它構建了一個放大到最大可能的晶圓尺寸的偽晶片。實際上,它被分成 84 個部分(12 x 7),但透過將這些部分連線起來,它看起來就像一個巨大的die。

但事實是,Celebras的方法並不一定有效。
正如您所看到的,4 萬億個電晶體被封裝在 46,225 平方毫米的晶片中,電晶體密度約為每平方毫米 8653 萬個電晶體。另一方面,H100 將 800 億個顆粒裝入 814 平方毫米的面積中,密度為每平方毫米 9828 萬個電晶體。由於WSE-3是臺積電N5,H100是臺積電4N,因此電晶體本身的面積被認為大致相同。
那麼這種差異從何而來?話雖如此,由於 WSE-3 原則上沒有(也不能)擁有本地外部儲存器,因此它擁有 44GB 的片上 SRAM,這意味著 84 個圖塊中的每一個都有超過 536MB 的 SRAM。另一方面,H100 可以連線外部 HBM3,並且內建 L2 僅為 50MB。L1 每個 SM 為 256KB,因此 L1 和 L2 的總大小剛好超過 80MB。人們認為,SRAM 的這種差異會導致電晶體密度的差異。
順便說一下,透過整合SRAM,WSE-3的記憶體容量是H100的880倍,記憶體頻寬是H100的7,000倍(圖3),但效能只有H100的20倍(Celebras在Hot Chips上發表的資料),可見在成本和價值之間取得平衡的難度。

簡單來說,如果 WSE-3 的價格在 H100 的 20 倍以內,那麼這個計算似乎成立:WSE-3 具有更好的價效比……但實際上,WSE-3 存在一個問題,即它無法將所有權重(尤其是 LLM 中的權重)儲存在其 44GB 本地 SRAM 中。因此,它有一個稍微複雜的配置,其中透過名為“SwarmX”的專有網路放置了專用於儲存權重的外部儲存伺服器“MemoryX”,並將權重值從 MemoryX 分發到多個 WSE-3。
因此,在比較價格時,需要將 SwarmX(專用交換機)和 MemoryX(最高 500TB)納入系統價格。考慮到所有這些,它實際上比 H100 具有多大的價效比優勢還是有點值得懷疑的。首先考慮核心數量,我認為如果效能與H100略有差異會更好。
Arrow Lake從小晶片中
獲得了什麼價值?
我舉一個大家更熟悉的例子。比較 Raptor Lake、Arrow Lake 和 Ryzen。
Raptor Lake 是單片 CPU 核心和記憶體介面,內部透過環形匯流排連線。在 Arrow Lake 中,記憶體介面被放置在 SOC 圖塊中,包含 CPU 的計算圖塊和 SOC 圖塊使用 Foveros 透過基礎圖塊連線。就 Ryzen 而言,容納 CPU 的 CCD 和容納記憶體 I/F 的 IOD 透過 C4 封裝上的 Infinity Fabric 連線。

那麼,在這種情況下,最昂貴的選擇是Arrow Lake。由於晶片組配置使用計算塊和 SOC 塊,因此 Arrow Lake 的計算塊和 SOC 塊必須為晶片組配備 PHY(物理層)(圖 4)。自然,這會導致tiles或die的成本增加。另外,由於連線需要使用 Foveros,因此需要巨大的基底磚。基底瓦片的尺寸如圖4中紅框所示。簡而言之,與整體式情況相比
由於計算圖塊、SOC圖塊、IO圖塊和GPU圖塊中包含了PHY,圖塊的尺寸將會增加。
你需要一個基本風格
使用Foveros堆疊基礎圖塊和 Compute/GPU/IO/GPU/SoC圖塊會產生額外成本。
這就是說。然而,這些成本可以單獨計算。雖然這些沒有向公眾披露,但如果你自己使用英特爾代工廠,Foveros 的實施成本和使用英特爾 22FFL 的基礎模組的製造成本當然會被披露,而每個計算/GPU/IO/SOC 模組的製造成本都來自臺積電。
現在,這就是成本的計算。接下來是“價值”。使其成為 chiplet 所獲得的價值是:
價值1
基礎塊基於相對便宜的英特爾 22FFL,這是一種具有佈線層但沒有電晶體層的無源塊,因此製造成本相當低。好吧,我們對 Foveros 的成本無能為力,但就是這樣了。毫無疑問,這比用 N3B 製造整個產品要便宜。
價值2
這可能比整體生產更便宜。計算塊採用相對昂貴的 TSMC N3B 製造,而 GPU 塊採用 TSMC N5P 製造,IO 和 SoC 採用 TSMC N6 製造。N6本質上是7nm一代,價效比相當高。
如果 Arrow Lake 採用整體制造,那麼會產生一個尺寸為 11.4 x 25.8 毫米和 294.1 平方毫米的巨大晶片。實際上,計算塊 (3.5 x 6.1 毫米,或 21.4 平方毫米) 旁邊有未使用的空間,因此,如果我們可以移除它併成功重新排列,面積將達到 272.7 平方毫米,如果我們從中移除所有用於晶片的 PHY 部分,我認為我們可以將面積減少到 240 平方毫米左右,但無論我們多麼努力,都無法將其縮小到這個數字以下。
據稱,臺積電N3B的晶圓成本在2萬美元左右,而240平方毫米的晶圓最多隻能生產256片,所以即便良率100%,採用N3B的單片晶片成本也將剛剛超過78美元。我是在 2022 年寫了這篇文章,但即使收益率達到 100%,78 美元多一點的成本價也很難讓人接受。
價值3
建立多個 SKU 很容易。例如,照片 04 中的 Arrow Lake 計算圖塊較大,具有 8 個 P 核和 16 個 E 核,但即使將來為低端建立具有 4 個 P 核和 8 個 E 核的圖塊,GPU/IO/SOC 圖塊也可以無需任何更改地使用。
事實上,Arrow Lake 的 SOC Tile 與 Meteor Lake 的相同,這意味著 Tile 可以跨代重複使用。這樣可以節省驗證等方面的大量精力,並且使用經過驗證的產品將確保穩定執行。
價值 4
透過使用Foveros代替EMIB,可以在基底磚上配置電容器,從而穩定電源(圖5)。穩定的電源也意味著更容易提高工作頻率。

一些示例包括:
現在,計算這個值實際上是 chiplet 最困難的事情。不難看出它比第一個微控制器更便宜。生產多個 SKU 很容易,如果您在為每個 SKU 設計單獨的模具時估算 NRE(非重複工程:一次性過程)成本,那麼很容易比較成本。問題是,關於最後一個電容器,它對穩定執行的貢獻對產品的價值增加了多少?這將非常難以判斷。
小晶片對 AMD 來說值多少錢?
現在我們以 Zen 4 代 CPU 作為另一個例子。該款配備了用於 CCD 和 IoD 的 Infinity Fabric PHY。對於Zen 4代,CCD由臺積電N5製造,IoD由臺積電N6製造。現在,在 Zen 4 版本中,
-
銳龍
-
EPYC
-
MI300A
-
MI300C
透過使用相同的 CCD 並簡單地更換 IoD 就可以建立四種不同型別的產品。如果我們把將其製作成單片結構和小晶片的 NRE 成本加起來,我們大概就可以計算出成本效益了。
不過由於MI300A/MI300C是透過SoIC+CoWoS連線的,所以對效能影響不大,但到了Ryzen/EPYC上,它們是在C4封裝上連線的,無需經過中介層。該領域的效能下降是不可避免的。
圖 1 就是一個例子。結果展示了 Ryzen 7 9700、Core i7-14700K、Core Ultra 7 265K 七個等級產品上 Sandra 20/21 AES 加密/解密的結果。這可以使用 AES 指令進行處理,並且確實使用 AES 指令進行處理,因此在 1T(1 執行緒)執行時,Ryzen 7 9700X 的效能比英特爾產品高出壓倒性。

不過在使用MT+MC(多執行緒+多核),也就是所有核心/執行緒的時候,Infinity Fabric在Ryzen 7 9700X上就成為了瓶頸,總處理效能只能達到25GB/s左右。在此領域,英特爾能夠實現35至36 GB/s的總體效能。這就是能夠透過高頻寬互連來連線 CPU 核心和記憶體控制器的優勢。
現在的問題是,由於 AES256 加密/解密頻寬陷入瓶頸,AMD 透過 Infinity Fabric 連線 CCD 和 IoD 在 Ryzen 上損失了多少價值?這就是問題所在。透過利用 C4 封裝,Ryzen/EPYC 能夠僅通過後處理就輕鬆增加其產品配置的多樣性。此外,由於它是 C4 封裝,因此不需要任何與中介層或基底瓦片等效的東西,從而可以降低製造成本和安裝成本。這是很容易轉化為價值的東西,但績效的下降該如何在價值上體現出來呢?
小晶片的優點和缺點
最終,是否使用小晶片的決定將取決於價值。這一切都取決於使用小晶片是否會增加或減少其價值。因此,如果我們在推進小晶片發展的同時,沒有一個能夠有效地將優點和缺點轉化為價值的標準,也沒有一個能夠轉化價值的方法,那麼我們最終會得到毫無意義的昂貴且賣不出去的產品。
構建chiplet的技術方法論正在逐漸成熟,並且有Alphawave Semi/Broadcom/GUC/Marvell等製造商承擔chiplet的物理設計,因此如果您有資金,使用chiplet構建自己的ASIC並不困難。困難在於缺乏一套成熟的價值轉換方法,也沒有這種方法的通用公式。因為每個公司的情況都不一樣。
例如,AMD 使用 Foveros 沒有任何好處。這是因為臺積電可以使用SoIC。不過對於英特爾來說,使用 Foveros 是英特爾代工業務必不可少的一部分,證明了“Foveros 作為構建實用產品的 3D 實現技術是完全有用的”,這自然也需要算作價值(雖然想想能估算出多少錢就很頭疼)。這還需要一些時間才能成熟。
參考連結
https://pc.watch.impress.co.jp/docs/column/tidbit/1666287.html
END
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4049期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

