公眾號記得加星標⭐️,第一時間看推送不會錯過。

來源:內容編譯自財富。
對於任何在 20 世紀 50 年代或 60 年代(或者 20 世紀 70 年代或 80 年代)從事過計算的人來說,我們在硬體方面取得的進步都是驚人的。
但如果你確實追蹤摩爾定律並真正分析增量加倍的工作原理,那麼這一切都是有道理的。
如果您還記得那個關於聰明人(在某些版本中,指的是國際象棋的發明者)的故事,他要求國王將一粒米的數量翻倍 64 次,您就會明白這是如何發生的——從小而合理的指數級增長開始,最終達到人們最初認為是幻想的境界。
這都是些基礎數學知識,但仍然像個魔術——你不斷移動:1、2、4、8、16、32——最後得到一個比你想象中更大的數字!除了維基百科,我還發現了一段描述這個魔術最初發明者的內容,非常有趣:“(這個故事的)各個版本說法不一,關於發明者是成為高階顧問還是被處決。”
這一理念也已應用於我們新的人工智慧淘金熱——事實上,對於研究人工智慧細節的人來說,雷·庫茲韋爾(Ray Kurzweil)談到的“棋盤下半場”現象正是我想要闡述的核心——最初的數字看起來非常合理,直到你進入序列的一半左右,真正的指數級變化才發生。換句話說,它先是緩慢上升,然後到達一個轉折點,這條線螺旋上升到平流層。
如果你把棋盤上的米粒數量增加一倍,結果是 18 千萬億、446 千萬億、744 萬億等等,你就能得到一個強有力的視覺例子來說明它是如何運作的。
嗯,確切地說,這不是一個視覺示例,因為你不能將所有這些米粒都放入一張圖片中,而是一個關於它如何工作的概念性想法。
我之前寫過關於 Cerebras WSE 晶片的文章,它的大小與餐盤差不多,有大約 90,000 個核心。
IEEE Spectrum 等訊息來源顯示,WSE-2(Cerebras CS-2)每秒可進行約 7,500 萬億次 FP16 運算(7.5 petaFLOPS),而 WSE-3 則可達到 125 petaFLOPS。
這東西拿在手裡非常強大,它展現了並行處理的威力。就在不久前,我們還在使用單核晶片,然後是雙核,再後來是四核。好了,你懂的。
現在我們有了華為 Cloudmatrix 之類的產品,他們對其中一些數字保密,但你憑直覺就知道硬體能力是不可思議的。
我最近參加了 Caleb Sirak 的一場有趣的 TED 演講,這位年輕的創新者將硬體稱為“矽監獄”。
他回顧了硬體加速的歷史,從早期系統(以每秒數百萬次操作為單位)到後來數萬億次,甚至數千萬億次操作。
他指出,從某種程度上來說,這一過程是由遊戲驅動的,但它很快就透過 Nvidia Cuda 和其他設計超越了單一用例。
現在,他建議,是時候與時俱進地做出改變了。
“現在是時候重新考慮整個系統了,”西拉克說。
Sirak 補充說,開拓新型 GPU 的工具之一是量化。
例如,4 位乘法器的效率比 32 位乘法器高出幾個數量級。
他談到了 Cerebras 晶片等創新(在這種背景下),以及如何減少資料傳輸的軌跡以提高人工智慧的效率。
他說:“當每個引數更小時,我們可以在每秒內將更多的引數放入系統中,從而減少記憶體和網路互連的瓶頸。”
他談到了 xAI 的 Colossus,並稱之為實現百萬 GPU 的“路線圖”。然後,我們回到效率問題:
“你可以採用靈活的城市街道網格,容納許多不同的賽車,”他解釋道,“或者你可以擁有一條一級方程式賽道,如果你有一條一級方程式賽道,那麼那張一級方程式賽車的速度就會非常快。”
他報道了各家公司在設計硬體智慧群方面的工作,他將其稱為“智慧叢集”。
他補充道:“我們透過這些人工智慧晶片和這些進步所釋放的力量具有深遠的影響,而日益普及和全球共享的創新至關重要。這場革命的核心是一個極其複雜的供應鏈,從一個大陸的稀土礦物,到另一個大陸的化學品,再到第三個大陸的晶片。”
作為互聯世界的另一個例子,他指出,一塊晶片在最終投入生產之前,可能跨越數十個國家的邊界。對於任何知道臺灣半導體佔據全球最大晶片製造份額的人來說,這都是非常合理的。
無論如何,我們確實正處於硬體加速的“曲棍球棒曲線”階段。敬請期待。
參考連結
https://www.forbes.com/sites/johnwerner/2025/07/23/hardware-acceleration-drives-the-future/
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4105期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟

求點贊

求分享

求推薦
