公眾號記得加星標⭐️,第一時間看推送不會錯過。

來源:內容編譯自semiwiki。
2003年,傳奇計算機架構師邁克爾·J·弗林(Michael J. Flynn)發出警告,但當時業界大多數成員都對此感到遲疑。
眾所周知,CPU 不斷向更復雜的方向發展——例如推測執行、深度流水線和臃腫的指令處理——已變得難以為繼。在一篇題為《omputer Architecture and Technology: Some Thoughts on the Road Ahead》的論文中,弗林預測,計算的未來將不再依賴於日益複雜的通用處理器,而是依賴於簡單、並行、確定性和領域特定性的設計。
二十年後,隨著推測執行的漏洞逐漸暴露,以及人工智慧加速器的興起重塑硬體格局,Flynn 的批評似乎頗具預見性。他倡導架構簡潔性、確定性和專業化,如今已在谷歌、NVIDIA、Meta 等行業領導者以及 Simplex Micro 等新興企業的設計理念中得到呼應。值得一提的是,Thang Tran 博士近期的兩項專利——“具有向量指令時間排程執行功能的微處理器”和“具有靜態排程執行時間計數器的微處理器”——引入了一種確定性向量處理器設計,用基於時間的指令排程取代了亂序推測。
這實現了可預測的高吞吐量執行、更低的功耗以及簡化的硬體驗證。這些創新與 Flynn 的論斷相符:未來的效能提升並非來自複雜性,而是來自嚴謹的簡單性和明確的並行性。
投機的幽靈
(The Spectre of Speculation)
Flynn 對推測執行的批評遠早於 2018 年 Spectre 和 Meltdown 漏洞對整個行業造成衝擊之前。這些側通道攻擊利用現代 CPU 中的推測執行路徑,跨隔離邊界洩露敏感資料——這正是 Flynn 所警告的複雜性帶來的意外後果。推測執行的效能提升是以高昂的代價換來的:不僅在功耗和驗證工作量方面,還在安全性和信任方面。
事後看來,弗林的警告非常有先見之明。早在 Spectre 和 Meltdown 暴露推測執行的危險之前,弗林就認為推測執行是一種脆弱的最佳化:它會引發深度設計顛覆,使形式驗證更加困難,並且功耗與其效能提升不成比例。它所需的複雜性——分支預測器、重新排序緩衝區、推測快取——隨著工作負載變得越來越並行且受記憶體限制,其收益也越來越少。
如今,一場悄然的路線調整正在進行。英特爾等主要晶片製造商正在重新思考其架構優先順序。英特爾的 Lunar Lake 和 Sierra Forest 核心優先考慮效率而非激進的推測,並針對每瓦吞吐量進行最佳化。蘋果的 M 系列晶片採用寬廣的亂序流水線,但它們越來越強調可預測的延遲和編譯器主導的最佳化,而非純粹的推測深度。在嵌入式領域,Arm 的 Cortex-M 和 Neoverse 產品線趨向於簡化的流水線和明確的排程,通常會完全放棄推測邏輯以滿足即時性和功耗限制。
或許最重要的是,開放的 RISC-V 生態系統使新一代 CPU 和加速器設計人員能夠從第一原理出發進行構建——通常無需任何推測。像 Simplex Micro 這樣的供應商正在倡導確定性、低開銷的執行模型,利用向量和矩陣擴充套件或預測排程來取代推測。這些選擇直接體現了 Flynn 的論點:當正確性、效能和可擴充套件性比峰值 IPC 更重要時,簡潔性將勝出。
值得注意的是,Tenstorrent 雖然經常與 RISC-V 創新聯絡在一起,但目前其向量處理器尚未實現確定性排程。他們的架構融合了推測執行和亂序執行以最佳化吞吐量,從而增加了控制複雜度。雖然這提升了原始效能,但卻與 Flynn 所倡導的簡潔性和可預測性背道而馳。儘管如此,Tenstorrent 對特定領域加速和並行性的運用與 Flynn 願景的其他方面相符。

平行未來:
人工智慧晶片與弗林的願景
在人工智慧加速器的興起中,弗林的願景得到了最生動的體現。從谷歌的張量處理單元 (TPU) 到英偉達的張量核心,從 Cerebras 的晶圓級引擎到 Groq 的資料流處理器,趨勢顯而易見:拋棄推測複雜性,轉而擁抱大規模並行、確定性計算。
谷歌的 TPU 正是這種轉變的典範。它摒棄了推測執行、亂序邏輯和深度控制流水線,而是透過脈動陣列(一種高度規則、可重複的架構,非常適合 AI 工作負載)來處理矩陣運算。這種方法實現了高吞吐量和確定性延遲,符合 Flynn 對簡潔且針對特定領域進行最佳化的硬體的訴求。
Cerebras Systems 將這一概念進一步發展。其晶圓級引擎 (Wafer Scale Engine) 將數十萬個處理元件整合到單個晶圓大小的晶片上。它沒有快取層次結構,沒有分支預測,也沒有推測控制流——只有緊密連線的網格上大規模、均勻的並行性。透過最佳化資料區域性性和可預測性,Cerebras 完全符合 Flynn 的觀點,即規律性和確定性是可擴充套件效能的關鍵。
Groq 由 TPU 架構師 Jonathan Ross 聯合創立,圍繞編譯時排程資料流構建晶片。其架構具有極強的確定性:沒有指令快取或分支預測器。所有執行路徑均已預先定義,從而消除了推測邏輯的時序可變性和設計複雜性。最終形成了一個可預測的、軟體驅動的執行模型,體現了 Flynn 對顯式控制和簡化驗證的重視。
即使是曾經完全依賴現成 GPU 的 Meta(前身為 Facebook),也在其定製的 MTIA(元訓練和推理加速器)晶片中融入了 Flynn 式的思維。這些處理器專為推薦系統等推理工作負載而設計,強調可預測的吞吐量和能效,而非純粹的靈活性。Meta 決定自行設計針對特定模型的硬體,這與 Flynn 的主張相呼應:不同的計算領域不應被強制採用“一刀切”的架構。
特定領域的簡單性:DSA 革命
Flynn 還預測計算將分裂成領域特定架構 (DSA)。他預見到,伺服器、客戶端、嵌入式系統和 AI 處理器將不再由單一通用 CPU 來處理所有工作負載,而是演變成針對各自任務而定製的獨特、精簡的架構。
這一預測已成為現代矽片設計的基礎。如今的硬體生態系統充滿了 DSA:
1、人工智慧專用處理器(TPU、MTIA、Cerebras)
2、網路和儲存加速器(SmartNIC、DPU)
3、以安全為中心的微控制器(例如汽車中的鎖步 RISC-V 核心)
4、超低功耗邊緣 SoC(例如 GreenWaves GAP9、Kneron、Ambiq)
這些架構去掉了不必要的功能,最大限度地降低了控制複雜性,並專注於在給定領域內最大限度地提高每瓦效能——這正是 Flynn 概述的設計目標。
甚至 GPU 也朝著這個方向發展。GPU 最初是為圖形渲染而設計的,現在融合了張量核心、稀疏計算單元和低精度流水線,實際上成為了針對機器學習而非通用並行性進行最佳化的 DSA。
簡約的傳承
Flynn 在 2003 年傳遞的資訊非常明確:複雜性不可擴充套件,而簡單性才可擴充套件。如今,從 TPU 到 RISC-V 向量處理器等領先的架構都採用了這一理念,但往往沒有明確提及 Flynn 奠定的基礎。資料流架構、顯式排程和確定性流水線的復興表明,業界終於開始傾聽他的呼聲。
在這個安全性、能效和即時可靠性比以往任何時候都更重要的時代——尤其是在人工智慧推理、汽車安全和邊緣計算領域——弗林對後推測計算的願景不僅具有現實意義,而且至關重要。
他是對的。






































左右滑動檢視更多
參考連結
https://semiwiki.com/artificial-intelligence/356512-flynn-was-right-how-a-2003-warning-foretold-todays-architectural-pivot/
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4075期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟

求點贊

求分享

求推薦
