矽基世界的“緣分”——系統與人工智慧攜手進化

(本文閱讀時間:15分鐘)
編者按:在 NeurIPS 2024 大會上,微軟亞洲研究院院長周禮棟博士發表了題為“矽基世界的‘緣分’——系統與人工智慧攜手進化”的主題演講。他提出了一個前瞻性的觀點:未來人工智慧的突破,不僅依賴於模型和演算法本身,更有賴於與計算機系統的深度融合。圍繞“效率(Efficiency)、可信(Trust)、融合(Infusion)”三大關鍵詞,周禮棟博士闡述了系統與人工智慧之間如何實現雙向賦能、共同演進,從而打破現有技術瓶頸,推動計算機科學邁入以智慧驅動的新紀元。本文基於該演講撰寫,呈現了周禮棟博士對這一協同進化路徑的深刻洞察與戰略思考。
從指數增長的算力到智慧的轉化
在全球掀起人工智慧(AI)熱潮的今天,我們不妨回到一個根本問題——究竟是什麼驅動了人工智慧的崛起?
Ray Kurzweil 在其2005年的著作《奇點臨近》(The Singularity is Near)中給出了一個廣為流傳的答案。他觀察到,計算能力——尤其是每秒每美元所能獲得的計算量——長期以來呈現出指數級增長。他據此大膽預測,到2023年前後,人工智慧將擁有與人類大腦相當的處理能力。這一預測在當時聽起來也許過於理想,但今天看來,已經逐漸接近現實。
Kurzweil 的核心洞察在於,智慧的演進,歸根結底受限於底層算力的供給。而隨著模型、資料與演算法的持續進化,我們越來越清晰地意識到單純的算力增長並不足以轉化為真正的智慧。真正的挑戰在於,我們如何有效地將計算能力“變現”為智慧能力。
這一“轉化機制”並非自動發生,它依賴於演算法的創新,也離不開系統的支撐。系統不僅負責排程資源、管理複雜性,更決定了算力釋放與智慧實現之間的效率與可達性。換言之,系統是智慧得以生根發芽的土壤。
長期以來,我們往往將人工智慧與計算機系統視為兩個平行甚至割裂的研究方向。然而,隨著 AI 能力的持續提升和資源需求的指數增長,這種二分的視角已經難以為繼。現在,是時候重新審視二者的關係——它們不僅需要協同,更應共同進化。
人工智慧與計算機系統的協同進化
回顧過去幾十年,人工智慧和計算機系統的進化並非步調一致。上世紀90年代,人工智慧曾一度陷入長達二十多年的“寒冬”,演算法停滯、資金匱乏、研究熱度驟降。但就在 AI 逐漸被邊緣化的這段時期,計算機系統卻在持續拓展自身邊界,孕育出一系列為未來智慧應用奠定基礎的關鍵技術。
我們見證了多媒體計算的崛起、面向平行計算的 GPU 迅猛發展、全球資訊網的誕生、網路搜尋的普及,以及大資料和雲計算基礎設施的廣泛部署。每一項系統層面的突破,儘管其初衷未必是直接服務於 AI,但最終都成為了後者“甦醒”的溫床。尤其是在系統層面構建的大規模分散式計算能力,讓人工智慧重新煥發出生命力。
AI 並不是在真空中崛起的,它的“再度覺醒”離不開系統幾十年的厚積薄發。沒有高吞吐、低延遲的分散式系統,沒有 GPU 架構與並行程式設計的進步,就沒有實現今天能訓練百億引數大模型的可能。
這也提醒我們,系統與人工智慧從來不是單向依賴的關係。兩者的歷史是交錯演化、彼此推動的。系統為 AI 的騰飛提供了算力和基礎設施,AI 也在逐步改變我們構建和使用系統的方式。從最初的依賴,到如今的共生,系統與 AI 之間正在形成一種前所未有的協同關係。
計算機系統的進化歷程
隨著人工智慧的迅猛發展,尤其是“規模法則”(scaling law)的提出,我們見證了 AI 能力的指數級提升。擴充套件法則揭示了只要不斷擴大模型規模、訓練資料與計算資源,AI 的效能便會持續躍升。這一趨勢推動了人工智慧的快速突破,同時也對底層計算機系統提出了前所未有的挑戰。
為了支撐指數級增長的智慧需求,計算機系統必須隨之演化:既能夠在硬體層面提供更強的計算力,還要在系統架構上具備更高的伸縮性與靈活性。
但要真正理解“系統”,不能僅將其等同於強大的 GPU、雲平臺或程式設計工具鏈。對真正從事系統研究的學者而言,系統更是一種“思維方式”——一種管理複雜性、構建秩序的哲學。正是這種系統思維,使我們能夠在眾多複雜元件和高度動態的相互作用中構建出可控、可靠且具擴充套件性的結構。
過去幾十年中,系統研究積累了豐富的原則與機制,如抽象分層、關注點分離、容錯設計與資源隔離等。這些原則幫助我們構建了從作業系統到雲服務的一系列關鍵基礎設施。但隨著 AI 帶來的計算複雜度與動態性不斷上升,傳統的系統設計方法正逼近邊界。我們越來越難以依賴經驗法則預見系統行為,也很難再以線性的方式將系統擴充套件到下一個數量級。正如攀登高峰一般,系統的擴充套件不是線性爬坡,而是一次次“回到山腳”,重新建立假設與架構、重新規劃路徑與工具。每一次跨越數量級的系統升級,本質上都是一次系統的重新再造。
在這個過程中,我們也逐漸意識到,人工智慧不僅是系統的負載和挑戰,更可能成為新的“系統夥伴”。面對系統擴充套件過程中的複雜性、不確定性與非線性,人工智慧有望輔助規劃、最佳化決策、自動調參、系統實現和維護,甚至參與設計。
系統為 AI 提供執行的土壤,AI 也將在反哺系統設計中發揮越來越大的價值。這是一個深層次的共生過程,也是計算機科學走向新紀元的前奏。
圍繞三個核心目標實現協同進化
人工智慧與計算機系統如何從“相互依賴”走向“協同進化”?這一問題的答案正逐漸清晰:我們必須跳出以往單點突破的思維方式,轉向系統性、結構化的協同創新路徑。
圍繞“效率(Efficiency)、可信(Trust)、融合(Infusion)”三個核心目標,我們看到了一條可行的進化路線。這三個維度並非孤立存在,而是共同構成了人工智慧與系統之間相互增強、螺旋上升的基礎結構。它們代表著我們從演算法與模型出發,逐層深入軟體、系統與硬體,最終實現從設計理念到工程實踐的整體躍升。
這不僅是一場技術的整合,更是一次正規化的重塑:系統不再只是 AI 的“承載平臺”,而是 AI 自身演進機制的一部分;AI 也不再只是運行於系統之上的應用,而是成為推動系統持續演化的內在引擎。以下將從效率、可信和融合三個角度展開,具體探討人工智慧與計算機系統如何在技術路徑上邁出協同進化的實質性步伐。
一、效率
儘管人工智慧近年來取得了飛躍式進展,但其能效與靈活性仍遠不及人類大腦。我們希望縮小兩者之間的數量級差距,讓人工智慧既可以在雲端高效執行,也能廣泛部署在終端裝置中,實現“隨處可用”的智慧體驗。要實現這一目標,離不開模型架構、系統軟體與硬體設計的協同突破。對於系統研究者而言,這意味著我們必須打破傳統分層設計的侷限,推動更深入的跨層協作。這種跨層的系統性思維,為人工智慧效率的持續躍升奠定了堅實的基礎。
在模型架構方面,微軟亞洲研究院近年來聚焦於極低精度表示的探索,並創新性地提出了基於三元表示(-1,0,1)的 BitNet 架構。該架構支援 1-bit 大語言模型(LLMs)的訓練與推理,且隨著模型規模的擴大,其效率優勢愈加顯著,效能可與同規模的全精度模型媲美。
但只有模型上的創新遠遠不夠。如果新架構仍執行在傳統的軟硬體堆疊上,那麼其效率優勢將大打折扣。為此,我們的系統團隊引入了基於查詢表(Lookup Tables, LUT)的執行機制,在不更改現有硬體的前提下實現了計算效率的大幅提升,並顯著降低了能耗,使得諸如 BitNet 這樣的超高效模型能夠在普通的個人電腦乃至邊緣裝置上執行。
這些工作背後,離不開系統研究團隊與 AI 團隊的密切協作——從架構設計初期就引入系統反饋,促使模型設計與系統實現協同演進,構建起一個貫穿演算法、軟體與硬體的高效路徑。更進一步,當前主流的 AI 模型多為 GPU 架構最佳化而設計,但要實現效率極限,還需打破模型架構與硬體平臺間的強繫結。這就需要新的抽象與中間表示形式,以實現模型與硬體的解耦,從而為模型設計和硬體開發提供更大的自由度。這同樣離不開系統研究者與 AI 研究者之間長期、深入的協同合作。
二、可信(Trust)
對於計算機系統,“可信”一直是一個關鍵的要素,意味著系統必須可靠、準確、符合預期。我們總在儘可能地確保所使用的系統足夠可信,即使某些部件可能存在缺陷,或者系統受到惡意攻擊。但在人工智慧介入後,情況變得更加複雜,同時也帶來了新的創新機遇。
既然系統具備強大的“可信”特質,那麼是否能將其借鑑到人工智慧中?
我們不妨從系統實現可信性的基礎入手。在系統領域,我們總是努力建立一個儘可能小的可信計算基(Trusted Computing Base, TCB),並透過引入驗證器(verifier)來檢查系統的關鍵屬性是否符合預期,從而驗證其可信性。這種“信任但驗證”(trust but verify)原則同樣可用於人工智慧,以應對其固有的隨機性和創造性(即“幻覺”)所帶來的挑戰。我們可以構建一個獨立於人工智慧系統之外的可信計算基,並在其中部署驗證器,然後對人工智慧生成的內容進行驗證,確保只有可驗證的正確輸出才能被接受。
系統的另一大優勢在於能夠提供即時、直接、準確且可復現的反饋。這種反饋不僅完全符合預期,而且在相同輸入條件下始終能夠產生相同的結果。相比之下,人工智慧的應用往往難以提供這種確定性反饋。人工智慧的許多工仍依賴人類監督(如強化學習中的人類反饋,RLHF),或者需要等待模擬結果,而這些結果可能不夠準確;在某些情況下,還需要建模物理世界,甚至依賴於系統外的生物或化學變化過程。
近年來,基於形式方法(formal methods)和形式驗證(formal verification)的研究得到了廣泛關注,並在可信系統的構建上取得了顯著進展。例如,在微軟雷德蒙研究院的最新研究中,研究員們提出了在 Rust 程式碼中新增基於邏輯的註釋,以確保程式碼能夠滿足特定的規範。這些註釋包括前置條件、後置條件和不變數。研究員們還開發了一個名為 “Verus” 的驗證器,用於自動檢查程式碼的正確性。這種方法只需在程式碼中新增形式驗證元件,看起來就像是對程式語言的一種擴充套件。
這些研究讓我們看到人工智慧不僅能夠生成程式碼,還能進一步生成可以被驗證為正確的程式碼的可能性。這成為我們一個重要的研究方向。然而,這是一個極具挑戰性的任務。研究員們手動建立了150個任務作為基準測試,最初基於 GPT-4 的實驗結果顯示,即便在各種最佳化的提示下,GPT-4 也只能成功處理不到30%的任務。但從積極的角度來看,我們已經邁出了第一步。我們的目標是利用驗證系統的反饋機制,使人工智慧能夠學習如何生成可證明其正確性的程式碼。大語言模型在嘗試不同策略方面具有天然的優勢,透過不斷地接受正確或錯誤案例的反饋,人工智慧可以逐步掌握如何編寫符合形式驗證要求的程式碼。經過持續的迭代和反饋迴圈,在同一個基準測試中人工智慧的成功率不斷提升,已達到90%以上。但這只是一個階段性的里程碑,不表示人工智慧已經擁有產生可驗證程式碼的能力。

最終,我們希望人工智慧能夠掌握形式方法的嚴謹思維模式,並提高其整體推理能力。我們相信,這一研究方向在提升人工智慧可信性的同時,也為人工智慧與計算機系統的進一步融合奠定了堅實的基礎。
三、融合(Infusion)
透過與人工智慧的深度融入,打造更強大、高效且可靠的新一代系統,是我們對未來系統演進的核心願景之一。人工智慧與系統的融合將催生出一種全新的系統設計正規化:人工智慧擅長從複雜資料中發現規律、提出創見性建議;而系統具備將這些建議驗證、編譯、反饋並最終落地的能力。正是在這種反饋閉環中,系統與人工智慧得以實現雙向賦能。

事實上,我們已經在多個系統場景中實踐了這一融合路徑。例如,在分散式人工智慧系統基礎設施中,“聚合通訊”(collective communication)作為關鍵元件,其排程效率直接影響整體效能。在模型訓練和推理過程中,聚合通訊通常佔據總執行時間的30%至70%。然而,最佳的通訊排程方案高度依賴硬體架構與模型負載的組合,手動為每一種組合最佳化排程不僅耗時巨大,還需具備極高的系統專業知識。
傳統的人工智慧方法尚不足以獨立完成通訊排程程式碼的自動生成,而透過融合人工智慧與系統的能力,我們提出了一種新的設計模式。以 OptiFlow 專案為例,我們定義了一套可學習的通訊排程抽象,人工智慧根據系統反饋不斷提出新的排程方案,系統則負責驗證、編譯並反饋執行效率,驅動 AI 迭代最佳化。該系統已在微軟 Azure 雲上成功部署,自動生成的排程策略完全可以達到或優於人工設計,並將工作效率提升了一個數量級。

同樣的融合方法也可以被應用於擁塞控制領域。在諸如 WebRTC 這類對即時性和頻寬控制要求極高的場景中,我們讓人工智慧根據系統反饋生成擁塞控制策略,並由系統進行驗證和執行。結果顯示,AI 設計出的方案在效率和體驗上顯著優於人類專家的設計。
這些例項揭示了一種新的可能性:透過系統與人工智慧的深度融合,我們正邁向一個雙向協作的新正規化。這種正規化既發揮了人工智慧在模式識別和生成上的優勢,也保留了系統在驗證、控制和執行路徑上的穩定性。未來,若能進一步將這種協同正規化系統化,我們就有望將人工智慧嵌入到更多關鍵計算系統中,從而催生出新一代真正以智慧驅動的系統基礎設施。
結語
人工智慧與計算機系統的結合,是科技演進的趨勢,更是一場深刻的正規化轉變。圍繞“效率、可信與融合”這三大核心目標,我們已經在模型設計、系統驗證和協同最佳化等多個維度取得了積極進展。我們看到,系統為人工智慧提供了更高效、更可信的執行土壤,而人工智慧也在重塑系統的設計理念與實現方式。
但這只是協同進化的起點。更大的挑戰仍在前方:我們如何構建具有學習能力的系統,使其能夠不斷自我演化?我們如何讓人工智慧具備工程理性與邏輯約束,使其成為真正可控、可驗證的智慧體?我們又該如何將這一協同機制系統化,使其能夠適應千變萬化的現實場景?
我堅信,人工智慧與系統的融合,不是一個取代與被取代的過程,而是一種雙向賦能、互為映象的關係。只有透過協同設計、共同進化,我們才能真正突破當下的技術瓶頸,邁向一個由智慧與系統共塑的未來。那將是一個以智慧為驅動、以系統為保障的計算新時代!
本文作者
周禮棟博士現任微軟公司全球資深副總裁、微軟亞太研發集團首席科學家、微軟亞洲研究院院長。
你也許還想看:

相關文章