AI到底會“吃”掉多少電?

   1.21‍‍‍‍‍‍‍
知識分子
The Intellectual
  導  讀  
《科學四十人》系列座談(左起,楊富強、李勇、陳雲霽、丁肇豪、張永平)
無論是否支援人工智慧(AI)的發展,我們都難以忽視一個重要的問題,那就是AI的能耗。
關於AI的能耗,一篇廣為流傳的報道稱,ChatGPT 每日耗電量或超 50 萬千瓦時,相當於1.7萬個美國家庭的能耗。還有研究估算,在最糟糕的場景下,未來谷歌AI的能耗將與像愛爾蘭這樣的國家相當。然而另一方面,也有觀點認為媒體和大眾選擇性關注估算結論較為誇張的研究,並將對AI能耗的擔憂視為社會對新技術慣有的反應。
人工智慧日新月異、能源領域錯綜複雜,二者關係的都是人類未來。大模型的高速發展對電力系統的衝擊究竟有多大?大模型時代,如何提升AI系統的能效?AI基礎設施和電力基礎設施有哪些需要協調的地方?具體面臨哪些挑戰?
圍繞這些問題,《知識分子·科學四十人》系列座談邀請到清華大學電子工程系教授、城市科學與計算研究中心負責人李勇,中國科學院計算技術研究所副所長、處理器晶片全國重點實驗室主任陳雲霽,華北電力大學電氣與電子工程學院教授丁肇豪,能源基金會清潔電力專案主任張永平參與討論,主持人為北京大學氣候變化與能源轉型專案高階顧問楊富強。威廉與佛洛拉·休利特基金會Edit Ruano致辭。
以下為論壇實錄。
●                  ●                   
楊富強:今天我們探討人工智慧(AI)與能源之間的關係。AI這個概念對大家來說已經耳熟能詳,我們幾乎每天都在討論。然而,要深入全面理解AI,可能許多人還難以做到。我們有幸邀請到了四位專家,他們將為我們闡釋AI與能源之間的聯絡。我們相信,AI不僅會推動工業革命,還會對能源革命、經濟發展、政治和文化等多個領域產生深遠的影響。這既是一個巨大的挑戰,也是一個巨大的機遇。
今天我們將討論的焦點放在能源與AI的結合上,探討AI能為能源行業帶來什麼,以及能源如何反過來促進AI的發展。先請各位嘉賓介紹一下各自研究應用。
北京大學氣候變化與能源轉型專案高階顧問楊富強
李勇:我來自清華大學電子工程系,我們系在電子晶片算力等領域有著深厚的基礎,研究工作涵蓋了從晶片架構設計到電子光子基本原理,再到工藝流程等多個層面。在人工智慧迅速發展的今天,這些研究方向顯得尤為重要。
雖然我在電子工程系工作,但我的研究並不涉及晶片硬體,而是聚焦於如何有效利用晶片算力。過去十多年的研究,我逐漸將研究重點放在了城市領域,因為城市是一個數據的寶庫,擁有大量的影片和其他模態資料。王堅院士曾提出,城市可能是世界上最“吃”算力的地方。因此,我選擇城市科學與計算作為我的研究方向。為此,我們系成立了城市科學計算研究中心,專注於處理和分析城市資料,以期實現城市智慧化。
目前,城市發展正面臨兩個重要機遇:智慧化和能源轉型。智慧化是我所在的研究所的主要研究領域,而能源領域則對城市變革產生深遠影響。隨著清潔能源在能源結構中所佔比例的增加,它已成為全球實現碳中和目標的關鍵路徑。
從資訊的角度來看,物理世界的構成包括時間、空間、物質、能量和資訊。能量與資訊之間的轉換關係與我們今天討論的能源和智慧緊密相關。因此,在進行產業轉換時,我們考慮的是如何利用智慧技術幫助能源行業更有效地利用能源。基於這一理念,我們也孵化了一家名為清鵬智慧的產業公司,主要關注如何運用人工智慧技術,將清潔能源與現有的電能、水能等主流能源形式整合,形成一個統一的能源系統。
清華大學電子工程系教授、城市科學與計算研究中心負責人李勇
陳雲霽:今天討論的兩個主題——電力能源和電子層面的晶片——實際上和我的前半生、後半生似乎有著緊密的聯絡。我的父親曾在江西省電力局下屬的事業單位江西電力試驗研究所工作,現在這個單位叫江西省電科院。我從出生直到上大學之前,都生活在江西省電力局的院子裡。
小時候,我爸常帶我去電廠,有時我們會在那裡住上兩週。我一直認為電廠是人類歷史上最偉大的創造之一。作為能源的中心,電廠也可以被看成是世界的中心。就像心臟透過血管將能量送往人的全身,電廠透過鐵塔將能源輸送到世界各地四面八方。
雖然沒有機會從事電力行業,但我從2002年開始涉足了一個與電力有一點點關聯的研究領域:如何減少晶片耗電量。包括後來我們開發了國際上首個專門用於深度學習的處理器晶片,初衷就是尋找更節能的方式來執行深度學習任務。從那時起過去了二十多年,包括晶片設計、計算機科學、電子工程和演算法研究等多個領域的專家共同努力,今天的晶片在處理神經網路操作時所需的能耗已經降低了100倍甚至更多。然而,隨著大型模型的出現,對算力的需求增長速度遠遠超過了我們降低能耗的速度。
中國科學院計算技術研究所副所長、處理器晶片全國重點實驗室主任陳雲霽
丁肇豪:我所在的單位是華北電力大學新能源電力系統全國重點實驗室,主要研究的是新能源為主體的新型電力系統。我的工作主要是從電力系統的角度出發,探討算力基礎設施與電力系統之間的關係,我們將其總結為“算電協同”。2017年我們就開始討論這個概念,那麼具體是如何協同的呢?
我的工作分為兩個方面。從算力角度來看,我們研究如何讓算力基礎設施,也就是AI的基礎,更多地利用新能源,尤其是那些波動性的可再生能源。簡單來說,我們探討的是如何讓一些可以中斷或者可以改變地理位置的算力任務,根據新能源的時間和空間分佈調整,從而更多地使用新能源。這相當於重新塑造算力負載的時空佈局,使其能夠更好地利用新能源。
從電力系統的角度來看,隨著AI技術的發展,其電力負荷可能會佔據全社會負荷中的很大比例。那麼,電力系統需要靈活性和調節能力,讓這些AI基礎設施的電力負荷跟隨電力系統的需要而調整。比如一天之中,電力系統需要調峰、調頻。我們的工作是讓算力基礎設施透過調整計算任務來改變它們的電力負荷特性,將這些原本可能給電力系統平衡帶來挑戰的AI負荷,轉變為對電力系統平衡產生積極支撐作用的靈活負荷。
華北電力大學電氣與電子工程學院教授丁肇豪
永平:我的專業背景是電力系統,讀書時在電機系學習。與電子系、計算機系和自動化系這些所謂的弱電專業有所不同,我們專注於強電領域。當時計算機、電子這些專業是熱門專業,我們常開玩笑說,你們再怎麼發展,只要我們把電斷了,你們啥也幹不了。畢業後,我一直在電力系統和電力市場領域工作。
我在能源基金會工作負責清潔電力專案。我們的使命是推動可再生能源的發展,以取代化石能源,以應對氣候危機。這是一個複雜的挑戰,不僅僅是建造風電場和光伏電站,然後關閉煤電廠那麼簡單。首先,我們需要關注中國電力系統需求的變化,尤其是電力負荷的增長,每年以5-10%的速度快速增長。資料中心目前已經佔到2-3%的用電量,而AI智算中心用電增長可能更快。
這不僅是用電量的問題,更重要的是用電的負荷特性。資料中心的用電曲線相對平穩,這對電力系統來說是理想的,而且傳統的火電等電源相對容易調節,去滿足資料中心的用電需求。但我們希望使用波動性的可再生能源,如風能和太陽能,來滿足未來資料中心的能源需求,這就帶來了挑戰:如果用電需求不能調節,而供給又是波動的,我們該怎麼辦?我們正在研究如何利用波動性的可再生能源滿足不同型別的用電需求,特別是資料中心的需求;探討是否能夠讓資料中心的用電也變得可調,這是個有趣的話題。
能源基金會清潔電力專案主任張永平
AI能耗是一種真實的“威脅”嗎?
楊富強:國際能源署(IEA)最近釋出了2024版的全球電力報告,發現2022年的全球資料中心和人工智慧大約消耗了全球總用電量的1.6%,而且增長迅速。各位老師怎麼看,將來會如何?
陳雲霽:我先分享一個的觀點,這個觀點是從科學院的於海斌院士那裡聽來的。他提出了一個關於當前人工智慧領域的不等式,就是從重要性來說,AI殺手級應用大於大模型,大模型大於算力,算力又大於電力。這個不等式反映了人工智慧的現狀。
儘管AI很熱,已經能幫我們改個稿子,但在實體空間中,尤其是在工業、生產和生活服務等領域,我們對於真正殺手級的應用還是非常非常迫切需要的。所以應用的重要性最高,同時也是最缺乏的。接下來是大模型。然後是晶片。最後是電力。今天我們還沒有聽說過有哪個很好的大模型應用因為電力不足而關門不幹的。
再過十年,這種重要性可能會發生逆轉。我們可以預見,十年後,人工智慧深入到實體經濟和我們生活的各個角落,殺手級應用非常普遍。隨著應用數量的增長,對電力的需求將遠遠超過現在。人工智慧應用目前主要侷限於數字空間,但如果它們進一步滲透到工廠、家庭、醫療和農業等社會各個方面,電力消耗的佔比可能不再是1.6%,而是16%甚至更多。到那時,重要性的順序可能會顛倒過來:電力將成為最關鍵的因素,其次是算力,然後是模型,最後才是應用本身。
楊富強:我們經常講說,AI的盡頭是能源。
陳雲霽:當然今天AI最重要的還是做出殺手級的應用,但在未來十年或二十年後,AI的盡頭一定是能源。到那個時候,我們可能需要一些調整,以資料中心為例,根據新能源供應來調整我們的操作頻率。比如,我們現在使用大模型,提出一個問題,它咔咔咔給我們回一堆。那麼,在新能源供應充足時,我們可以讓它更快地響應;而在新能源供應不足時,我們可以讓它稍微慢一些。
此外,大模型的使用實際上分為兩個階段:訓練和推理。訓練是將大量資料輸入模型,使其變得更加聰明;推理則是我們真正向大模型提問,得到答案。
楊富強:現在哪一個階段更耗電?
陳雲霽:訓練現在花的電很多,但是以後推理會更多。推理對響應時間的要求是即時性的,我們向AI提一個問題,希望它能立即給出答案。相比之下,訓練雖然同樣重要,但並不需要馬上完成。OpenAI訓練一個模型可能要花好幾個月,我們可以在新能源供應充足時多跑一跑。
楊富強:AI的能耗可以隨著可再生能源的供應變化而調整,或者根據能源供應情況來安排演算法的執行順序,比如決定何時進行訓練。
李勇:目前人工智慧技術的能耗在整個社會能源消耗中佔比並不大,資料中心只佔全社會能源消耗的1-2%。人工智慧替我們人類每天做的事,也還不到1%。但隨著技術的進步,我們預計在未來十到二十年,這個比例可能會提高到40-50%。相應地,能源消耗的比重也可能增加到社會總能源消耗的20-30%。隨著時間的推移,這個比例可能會繼續增長。因此,雖然能源問題目前尚未成為危機,但未來肯定會成為一個重大問題。我想補充一些證據來說明我們這個討論的重要性。
我們剛才提到了一個關鍵問題,即人工智慧中的“能”與能源中的“能”之間的關係。這種關係涉及到我們如何在晶片和能源角度實現節能。能源角度的“能”是指能量,而人工智慧的“智慧”實際上是關於能力。這對應於物質世界構成中的兩個重要概念:能量和資訊。人工智慧的能力本質上是提供資訊。為了更好地節能,我們需要將能量更好地服務於能力的產生,這就需要打通能量和資訊之間的聯絡。
從物理學的角度來看,物質可以轉化為能量,再轉化為資訊。我們已經有一個完整的體系來描述時空、物質和能量,但與資訊,即與我們今天討論的人工智慧能力之間,還存在很大的差距。我們今天討論的話題就是探索資訊和能量之間是否可能產生更大的聯絡,形成一個整體。從物理學的基本概念來看,能耗問題涉及的是瓦特(功率單位),而人工智慧的涉及的是位元(資訊單位)。為了實現節能,我們需要在這兩個方向上努力。
“追漲殺跌”?
在電網最脆弱的時候,萬卡叢集不僅救不了它,
反而雪上加霜
肇豪:從電力行業的角度來看,人工智慧和資料中心的能耗其實經歷了許多變化。在2022年底ChatGPT出現之前,儘管數字經濟和人工智慧發展迅速,但在心底裡,電力行業對資料中心帶來的電力負荷增長還是持有相對平穩的觀點。突然,ChatGPT的出現讓人們意識到這可能是一次改變人類社會的工業革命。從我們電力人來看,未來可能會出現許多殺手級應用,即使是尚未出現,許多企業也已經開始跑馬圈地,為這些潛在的應用準備資料中心。
大量的資料中心,或者說智算中心,開始湧現。這對電力行業帶來了顯著的變化。從電力供應總量的角度來看,電力行業需要調整電力電量平衡模型。今年夏天,在IEEE電力與能源協會年會(PES GM:IEEE Power & Energy Society General Meeting)上,PJM電力規劃負責人分享了他們的經歷。由於PJM涵蓋了美國主要資料中心的富集區,他們突然發現需要對電力規劃做出重大調整,因為許多新的資料中心需要接入電網,而現有的輸電能力和電能供應能力無法滿足這些新的需求。同樣的問題也出現在美國德州,許多大型資料中心希望接入電網,卻發現電網沒有預留足夠的輸電通道能力,也沒有足夠或穩定的電源供應。
然而,我想進一步討論的是,人工智慧的發展對電力系統的影響遠不止於此。在即時電力平衡方面,資料中心的發展也產生了重大影響。我舉一個例子,許多新的資料中心規劃已經達到單個數據中心百兆瓦,甚至超過百兆瓦的規模。這些萬卡、十萬卡叢集預訓練時的功耗非常大。
楊富強:相當於一箇中小城市了。
丁肇豪:相當於一個小城市級別。與其他型別的負荷相比,資料中心的能耗還有一個顯著特點:比如Meta在訓練自己的模型時可能會因為各種原因暫停多次,每次暫停都可能導致瞬間百兆瓦級別的電力負荷波動。在配電網層面上,這種波動是前所未有的,以前電網並沒有足夠的能力來應對這種問題,這是一個全新的挑戰。這種波動不僅關係到電力供應是否充足,還可能對電網安全造成衝擊。再比如,GPU叢集有可能不具備電壓/頻率穿越能力,在電網出故障的時候不僅不能支撐電網,反而可能給電網造成更大的問題。
陳雲霽:股市裡面叫“追漲殺跌”,對吧?
丁肇豪:確實是。這些因素疊加起來對我們電力系統的瞬時平衡產生了重大影響。資料中心在增長,我們電力和能源行業需要進行中長期的預測和規劃。這涉及到:首先,從總量上評估,包括電源的供應和輸電通道的建設是否能夠滿足需求;其次,考慮資料中心在電力系統中佔比增大後對系統的影響,以及是否擁有足夠多的手段來平衡。
陳雲霽:既然資料中心的能耗如此之大,未來資料中心的運營者是否可以自己建立電站或者發電機組?就像我小時候,我爸經常參與建設30萬千瓦的發電機組。那以後,每個AI資料中心是否都可以自己建立一個電廠?
丁肇豪:自從當年比特幣挖礦流行以來,就有人提出了類似想法,比如自己搞個小水電站,降低挖礦成本。但資料中心的情況有所不同,因為需要穩定可靠的電力供應。即便資料中心自己建立了發電廠,最終還是需要至少一條線路或兩個迴路接入大電網。自建的風光發電廠不是非常穩定,其產生的電力波動最終還是會映射回大電網。無論自己建還是別人建,只要存在波動性,大電網就必須做出反應。
吃兩三碗飯的人腦
和“吃”很多很多電的AI
楊富強:在資料中心的整個能源消耗過程中,哪個環節的電力消耗最多?又有哪些環節是比較容易實現節電的?
陳雲霽:從資訊處理的角度,我們可以將能源消耗分為兩大類:資訊傳輸和資訊計算與處理。目前,大模型的資訊處理能耗相對較高,遠超資訊傳輸的能耗。但是,未來隨著計算晶片效能和功耗比的提升,這種狀況是可能發生變化的,資訊傳輸成為核心問題。目前,計算能耗佔據了主導地位,這引發了一個疑問:為什麼計算機的能耗總是遠高於人腦?人腦僅消耗約20瓦的功率,每天吃兩三碗飯就能幹很多事情,而計算機則需要更多。
我想引用傑弗裡·辛頓(Geoffrey Hinton)的觀點,他是一位獲得過圖靈獎的科學家,最近也拿到諾貝爾獎。辛頓提出了一個有趣的觀點,即“凡人計算”(mortal computation),涉及到物質與資訊之間的關係。人腦中的物質與資訊是強耦合的,軟體和硬體是繫結在一起的。人腦中的思想和資訊都附著在物質上,如果一個人去世,這些資訊就會隨之消散。而計算機則不同,軟體和硬體是分離的,資訊可以從一個硬體複製到另一個硬體,但我們不能把一個人大腦裡的東西複製到另一個人的大腦裡。
辛頓認為,軟硬體的分離是導致計算機在處理神經網路時能耗特別高的一個重要原因。順著他的思路我再往下想,如果未來我們能夠開發出一種計算機,其軟體和硬體完全一體化,可能只能處理特定的模型,不具備通用性,類似於人腦中物質與資訊的緊密結合,那麼能耗可能會大幅降低。總之,我想從人腦中汲取靈感,可能會幫助我們進一步提高計算效率。
李勇:從產業生態的角度來看,當前以大模型為代表的人工智慧技術的整體能耗主要涉及兩個階段:訓練和推理。目前,主要的能耗集中在訓練階段,而推理階段的能耗預計將在未來有顯著增長。從晶片使用的角度來看,無論是訓練還是推理,都需要大量的算力,也就是GPU/DPU卡。
兩者之間有一個重要區別:訓練的時效性是可控制的,可以今天進行,也可以推遲到明天,甚至一個月後完成,時間上的靈活性較大。相比之下,推理階段與業務即時繫結,對響應時間有嚴格要求。因此,推理對底層硬體的要求更高。這也意味著在訓練階段,算力和能耗的協同最佳化有更大的空間,東數西算的策略在這裡可以發揮作用。例如,在西北地區有豐富的風能和太陽能,可以在能源充足時計算,能源不足時則減少計算。
對於訓練階段,根據能源供應情況調整計算量的做法是可行的。但對於推理階段,這種場景可能並不適用,實現算電協同的挑戰更大。我的初步想法是,風、太有不確定性,是否可以利用核能來彌補,長遠解決這個問題。
陳雲霽:此外,我們的計算可以變得更專用化。過去十年來,晶片設計領域有一個明顯的趨勢,就是專用體系結構變得越來越重要。回想二三十年前,我們幾乎所有的計算任務都是透過通用CPU來完成的,就像瑞士軍刀,什麼都能幹,但每一樣都不是最好的。到了人工智慧時代,專門為人工智慧設計的晶片,如GPU、NPU等,已經成為處理AI任務的主流選擇。
未來,我們可能會進一步專用化。為大模型設計專門的晶片,甚至為某個特定大模型定製晶片,如果能夠實現,越是專用晶片,能效一定越高。舉一個極端的例子,假設我們未來訓練出了一個非常好的大模型,這個模型本身就具有足夠的通用性,能夠處理各種任務。那麼,我們是否可以為這個特定的大模型定製一個晶片,讓它只能跑這一個大模型。如果是這樣,它的能效可能比現在的GPU還要高出100倍甚至1000倍,從而可能解決我們未來長遠的問題。
但是現在我們還不能這麼幹,因為大模型的演進速度太快了。今天是GPT-4,明天是GPT-4o,後天是Sora……大模型的發展仍然處於一個快速變化的階段。如果未來大模型的發展逐漸穩定,出現了一個主導性的、基本收斂的大模型,那麼我們晶片設計者就可以為它專門定製晶片了。
從源隨荷動到源荷互動
張永平:我們支援了一些資料中心相關的專案,出發點是將資料中心視為一個重要的電力負荷,並關注如何用綠色、清潔的可再生能源來滿足這些負荷需求。
首先,從需求層面來看,資料中心,尤其是提供AI算力的智算中心,已經成為了高耗能產業,其能耗問題也備受關注。資料中心的能耗涵蓋了晶片、IT裝置、空調製冷、備用柴油發電機、不間斷電源等多個方面。目前,資料中心的能效已經相對較高,領先的資料中心的PUE指標已經接近1.1,這意味著進一步提高能效的難度很大。但我們不能因為高耗能就抑制資料中心的發展,就像不能因為電動汽車充電多就不讓它充電,不是這個邏輯。
其次,從供給層面來看,我們如何從能源,特別是電力的角度來滿足資料中心的用電需求,特別是綠色需求。資料中心的用電需求量大,且在某些時段用電量非常高,這與核電,尤其是中小型、模組化核電的供電特性非常匹配。在美國,OpenAI、Google、Meta等公司已經在投資核電,以滿足未來的AI資料中心的用電需求。在中國,我們也在探索如何利用可再生能源來滿足資料中心的綠色用電需求。例如,許多資料中心的屋頂上都裝有光伏板,但這隻能滿足一小部分電力需求,杯水車薪。為了使用更多的綠色能源,可以考慮建立大型園區,或者利用附近的風電和太陽能,這就需要配置儲能系統來平衡可再生能源的波動性。同時大電網的兜底保障也還是必需的。
此外,如果資料中心附近沒有可再生能源,可以透過購買綠色電力憑證或者透過金融手段來滿足需求。還有一個趨勢是,國家鼓勵將資料中心遷移到可再生能源豐富的地區,如西北地區,這樣可以減少電網傳輸的需求,使得用電需求與清潔電力供給更加接近,用電成本更低,也助力可再生能源就地利用。
第三,資料中心與電網之間的互動。AI大模型的訓練階段和推理階段,用電特性是不同的。包括資料處理方面,冷資料和熱資料的處理需求也有所區別。透過智慧排程算力,我們可以決定何時進行計算,這樣就能在一定程度上減輕電網的負擔,甚至在某些時候還能幫上電網的忙,產生互動效應。這種互動不僅能提高電網的安全性,而且可能更加經濟。
資料中心的電價屬於工商業電價。目前,工商業電價的激勵機制還不夠完善,但未來可能會有更多的電價激勵措施。透過與電網的互動,資料中心不僅能出售餘熱,還可能透過響應電網需求再賺點錢,對運營效率提升也有好處。
丁肇豪:電力行業看待資料中心的方式很樸素,就是一個負荷。電力系統,特別是新型電力系統,隨著可再生能源比例的增加,電源側的波動性和不確定性也在增加。過去,我們依賴火力發電,美國則是天然氣電廠,來平衡這種波動。但在碳排放目標的約束下,調節性電源,特別是火力發電,正在減少,這意味著舊的解決方案行不通了。
新的解決方案是實現源荷互動,即不再是單向的源隨荷動,而是負荷也能根據電源變化而變化。資料中心作為未來電力負荷的主要部分,我們希望它能跟隨可再生能源的變化而動。怎麼做?
對於大模型訓練這樣的離線負載,就像我們給學生布置任務,要求他們在第二天早晨9點前提交,具體是在凌晨2點還是6點完成計算,並不重要。這些計算任務可以由阿里雲等雲服務提供商來處理,根據風力發電的時段以及碳排放強度來靈活調整和排程算力資源。這類任務通常規模較大,對截止時間不敏感。但許多工需要大量資料,通常在特定資料中心完成。我們希望將這些任務放在新能源基地附近的資料中心來算,比如沙戈荒基地。
對於線上輕量級任務,如大模型推理,只要滿足時延要求,我們可以在空間上排程這些任務。我們與阿里巴巴以及國家電網華北分部合作過一個算力-電力協同排程實驗。當電網出現新能源消納困難,棄風棄光現象時,我們能否將其他地區的負載排程過去?實驗中,我們將阿里南通資料中心的一些計算任務轉移到張北資料中心,透過算力任務的轉移,南通的負荷降低,而張北的負荷增加,正好消納了當地的新能源。
我們希望這種做法能成為常態,電網能夠向雲服務和資料中心企業提供訊號,資料中心企業在算力排程時能及時響應,將能源和碳排放作為排程系統的一部分。
楊富強:將碳排放納入考量,使用煤電會產生相應的碳排放,而使用可再生能源則沒有。此外,還可以透過排隊機制來調整電價。例如,在太陽能最佳的中午時分,如果資料中心能夠利用這些“垃圾電”(即過剩的可再生能源),電價可能只有1分錢。而在電力需求高峰時期,電價可能會高達1毛錢。未來可以透過價格機制、市場手段、行政措施以及排程手段來最佳化能源使用。
工藝節點短期無法突破
楊富強:我們在不斷追求更先進的晶片技術,7奈米、5奈米、3奈米、1奈米……那麼,能源消耗是否會成為一個考量因素或者關鍵的設計指標?
陳雲霽:對於我們晶片人來說,有兩個最核心的指標:速度和能效。速度大家都知道,都希望晶片跑得快。而能效,儘管在上個世紀沒有得到太多關注,但從2000年以後,它已經成為了一個焦點。我們特別關注每次計算所消耗的能量,位元運算與瓦特之間的關係是我們非常重視的。
之所以大家追求更先進的工藝,7奈米不夠,還要3奈米、1奈米的,一方面是因為這樣可以在晶片上整合更多的電晶體,從而提高速度。但更重要的是,使用更先進的工藝可以顯著降低每次計算的能量消耗。例如,5奈米工藝相比於7奈米工藝,每次計算消耗的能量可以減少幾十個百分點。這也正是為什麼半導體技術不斷向更小的奈米尺度發展的原因。
李勇:未來,晶片的能耗肯定將變得越來越重要。這與我們今天討論的整體趨勢是一致的。人工智慧在社會中所佔的工作量比例越來越大,能耗也隨之增長。而能耗的增加,本質上主要是由於計算需求的增長,計算的核心依賴於晶片來處理位元、資訊和資料。最終,這個賬要算到晶片上。因此,從能耗角度評估晶片的計算效率,會越來越受大家重視。
楊富強:那我們跟國外相比,處在什麼水平?
陳雲霽:這個問題大家都非常關注。半導體工藝中的一個重要引數是工藝節點,也就是我們熟知的12奈米、7奈米、3奈米等。目前,國際上如臺積電已經開始量產3奈米工藝,並走向1.8奈米,甚至1奈米的技術路徑也是通的。而國內由於國際形勢的影響,短期內可能還需停留在7奈米工藝節點上。但這並不意味著我們就在這裡“躺平”了。
中國科學家和美國科學家面臨的挑戰本質上是相似的。我們可能在7奈米暫時停一段時間,而美國可能在1.8奈米或1奈米節點上停留。因此,全球的晶片設計者都在探索同一個問題:在工藝節點無法進一步縮小的情況下,如何透過體系結構的創新來提升效能,尤其是降低能耗。
在這種情況下,一個有前景的技術趨勢是為特定任務定製專用晶片,即走向專用化。依靠通用CPU,這種像瑞士軍刀一樣的多功能但非最優設計,已經越來越難以滿足需求。相反,為特定的大模型、手機或AR/VR裝置等定製專用晶片,可能成為在工藝節點不變的情況下降低能耗的重要手段。
楊富強:對於成熟的晶片技術,我們與國際先進水平相比處在什麼位置?
陳雲霽:在成熟的工藝節點上,中國的晶片設計水平在國際上已經達到了非常先進的水平。雖然不便斷言是排名第一或第二,但絕對位於第一梯隊之中。我舉一個數字,以積體電路領域的重要國際會議國際固態電路會議(ISSCC)為例,這個會議是衡量晶片設計領域研究成果的重要平臺。據我所知,清華大學在該會議上發表的論文數量已經位居世界前列。
這個數字其實變化非常大,十多年前,我們大陸每年在ISSCC上只能發表一篇文章,我記得十多年前我發表了兩篇,在國內已經算是最多的之一了。現在,僅僅是清華大學的一個課題組,一年就能在ISSCC上發表三到五篇論文。從設計角度來看,中國無疑已經進入了國際第一方陣。在成熟工藝節點上,中國的晶片設計工作非常不錯,也有大量出口。
楊富強:中國在很多領域實現了從依賴進口到自給自足的轉變。以空調行業為例,二三十年前,市場上主要是日本、美國的空調品牌,以節能技術領先,但現在,中國的品牌已經超越。我們同樣期待在晶片領域中國也能扮演越來越重要的角色。
更快還是更省?非技術層面的矛盾
楊富強:現在,我們換個角度來討論晶片。雖然晶片常常被貼上高耗能的標籤,但我們也要看到晶片技術的進步對整個電力系統,尤其是在節能和可再生能源消納方面產生了巨大的正面衝擊。
張永平:首先,關於用電量,我們討論了資料中心的能耗佔比,不論1%還是2%,即使達到10%,只要都是清潔能源,也是可以接受的。因此,核心問題在於如何滿足資料中心的高能耗需求,同時確保這些能源是清潔的。
其次,能源的使用特性也非常重要。傳統上,我們喜歡穩定的能源供應,但隨著風能和太陽能的波動性,這種偏好受到了挑戰。我們希望資料中心和其他能源負荷能夠與可再生能源的波動相協同,這樣就能最大限度地利用可再生能源。目前,許多工作都在朝著這個方向努力。
核心問題在於需要有一個激勵機制來鼓勵。例如,對於資料中心,目前它們可能不考慮響應電網的需求,但如果我們能提供足夠的經濟激勵,讓它們透過調整算力排程來節省成本或賺取利潤,那麼它們可能會更願意採取行動。
陳雲霽:比如,中午開機計算,不要錢。
張永平:對的。許多人可能不太瞭解電力現貨市場。在電力現貨市場中,電力價格主要影響工商業使用者比較多,普通家庭使用者感受不到,但工商業是敏感的。在一些地區,在可再生能源發電量過剩的時段,比如中午時分,甚至會出現負電價。如果你在這些時段購買電力,理論上不僅不需要花錢,還能賺錢。
如果有設計良好的市場機制和足夠的激勵,就能引導資料中心調整其用電行為。當然,這種激勵需要足夠大,就像電動汽車的V2G(Vehicle to Grid),電動汽車可以充電,還能將電能反饋給電網賺錢。但如果放電一次只能賺8塊、10塊,又給自己帶來很大不便,人們可能就不會去做。我相信,未來如果資料中心的用電量巨大,且其用電特性對電網產生顯著影響,這種矛盾可能會倒逼市場改革,給出更多激勵訊號。
丁肇豪:這個問題我們其實深有體會。雖然今天我們討論的資料中心與電網互動、算力排程以及與新能源平衡的概念聽起來都很好,但實際操作中,從最早2004年就有人提出這些概念。然而,即使過去了二十年,實際落地的專案在全球範圍內仍然寥寥無幾,沒有太多可持續應用的案例。
這其中一個很大的問題,是需要電力現貨市場的價格訊號來激勵資料中心調整用電行為。但我認為這只是一個方面,因為在算力領域,相關團隊可能更關心產品的交付和服務的可靠性,而不是帶來電費和排放的降低。
陳雲霽:我認為目前的情況可能是時機未到。雖然現在人工智慧算力只佔全球電力消耗的1.6%,但如果有一天這一比例達到20-30%,即便是資金雄厚的網際網路公司可能也付不起如此鉅額的電費。以OpenAI為例,儘管其技術領先,但實際上一直在虧損。因為目前OpenAI透過大模型掙到的錢無法補貼其電力成本,因此它一直在虧損。不過,我相信它總有一天要掙錢。
目前,無論是網際網路公司還是大模型創業公司,還沒有真正考慮如何盈利。他們現在的重點不在於考慮成本問題,包括電力成本。但當他們開始真正思考如何掙錢,AI的算力消耗和電力成本就是他們必須面對和解決的問題。
李勇:不是不報,時間未到。在網際網路行業,投資現在主要集中在算力,而電力成本尚未顯著上升。算力基礎設施一旦建成,就會持續執行,其成本實際上是一個相對平穩或逐漸下降的趨勢。相比之下,電力成本卻有可能持續上升。因此,當電力成本變得足夠高,以至於在經濟上成為一個不可忽視的因素時,企業將會發現降低電力消耗是划算的。
張永平:時間點是一個很有趣的話題。據我瞭解,至少在美國,像OpenAI這樣的公司,未來的商業模式如果能夠成功並實現盈利,無非兩個:一是AI應用的驅動,特別是使用量和呼叫量的增加,這是收入的來源;二是降低成本。一方面,他們會切入晶片生產上游的晶圓;另一方面,他們正在投資電力領域,包括核電和其他直接電力供應方式,以省去中間環節,直接獲取電力供應,能節省超過40%的能源成本。他們正在投資未來。
楊富強:我們剛才討論了AI的能源消耗,同時我們也應該看到AI在提高能源效率和減少碳排放方面的潛力。以智慧電網為例,我們擔心可再生能源的不穩定性可能導致電網事故。這類事故很少見,可能一年只有一兩次,或者幾年才發生一次,但一旦發生,後果嚴重。有了AI之後,我們可以透過模擬和計算幫助我們預防和解決電網事故。現在,當我們談到AI時,經常提到“AI向善”。人們對AI既感到驚喜,又有些害怕。我們對AI的擔憂是什麼,怎樣去克服?
李勇:我們經常討論AI帶來的威脅,比如最初的資料威脅,指的是大語言模型消耗了人類產生的所有文字語料,讓我們面臨資料枯竭的問題。然而,AI雖然消耗了大量資料,但它也能產生更多的資料,比如在影片創作等領域創造新的內容。今天,我們討論的是AI快速發展可能帶來的能源危機,但討論後我們發現,AI雖然增加了能源消耗,但它也能幫助我們更有效地利用新能源,比如風能和太陽能。這實際上是為我們打開了另一扇窗。
楊富強:傳統上,電網排程需要幾十名工作人員來管理。如果我們引入AI技術,有人提出可以設計一個軟體,讓AI來接管電網排程工作,這樣效率會更高,可能只需要一兩個人來監督。然而,這也帶來了風險。如果AI軟體遭到入侵或者出現故障,可能會導致整個國家電網系統的崩潰。我們應該怎麼做?
丁肇豪:在電力系統中,我們經常需要進行方式計算,這是一種考慮各種可能性以確保電力系統安全的方法。過去,國家排程中心進行方式計算需要從各省抽調大量人員,花費數月時間。但隨著電力系統越來越複雜,尤其是風能和太陽能的增加,這種方式計算變得更加困難。這時,人工智慧可能提供了一個解決方案。
然而,使用人工智慧也帶來了不可靠性和安全隱患。例如,資料投毒、程式碼後門等攻擊手段,或者即使沒有惡意攻擊,AI計算出的結果也可能出錯,因為大型模型本質上是機率模型。如果出現問題,誰來負責?在電力排程中的決策都是有人負責。但如果決策是由AI做出的,責任歸屬就變得模糊。這是在使用AI時,尤其是電力行業這樣相對保守的領域,需要特別考慮的問題。我們希望在AI的可解釋性、安全性和效率提升之間找到平衡點。
張永平:之前在電力領域,尤其是在電力排程這個技術含量最高的領域,人工智慧更多還是輔助決策的作用,比如更精準地預測電力負荷,比如應用語音、視覺、自然語言處理等技術,幫助排程員做互動,降本增效,這些場景已經變得很常見。
現在,人工智慧的應用正越來越多地探索電力系統最核心的領域。例如,因為電網變得越來越複雜,支援電網執行方式的制定;還有即時監控電網執行情況,排程員需要關注大螢幕上的電網狀態,並在出現問題時迅速採取應對措施,以往這些工作依賴於計算機輔助和人的經驗,而人工智慧的輔助可以使決策更加精準。
但核心問題在於,人工智慧存在不可解釋性。雖然智慧湧現帶來了一些好處,但在傳統領域,不可解釋性可能導致安全責任難以界定。以往人做決策時責任明確,而AI做決策時責任歸屬變得模糊。這類似於自動駕駛面臨的社會倫理問題,不僅僅是技術問題,而是涉及到如何在不同情況下做出倫理判斷。隨著技術的進步,我們不僅需要改變技術層面的東西,還需要改變安全文化、社會責任、倫理和法律法規等方面。這些問題可能需要長期解決。
觀眾提問
觀眾1:陳雲霽老師提到一個觀點,未來AI的大模型可能會收斂到一個相對特定的大模型,我們將為其提供專用的硬體支援。我自己的研究也與大模型相關,想請教李勇老師,您對AI,包括大模型未來的展望是怎樣的?它應該具備哪些能力?如何融入人類社會?
李勇:大模型發展到今天,已經展示出了許多可能性,特別是在虛擬世界中解決問題的能力,超出了我們的預期。目前,許多研究工作正在進一步探索如何讓大模型在現實世界中發揮作用,比如透過具身智慧等研究,讓大模型的能力在現實世界中得到應用,幫助我們解決實際問題。
總體來看,大模型是目前人類探索通用智慧的一個可能方向,儘管它可能不是唯一的方向。對於未來,我認為一方面,既然我們已經看到了大模型的潛力,就應該繼續努力探索。但從國內外的發展形勢來看,美國在這一領域的引領作用仍然很明顯,我們還需要認識到跟隨的現狀。另一方面,隨著智慧水平的進一步提升,我們也需要探索一些目前尚未被充分開發的、有潛力的新路徑。這樣,我們就能為未來人工智慧的安全性和可持續性做出貢獻。
觀眾2:我想問李老師,晶片和大模型的能耗中,有多少是理論上必要的,又有多少是可以透過最佳化減少的?丁老師,於資料中心來說,電力波動的承受範圍有多大,是否存在一個理論上限?如果資料需要根據新能源的出力不斷調整,客戶可能會擔心多次傳輸帶來的風險,這種風險如何評估和控制?張老師,高可再生能源佔比的算力中心是如何實現的?如果我們想建立一個以可再生能源為主的微電網,技術上的突破點和背後的成本可能是什麼?
張永平:我們觀察到資料中心目前有兩個發展趨勢:一方面是大型集中式資料中心,另一方面是分散式小型算力中心。這些小型算力中心通常建在需要智慧算力的地方,以滿足當地的需求。
目前,完全依賴綠色能源的集中式資料中心相對較少,因為這類資料中心對可靠性的要求非常高。可再生能源,尤其是風能和太陽能,具有較大的波動性。要保證大規模能源供應的穩定性,就需要有調節手段,比如水電(如果有的話),因為它是綠色的。或者配備儲能設施,但從能量密度和成本角度來看,儲能設施可能並不是一個技術、成本效益上划算的解決方案。因此,大多數大型資料中心至少需要有大電網作為備用,完全離網執行可能比較困難。
對於小型資料中心,靠近智算需求的地方,實現綠色電力供應是可能的。它們可以利用綠色電力加上一些儲能設施,在某些時段滿足供應需求。雖然可能無法保證一天24小時或一週七天都能百分之百使用綠電,但在某些時段是可以實現的。
從企業運營的角度來看,為了滿足綠色能源的需求,如果沒有物理資源,它們可以透過購買綠色電力憑證等方式來實現。雖然這會帶來一些綠色電力的溢價,但這種方式可以被視為消耗綠電的一種方法。這些是目前我們觀察到的一些趨勢。
丁肇豪:關於獨立執行的綠色微電網,這個話題在電力領域已經討論很久了。但如果要將高可靠性結合進來,難度就增加了許多。尤其是對於大型資料中心,比如擁有萬卡或十萬卡叢集的資料中心,要實現獨立執行並且保證可靠性,難度就更大了。這種難度既包括技術上的挑戰,也包括經濟實現上的挑戰,比如投入儲能、氫能等的成本和安全問題。雖然技術上不惜代價可能是可行的,但一旦考慮到經濟成本,可能就變得不可行了。
關於資料中心響應速度的問題。我們做過一些模擬實驗,發現數據中心實際上可以提供2秒或4秒的電力系統調頻服務。資料中心的計算速度或控制速度遠高於電網的頻率,因此有很大的操作空間。
關於資料中心負荷與電力消耗是否線性相關。我只能說它們是正相關的,但並非線性關係。在實際測試中,我們明顯看到算力排程的時候,最終展現出的電力負荷波動是一種非線性對映關係。這其中有很多原因,包括任務執行與能耗在伺服器層面、機房層面或整個機群層面的非線性對映,以及製冷等的時間常數差異。這些因素共同作用,導致最終的非線性關係。這也是AI可以解決的問題之一,只要我們有足夠的資料,就可以進行最佳化。
關於資料中心的控制範圍,即上限和下限問題,這並沒有一個統一的答案。它取決於資料中心執行的計算任務型別。如果是大模型的預訓練,那麼如果完全停止,變化範圍可能非常大。但如果是一般性的算力中心,執行的是均衡後的負載業務,那麼變化範圍會小一些,具體取決於執行的業務型別。因此,這個問題的答案主要取決於我們關注的是什麼樣的資料中心以及它執行的業務型別。
李勇:關於晶片能耗的問題,從目前的情況來看,晶片在執行時產生的能耗在一定程度上都是合理的,但確實存在一些可以最佳化的空間。硬體的能耗主要由幾個部分組成:電源模組、模數轉換模組以及核心的數位電路處理模組。在不同的晶片中,這些模組的功耗比重各不相同,因此在晶片設計中,最佳化這些模組的能耗是一個核心問題。
除了最佳化現有設計,另一個層面的考慮是晶片架構的創新。我們是否可以從現有的軟硬體分離模式轉變為模仿人腦的工作機制,設計出一種新型的晶片架構。此外,工藝技術的進步也是提升晶片能效的一個重要方向。
觀眾3:丁老師,您剛才提到算力中心的靈活調節需求與其處理的具體任務相關。那麼,對於未來的不同應用場景,我們是否能夠做出估計,並據此反推出未來增長曲線的可能形狀?例如,未來的任務將如何增長,其中有多少是可調節的?考慮到未來高比例的可再生能源系統和算力中心所佔的比重,它的調節能力將決定我們需要配置多少靈活能源,如儲能等。同時,我也注意到騰訊等公司透過輔助服務市場的價格來指導其算力中心的調節。這種市場機制在未來是否仍然適用?或者當AI消耗了高比例的能源後,輔助服務的價格訊號是否不足以進行調節,我們是否需要新的市場或市場機制來應對這種情況。
張老師,我的問題是關於碳中和路徑和能源轉型的。雖然我們已經有了這些路徑,但在設計時並未考慮到新型技術,尤其是像AI算力中心這樣的高耗能技術。現在我們意識到,未來這些技術可能佔用20%到30%甚至更高的能源比例,是否有專案在研究這種新技術對未來碳中和路徑的影響?影響範圍會有多大?還是說目前大家仍然認為能源前端的問題,如可再生能源的替代,更為關鍵,而耗能問題相對來說不是主要因素?
丁肇豪:我先來談談算力中心調節能力的問題。這個調節能力實際上取決於我們對業務時延的敏感性和對服務質量的認知。換句話說,這取決於我們對算力需求的緊迫性。例如,如果您使用ChatGPT,並且您是一個非常注重環保的人,您是否願意讓ChatGPT在回答問題時比別人多花50%的時間?如果您願意,那麼推理任務的靈活性就會增加。如果您更願意等待,比如增加到100%的時間,那麼靈活性就更大,因為它可以在能源供應更充足的地方進行計算。
至於輔助服務機制的問題,中國的電力市場仍在發展變化中。從新一輪電力體制改革開始,現貨電力市場建設正在全面鋪開。目前,資料中心真正參與電力現貨市場的情況還比較少,所以瓶頸並不在於機制層面。如果將來理想情況下,資料中心佔電力負荷的30%到40%,並且我們需要它們進行調節,那麼我們需要給它們足夠的價格訊號。我認為,沿著目前市場機制的設計思路,從輔助服務的角度來看,問題不大。可能更多的是需要在容量機制、現貨能量市場和輔助服務市場之間的匹配關係上做一些調整。這可能是一個更長遠的問題,是未來我們需要面對的。
張永平:關於碳中和的路徑,電力部門脫碳無疑是最核心的部分。不僅電力部門自身需要實現碳中和,其他許多部門也在快速電氣化,這一過程中如果使用的電力都是清潔和綠色的,也能助力其他行業的減排。在進行這類路徑研究時,尤其是從電力角度出發,我們首先關注的是對未來電力需求的預測。未來的需求預測總是充滿挑戰,因為太難預測,所以很多方法都採用了高中低不同情景的分析。在最低和最高的情景中,會進一步細分各個用電部門的需求。
我相信,按照目前資料中心和AI智算的發展,至少在高用電情景中,已經充分考慮了AI對未來電力需求的影響。在這樣的高情景設定下,如何滿足這些需求,尤其是使用綠色清潔的可再生能源,是有相應方案的。我們對這些方案進行了一些分析和測算,發現是有可能實現的,但對電力系統轉型的挑戰巨大。
在可預見的未來,面對AI帶來的電力需求的增長,透過技術、政策和市場的協同努力,儘可能多的用可再生能源去滿足這一需求,還是充滿信心的。

注:科學四十人是一個科學交流公益專案,由北京市海淀區智識前沿科技促進中心(簡稱“智識學研社”,《知識分子》《賽先生》出品方)和浙江省科匯致遠公益基金會共同發起。科學四十人委員會目前包括來自不同學科領域的34位一流學者。 
親愛的讀者們,不星標《知識分子》公眾號,會錯過每日科學新知!星標《知識分子》,緊跟前沿科學,一起探索科學的奧秘吧!

請戳上圖卡片新增星標

關注《知識分子》影片號
get更多有趣、有料的科普內容

END

相關文章