
本篇《自然》長文共4557字,乾貨滿滿,預計閱讀時間14分鐘,時間不夠建議可以先“浮窗”或者收藏哦。
原文作者:Sophia Chen
在田納西州東部的小山上,破紀錄的超級計算機“前沿”正為科學家們提供未曾有過的機遇,研究從原子到星系的萬事萬物。

超級計算機““前沿””佔地比兩個籃球場還大一些。來源:Nick McGinn for Nature
田納西州橡樹嶺
超級計算機“前沿”(Frontier)位列超算界的速度之冠。但這臺有將近50000個處理器的極速英雄也是有極限的。在四月的一個晴朗的週一,為了達成世界各地科學家們請求它做的工作,它的電力消耗直線上升。
電力需求峰值達到約27兆瓦特,足以為一萬戶家庭提供電力,“前沿”所在的橡樹嶺國家實驗室的領導計算設施的科學主任Bronson Messor說。他帶著一絲驕傲,用一句當地俗語來描述超級計算機的工作效率:“他們把這臺機器跑得像著火的狗一樣快。”
“前沿”能以創紀錄的速度處理資料,比10萬檯筆記本電腦同時工作還快。它在2022年剛建好的時候,是第一臺突破了百億億次計算的超級計算機——也就是執行超過每秒1018次浮點運算。橡樹嶺的這臺巨物是幾十年來超級計算機越做越大的全球趨勢下的新榜首(儘管在軍方實驗室或者其他秘密設施裡也許有更快的計算機)。
但速度和規模只是“前沿”的次要目的;它的主要目的是推進人類知識的界限。“前沿”善於模擬大尺度模式下的小尺度細節,例如雲裡的細小液滴會如何影響到地球氣候暖化的速度。研究者們在使用超級計算機制作從亞原子粒子到星系的各種先進模型。一些專案正在模擬蛋白質以輔助開發新藥、模擬湍流以改進飛機引擎設計,或製作可與Google和OpenAI的人工智慧(AI)工具媲美的開源大語言模型(LLM)。
研究者們從全世界各地登入“前沿”。2023年,這臺超級計算機有來自18個國家的1744名使用者。橡樹嶺預計,2024年“前沿”的使用者會發表至少500篇基於這一裝置所作計算的論文。
“‘前沿’很像詹姆斯·韋布太空望遠鏡。”橡樹嶺國家實驗室的生物物理學家Dilip Asthagiri說,“我們應該把它看成一臺科學儀器。”
機器內部
“前沿”的核心位於一個倉庫大小的房間,裡面充斥著穩定的電子嗡鳴,輕得可以被說話聲蓋過。在房間裡有74個一樣的黑色架子,總共承載了9408個節點。這些就是一臺超級計算機的核心。每個節點包含了4個圖形處理器(GPU)和1箇中央處理器(CPU)。
技術員Corey Edmonds說,一組工程師持續監控這臺機器,關注問題跡象,Edmonds就職於建造這臺超級計算機的慧與科技(Hewlett Packard Enterprise)公司。Edmonds駐紮在橡樹嶺,這天負責“前沿”的維護工作。在修復完一個節點之後,他從注射器裡把灰色導熱膏擠到銀色、長方形的GPU上——節點的4個GPU之一。這能幫助GPU快速散熱,保持低溫。
“前沿”的速度主要是因為大量使用GPU。這些晶片最早是被開發來為電腦遊戲玩家渲染擬真影像的,現在則透過機器學習應用推動AI的前進。
“它們真的跑得很快。”Messer說,“但它們也超級笨。”GPU在同時處理大量資料的時候很強——別的倒不怎麼樣。“它們可以重複重複再重複地做一件事。”他說,這讓它在超級計算機所執行的快速工作上很有用。
研究者們必須定製程式碼,以最好地利用“前沿”的GPU。Messer把第一次用“前沿”的科學家比作郊區司機開賽車。“都有方向盤,油門和剎車。”他說,“但把普通的司機塞到方程式賽車裡從這開到那,這可不容易。”
大科學
研究者想有機會用“前沿”並不容易。四月的這個週一,Messer和三個同事們開會評估提交上來的研究提案。平均說來,每四份提案中有一份能透過,去年共有131個專案獲得了計算時間。申請者尤其需要證明,他們的專案可以充分利用超級計算機的整個系統。
他們提供的最常見的分配是大約50萬個節點時,相當於整個機器連續跑3天。他們最多分配過4倍於此的數量。Messer說,在“前沿”獲得了計算時長的研究者得到的計算資源是別處的十來倍。
這天,他的團隊正在分配每週一次、約2萬節點時的小型算力。很多專案都在利用“前沿”能夠同時模擬很大範圍時空尺度的能力。“前沿”每年能提供約6500萬節點時。

在“前沿”工作的技術員。它有5萬處理器,用水冷卻。來源:Nick McGinn for Nature
例如,科學家想用“前沿”模擬準確的生物過程,例如溶液中的蛋白質或核酸與其他細胞之間的互動。
今年五月,Asthagiri和橡樹嶺的高效能計算工程師Nick Hagerty使用“前沿”模擬了一個方塊形狀的液滴,其中包含了1550億個水分子。“這是為了把計算機推到極限。”Asthagiri說。模擬出的立方體只有人類頭髮寬度的十分之一,而它位列目前原子級模擬之巔,Asthagiri說。這項工作尚未發表在同行審議過的期刊上。
這些初步模擬正逐步構建出更為遠大的目標:從原子開始,模擬整個細胞。近期,研究者們想要模擬一個細胞器,用來為實驗室實驗提供資訊。他們還在努力將“前沿”對生物材料的高解析度模擬和利用X光自由電子雷射的超快速成像結合起來,加快發現的速度。
有了“前沿”,氣候模型也更準確了。2023年,橡樹嶺的氣候科學家Matt Norman和其他研究者們用超級計算機跑了一次全球的氣候模擬,解析度達到了3.25千米。只有“前沿”的計算能力能讓他們在這個解析度下做出十年預測。模型還考慮到了雲的複雜運動所產生的效果,其解析度甚至更細。“它用了‘前沿’全部力量才做到。”Norman說。
模型要在其他計算機上獲得相同的解析度,並考慮到雲的效應,速度要慢很多,他說。這對想要做預報的氣象科學家們來說是個很大的阻礙,因為雲的活動會影響到全球能量的移動。
一個天氣和氣象預報要想實用,需要至少每天執行一個模擬年。”前沿”每天可以用這個模型模擬1.26年[1],這讓研究者們可以做出比之前更準確的50年預報。
“前沿”還提高了宇宙尺度解析度。匹茲堡大學的天體物理學家Evan Schneider使用超級計算機研究了銀河大小的星系會隨著時間如何演化。“前沿”的星系模型跨越了4個數量級,高達10萬光年(30660秒差距)。在“前沿”出現之前,她能用相同解析度模擬的結構頂多是矮星系,質量只有前者五十分之一。
Schneider模擬了超新星如何讓氣體洩露出這些星系[2]。隨著時間推進,幾千到百萬個超新星爆發一同釋放出了巨量的氣體,最終離開星系[3]。因為這些氣體是新恆星出生的原材料,恆星的形成速度會隨著星系變老而減慢。“前沿”讓Schneider可以引入其他計算機難以實現的更熱的氣體的影響。她的模擬表明,當前的宇宙模型低估了這些熾熱氣體在星系演化中起到的作用。
AI研究者也搶著要“前沿”的GPU時間,因為GPU在訓練基於神經網路的架構這方面作用斐然,例如ChatGPT底層的變換器模型就是用GPU訓練的。“前沿”有著將近38000個GPU,在AI研究的公開領域擁有獨特的地位——除了它之外,該領域幾乎完全被工業界把持。
阿肯色大學的經濟學研究者Nur Ahmed和同事們在2023年的一篇評論中[4]強調了學術界和工業界在AI上的巨大差距。2021年,最大的AI模型中有96%都來自工業界。平均來說,工業界的模型是學術界的接近30倍。兩者之間的差距從投資額來看也很顯著。國防以外的美國政府機構於2021年提供了15億美元支援AI研究。同年,全球工業界投入了3400多億。
注意差距
商用的大語言模型釋出後,兩者之間的差距還會增加,Ahmed說。例如,訓練OpenAI的GPT-4的計算資源耗資約7800萬美元,而Google花了1.91億美元訓練Gemini Ultra(見go.nature.com/44ihnhx)。投資額的差別讓工業界和學術界的研究者們能使用的計算資源有著天壤之別。
工業界正在拓展基礎AI研究的邊界,而這可能會讓該領域產生問題,Ahmed等人在論文中寫道。例如,工業界的主導可能會致使缺乏基礎研究,這些研究不能迅速產生利潤和結果。比如說,AI技術發展忽視了低收入社群的需求,他們說。在一篇未釋出的研究中,Ahmed分析了600萬篇同行審議過的文章,以及3200萬篇引用的專利,發現“平均說來,工業界往往忽視全球南方邊緣群體的一些顧慮”。
此外,很多模型有性別和種族歧視方面的問題,很多商用的基於AI的面部識別系統已有此問題。學術界可以作為評審來評估AI模型的風險,但為此他們需要能獲得與工業界同等規模的計算資源,Ahmed說。
這就是用上“前沿”的時候了。當橡樹嶺批准了一個專案的申請之後,研究者們就可以免費使用超級計算機,只要他們會公佈結果。這能幫助大學的研究者們與公司競爭,馬里蘭大學的計算機科學家Abhinav Bhatele說。“學術界想訓練出同等規模的模型,得有‘前沿’這樣的資源。”
Bhatele正在使用“前沿”開發開源LLM,以抗衡工業界的模型[5]。“通常當公司訓練模型的時候,他們會保留所有權,並且不公開模型的權重。”Bhatele說,“有了這個公開的研究,我們就可以讓這些模型免費給所有人用。”在接下來的一年裡,他和他的團隊的目標是訓練出一系列不同規模的LLM,並且他們會把這些模型及其權重開源。他們還讓訓練模型的軟體免費可用了。Bhatele說,這麼一來,“前沿”在該領域“民主化”AI的運動(讓更多人能參與技術發展)當中就起到了關鍵作用。
競賽持續
離“前沿”所在的房間幾扇門之外,它的前身還在為全世界科學家們辛勞工作。這臺計算機“頂點”於2018到2019年保持了計算機的速度記錄,現在則在世界上公用超級計算機中速度排名第九。它長長的黑色鉻合金架子和“前沿”很像,但冷卻系統的噪聲更大,速度也只有八分之一。
“頂點”的歷史預示了“前沿”的未來。“前沿”在2022年第一次上榜,很可能不久之後就會被取代。第二位的超級計算機,阿貢國家實驗室的“極光”,預計做些改進就能超過“前沿”的效能。加州勞倫斯利弗莫爾國家實驗室的“酋長巖”在24年晚些時候上線,預計未來也會超越”前沿”。還有一臺是德國的百億億次級超級計算機“木星”,在24年晚些時候啟動。
地緣政治緊張加劇令事情更為複雜。“前沿”的稱號來自一個叫TOP500的組織中每年兩次釋出的排名。該組織基於一個解稠密線性方程的基準測試任務中報告的效能,為全球超級計算機排行。
但計算機專家說,美國和中國很可能不會公開共享他們計算裝置的情報,特別是因為兩國之間的氣氛有些緊張。“超級計算機領域好像存在某種競賽。”華盛頓特區智庫亞特蘭大委員會的政策研究者Kevin Klyman說。事實上,2022年,美國總統喬·拜登的內閣開始控制對中國的半導體出口,其中特別提到了對中國超級計算機能力的擔憂。
在超級計算機的擂臺上,氣氛早在好幾年前就開始緊張了。特別是2016年中國在TOP500列表中的超級計算機數量超越了美國。“那讓美國引起不小的焦慮。”Klyman說,“很多美國的政策制定者說:‘我們該怎麼趕上排名?’”
目前,TOP500六月排行榜,中美兩國的超級計算機數量名列前茅。美國有168臺,而中國有80臺。不過,研究者們覺得兩個國家有未公佈的超級計算機。排名裡中國的計算機數量和去年十一月的榜單相比減少了,當時有104臺。而中國未報告任何新的超級計算機的資料。
橡樹嶺已經開始籌備“前沿”的下一代“發現”了,計算速度會是“前沿”的3-5倍。它會是這幾十年追求速度之旅中的新成果(見‘速度紀錄’)。“前沿”比2014年的速度冠軍天河2A快35倍,比2004年的地球模擬器快33000倍。

Source: www.TOP500.org
研究者們渴望更快的速度。比如說,更大的計算機可以讓Schneider以更高的解析度模擬星系。它還能給科學家們更大的計算預算。
但工程師們要面對一個持續的挑戰:超級計算機消耗大量能源,而未來的計算機可能還要用更多。所以研究者們在不斷推動能源效率的進步。“前沿”的能源效率是“頂點”四倍有餘,主要是它使用常溫的水來冷卻,而“頂點”需要冷卻水。“前沿”有大約3%-4%能耗花在冷卻上,而頂點需要10%。
多年來,能源效率一直是打造更快超級計算機的瓶頸。“我們早在2012年就能造百億億次級別的計算機,但運轉成本太貴了。”Messer說,“我們需要增加一兩個數量級的能量才能為它供電。”
橡樹嶺實驗室的夜幕降臨時,“前沿”那一層的走廊上是空的,只有最低人數的工作人員。在超級計算機的控制室裡,Conner Cunningham的工作是於夜間照顧“前沿”。他的工作是從晚7點到早7點確保超級計算機順暢執行全球各地研究者的任務。他透過十幾臺顯示器盯著“前沿”,上面顯示出了全球的資料安全威脅和大樓安全攝像頭的錄影。角落裡的一臺電視用靜音模式顯示著本地的天氣,警告他接下來可能會出現的任何可能截斷電力供應的暴風雨。
但大多數的晚上都很安靜,Cunningham可以在工作桌上自學一個線上計算機科學學位。他會進行幾次巡邏,檢查建築內有沒有任何意外情況,此外他的工作基本是被動的。
“這有點像消防員。”他說,“有事就要有人盯著。”他買了四個墨西哥卷和一些百事可樂來撐過夜班。他今晚不會睡覺——“前沿”也不會。
參考文獻:
1. Taylor, M. A. et al. SC ’23: Proc. Int. Conf. High Perform. Comput. Netw. Storage Anal. https://doi.org/10.1145/3581784.3627044 (2023).
2. Caddy, R. V. & Schneider, E. E. Astrophys. J.970, 44 (2024).
3. Schneider, E. E. & Mao, S. A. Astrophys. J.966, 37 (2024).
4. Ahmed, N., Wahed, M. & Thompson, N. C. Science379, 884–886 (2023).
5. Singh, S., Singhania, P., Ranjan, A. K., Sating, Z. & Bhatele, A. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.13525 (2023).
原文以A day in the life of the world’s fastest supercomputer標題發表在2024年9月4日《自然》的新聞特寫版塊上
© nature
Doi: 10.1038/d41586-024-02832-5
點選閱讀原文檢視英文原文
版權宣告:
本文由施普林格·自然上海辦公室負責翻譯。中文內容僅供參考,一切內容以英文原版為準。歡迎轉發至朋友圈,如需轉載,請郵件[email protected]。未經授權的翻譯是侵權行為,版權方將保留追究法律責任的權利。
© 2025 Springer Nature Limited. All Rights Reserved
