來源:內容編譯自semafor,謝謝。
亞馬遜 (Amazon) 押下巨資,挑戰 Nvidia,這是這家電子商務巨頭今年以來最大的一筆投資,而對於初創公司 Anthropic 來說,這也是一次賭注。
就其本身而言,亞馬遜的 5 奈米 Trainium 2 微處理器並不像 Nvidia 的最新 AI 晶片那麼強大,後者因其訓練下一代強大 AI 模型的能力而受到 OpenAI 和 xAI 等公司的青睞。
但亞馬遜希望其自制矽片能用於打造世界上最強大的計算機——被稱為“Rainier 專案”。該專案由以色列晶片初創公司 Annapurna Labs 設計,亞馬遜於 2015 年以 3.5 億美元收購了這家公司。
亞馬遜的成敗並不取決於每個晶片的原始效能,而是取決於精心策劃的垂直整合。整個資料中心,甚至是每個螺絲、銅線和冷卻風扇,都經過精心設計,以從數十萬個 Trainium 2 晶片中榨取每一分計算能力。
“我們將垂直整合發揮到了極致,”安納普爾納工程總監拉米·辛諾 (Rami Sinno) 在參觀晶片製造工廠時表示。“這種功率和功率效率的概念滲透到了我們所做的每一件事中。”
如果該計劃成功,那麼亞馬遜和 Claude AI 聊天機器人背後的人工智慧公司 Anthropic 都將大獲全勝。Claude AI 聊天機器人已成為專業軟體開發人員和“氛圍編碼員”的最愛,他們對該工具的唯一不滿是其速率限制,為了控制成本,它會切斷使用者的使用。
Anthropic 是亞馬遜最重要的客戶,並已同意使用 Rainier 來訓練下一版本的 Claude,使其效能更佳、成本效益更高,併為 Claude 的使用者提供更多令人垂涎的“token”。
在亞馬遜 80 億美元投資的推動下,Anthropic 的估值已達到 600 億美元,該公司使用 Google Tensor 處理器和 Nvidia GPU 來訓練 Claude 模型的早期版本。
兩位知情人士告訴 Semafor,該公司同意使用亞馬遜定製晶片與亞馬遜投資該公司的決定是無關的。
無論 Anthropic 做出了什麼決定,對於亞馬遜來說這都是一次勝利;從 Nvidia 手中挖走一家領先的基礎模型公司並不容易。
自 2006 年以來,Nvidia 一直在改進和新增 Cuda 的功能,Cuda 是一個功能強大的軟體程式,允許 AI 研究人員和其他程式設計師在 Nvidia GPU 上執行幾乎任何機器學習演算法或 AI 模型。
由於 Cuda 的領先優勢,與 Nvidia 的競爭極其困難。
Anthropic 也可能從擺脫 Nvidia 的多元化中受益,Nvidia 面臨短缺問題,令 OpenAI 和微軟等公司感到沮喪。計算效率在人工智慧行業變得越來越重要,因為公司難以滿足對該技術不斷增長的需求。
人工智慧模型需要世界上最大的計算機進行訓練——但公司已經找到了在推理階段提高模型能力的方法,當模型響應單個提示時。這種趨勢被稱為“測試時間計算”,它大大增加了對資料中心的需求。
即便如此,亞馬遜仍面臨批評者的質疑,即它是否能夠吸引人工智慧世界使用其定製晶片。
亞馬遜表示,其 Trainium 晶片已經找到了市場。“我們製造和交付的每一款晶片都有客戶在等待它,”Sinno 說道。
Annapurna 產品和客戶工程總監 Gadi Hutt 表示,兩家公司的合作在亞馬遜投資 Anthropic 之前就已經開始。
在奧斯汀設計和測試中心接受採訪時,赫特回憶了他與 Anthropic 最早的一次互動,當時這家舊金山研究公司於 2021 年成立後不久。
Annapurna 向 Anthropic 的研究人員提供了第一代 Trainium 晶片,以便他們在週末“試用”。週末結束前,一名 Anthropic 員工發現晶片編譯器(將人工智慧演算法轉換為微處理器指令的軟體)存在缺陷,這損害了晶片的效能。
“那只是一個週末的工作就向我們證明了這是一支非常強大的團隊,我們非常渴望繼續與他們合作,”赫特說。“在業務方面花了一些時間。”
人工智慧研究人員雖然才華橫溢,但通常並不熟悉用於完成其工作所需的數萬億次計算的實際矽片的來龍去脈。
Anthropic 聯合創始人兼首席計算官湯姆·布朗 (Tom Brown) 告訴 Semafor,他的職業生涯都在改變世界上最強大的計算機的意志,儘管他從未近距離見過它們。
他說道:“令我感到十分慚愧的是,我已經訓練大型模型大約 10 年了,但我從未去過任何一家物理資料中心。”
但這並沒有阻止布朗和他的同事剖析強大的人工智慧晶片的內部工作原理,直至控制它們的核心軟體。
布朗表示,Anthropic 已聘請了技術嫻熟的工程師,他們知道如何對 Nvidia GPU 進行逆向工程,從而獲取其指令集架構,即直接控制電晶體執行的軟體。它是晶片工作的核心,因此 Nvidia 試圖隱藏這些資訊,以防止競爭對手看到它。
透過獲取這些資訊,Anthropic 可以更好地最佳化其模型,使其執行或訓練效率更高。“但當他們試圖混淆這些資訊時,這樣做真的很煩人,”布朗說。
他說,轉向 Trainium 2 的一個主要好處是亞馬遜同意開放其指令集,消除痛點並實現更好的最佳化。
布朗表示,使用 Trainium 晶片需要一定的學習曲線。“我們是唯一一家設計多款晶片的實驗室,因為這樣做成本很高,但一旦你這樣做了,就意味著你現在支付了這筆大筆前期費用,就可以獲得收益了,”他說。
儘管只有少數公司擁有足夠的人才和資源來利用該級別的程式碼,但 Anthropic 和少數其他公司可以利用這種訪問許可權來幫助改進晶片。
如果 Anthropic 繼續使用 Trainium 晶片訓練其模型,那麼一個附帶好處就是這些模型很可能使用亞馬遜的架構以最高效的方式執行,從而使 Anthropic 的許多客戶成為亞馬遜網路服務的實際客戶。
當計算叢集變得像 Rainier 一樣大時,數十萬個晶片(未公開數量)聯網在一起,通常不會產生影響的微小最佳化突然被放大到有意義的水平。
在參觀安納普爾納實驗室晶片測試區時,辛諾解釋瞭如何透過微小的移動元件來提高電氣效率。
這項工作就像是工程天才們的俄羅斯方塊。目標是將所有東西儘可能地靠近,儘可能減少每個電子必須移動的距離,同時找到創造性的方法將熱量從晶片中帶走,以防止晶片過熱。
一架 Trainium 2 晶片本質上就是一個熔爐,熱空氣從中高速噴湧而出。
在對大量基礎模型進行訓練的過程中,大量資料在 GPU 之間來回傳輸,因此提高它們之間連線速度的潛力催生了整個公司的誕生。
儘可能減少延遲的目標使得 Rainier 專案的一個獨特特點令人費解:它計劃將單個計算叢集劃分為多棟建築,並透過亞馬遜稱為“彈性光纖”的高速資料連線將它們連線起來。
“我們不會透露確切的架構,但你可以想象它非常龐大,需要多棟建築,”Hutt 說道。他說,這些多棟建築將充當一臺計算機,讓模型訓練執行起來就像整個計算叢集都在一個屋簷下一樣,而不必將訓練分成幾個部分。
他說:“該架構將允許 Anthropic 等客戶在整個叢集中進行訓練。”
無論出於何種原因,Anthropic 加入 Trainium 生態系統都是一個互惠互利的安排。
Anthropic 的 Claude 雖然不如 ChatGPT 那麼出名,但在人工智慧領域卻頗有名氣。其旗艦型號因其能夠生成高質量的計算機程式碼而成為軟體開發人員的最愛。
與其他基礎模型公司競爭激烈的 Anthropic 不太可能同意在低於標準的晶片上訓練 Claude。即使有投資資金,它的決定也值得認可。如果 Claude 的下一個版本仍然處於領先地位,亞馬遜將慶祝勝利。
Nvidia 無人能敵,AWS 的 Nvidia 產品無疑仍將受到歡迎。但亞馬遜不需要擊敗 Nvidia。它只需要 Trainium 獲得足夠的成功,以吸引一些客戶,並減少對 Nvidia 晶片的依賴,因為 Nvidia 晶片非常搶手,很容易出現短缺。
《商業內幕》援引內部檔案稱,亞馬遜一直在努力尋找其晶片的客戶。
“根據一份內部檔案顯示,去年,AWS 最大客戶對 Trainium 晶片的採用率僅為 Nvidia GPU 的 0.5%。這項評估是在 2024 年 4 月制定的,它透過 AWS 的雲服務衡量了不同 AI 晶片的使用水平。另一款專為一種稱為推理的 AI 任務而設計的 AWS 晶片 Inferentia 僅略勝一籌,為 Nvidia 使用率的 2.7%。”
參考連結
https://www.semafor.com/article/03/14/2025/amazons-trainium-chips-to-be-tested-by-anthropic
END
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4064期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

