
👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:本文編譯自zach,謝謝。
四月下旬,資金最雄厚的AI晶片初創公司之一SambaNova Systems大幅偏離了最初的目標。與許多其他AI晶片初創公司一樣,SambaNova最初希望為訓練和推理提供統一的架構。但從今年開始,他們放棄了訓練的雄心,裁掉了15%的員工,並將全部精力放在AI推理上。而且,他們並非第一家做出這種轉變的公司。
2017 年,Groq 還在吹噓他們的訓練效能,但到了2022 年,他們完全專注於推理基準。Cerebras CS-1 最初主要用於訓練工作負載,但CS-2 和後來的版本將重點轉向了推理。SambaNova 似乎是第一代 AI 晶片初創公司中最後一個仍然認真專注於訓練的公司,但這種情況終於發生了變化。那麼,為什麼所有這些初創公司都從訓練轉向了推理呢?幸運的是,作為 SambaNova 的前員工(指代本文作者zach,該作者自稱 2019 年至 2021 年期間在 SambaNova Systems 工作),我(指代本文作者zach,下同)有一些內部人士的見解。
SambaNova 非常重視在其硬體上訓練模型。他們釋出了關於如何在硬體上進行訓練的文章,吹噓其訓練效能,並在官方文件中討論了訓練問題。包括我在內的許多分析師和外部觀察家都認為,SambaNova 憑藉單晶片同時滿足推理和訓練市場的需求,相較於 Groq 等競爭對手擁有獨特的優勢,而 Groq 是最早轉向推理領域的初創公司之一。
SambaNova 還投入了大量時間和精力來實現高效的訓練。我在 2019 年至 2021 年期間在公司工作,花費了大量時間為NAdam 最佳化器實現核心,NAdam 最佳化器是一種基於動量的最佳化器,常用於訓練大型神經網路。我們針對訓練設計和優化了硬體和軟體功能,公司內部和外部的資訊都表明,對訓練的支援是我們價值主張的關鍵組成部分。
現在,SambaNova 突然放棄了大部分工作,轉而專注於推理。我認為他們這樣做主要有三個原因:推理是一個更容易解決的問題;推理可能比訓練擁有更大的市場;以及英偉達在 AI 訓練晶片領域的絕對主導地位。
推理是一個更容易、更大的市場
許多分析師認為,人工智慧推理的市場規模可能是人工智慧訓練市場的十倍。直觀地說,這是有道理的。通常,你只訓練一次模型,然後使用該模型進行許多次推理。每次執行推理的成本遠遠低於模型的整個訓練過程——但如果你使用同一個模型執行推理足夠多次,它就會成為服務該模型的主要成本。如果人工智慧的未來是少數幾個大型模型,每個模型都具有相當大的推理量,那麼推理市場將使訓練市場相形見絀。但如果許多組織最終訓練自己的定製模型,這種未來可能不會實現。
但即使推理最終不會成為比訓練更大的市場,也有一些技術原因使得推理對於 AI 晶片初創公司來說更容易應對。在訓練模型時,你需要在該模型中執行大量訓練資料,在模型執行過程中收集梯度資訊,並使用這些梯度來更新模型的權重。這個過程使模型能夠學習。它也極其佔用記憶體,因為你需要快取所有這些梯度以及其他值,例如模型的啟用值。
因此,為了高效地進行訓練,需要一個複雜的記憶體層次結構,其中包含片上 SRAM、封裝內 HBM 和片外 DDR。AI初創公司很難獲得 HBM ,也很難將 HBM 整合到高效能系統中——因此,許多 AI 晶片(如Groq和d-Matrix)不具備高效訓練大型模型所需的 HBM 或 DDR 容量或頻寬。推理則不存在這個問題。在推理過程中,梯度無需儲存,啟用函式使用後即可丟棄。這大大減少了推理作為工作負載的記憶體佔用,並降低了僅用於推理的晶片所需的記憶體層次結構的複雜性。
另一個挑戰是晶片間聯網。訓練過程中生成的所有梯度都需要在訓練過程中使用的每個晶片上同步。這意味著你需要一個龐大、複雜、全對全的網路才能高效地進行訓練。另一方面,推理是一種前饋操作,每個晶片只與推理流水線中的下一個晶片通訊。 許多初創公司的AI晶片的網路功能有限,這使得它們不太適合用於訓練所需的全連線性,但足以應付推理工作負載。另一方面,英偉達非常出色地解決了AI訓練所需的記憶體和網路挑戰。
Nvidia 非常擅長訓練
自2012 年 AlexNet 釋出以來,Nvidia 一直是推理和訓練的首選硬體。由於 CUDA 賦予 GPU 的多功能性,它們能夠執行訓練和推理所需的所有操作。在過去十年中,Nvidia 不僅專注於構建針對機器學習工作負載的超最佳化晶片,還一直在最佳化其整個記憶體和網路堆疊,以支援大規模訓練和推理。
由於每個晶片上都擁有大量的 HBM ,Nvidia 硬體能夠輕鬆高效地快取每個訓練步驟生成的所有梯度更新。藉助NVLink等縱向擴充套件技術和Infiniband等橫向擴充套件技術,Nvidia 硬體能夠處理在每個訓練步驟完成後更新大型神經網路所有權重所需的全對全網路 (all-to-all) 連線。而Groq和d-Matrix等僅專注於推理的競爭對手則缺乏與 Nvidia 在訓練領域競爭所需的記憶體和網路能力。
但SambaNova 晶片確實有 HBM。SambaNova晶片在伺服器級和機架級都擁有點對點網路。為什麼它們不能像 Nvidia 那樣處理訓練問題呢?
事實證明,Nvidia 不僅擁有 HBM 和網路技術來提升訓練效能。他們在低精度訓練方面投入了大量精力,而頂級人工智慧實驗室也投入了大量精力來調整演算法超引數,使其能夠更好地適應 Nvidia 低精度訓練硬體的特定複雜性。從 Nvidia 晶片轉向 SambaNova 晶片進行訓練,需要修改極其敏感的訓練程式碼,以便在全新的硬體上執行,這會帶來一系列全新的隱患。對於大型 GPT-4 規模的模型來說,這樣做的成本和風險是巨大的。
SambaNova 轉向推理領域證明,即使一家 AI 晶片初創公司能夠提供與英偉達競爭的記憶體和網路能力,也不足以在訓練市場上與這家巨頭抗衡。如果一家初創公司想在訓練領域挑戰英偉達,他們需要提供令人矚目的訓練效能,從而克服英偉達在訓練市場的惰性。而到目前為止,還沒有人能夠做到這一點。
原文連結
https://www.zach.be/p/why-is-sambanova-giving-up-on-ai
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4025期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

