


作者:NCL
編輯:Siqi
排版:Gisele

將 LLM 的能力和業務場景相結合、利用 LLM 把企業積累的結構化和給結構化資料轉化成業務價值是市場對於 LLM 保持興奮的重要原因。當 OpenAI 在今年 2 月推出 Foundry 時,一度被外界解讀為 OpenAI 將發力企業級市場的訊號,但因為聚焦於模型能力的提升、多模態以及計算資源有限等主客觀因素,OpenAI 在企業級市場動作並沒有外界預期的那樣激進,其他閉源模型公司也有類似特徵。與此同時,過去半年開源模型社群的繁榮則成為企業級模型服務的新動力,AWS 和 HuggingFace 的聯盟就是一類代表。
Sambanova 是這個領域中的獨特玩家。它萌芽於創新晶片架構,由 3 位晶片和 AI/ML 領域的行業傳奇人物共同創立,他們在晶片、AI/ML 技術路徑上的前瞻性讓 Sambanova 早在 2020 年 GPT-3 剛一發布後就決定押注於 GPT 技術路徑,併成功開發出了擁有創新架構的晶片產品 RDA。RDA 能夠根據不同的 AI/ML 任務動態地重新配置硬體資源和資料流,極大程度提高了硬體的通用性,從而能適應 AI/ML 領域的快速發展。在今年 9 月釋出的 SN40L 則進一步針對大模型進行最佳化,有望成為 Serving LLM (Continual Pre-training、Finetune 和 Inference)價效比最高的裝置。
但作為初創團隊和 NVIDIA 或 AMD 直接競爭科技巨頭們的計算資源預算幾乎不可能。因此,在 RDA 晶片基礎上,Sambanova 也推出了自己的軟體服務,為非科技企業客戶進行模型諮詢和 fine-tune,進而搭建出一套軟硬體產品。Sambanova CEO 也表示,這套軟硬體一體的產品 Sambanova Suite 的目標使用者是 Global 2000 企業。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 核心判斷
02 行業背景
03 產品
04 團隊
05 發展戰略
06 爭議與挑戰
07 融資歷史
01.
核心判斷
-
企業級應用是 LLM 的重要場景,像企業開始使用 SaaS 軟體、雲一樣,圍繞企業 LLM 的需要也能誕生一批重要公司,而頭部模型公司尚未在企業級市場中形成壟斷優勢、企業應用 LLM 的需求分層等則為創業團隊提供了機會空間。以頭部模型公司 OpenAI 為例,由於當下由於頂尖模型的競爭加劇,以及 OpenAI 對微軟的產品線的深度整合計劃,我們認為 OpenAI 暫時沒有多餘的算力資源投入到企業級產品線中,這恰好是 Sambanova 等團隊的視窗機會。此外,開源模型(如LLAMA-2 和 Falcon-180B)和頂尖閉源模型之間雖然存在差異但已經可以滿足企業業務需求,企業使用者在模型選擇的偏好上不執著於閉源模型,也讓 Sambanova 能將重心放在 LLM Serving 上。
-
Sambanova 的三位創始人分別是晶片和 AI/ML 領域的傳奇人物,在軟硬體技術路徑上有著極強的前瞻性獲得成功:CEO Rodrigo Liang 曾是 Sun Microsystems(太陽微電子)晶片部門的資深負責人 ,創始人之一的 Kunle Olukotun 則是多核處理器奠基人 ,另外一位創始人則是積極活躍在各大 ML/AI/LLM 社群的意見領袖以及連續成功創業者 Christopher Ré。Sambanova 公司內部承接了大量 Sun Microsystems 的晶片部門的員工,雖然是一家創業團隊但已經從上至下擁有充足的晶片開發經驗和供應鏈管理能力,過去兩年中,圍繞大模型技術路線和對應的產品線,團隊也培養了數十名 LLM 模型工程師,已在 Serving 環節的服務部署上搭建了先發優勢,近期,團隊也開始從 GCP 和 AWS 引入雲計算關鍵高管,希望能降低客戶的使用門檻。
-
公司在 2020 年就預見了 GPT 等超大模型的爆火,也因此提前佈局、成為 LLM 初創公司裡最早能拿出全套自研軟硬體解決方案的團隊。在 2020 年,團隊在自己的初代晶片設計中就預見性地向 GPT 傾斜、開始走超大記憶體路線,並在在同年開始組建 LLM 訓練專家小組,2021 年 11 月份就開發出了第一個完整解決方案。而今年 9 月釋出的 SN40L 則已經為上萬億引數的 MoE 模型做好準備,有望成為提供 LLM Serving 環節(Fine-tune 和 Inference)價效比最高的伺服器。在開源模型不被頂尖模型甩下的前提下,公司已比眾多競爭對手在服務中大型傳統企業的綜合能力上積累了 1-2 年的先發優勢。
-
無論是晶片還是軟硬體解決方案都獲得了客戶和市場的認同:公司硬體的主要客戶為三家知名的國家實驗室,分別是 Lawrence Livermore National Lab(美國),Argonne National Lab(美國),RIKEN Center(日本),而在軟硬體一體的產品線上,公司已經成功進入到非科技大型企業市場,其中就包括 OTP Bank 和 Accenture,並且 Accenture 將幫助公司接觸到更多的傳統企業,CEO Rodrigo Liang 認為 Sambanova 的長期目標是服務 Global 2000 的大型企業。
-
開源閉源模型能力格局、Serving 環節競爭對手眾多以及當 GPU 算力短缺緩解後 OpenAI 等頭部模型玩家在 LLM Serving 上的投入是公司要面對的競爭。一旦閉源模型對開源模型形成碾壓性優勢,相當一部分企業客戶會因為模型能力被虹吸至頭部模型,LLM 企業級服務市場格局因此發生變化,僅依賴開源模型會十分被動,晉以來;開源模型 Serving 是一個競爭激烈且高度同質化的賽道,除了 AWS 和 Huggingface 以及 Databricks 和 MosaicML 兩大聯盟外,還有 OctoML 等許多初創公司,競爭激烈將意味著市場和利潤空間或將面臨嚴峻挑戰;而一旦 OpenAI 獲取了足夠的 GPU 算力,配合上微軟的企業客戶渠道,Sambanova 的市場空間將顯著收縮;Sambanova 以 on-prem 的服務實施對於技術支援團隊門檻很高,當公司進入業務擴張期會帶來人才供給挑戰。
02.
行業背景
OpenAI 對 GPT 模型的不斷迭代最佳化(包括 Scaling、Instruct-Tunning 和 RLHF)賦予了其多項令人矚目的能力,使得它在幾乎所有傳統的自然語言處理(NLP)任務中都表現出色。隨著 LLM 時代在去年末正式開啟,以及未來多模態(包括圖片和影片資訊)的加入,能夠理解結構化和非結構化資料的 LLM 大機率會替代許多軟體工具,越來越多的企業也已經開始嘗試引入 LLM 以挖掘出更多資料業務價值。
• 軟硬體結合的難度高:大模型的伺服器叢集和訓練過程是一個費時耗力的系統工程,非科技公司幾乎無法自主搭建和運維迭代。即使是 Anthropic 這樣擁有行業頂尖專家的團隊,在早期仍花費了半年以上的時間搭建軟硬體 Infra,更不要說傳統企業內部的 IT 部門,保守預計整個過程可能需要 2 年以上。對於金融、零售、醫藥等大型非科技企業而言,讓它們從硬體底層開始搭建一套 LLM 顯然會導致高昂的摸索成本,這也是歷史上這類企業在技術需求上普遍喜歡找技術諮詢公司的原因。隨著模型和資料集的不斷增大,模型的複雜性也在增加,這還將進一步增加了模型調整和訓練的難度。

• 共用模型難確保資料隱私:ChatGPT 目前是所有人共享相同的模型,這也導致出現不少嚴重的隱私問題。比如三星員工將公司原始碼和會議紀要放入 Prompt 後,這個資訊將可以被 OpenAI 合法獲取。此外, ChatGPT 的聊天曆史資料庫也在 3 月份發生過許可權混亂 Bug,不少使用者可以看到其他使用者的歷史聊天。在隱私的考量下,許多傳統巨頭(JP Morgan、高盛、三星等)嚴令禁止員工在工作中使用 ChatGPT,但他們又將需要大語言模型提供的效率提升,如何在保證隱私的前提下在把業務和大模型相結合已經是一個普遍需求。
• 企業的個性化需求滿足:長期來看,給予大模型個性將是 ToB 模型公司最重要的功能之一,本質上企業需要讓模型更能夠理解自己的業務,除了不同行業間的區分外,即使是在同一領域,不同企業因為業務特性、客戶構成等細節上也存在差異,例如主張 PLG 策略和大客戶策略對應的市場推廣內容風格就完全不同。比如,Adobe CTO 創立的 Typeface 主張為每個企業客戶提供個性化的模型,不僅能傾向採用使用者的偏好色系和產品圖片,也能根據使用者的歷史文案口吻,生成更個性化的文案。企業的個性化需求也決定了現階段 GPT 等閉源模型無法和業務結合得特別徹底。
• 自主掌控資訊的時效性:當下 GPT3.5 和 GPT4 的資料都只截至到 21 年 9 月,顯然當下的通用大模型顯然無法做到高頻地更新資訊。但落地到企業實際業務中,許多資訊需求都是有時效性的,尤其是在金融和科技行業。但是在企業自主掌握模型後,可以將公司最新的研報等資訊喂入。
• 模型可審計性和所有權歸屬界定:可審計性指的是能看到模型的 Weights 和訓練資料集,因為企業客戶要規避侵權和偏見等問題,所以對於模型可審計性有需求,但顯然這些都屬於 OpenAI 的商業機密,幾乎不會共享給客戶。所有權則是確保在學習了內部資料的模型能掌控在企業自己的計算中心裡,不會被 Azure 等雲計算廠商長期繫結(Vendor Lock-in),避免未來被天價收費。所有權也一定程度影響了投資人對公司的技術壁壘預期,比如 Salesforce 利用好以往積累的資料來訓練自研模型後,對於 OpenAI 依賴的減少顯著改善了其市場地位。
除了閉源模型的特性本身和企業實際需求之間的摩擦外,GPU-Centric 的計算單元設計本身也為 LLM 的應用帶來挑戰,如記憶體頻寬不足、可擴充套件性受限、價效比較低,以及軟硬體迭代週期矛盾等問題。而這些也正是擁有深厚晶片設計背景的 Sambanova 團隊在當時看到的機會。
具體來說:
1. 記憶體迭代和算力升級之間的失衡帶來算力浪費:在過去 20 年裡,記憶體讀寫頻寬的提升幅度是計算效能提升的 1/3000,導致 GPT 或推薦系統中的算力使用率不高。如下圖中展示的那樣,記憶體讀寫頻寬用了二十年提升了 30 倍,算力效能卻在同期裡提升了 90000 倍。這使得 GPU 中的計算單元經常要等待記憶體拿取所需的資料,比如有博主在用單張 A100 在沒有進行記憶體最佳化時訓練 GPT-2 時,受限於記憶體讀取效率,算力使用效率只有 35.7%。

記憶體讀寫頻寬用了二十年提升了 30 倍,算力效能卻在同期裡提升了 90000 倍。
2.
不斷讀寫資料帶來的算力利用率低:另一個導致計算效率不高的原因是傳統馮諾依曼架構中的缺陷,資料在計算單元和記憶體單元之間讀寫的讀寫頻率過高,這使得讀寫頻寬不高的情況進一步惡化。
傳統馮諾依曼架構(如下左圖)下,資料要不斷地在計算單元和記憶體單元之間讀寫。比如計算矩陣乘法中,計算單元通常是將矩陣先拆小後分而治之(如下右圖),從中可以推測出過程中反覆讀寫的頻次是極高的。這在記憶體頻寬已嚴重不足的背景下,進一步惡化了計算單元的利用率。


3.
具有較高讀寫速率的 HBM 方案受限於製造和安裝複雜性,拓展能力弱,仍未解決記憶體和計算資源錯配的問題:儘管 HBM 相較於 DDR 記憶體有高頻寬、低能耗等優勢,但卻喪失了更換靈活性。
HBM 的設計下,記憶體需要用 Silicon Interposer(一種特殊材料) 和計算晶片連線,基本這意味著 HBM 記憶體的配置直接由製造環節決定、後期無法靈活更換。靈活性的缺失導致晶片廠商必須提前預判市場需求,而模型的高頻迭代以及多模態功能的加入讓預測變得幾乎不可能,
這必將導致記憶體和計算資源的錯配
。比如 AMD 最新推出的 MI300X 加大了先前釋出的 MI300A 中的記憶體容量,最佳化後的計算記憶體比讓產品比 Nvidia 的 H100 在 LLM 市場裡更具價效比。
此外,錯配的另一個原因是 HBM 的製造和安裝有更復雜的技術要求,導致 HBM 可擴充套件能力遠小於 DDR
。當前 GPU 最大能配置的 HBM 記憶體容量為 192 GB,但如果採用 DDR 記憶體則輕鬆能上 TB 級別的容量,不過這樣的代價是對於記憶體讀寫密集型演算法(比如 GPT 和推薦系統)會執行的特別慢,因為 DDR 記憶體的頻寬通常只有 HBM 的 1/10 左右。
4. LLM 引數量的驟升讓 GPU 叢集 TCO(總體擁有成本) 極高:儘管在 MoE/LoRA/Quantization 等技術應用下,訓練模型的成本有明顯的下降,但是上萬億引數的 LLM 仍需要極大的記憶體空間,比如 1.8 TB 的 GPT-4 被爆(來自 SemiAnalysis)採用了 128 張 A100 的叢集進行推理,(以 $1/hour/A100 計算,這是市場上最便宜的長期預定價格)需要企業每年為此支付 1121 萬美元。更誇張的是,若企業需要經常 Finetune 甚至 Continual Pre-training 模型,則需要上千張 A100,每年的花銷將達到上億。換言之,HBM 帶來的效能提升是以極高的 TCO(總體擁有成本)作為代價的,而 LLM 引數量的驟升讓這個問題快速顯現並惡化。
5. 硬體和軟體迭代週期之間的矛盾讓專用 ASIC 晶片方案失效:LLM 和 Diffusion 模型的大浪下,科技巨頭們如微軟選擇專有ASIC 晶片作為對應方案,ASIC 的優點在於其在特定任務上的高效性和低能耗,然而,其設計和製造週期之長,使其難以跟上 AI 演算法的更新速度,例如即便像 NVIDIA 這樣的壟斷巨頭,也僅能將晶片的迭代週期維持在兩年一次,但這在日新月異的 AIGC 演算法前顯然不夠,MoE 和多模態等新技術的加入將讓現在根據 ChatGPT 設計的 ASIC 難以滿足。
基於以上 LLM 在軟體和硬體上所面臨的問題,Sambanova 自 2020 年開始便將公司重心收斂到 LLM 上,並在 2021 年 9 月份便落地了整套產品。
03.
產品
SambaNova 的核心產品其創新架構晶片,該晶片的誕生源於團隊對 GPT 以及大模型押注,但擁有豐富經驗的團隊自創立之初便意識到,對於晶片公司而言,找到正確的技術路線和持久的計算場景,都是其能否在激烈的市場競爭中立足的關鍵因素。據 Omdia Market Radar:Top AI Hardware Startups 報告統計,2018 年以來,風險投資在 25 家晶片公司中投入了 60 億美元,但目前仍活躍在市場上的只有不到 5 家。即使是業界巨頭,Intel 也因為在過去十年中誤判技術路線和目標市場,導致其地位逐漸下滑。
現階段,SambaNova 的產品是一套軟硬體結合的全棧(full-stack)方案,Sambanova GPT Suite,它能夠為非科技公司在其業務場景整合包括 GPT 在內的 LLM 服務 ,在最新一代晶片 SN40 的釋出中,CEO Rodrigo Liang 表示,Sambanova 的目標是服務於 Global 2000 中的企業。
硬體
Reconfigurable Dataflow Unit (RDU)
RDU 是 SambaNova 在 2020 年推出的晶片產品,能為多種 AI/ML 演算法提供通用的加速,其最核心的創新在於使用了極為靈活的 Reconfiguarable Dataflow 架構,這一架構能夠根據不同的 AI/ML 任務動態地重新配置硬體資源和資料流,從而允許開發者根據需求高自由度地撰寫 Complier,極大程度提高了硬體的通用性,從而能適應 AI/ML 領域的快速發展。
GPT-3 系列的釋出Sambanova 在 2020 年便將團隊重心放在針對 GPT 技術路線的軟硬體最佳化上,不僅為其設計了 Dataflow 以加速訓練和推理,並且也在今年 9 月釋出第四代產品 SN40L,L 代表專為大模型最佳化:SN40L 的設計中引入了三級記憶體的設計,記憶體高達 1.5 T的記憶體,可以支援 25.6 萬個token的序列長度,SN40L 有望成為 Serving LLM (Continual Pre-training、Finetune 和 Inference)價效比最高的裝置。
SambaNova RDU 的晶片結構相當複雜(如下圖),該結構被命名為 Reconfiguarable Dataflow Accelerator,其中的元件包括:
• Pattern Compute Unit (PCU):計算單元;
• Pattern Memory Unit (PMU) :由 SRAM 製成的記憶體單元;
• Switch:負責高效連線 PCU 和 PMU;
• Address Generator Units (AGU) 和 Coalescing Units (CU) :共同負責連線電腦的其他部分,比如 off-chip 的 DRAM 記憶體、硬碟或網絡卡等資源。

RDU 最核心的創新在於引入了 Reconfiguarable Dataflow 的概念,它允許使用者能夠根據不同 AI 演算法定製自己的資料流水線(dataflow)。
我們可以透過下面兩個例子來感受 Reconfiguarable Dataflow 的高效和通用性:
• 簡單的卷積神經網路(CNN,常用於計算機視覺場景):下圖為 Sambanova 的工程師為一個簡單的 CNN 設計了一條 Dataflow,可以看到晶片從 DDR 記憶體單次讀取樣本後,就能在片上完成完整的計算過程,避免多次讀寫 DDR。而對於這樣小型的 CNN,片上不同的計算單元還能同時處理不同的樣本,就像工廠裡的流水線。


• GPT 解碼器中的 Feed Forward Neural Network:SambaNova 的工程師們參考 GPT-3 13B 的引數設定重新訓練了一個 GPT,在根據 GPT 的結構設計對應流水線後,在 RDU 上的訓練速率上成功比 A100 快了 4.5 倍。


(具體論文參考:TRAINING LARGE LANGUAGE MODELS EFFICIENTLY WITH SPARSITY AND DATAFLOW)
下圖中展示了傳統架構和 Dataflow 架構在處理 GPT Decoder的 Feed Forward Neural Network 時的區別,其中藍框表明是儲存在 SRAM 上。他們最大的區別是對於 HBM/DDR Memory 的讀取次數,Dataflow 的合理運用將有效減少記憶體讀寫的浪費。

除 Dataflow 外,最新一代晶片 RDU SN40L 的設計還加入了520MB SRAM (300 TB/s)、64GB HBM3 (3 TB/s) 和1.5 TB DDR5 (0.3 TB/s)三級記憶體方案,基於這一設計我們預估 Sambanova 能將計算叢集的總擁有成本(TCO)降至 GPU 的 1/25(下文會進行詳細分析),也讓 RDU 有機會成為 Serving(包括 Fine-tune 和 Inference ) LLM 環節中最高性價比的伺服器。
三級記憶體方案指:
• 520MB SRAM (300 TB/s): 在晶片中四處分佈的 PMU 由高效能且昂貴的 SRAM 製成,單片 SN40L RDU 中包含著 640 MB 的 SRAM,能提供 300TB/s 的總頻寬。作為比較,單片 H100 上的 SRAM 為 50MB ,我們推測其總頻寬應預計不會超過 50TB/s。
• 64GB HBM3 (3 TB/s):SN40L 將 RDU 和 HBM3 記憶體封裝在了一起,從而能夠獲得接近 H100 的記憶體速率,化解了前代晶片的弱勢。
• 1.5 TB DDR5 (0.3 TB/s):Sambanova 基於對 LLM 模型市場的預判,一直要求團隊把 RDU 最大記憶體容量推至極限。CTO Kunle 早在 2019年就預測到未來模型將會變得極大,所以在推出第一代晶片時, Kunle 就強力推動工程團隊支援 1.5TB 的 DDR。
作為對比, Coreweave HGX H100 伺服器裡,通常由 8 張 H100 共享 1-2TB 的 DDR5 記憶體,總頻寬在 300 GB/s,意味著平均每張 H100 有 256 GB 的 DDR5 記憶體和 37.5 GB/s 每秒的頻寬,遠少於單張 RDU 所能讀取的記憶體容量和頻寬。
如下為 RDU 和 NVIDIA Datacenter Chip 一些指標的對比:

注:RDU SN30 基本是將兩個 SN20 用 TSMC 的技術拼接形成的,類似 Apple M1 和 M1 Pro。
Dataflow 和三級記憶體的設計組合有能力緩解我們在前面提到的當前 GPU-Centric 的問題:
1. Dataflow 和三級記憶體的深度最佳化將允許計算單元等待時間更少。算力使用效率低的主要原因是計算單元要等本地記憶體和遠距離記憶體的讀寫。三級記憶體的引入能讓使用者根據內容的常用程度依次的分佈在 SRAM、HBM 和 DDR 上,從而不僅避免不必要的讀寫操作,DDR 的大容量也降低了讀寫遠距離記憶體的需求。Dataflow 則允許使用者將計算結果直接用在流程的下一步中,而在傳統架構下計算結果通常會寫回記憶體,而在下一步中需要再次讀取,造成嚴重的資源浪費。
2. 遠超行業均值的 SRAM 容量減少了讀寫資料的頻率。RDU 擁有 520MB 的 SRAM,遠超 H100 的 50MB。更大的 SRAM 能節省從 HBM/DDR 讀寫的次數,從而降低啟動讀寫時的總延時。
3. DDR 和 HBM 的混用既確保了效能,也保留了一定的可擴充套件性。在 SN40L 之前的產品中,Sambanova 為確保 RDU 伺服器能容納近萬億引數的 LLM,不得不以記憶體效能作為代價採用大容量的 DDR。而在 SN40L 的設計中,將 HBM 置於 SRAM 和 DDR 之間作為效能緩衝將明顯緩解這一問題。
4. RDU 針對 DDR 的最佳化能數量級降低計算叢集 TCO(總體擁有成本) 。由於單片 RDU 能支援 1.5TB 的 DDR,也意味著一臺由 8 個RDU 組成的伺服器就能放下 12 TB 的引數,對應著大概 5 萬億引數量的 LLM,如果換成 A100 則需要 150 張 A100 80G,既 20臺伺服器左右,考慮到其中浪費的互聯絡統和 CPU 配套設施,Sambanova 預估能將成本降至 GPU 的 1/25。大記憶體的設計還可以有效避免了片間通訊的研發成本和難度。因為基本解決了存算單元之間的錯配,所以 RDU 伺服器基本不太需要成百上千個 RDU 之間的通訊。不過, RDU 仍舊能夠提供對 RMDA over Ethernet/Infiniband 通訊協議的支援,最大支援為 400Gb/s ,根據我們的瞭解,RDU已經驗證能夠支援千卡規模的計算叢集,所以在互聯方面已基本追平行業平均水平。
5. Dataflow 和三級記憶體方案允許使用者針對場景深度最佳化。我們在上面提到,硬體的冗長迭代週期和高企的迭代成本讓市面上大部分 ASIC 公司難以跟上軟體演算法的高頻迭代。RDU 因為支援 Dataflow 加上最新一代的三級記憶體方案則給予 Complier 極大的硬體排程自由度,能夠靈活的根據各種 AI/ML 演算法定製最佳化方案。對於使用者而言,Dataflow 的設計能讓 Complier 指導 RDU 適應最新的演算法,使用者完全能將硬體的研發預算轉移到 Complier 的開發團隊上,緩解軟硬體迭代週期的矛盾;對於 SambaNova 來說,RDU 的硬體研發成本能夠在多個 AI/ML 場景下被攤平,再透過為多個客戶開發 Complier 來賺取長期服務費。
這樣創新的架構將能極大加速科研機構內的一些 CV/NLP 的演算法側的實踐,也因此 RDU 的最早一批客戶由國家實驗室、國家科研機構等構成。我們將在後文中展開這些客戶和用例。
軟體
SambaNovaGPT
晶片行業僅靠技術創新遠遠不足以生存,還需要輔以合理的 GTM 策略,對於 SambaNova 來說,團隊在 2022 年推出的 SambaNova GPTSuite 就是讓 RDU 有機會從科研機構走向更大的企業級市場的存在,進而觸及傳統企業的 IT 預算,成為企業級 LLM 的重要基礎設施。
首先,需要強調的是,GPT 對於 SambaNova 來說是一次歷史機遇。對於 SambanNova 自身來說,開發團隊從 2020 年起就將精力集中在 GPT 這單一演算法上,持續在技術和產品上積累優勢,站在外部機遇視角下,GPT 的強大不僅能侵蝕傳統 NLP 場景,也能滿足以往無法實現的長尾需求。
SambaNova 在 2020 年 3 月就訓練了一個 100B 引數的模型 ONE,儘管當時還沒有收斂到 GPT 技術路線上,但也算是正確地選擇了大引數和語言生成的路線,在後來看到 GPT-3 驚人的表現後,團隊就決心轉向 GPT 路線。

SambaNova 在 2020 年 3 月就訓練了一個 100B 引數的模型 ONE
2021 年 11 月,SambaNova 為匈牙利 OTP Bank 開發了一個完整的軟硬體方案 SambaNovaGPT,一個針對匈牙利語定製的 13B 引數 LLM。
這款模型的客戶是 OTP Bank 和匈牙利科技部,OTP 將用其輔助移動端銀行應用的運營事務,而科技部則鼓勵其他匈牙利的大學、SMB 使用這項創新的技術。
💡
我們推測,OTP Bank 的模型僅有 13B 的主要原因有兩點:
• 匈牙利語的語料庫遠小於英語,所以小引數量的模型就已足夠得到充分訓練;
• 客戶的需求比較固定,只可以用一些精心定製的例子來為模型 Fine-tune 就能獲得不錯的效果;
受 OTP Bank 合作的啟發,SambaNova 在 2022 年 3 月推出了面向企業和政府客戶的 SambaNovaGPT Suite,是一個軟硬體一體的企業級大模型解決方案,也是 SambaNova 目前的主力產品。首先團隊會協助客戶選取最合適的模型,再由硬體團隊根據模型、訓練資料和訪問量大小決定需要多大的伺服器。然後等模型團隊會結合企業客戶需求在伺服器上訓練好模型後,再將裝置安裝到客戶的機房中。除了 On-prem 外,為降低使用者的使用門檻,我們預計公司將推出雲服務平臺,我們將在後文展開。目前階段 Sambanova Suite 的服務方式是除了 On-prem 外,我們預計,為降低使用者的使用門檻,公司會推出雲服務平臺,我們將在後文展開。
在模型的選擇上,因為 RDA 的靈活性,Sambanova 目前能夠支援包括 GPT、Claude、Llama 等各類閉源和開源模型,Sambanova 也推出了自己的模型 (SN GPT 和 BLOOMChat),在具體實踐中,Sambanova 的 LLM 工程師團隊會結合企業需求和偏好進行模型的最終選擇。
選定好模型後,將企業資料用以 Fine-tune 模型(如下圖),這樣就可個性化模型並提高生成準確度。

還有一些客戶會要求開發一些更易用的軟體,比如下圖是公司做的一個和 PDF 內容問答的 Demo(如下圖)。

結合公司的一些產品 Demo ,我們可以看到,其主推的是模型大小為 13B,也會支援 Automatic Speech Recognition 的模型,從而能用在客服場景中。比如公司正在幫助客戶解決以下商業場景:
• 在客服人員的通話中給予一些選項和話術上的輔導,並從客戶交談中挖掘資訊;
• 幫助企業處理大量的文字資料,從海量的文件中提取有價值的資訊,提高工作效率。
此外,由於 NLP 的技術路線目前已收斂至 GPT 上,這使得 SambaNova 團隊能集中精力針對 GPT 進行開發。其中包括:
• 硬體:在最新一代 RDU SN40L 中採用三級記憶體方案,不然在訓練大模型時需要額外攻關片間互聯技術。
• Complier:團隊中的 Venkat Srinivasan 為 GPT 13B 大小的模型定製 Dataflow,從而達到 A100 的 4.5x 的訓練效率。
• LLM 演算法:團隊先後開發了 SN GPT(13B),BLOOMChat(176B) 等模型,是 LLM 開源社群的重要力量。
其中,BloomChat 是公司對 Bloom 進行對話風格的指令微調後所得到的多語種對話模型,有著不俗的效能和社群聲量。由 50 個左右的志願者進行的上千條偏好選擇(包含 6 種語言)中,BloomChat 和 GPT-4 被選擇的次數比是 45:55(下左圖),而和其他開源模型對比時,使用者更偏好 BloomChat 結果的佔比是碾壓的 66%(下右圖)。但是社群內也有使用者反饋模型在程式碼和安全性上有較大問題,程式碼能力可能是因為 Bloom 模型本身的訓練語料中程式碼成分較少或質量不高,而安全性則說明 SambaNova 團隊在 Alignment 能力上離一線的 OpenAI 和 Anthropic 有一定差距。


CV and
Recommender System
在 LLM 之前,SambaNova 也曾看好 CV 和 Recommender System 在企業內部的應用,但是因為需求和演算法的碎片化,SambaNova 自身很難在積累演算法和產品上的優勢,所以公司內部只有少量的 CV 專家仍在支援國家實驗室的科研問題,在商業場景下難以找到客戶,這裡我們不做展開。
04.
團隊
SambaNova 的團隊是我們關注這家公司的原因之一,在瞭解幾位核心創始人的背景後,我們也更能理解其產品理念和發展戰略。SambaNova 由 3 位行業傳奇創立,並擁有一位擁有深厚企業和政府人脈、豐富經驗的產品經理,早在 2020 年,公司就開始建立一支專注於 GPT 相關工作的模型工程師團隊,目前這個模型訓練團隊已經發展到二三十人的規模。為了順應傳統企業向雲計算轉變的大勢,SambaNova 最近從 AWS 和 GCP引入了雲計算領域的 Infra 和銷售主管,我們因此推測 Sambanova 未來將會推出針對企業的大模型雲服務。
Rodrigo Liang
– CEO & Co-founder
Rodrigo Liang 是一名資歷深厚的晶片工程師,也有著豐厚的企業 IT 系統的 know-how 和人脈資源。
Liang 曾在 Afara Websystems 擔任 VP of Engineering,Afara 是 Sambanova 現任 CTO Kunle Olukotun 在 2001 年創辦的公司,Liang 是 Afara 當時最好的工程師,他主導開發的 Niagara 架構晶片(用於網頁伺服器)成功在 2002 年吸引來了 Sun Microsystems 的 3000 萬美元收購要約(此前 Afara 只有 Seed 輪),並憑藉優異的效能讓 Sun 砍掉內部自研的 Honeybee 系列晶片, Liang 加入 Sun 後擔任了 Sun 的多執行緒晶片部門 VP。2010 年, Sun 被 Oracle 收購後,Liang 加入擔任 SPARC 晶片部門的 VP,推動了 Oracle 和 IBM 在企業級伺服器的硬體能力升級。
Sun Microsystems 曾是 IBM 最大的競爭對手,也主導開發了 JAVA 語言。其主營業務為賣晶片和伺服器為主,輔以作業系統、資料庫和開發語言等軟體配套。2000 年左右,Sun Microsystems 的市值曾高達 2000 億美元,但因為忽視市場銷售和運營等原因,逐漸走向沒落,最終在 2009 年被 Oracle 以 74 億美元收購。
Liang 的背景讓 SambaNova 的商業模式與大多數晶片創業公司不同:並不直接售賣晶片,而是像 Oracle、Sun Microsystems 以及 iIBM 一樣向企業銷售軟硬體整合的解決方案。在 Sun 和 Oracle 的工作經歷讓 Liang 知道,軟硬體整合對技術能力不強、資料安全要求高的傳統企業(如製造業或金融業)有著顯著的吸引力。再加上每年向傳統巨頭收取技術服務費,我們認為這一商業模型將有助於 SambaNova 在競爭激烈的晶片行業中長久生存下來,因為對於一個只有 200 人的小團隊來說,和 NVIDIA 或 AMD 競爭科技巨頭的預算(比如 Meta 內部的計算叢集)幾乎是不可能的。
Kunle Olukotun
– Chief Technologist & Co-founder
Kunle Olukotun 是多核晶片理論的奠基人之一,摩爾定律能在 2006 年後沒有失靈正是因為 CPU 從追求單核心效能到追求多核心協同工作。他目前仍在斯坦福擔任 CS 和 EE 的教授,每年也能指導四五篇 ML Complier 最佳化和 RDU 在不同 ML 場景下應用的論文,確保 RDU 能持續在最前沿的科研工作中持續找到場景。
Olukotun 曾是 Afara WebSystems 的創始人,他利用自己的前沿科研成果開發了多核多執行緒晶片,後來為 Sun Microsystem 設計了 UltraSPARC T1 的晶片架構,在當時全球 Web Serving 伺服器晶片裡遙遙領先,比最好的 Intel 同類晶片快了 7 倍。
在 2008 年,Olukotun 辭去了 Sun 的工作後重返 Standford,組織並主導了 Pervasive Parallelism Laboratory 和 Data Analytics for What’s Next (DAWN) Lab,前者注重軟硬體結合的平行計算,後者注重資料分析等早年 AI/ML 的研究,也在這裡結識了另一位 Co-founder Christopher Ré。
Christopher Ré
– Co-founder
Christopher Re 在公司主要負責前沿的 AI 演算法研究,為公司指明前沿的學術方向,也帶來學界和開源社群的的合作。
Ré 是 Standford AI Lab 的助理教授,不僅有著出色學術成就,同時也是一位成功創業者。Ré 憑藉 2011 年釋出的 Hogwild (一種流行的分散式梯度下降演算法,有 2500 左右的 Citation)而逐漸變得知名,目前也持續在 Lab 裡指導著 AI/ML PhD,每年負責 30-50 篇的論文。其中包括 10 億美元估值的 Snorkel 初創團隊就是 Christopher Ré 的學生。此外,Ré 曾創辦過一家資料探勘公司 Lattice,僅在一輪天使輪後就被 Apple 以兩億美元收購。
Ré 也是知名的大模型社群 Hazy Research的意見領袖,指導著 Standford AI/ML PHD 活躍運營 Hazy Research,並協助 SambaNova 獲得學界和開源社群的合作。除了學術研究外,Ré 也熱衷於對 AI 的安全、社群、壁壘或競爭格局等角度發表自己的看法,在和自己的 PHD 學生的幫助下,運營著 Hazy Research 部落格。此外,這個部落格經常和 Hugging Face、Together 等知名開源社群互動,最近也為公司帶來和 MosaicML、Together 的合作。
Marshall Choy
– VP of Product & Go-to-Market
Marshall Choy 是一名出色的 ToB/G 伺服器的產品經理和銷售主管,公司幾乎所有的大客戶資源都是他推動的。
Choy 從 1998 年起就在 Sun Microsystem 擔任產品經理,當該公司被 Oracle 收購後,他繼續擔任企業級伺服器的產品經理,不過更加強調硬體與 Oracle Database 和軟體的整合,並開始積累 Go-to-Market 的人脈網路。在 2018 年加入了 SambaNova 後,先後帶來了 LLNL、ANL、OTP Bank 和近期日本的 RIKEN Center 等客戶。此外,由於 Oracle 和 Accenture 是企業 IT 的戰略合作伙伴, Choy 則利用先前的資源促成了 Accenture 和 SambaNova 形成企業 AI 的戰略合作伙伴。
除去上面四位重要人物外,公司還吸納了大量曾在 Sun Microsystem 和 Oracle 主持 SPARC 處理器的主管和工程師,涉及領域從上游的晶片架構、設計和編譯器最佳化,到中游的測試、生產和供應鏈管控,再到下游的企業伺服器叢集、企業應用和 ML/AI 演算法工程師。
公司在 2020 年釋出了第一代晶片之後,就開始組建一個專門負責訓練 GPT 模型的專案團隊,目前預計該團隊有二三十名模型工程師。他們的日常工作除了根據客戶的需求調整模型之外,也會學習開源社群的前沿技術和參與學術討論,同時與一些社群進行合作以共同訓練模型。然而,由於公司內部還有大量的晶片工程師,這兩個團隊會頻繁地進行交叉合作,共同探索和撰寫關於 RDU 在各個領域的加速方法,以試圖擴大 RDU 的應用範圍。
今年四月, SambaNova 更從 AWS 和 GCP 分別挖來了 Richard Halkett 和 Danner Stodolsky,分別負責搭建更成熟的銷售團隊和雲計算平臺。Richard Halkett 曾在 AWS 擔任了 6 年的雲計算創新業務主管,更早前曾在思科擔任全球銷售部門的主管,十分契合 SambaNova 創新性的 ML/AI 業務銷售;而 Danner Stodolsky 則先後在 Google Youtube 和 GCP 擔任 VP of Engineer,預計二者的加入是 SambaNova 為搭建雲計算服務進行準備。
05.
發展戰略
AI For Science
SambaNova 的硬體產品最早也是目前最重要的客戶群體是國家實驗室,公司基本只要為客戶提供硬體和一些通用的軟體,並不太需要做一些 Dataflow 定製化的工作,可以說是一個“錢多事少”的生意。其中,公司和 Lawrence Livermore National Laboratory、 Argonne National Laboratory 和 RIKEN Center 的合作較為緊密。

Lawrence Livermore National Laboratory(LLNL) 是公司最早的合作伙伴,這家國家實驗室有著全球第 6 的超算 Sierra,每年能從美國能源部拿到 5000 萬美元的預算,其中 4-5 百萬美元會花在計算資源上。RDU 在 LLNL 主要被用來輔助 Corona 超算叢集,進行 Cognitive Simulations,這種模擬試圖使用超大規模的神經網路來替代硬核的物理公式計算,所以這將需要處理百萬計甚至數十億的神經元。此外,他們也利用 RDU 極大的 SRAM 來進行一些小模型的推理,能獲得遠超 GPU 架構下的效率。
Argonne National Laboratory 也是一個早期客戶,這家國家實驗室有著全球第一的超算 Aurora,每年能從美國能源部拿到 6 億美元的預算,其中有 1.6 億美元會花在計算資源上。這家實驗室偏好支援多個晶片初創公司,有著一個計算資源平臺 ALCF AI 供科研人員申請呼叫,平臺上有 Cerebras、Graphcore、Groq 、 Habana 和 SambaNova。RDU 主要被用在中微子物理、癌症預測和新藥發現學等複雜的科研場景中,所以 Argonne 在 2022 年和 Samabnova 續簽了多年的合同。Argonne 和 SambaNova 的研究員合作開發了 RDU dataflow for GNN 後,獲得了 1.5-2x 的加速。
RIKEN Center 是 2023 年 3 月簽下的新客戶,這家實驗室是日本最富盛名 ML/AI 研究所,有著當今全球第三的超算 Fugaku,每年的花銷預算大概有 7 億美元,其中有 1.25 億美元會花在計算資源上。RIKEN 的科研人員將會在 RDU 運行復雜的 CV 演算法,用來處理超清的 3D 圖片。
企業 LLM 戰略轉變
不少企業的 LLM 戰略正在從分發切換到自研,這意味將有大量中型模型的訓練需求。比如,Salesforce 的 EinsteinGPT 和 Notion AI 在早期只是將 GPT3.5 和 Claude 嵌入到使用者的工作流中,Salesforce 作為分發模型的角色。但最近兩個月, EinsteinGPT 已逐漸在一些場景下混用了自研 LLM,從而使得自己地位進一步抬升。也有一些 LLM 應用開發者先用 GPT-4 為使用者生成高質量回答,再用這些高質量資料去 Fine-tune 開源模型,最終在一些固定場景下能以極低的成本獲得近似的效果。
此外,模型的智慧能力並不是企業客戶決策的最重要標準。Hugging Face 和 SambaNova 的模型工程師總結了其客戶選擇模型的規律:他們通常會在一開始使用 OpenAI 來探索業務中能嵌入 LLM 的場景,但是後面會逐漸因為成本、資料安全、自主掌控技術、使用者授權複雜、OpenAI API 功能貧瘠等問題,轉而使用開源模型或從頭自研新模型。這時他們便會找到 Hugging Face 或是 Sambanova 這類公司尋求諮詢和幫助。
在市場時機上,OpenAI 中短期內更傾向探索智慧極限,內部 80% 的算力仍用在 Training,SambaNova 可以趁現在主攻大模型的 ToB Serving。受 Google Bard、 Anthropic 和 Inflection 的激烈競爭影響,並且由於 OpenAI 吸納的人才主要還是模型訓練的工程師,OpenAI 的人才和算力資源更傾向 Training 端。由於 ToB Serving 通常比 ToC Serving 所佔用的算力資源更多,所以為保證模型競爭力的 OpenAI 還沒法切換公司重心到 ToB Serving 上。SambaNova 可以抓住這兩三年的視窗期,梳理開源社群在各個模型訓練的技巧,為企業客戶提供諮詢和 Serving。
OpenAI/Anthropic 的旗艦模型預計將長期閉源,難以允許企業私有化部署,而採用開源模型的 SambaNova 將可直接將軟硬體整體放入客戶的機房,提供最高級別的個性化、資料安全、模型所有權等企業需求。OpenAI 和微軟近期簽下了賓士,但 GPT 的模型仍在 Azure 雲上執行,意味著 Azure 難以為類似賓士這樣的大客戶做私有化部署,而賓士將無法個性化模型,且會被 Azure 長期 Vendor lock-in,也有可能會遇上大模型帶來的新雲安全問題。而 SambaNova 由於將會採用開源模型,可以將軟硬一體的解決方案放入客戶的機房,不需要擔心模型權重洩露,也能夠提供最高級別的個性化、資料安全、模型所有權等企業需求。
是否允許私有化部署將直接導致客源的差異化,SambaNova 對於資料安全有極端追求且技術要求不高的金融和製造業很有吸引力:
• 這些領域通常有大量的專屬詞彙和特殊的語法體系,也會對處事流程和對話方式有嚴苛的要求,所以他們是急需個性化/垂直化的場景;
• 與此同時,由於行業的敏感性和對客戶的保密條款,這些行業的客戶願意放棄一部分的能力來追求資料隱私;
• 最後,這些客戶通常內部的技術能力不強,更傾向直接向埃森哲這類諮詢公司外包完整的技術方案,而不是像 Salesforce/Notion 這些科技新貴一樣既想要從 Azure 拿到能力最強的模型,又希望自己的技術團隊對其改造後留有一部分的自主權。
我們認為現在 SambaNova 和 OpenAI 的差異化競爭角度足夠明顯,在開源模型的能力還可以的前提下,配合 Accenture 吃下一部分 Global 2000 企業的成功率可觀。
Open Source Gang
開源社群的協作和巨頭的攪局策略正在顯著著提升開源社群的模型能力和聲量,隨著優質開源模型不斷湧現、市場上模型供給足夠豐富和多元,Sambanova 有機會更全面地滿足客戶需求,團隊在學習並熟知模型訓練各個環節的優質專案後,能夠更全面深入地為客戶提供諮詢和 Serving 服務。
OpenAI 的模型訓練方法是上百人和數萬張 GPU 用數年的實驗才試探出的工程經驗,不計其數的小技巧積微成著才有了今天 GPT-4 的卓越表現,這個過程中,OpenAI 也在各個環節培養了行業第一批優質人才。只要 OpenAI 的人才流失不嚴重,那麼以 SambaNova 的工程師人數和算力規模,將很難不被 OpenAI 的未來模型甩下。但這並不意味著 SambaNova 無法做好企業模型:
• 開源社群模型能力
正如我們在LLM迷思中提到,多個開源社群透過合作推出了可商用的 OpenLLAMA 13B,其效能在 22 個測評指標中和原始 LLAMA 13B 效能相近。隨著鏈路的打通和分工的明確,我們相信開源社群的模型能力將會在未來一兩年內會有超出預期的表現。此外,SambaNova 在今年三月也和 Together 與 Hazy Research 合作了 OpenChatKit 專案,自己也下場微調了 BLOOM 模型,為算力短缺的開源社群貢獻了千億引數級別的多語種對話大模型。

• 巨頭的攪局策略
當前開源社群模型能力較為突出的當屬 Meta 的 LLAMA 和中東財團支援的 Falcon。雖然他們在技術工程的初期積累相對較少,但他們顯然想透過支援和協助開源社群來提升自身的知名度並獲取技術援助,並試圖攪亂 Google 和微軟的戰略佈局。
TII 的 Falcon-180B 和 Meta 的 LLAMA-2 已在多項指標上接近了 GPT-3.5,而用各個場景下的資料進行 Fine-tune 後不僅能媲美 GPT Fine-tune 後的效果,並且降低了成本又保證了資料隱私。當免費和頂尖 LLM 只差半代的共識形成後,不少使用者便傾向於基於開源模型自研。

這時候 Sambanova 不僅能依靠 SN40L 為客戶省下百卡規模的計算叢集成本,又已經有兩三年 Servng 企業客戶的經驗,節省他們在 Fine-tune、Evaluation 和部署的 MLOPs 上的學習成本。
模型雲服務

Sambanova 在 4 月份分別從 AWS 和 GCP 挖來了其重要的管理層 Richard Halkett 和 Danner Stodolsky,大機率將推出雲服務。Richard Halkett 曾是 AWS 的創新部門主管,而 Danner Stodolsky 則是谷歌 Youtube、Ads 和 GCP 等多個重要部門的工程 VP。回顧 SambaNova 以往的商業策略,以及 RDU 的複雜性,我們預測這個雲平臺將並非簡單地按需提供 RDU,而是它將允許客戶從 Hugging Face 等模型平臺中選擇合適的開源模型,提供一個使用者友好的介面,讓客戶能夠利用自己的資料進行模型的微調。最後,底層的支援則是 SambaNova 的 RDU,以及一些較通用的編譯器 (Complier)。
這個全新的平臺預期將大幅降低 RDU 的使用門檻,更引入了開源模型的靈活性和適應性。透過提供友好的使用者介面,它將幫助那些入門級的使用者(比如一些小金融機構和製造公司等)更容易地定製和應用複雜的模型,以滿足他們具體的業務需求。此外,客戶嘗試 RDU 和模型後效果不錯,可以聯絡 Sambanova 團隊定製專用的編譯器來追求極致效能,或是直接購買伺服器來進一步降低成本。
我們預期,SambaNova 的這一舉措將有力地推動其業務發展,特別是能更高效地配合 Accenture 滿足高頻且複雜的企業需求。
06.
爭議與挑戰
1. 僅用開源模型將面臨眾多競爭對手:
Sambanova 將依靠開源社群的 Base Model 給客戶做後續的定製化服務,但這將意味著市場上任何一個擁有一定技術能力的團隊都有可能成為他們的競爭者。眼下,許多初創公司都擔憂 OpenAI 的強大模型能力將在未來向 B 端市場轉型後對他們形成壓倒性的競爭優勢,這使得這些初創公司在建立團隊和吸引投資者方面面臨著挑戰。像是 Sambanova 和 Hugging Face 這類先前都有不錯的融資額和市場地位的公司,應該抓住初創公司不敢做,OpenAI 沒來做的市場時機,努力抓住客戶並打磨產品。否則等市場已達成 OpenAI 無法甩開開源模型的共識,就會因為公司沒有明顯(客源/成本/產品/團隊熟練度)壁壘,因市場的內卷而逐漸失去盈利能力。
然而,LLM Serving市場依然具備誘人的潛力,吸引了一眾巨頭和頂尖創業者的佈局。不僅有 AWS 和 Huggingface,還有Databricks 和 MosaicML 等兩大聯盟,以及像 OctoML 和 Modular 等初創公司。前兩大巨頭聯盟擁有充足的算力、人才和技術儲備,而後兩個初創公司則憑藉強大的技術團隊和執行力在行業內具備了相當的吸引力和競爭力。
這是一場關乎市場機遇、技術產品優勢和客戶忠誠度的競賽,任何一環的失誤都可能導致競爭地位的喪失。我們認為,Sambanova 整合軟硬體以及面向傳統企業客戶的策略在一定程度上避免了直接競爭,也有機會在早期就抓住更有價值的大型企業客戶,在市場上獲得先發優勢。
2. ChatGPT 隱私和個性化問題將逐漸被解決
儘管外部認為 OpenAI 目前仍把大量人才和算力放在 Training 上,也因此留給一些企業級 LLM 服務的機會給到其他團隊,但考慮到 ChatGPT 團隊(ToC Serving)的內部優先順序和重視程度還是很高的。我們認為 OpenAI 現在已經在產品的隱私和個性化問題上取得了初步進展:在使用者條款中明確表示不會利用使用者資料進行訓練,這使得大部分使用者對隱私問題的擔憂有所緩解;也將在近期放出 Profile 功能,這將使使用者能夠進行一定程度的個性化設定。
3. 算力緊缺緩解導致 OpenAI 提前轉向 ToB Serving 市場
儘管當前 OpenAI 並沒有冗餘的算力資源為算力佔用更高的 B 端使用者做私有化模型等產品,但預計到年底,隨著 AMD MI300 和 Google TPUv5 的大規模上市,算力緊缺的情況有望得到顯著緩解。MI300/TPUv5 因採用和 H100 不同的製程和技術方案等原因,也不用和 NVIDIA 搶 TSMC 4nm 的產能,其成本和售價大機率會比 H100 低,預計能在 Serving 環節有不錯的價效比表現。
考慮到 Azure 當下已經初步嘗試為賓士等傳統巨頭做 ChatGPT 的簡單整合,可能在年底就會利用 AMD 的晶片為企業客戶做私有化部署等更能保障隱私的舉措,這將使 Sambanova 面臨緊迫的時間壓力。
07.
融資歷史

Reference
https://sambanova.ai
https://iscaconf.org/isca2018/docs/Kunle-ISCA-Keynote-2018.pdf
https://sambanova.ai/wp-content/uploads/2021/04/SambaNova_Accelerated-Computing-with-a-Reconfigurable-Dataflow-Architecture_Whitepaper_English.pdf
https://www.eetimes.com/podcasts/the-future-of-llms-compute-democratization-and-open-source-models/
https://www.servethehome.com/SambaNova-sn10-rdu-at-hot-chips-33/
https://www.engineering.com/story/hard-times-for-ai-chip-startups
https://www.nextplatform.com/2023/09/20/sambanova-tackles-generative-ai-with-new-chip-and-new-approach/
https://www.techtarget.com/searchenterpriseai/news/366552594/SambaNova-AI-launches-new-chip-the-SN40L



延伸閱讀










關鍵詞
成本
算力
硬體
大模型
雲計算