在Chat-GPT問世之前,賭對Transformer。
|
封面來源|公司官網
又是藤校生輟學創業,開拓技術新路線,挑戰主流的故事。
兩個從哈佛退學的00後本科生,開發了一款新的AI晶片,籌集了高達1.2億美元。
兩位輟學生創立的公司名為Etched AI,開發的這款晶片名為「Sohu」(但不是“搜狐”),是專為Transoformer架構大模型研發的ASIC晶片。相比於佔據AI晶片壟斷地位的、原本作為圖形處理器的英偉達GPU,Sohu晶片只執行Transformer架構的模型,但執行速度比GPU快一個數量級。
當地時間6月25日,Etched宣佈完成 1.2 億美元的 A 輪融資,由早期投資機構Primary Venture Partners 和 Positive Sum Ventures 共同領投。重量級天使投資人包括風險投資家 Peter Thiel、GitHub 執行長 Thomas Dohmke、自動駕駛公司 Cruise 的聯合創始人 Kyle Vogt, 以及Quora的聯合創始人Charlie Cheever。目前公司沒有透露新一輪融資後的估值。已經有早期客戶,向Etched AI預訂了數千萬美元的硬體訂單。
Etched AI 位於加利福尼亞,是一家“兩人公司”,兩位創始人都是2020年進入哈佛,在校時瘋狂兼職打工,後來休學創業,其中一位是21歲華裔小哥Chris Zhu,一位是Gavin Uberti。
英偉達的AI晶片帝國,不乏挑戰者:晶片初創公司Cerebras Systems的大體積單個晶片,以及 Tenstorrent公司的RISC-V技術晶片。現在英偉達又多了一個更年輕、更雄心勃勃的對手——Etched AI。
眾所周知,AI晶片的巨頭英偉達採取的GPU原本是圖形處理器,擅長並行處理多個簡單的計算,後用於訓練AI模型,因為訓練AI需要同時對所有資料樣本執行相同的操作。
但訓練AI大模型需要更專用的晶片。Etched執行長Uberti 在公開採訪中說,“人工智慧的發展已經到了這樣一個階段,效能優於通用 GPU 的專用晶片是不可避免的——全世界的技術決策者都知道這一點。”
「Sohu」晶片是一種 ASIC(專用積體電路),一種為特定應用量身定製的晶片。Sohu只執行Transformer架構的模型。Transformer 是由谷歌研究人員團隊於 2017 年提出的,已成為占主導地位的生成式 AI 模型演算法。
Etched 稱Sohu晶片採用臺積電 4 納米制程製造,可以提供比 GPU 更好的推理效能,同時消耗更少的能源。
Etched宣稱,與H100相比,一臺集成了8塊Sohu晶片的伺服器,能匹敵160塊H100晶片,這意味著Sohu晶片的速度比H100快20倍。與英偉達下一代 Blackwell (B200) GPU相比,Sohu晶片快 10 倍以上,而且更便宜。
針對Llama 70B 開源大模型,一臺Sohu晶片每秒執行超過 50萬個token,比 H100 晶片(2.3萬token/秒)多 20 倍,比 B200 晶片(約 4.5萬token/秒)多 10 倍。
針對 Llama 3 70B 的 FP8 精度基準測試顯示:無稀疏性、8 倍模型並行、2048 輸入或 128 輸出長度。
連續批處理提示和補全:每個序列包含四個輸入標記和四個輸出標記;每種顏色代表一個不同的、獨立的序列。圖源:Etched官網
Sohu晶片採用了一種名為“連續批處理”(Continuous batching of prompts and completions)的創新技術。這種方法巧妙地將多個輸入和輸出序列組合在一起處理,充分利用了晶片的計算資源。
想象一下,就像是在一個大廚房裡,多個廚師同時使用相同的食材(模型權重)烹飪不同的菜餚(處理不同的輸入序列)。
這種技術的優勢在處理長輸入短輸出的場景中尤為明顯,這恰好符合大多數AI應用的使用模式。透過這種方式,Sohu晶片能夠在處理Llama-3-70B等大型模型時達到驚人的效率,遠超傳統GPU的表現。
簡單來說,Sohu晶片就像是一個超級高效的並行處理器,能夠同時處理大量的AI任務,而不會被記憶體讀取速度拖後腿。這一突破性的技術有望大大提升AI應用的響應速度和處理能力,為使用者帶來更流暢、更智慧的體驗。
此外,Sohu還能做到簡化推理所用的硬體和軟體。由於Sohu不執行非Transformer模型,Etched 團隊可以去掉與Transformer無關的硬體,並削減傳統上用於部署和執行非Transformer的軟體開銷。
相比之下,英偉達的GPU中,並不是所有電晶體都用於大模型的張量計算。例如,H100 有 800 億個電晶體,但只有27 億個專用於張量核心的電晶體,這意味著 H100 GPU 上只有 3.3% 的電晶體用於大模型的矩陣乘法。
Sohu晶片透過僅執行變壓器,在晶片上安裝更多的 FLOPS,而無需訴諸較低的精度或稀疏性。
GPU 並沒有在單芯效能上變得更好,只是變得更大了。在過去四年中,計算密度 (TFLOPS/mm^2) 僅提高了約 15%。
新一代GPU都是靠堆疊多張卡來提升算力——將兩個晶片算作一張卡,以“翻倍”其效能。NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等都是如此。
隨著摩爾定律(CPU的積體電路上可容納的電晶體數目,約每隔兩年便會增加一倍)放緩,提高晶片效能的唯一方法是採取專業化的晶片,而非通用晶片。
GPU觸達天花板:英偉達、AMD、英特爾、亞馬遜等公司都透過將兩塊晶片合為一體來成倍增強效能。2022年至2025年間,AI晶片技術並沒有“變好”,而只是“變大”。這期間所有的晶片效能提升都是透過“變大”實現的,除了Etched。圖源:Etched官網
Etched宣稱,如今AI 模型的訓練成本超過 10 億美元,將用於 100 億美元以上的推理。對於這麼大的需求,用 5000 萬至 1 億美元的定製晶片來換取1%的效能改進,是合理的。
如果 AI 模型一夜之間速度提高 20 倍、成本降低 20 倍,會發生什麼?
當下,Gemini要花超過 60 秒的時間來回答有關影片的問題,用AI執行程式碼,需要數小時才能完成任務,成本比僱傭人類碼農更高。影片生成模型,一秒鐘才能生成一幀畫面。當 ChatGPT 註冊使用者達到 1000 萬(這還只是全球使用者的 0.15%)時,甚至 OpenAI 也出現GPU算力荒。
即使以多卡互聯的方式堆疊顯示卡,以每兩年 2.5 倍的速度不斷製造更大的 GPU,也需要十年的時間才能實現即時的影片生成。
而當Sohu晶片能讓大模型的推理速度提高20倍,影片模型生成畫面能更即時、迅速。
訊息一齣,網友們大多表示歡迎,認為這家公司的出現將加速AI創新:
這些推理 GPU 基準測試中的數字很低。下面是我的8xB200推理模型的理論值,適用於 NVLink,8位和70B Llama模型,後者更接近300k token/秒。這意味著完美的實現(接近OpenAl/Anthropic所擁有的)。圖源:X(@Tim_Dettmers)
這使得使用LLM的高階推理用例更加可行。他們網站上有很多例子。這將加速創新,AI將為更好的AI的發展做出更大的貢獻。未來正以極快的速度到來。圖源:X(@leonovco)
Sohu使用者”直接燒進矽裡” vs “GPU呆子”抱怨在不損失通用計算能力的情況下,無法在Transformer模型上達到40%以上的利用率。此圖暗示了SoHu晶片在AI特定任務上的優勢,以及傳統GPU在處理新型AI模型時可能面臨的效率瓶頸。圖源:X(@qamcintyre)
Gavin Uberti和Chris Zhu休學創業,是在2022年10月,那時離Chat-GPT問世還有一個月,Transformer還遠沒有成為主流地位的架構——影像和影片生成模型使用的是U-Net,自動駕駛汽車模型使用CNN。但在那時,兩位創業者已經把全部賭注下在Transformer專用晶片上。
“我們在人工智慧領域下了最大的賭注,”Etched聯合創始人Gavin Uberti在一次公開採訪中表示, “如果Transformer消失了,我們就會死。但如果Transformer能堅持下去,我們就是有史以來最大的公司。”
“後來當 ChatGPT 推出時,英偉達股票賣爆了,特別是當其他釋出的所有模型也都是Transformer架構時,我們發現自己在正確的時間處於正確的位置。”Gavin說。
“我們對自己正在做的事情感到如此興奮,為什麼我們輟學,我們說服了這麼多人離開這些晶片專案——這是我們要做的最重要的事情。”後來加入Etched的聯合創始人Robert Wachen說。
Gavin Uberti
Gavin Uberti 是Etched的聯合創始人兼執行長,創業前就讀於哈佛大學,攻讀數學學士和計算機科學碩士學位。
Gavin原本計劃離開哈佛休學一年,但最終在 OctoML 找到了一份從事 ApacheTVM (深度學習編譯器框架)開源編譯器和matmul核心的工作。
在為 Arm Cortex M4 和 Cortex M7 核心開發微核心時,Gavin 注意到 Arm 的指令集沒有 8 位 MAC SIMD 指令,只有 16 位(M4 和 M7 支援許多其他 8 位 SIMD 操作,但 Helium 引入了 8 位 MAC SIMD 指令)。這意味著 8 位 MAC SIMD 操作實際上僅以一半的速度執行。這可以說是Gavin創辦Etched的一個關鍵因素。
“這個問題永遠無法解決,每次上班,我都必須處理這個疏忽,這讓我和 Chris 一起思考,我們必須能夠做得更好,”Gavin說。
與此同時,Gavin和Kris還看到語言模型領域正在發生變化,也就是人們對基於Transformer 架構的 LLM 的興趣激增。
他和Zhu決定創辦一家晶片公司,為 LLM 設計更高效的推理架構。雖然目前市場上還沒有專門針對 LLM 的加速器,但 Nvidia 已經宣佈了針對轉換器的軟體功能,其他加速器公司也宣佈支援語言和視覺轉換器。Etched.ai 計劃透過進一步專業化來與現有企業競爭。
“你無法透過泛化獲得我們所獲得的那種改進,”Gavin說。“你必須在單一架構上下大賭注,不僅僅是人工智慧,還要在更具體的東西上下賭注……我們認為 Nvidia 最終會做到這一點。我們認為這個機會太大了,不容忽視。”
在Etched,他正在為Transformer架構構建 ASIC(Application-Specific Integrated Circuit,專用積體電路,為特定用途而設計的定製化晶片,能在特定任務上實現最佳效能和效率),與通用 AI ASIC 相比,其吞吐量高出一個數量級。
圖源:Bloomberg,採訪影片連結:https://x.com/Etched/status/1805775989500428739
Chris Zhu,Etched.ai 的聯合創始人,目前正在開發下一代 LLM 加速器系統。
在創業前,他在校期間就不斷參加科研,不斷兼職實習。
他於2021年9月至2022年4月,在哈佛大學擔任各類計算機科學課程的教學研究員,同時期還曾在亞馬遜和 AvantStay 擔任軟體工程師實習,分別專注於後端物聯網基礎設施和 AWS 全球收入運營。
Chris的早期履歷還包括:在2021年2月至6月於哈佛本科資本合夥公司擔任實習分析師;2018年1月至2020年5月在麻省理工學院擔任研究員;2019年6月至8月擔任波士頓大學 PROMYS 的初級輔導員。
Robert Wachen
Robert Wachen是Etched的聯合創始人和COO,他有著非常豐富的創業經歷。
他的學術和創業經歷包括:哈佛大學諮詢集團、哈佛肯尼迪學院行為洞察小組代表、Prod聯合創始人(2022年7月至今)、Mentor Labs聯合創始人兼CEO(2022年1月至今)Generate Sales Online 創始人(2016年12月至今)、Birthday Cakes 4 Free Maryland 聯合創始人兼總裁(2015年9月至今)、蒙哥馬利縣地區 SGA 財務主管以及蒙哥馬利縣公立學校“Early Edge”職業準備計劃的學生代表。
英偉達目前是AI晶片的巨頭。據TechCrunch估計,英偉達佔據了人工智慧晶片約 70% 至 95% 的市場份額。Etched AI的Transformer專用晶片是英偉達的一個年輕競爭者。
挑戰英偉達的年輕競爭對手還有很多。一個對手是Cerebras Systems公司,正在開發由整塊晶圓做成的、單個體積最大的 AI 晶片,已累計融資7.2億美元,背後有OpenAI的執行長Sam Altman投資。6月20日The Information稱Cerebras已經秘密申請上市。
另一個英偉達挑戰者是Tenstorrent,該公司正在使用一種名為 RISC-V 的流行技術來開發AI 晶片。
英偉達鼎立山頭,新勢力群雄環伺,兩位00後哈佛輟學生創立的Etched AI或許成為下一個英偉達挑戰者。
獨家、深度、前瞻,為1%的人捕捉商業先機
36氪旗下精選公眾號