
都說資本市場從來不缺故事講,最近 A 股大神們講的故事那都繞不開 Deepseek ,各種小作文全方面吹了一波國產大模型的技術路線,想必各位也已經快聽吐了。。。

眼瞅著 Deepseek 的底褲都快被人扒下來了,託尼心想著這下總歸不會有新東西可以拿出來了罷,各家上市公司的股價也可以消停一波了。結果這兩天又在微博刷到幾篇震驚體作文,說 “ Deepseek 已經是前菜啦, LPU 才是真正的氫彈級突破! ”
一聽氫彈都來了,還是點進去看看吧。。。託尼也好奇,這號稱能扼殺英偉達前程的 LPU 晶片到底是什麼來頭。

首先給大家介紹一下 “ LPU ” 到底是個啥。
它並不是什麼新東西,特指去年美國 Groq 公司釋出的一款 AI 處理器,的中文名字叫做 “ 語言處理單元 ” ,給大語言模型做推理計算用的。值得一提的是目前暫時沒有任何國產的訊息,說實話這概念就算用在炒 A 股上也是有點超前了。。。

它如今又被大家拿出來炒,還是因為有人研究了 Deepseek 的低成本方案,發現他們僅僅在 CUDA 驅動的 PTX 層做了一些最佳化,就實現了記憶體和通訊效率的大幅提升。那麼如果再 “ 為演算法單獨設計硬體 ” ,效率的提升會更加可觀。


於是大夥兒突然想開了,之前幹 AI 就往上堆顯示卡的做法是自己把路走窄了。。。現有的硬體和軟體都能再壓榨壓榨,能起到事半功倍的效果。
這軟體 Deepseek 幹了,硬體嘛,研究員們翻箱倒櫃找出來的玩意就是 LPU 了。作為針對大語言模型推理專門設計出的硬體,在釋出之初,官方宣稱它的推理速度是英偉達 GPU 的十倍,成本卻僅有英偉達的十分之一。
它的高效率實現原理其實不復雜, LPU 把通用 GPU 裡頭的高頻寬記憶體( HBM )換成了容量更低、但速度更快的靜態隨機記憶體( SRAM ),對於大語言模型這種需要頻繁讀取記憶體的計算來說,推理速度就會快不少。


給大家舉個例子吧, HBM 就好比是原本的雙向八車道,雖然很寬但什麼車都能跑、紅綠燈也多,反而很容易堵在一起;而 SRAM 就像是雙向兩車道、只能跑公交的快速路,雖然車道變少了,但通行效率卻更高。
聽起來有點意思是吧?眾所周知,這顯示卡是原本是給遊戲佬們打遊戲用的,誤打誤撞整了個 CUDA 之後被人發現很適合算 AI ,老黃也順水推舟佈局了一下通用 GPU 和 AI 運算,結果就造就瞭如今的萬億帝國;這 LPU 聽名字就是給大模型準備的,這豈不是比英偉達的起點還要高?

好了,說到這裡託尼要開始潑冷水了:事實上當前 LPU 的侷限性可能比你想象的要多,未來怎麼樣不好說,至少現在看來想替代通用 GPU 還差點意思。。。
為了解釋這個問題,我們首先得講一個看起來表面沒什麼關聯的故事——關注幣圈的老哥們可能都知道,有個東西叫做 ASIC 礦機。這裡所謂的 “ ASIC ” 是一種專為某種用途定製的晶片。用於挖礦的 ASIC 直接在硬體層面就實現了某種挖礦演算法,這樣一來挖礦的效率要比顯示卡高上不少,費用也要便宜一些。

你看,更低成本、更高效率、專用晶片,聽起來跟 LPU 好像是一個路子呀?

但是直到最後,顯示卡都沒有被 “ 礦場 ” 淘汰,還是老黃自己出手自廢武功,禁了 40 、 50 系顯示卡挖礦時的 HASH 算力。。。這是為什麼呢?因為 ASIC 礦機的計算效率確實是高,但代價就是 — “ 專用 ” 。

前面說到了, ASIC 晶片在硬體設計層面就匹配了挖礦的演算法,所以就導致挖比特幣的 ASIC 礦機能且只能挖比特幣、挖以太坊的能且只能挖以太坊。礦主們要是想換個幣挖挖,那得連機器一塊換了才行。這就有點抽象了哇:要是哪天比特幣不值錢了,哥們囤的比特幣礦機不就都成了礦渣了?
後來加密貨幣逐漸井噴,一天發一個新幣種不難,但是一天設計一款新的 ASIC 挖礦晶片可就沒那麼容易了。

現在大夥應該明白了,顯示卡相比礦機看似毫無優勢卻能經久不衰,主要原因就在於顯示卡更 “ 通用 ” 。即使英偉達 40 系開始已經不再能挖礦了,礦場上還是有很多 30 系的顯示卡在發光發熱。

而 LPU 這邊兒也是差不多道理,正因為它是專用於大語言模型推理的晶片,所以要是讓它處理個圖片影片之類的就沒有優勢了。可如今人們都想讓 AI 幹更多的事兒,除了能推理還需要它能識別物品、聽懂語言,全靠 LPU 撐起 AI 算力的一片天顯然不現實。而且在 AI 訓練這方面,記憶體較小的 SRAM 也難堪大用,還是得顯示卡出手。
而且, “ASIC 礦機 ” 能夠引爆市場還有一個原因——它不僅僅是比顯示卡高效那麼簡單,它是比顯示卡的效率高了一千多倍!比特幣 ASIC 礦機發展到最後,挖礦效率甚至比顯示卡高了上萬倍!
但如今的 LPU 晶片遠沒有這麼誇張的效率提升:Groq 官方說效率提升一百多倍,也有新聞說提升十幾倍。但不論是哪個信源的結論,都比當年 ASIC 礦機的成績差遠了,誰能保證 LPU 會不會成為更不值錢的礦渣?


還有各家資本侃侃而談的成本,其實去年的這個時候,我們的同行《 芯東西 》也寫過 LPU 晶片的報道,其中引用了前阿里副總裁賈揚清做過的一個粗略的測算。
按照三年時間的運營成本來計算, Groq LPU 的採購成本會是英偉達 H100 的 38 倍,運營成本則達到了 10 倍。


看到這裡, LPU 晶片目前是個什麼水平相信大家也都比較清楚了。
託尼並不認為 LPU 是個沒用的東西,畢竟當年 NPU 剛推出的時候,小夥伴們普遍也都不太看好——但是如今幾乎只要是個消費級的處理器晶片,裡面就會整合一個小型 NPU 。
但託尼覺得,如今吹 LPU 還是有點兒為時過早,尤其是各路 A 股大神藉著 LPU 就開始 “ 薦股 ” ,搞得我也挺納悶兒的,不知情的還以為 LPU 是中國公司造的。。。
這可真是有點兒不厚道了。。。


當然了,未來的不確定性也有可能是對 LPU 有利的。但現階段咱還是別聽 A 股大神們胡吹,他們要是能壓準,早就不在這兒給你推薦 LPU 概念股了。。。
撰文:小柳
編輯:米羅 & 面線
美編:煥妍
圖片、資料來源
:
Medium
cnBeta, Groq LPU 人工智慧推理晶片的運算表現可與主流廠商媲美
Groq官網
Fastbot.ai,What is an LPU and Why is it Faster than GPUs?
微博
Amazon
英特爾,使用 FPGA 的無線解決方案
bitmain

