民間大神魔改409048G秒殺5090!老黃顯示卡炒作被打臉,“最失敗50系顯示卡”也支稜起不來了?

作者 | 褚杏娟
近期,淘寶和閒魚上很多廠家在出售至少 2.2 萬的 4090 48G 顯示卡,這是一款“全新”、非官方規格的顯示卡。淘寶廠家甚至給出了基礎款和升級款兩種選擇,其中基礎款用的是拆機進口顆粒(19000 頻率)和非定製全新 PCB 板,耐久度略低,升級版則用的是全新進口顆粒(21000 頻率)和全新定製 PCB 板,耐久度高。不過廠家保證這兩款都在前期效能穩定,並質保三年。
B 站上也早就有 UP 主對魔改版 4090 48G 顯示卡進行了初步測評,稱這款顯示卡重量較大,顯示卡滿載功率可達 450 瓦,原本執行 20 多分鐘的工作流在該款顯示卡上僅需一分半。“在賽博繪圖影片製作領域堪稱頂級選擇。滿血的頂級算力搭配專業卡級別的視訊記憶體,是非常不錯的組合。如果後續改裝水冷,將更具優勢。”根據其他網友使用,4090 48G 顯示卡還可以支援 FP8,在遊戲方面則與常規卡沒有差別。
這款顯示卡也已經出走海外。來自加拿大的小哥在平臺上曬出了自己在 eBay 上買的 RTX 4090 48G,讓網友給出測試建議。eBay 官網顯示,4090 48G 的售價要 3 萬人民幣起步。
現在,市面上還傳出了 4090 96GB 版本已經被搓出來的訊息,有人貼出了閒魚上的預購訊息和配置圖,據說價格在 3700 美元左右(2.6 萬人民幣)。
不過,Slamtec 創始人兼 CTO  Tony Huang 對此在推特上表示,“這應該不可能,4090 的上限就是 384bit/16bit*16Gbit GDDR6 = 48G”。
如何做到的?
要得到 4090 48G 顯示卡需要幾步?網傳有三個步驟:一、找一塊 3090 的板子,挖掉核心;二、找一塊 4090 的板子,挖掉核心,然後把這個核心焊到 3090 的板子上;三、再焊接更多對應視訊記憶體到板子上,實現 48G。
上面是很詼諧的說法,但在閒魚上確實能找到很多 4090 無核心、無視訊記憶體的顯示卡板,被戲稱為“4090 顯示卡手辦”,價格在 100 元上下不等。
實際上,4090 魔改 48G 過程中還有一個關鍵的步驟,即顯示卡 bios。bios 是儲存在顯示卡 ROM 晶片中的韌體程式,可以初始化顯示卡硬體引數,協調 GPU/ 視訊記憶體 / 供電模組協同工作。
知乎答主“宅叔”表示,“其實就是傳言流出來那版 vbios,沒有那版 vbios,就沒有後續的 48G。vbios 有數字簽名會和晶片內的安全晶片作相互校驗,因此繞不過去,而在 2023 年流出來了一個工具,可以把不同品牌的 vbios(有數字簽名版) 互刷,所以拿到 48G 的 vbios 就等於有了 48G 的 4090,無非是如何搬板,甚至有能力可以重新設計一張 PCB 來擴張。換句話說,如果未來有更大視訊記憶體容量的 bios 流出,原則上也可以做更大視訊記憶體的卡。”
有網友分析,3090 晶片發售時,視訊記憶體顆粒最大 1GB,24GB 視訊記憶體需要 24 顆,PCB 板正反面都有。4090 晶片發售時,視訊記憶體顆粒達到 2GB,24GB 視訊記憶體只需要 12 顆,PCB 板只有一面有焊盤。突然某一天,從英偉達總部流出 4090 48GB 改版顯示卡 bios,正好發現 4090 針腳定義和 3090 一樣,可以焊在 3090 PCB 上。這樣,4090 晶片 +3090 PCB+24 顆 2GB 視訊記憶體 + 流出魔改顯示卡 bios=4090 48GB 顯示卡。據悉,大概一張卡的工本費要 5500 元左右。
有網友對比 A100 80G 的生成速度實際就比 4090 48G 快 20%,但是價格卻貴了 6 倍多。目前已經有公司推出主打價效比的 4090 48G 推理 GPU 方案,幫助進行 DeepSeek 部署。另一方面,這也推動了 4090 顯示卡價格居高不下。
個人使用者使用 4090 48G 跑 DeepSeek 的配置截圖
4090 48G 不是最近才出現的,目前還沒有使用者曝出大問題。不過對於魔改卡,部分人還是比較謹慎,“魔改卡的工藝還是趕不上原廠卡。一般焊錫不是無鉛高溫的,常出現脫焊、爆錫等問題。第二,保修也是個問題,後期還管不管保修都不知道。個人玩家還是算了。”
模型苦“視訊記憶體”久矣
看起來只是單純擴大了顯示卡視訊記憶體,但對於實際應用來說可能意義很大。
根據 AI 開發人員 Piyush Kashya 的計算,FP16 精度的 7B 引數模型至少需要 16.8GB 的 GPU 記憶體。類似地,haotian-liu 在 GitHub 上回答開發者提問時表示,通常 7B 引數的模型可以使用記憶體小於 24GB 的 GPU 執行,而 13B 引數模型大約需要 32 GB 記憶體。
視訊記憶體大小限制了人們使用更大引數的模型,因此很多人用小模型或量化版本。但對於多模態模型,如 Flux 等的執行上,視訊記憶體制約讓很多人感到使用不便。
深度學習的訓練過程中,GPU 視訊記憶體溢位也是經常出現的問題。為此,人們通常使用減少訓練批次大小、資料並行等方式來減少 GPU 記憶體的使用。GPU 記憶體最佳化也一直是廠商在做的事情。
另一方面,英偉達當前在企業級卡和消費級卡之間設定了明顯的技術鴻溝。
比如,在計算能力方面,RTX 4090 屬於 Ada Lovelace 架構,16384 個 CUDA 核心,由 128 個 SM 組成。H100 則為 Hopper 架構,16896 個 CUDA 核心和 528 個 4.0Tensor 核心,閹割了對影像渲染至關重要的光追核心(RT Core),多了 FP64 的處理單元。
而在多卡互聯方面,4090 不支援 GPU 間直接通訊,必須透過 CPU 中轉,而 H100 可以藉助 Nvlink 等進行卡間高速通訊,支援 RDMA、GDS(GPU 儲存直接訪問)。值得注意是的,RTX 30 系列中只有 RTX 3090 支援 NVLink。
鑑於 DeepSeek 的熱度,NVIDIA 釋出了 DeepSeek R1 的量化版本 DeepSeek R1 FP4。藉助對 Blackwell 架構的 TensorRT DeepSeek 最佳化(包括具備最先進生產精度的 FP4 效能),該模型實現了推理速度提升 25 倍、每 token 成本降低 20 倍的效果。
詳情可檢視:https://huggingface.co/nvidia/DeepSeek-R1-FP4
50 系顯示卡翻車?
大家對 4090 48G 的熱情,也源於對英偉達“擠牙膏”釋出的 50 系顯示卡的失望情緒。有 UP 主測評對比後表示,“4090 48G 秒殺 5090”。
“50 系是十年來最失敗的一代顯示卡,這點是板上釘釘的,因為其存在重大缺陷,並且是前代已有的缺陷,並沒有修復;而由於暴力拉規模導致故障風險擴大,大部分 5090 將在三年左右壞掉,故障為燒供電擊穿核心。”有網友評價稱。
與前代 4090 相比,5090 定價幾乎翻了一番,而整個 RTX 50 系列產品的價格也都居高不下,此後還被炒出天價。消費者普遍認為這樣的價格難以接受,尤其是考慮到效能的提升並不足以支撐售價翻倍。在質疑聲中,黃仁勳直言不諱地表示,RTX 5090 的目標使用者群體是那些追求頂級效能體驗的發燒友,對他們而言,價格並不是首要考慮的因素。這一發言也引起了更大的不滿。
而自發貨以來,50 系被曝出的問題可太多了。截至目前,RTX 5090 已知問題包括:12 針電源介面熔化、黑屏、丟失 ROP(光柵單元)、電容燒燬、可靠性差等,還有使用者遇到了錯版問題。
其中,比較嚴重的就是 ROP 丟失問題。外媒 TechpowerUP 報道稱,他們在 RTX 5090 評測樣品上發現了 ROP 缺失問題,這源於 ZOTAC RTX 5090 樣品測試中的執行速度要比其他樣品慢。事實證明,該卡的 ROPS 僅為 168,而 ROPS 的官方規格數量為 176,後來發現幾乎所有 AIB 都有這個問題。
5090 上缺少 ROP 單元導致遊戲效能損失 4-5%。根據目前尚無法完全確認該問題是製造缺陷還是 bios 問題,但前者似乎更有可能,還有人猜測是老黃的管理出現了問題。而根據網友“MEGAsizeGPU”的說法,問題不在 bios 上,而在核心的 GB202 晶片上。
後來,英偉達公關總監 Ben Berraondo 緊急發聲:這屬於極個別晶片體質問題,對 AI 運算毫無影響,遊戲效能平均損失僅 4%。但外媒表示,所謂缺少 1 個 ROP 為文字遊戲,實際缺失量高達 8 個,英偉達將每個 ROP 單元的畫素處理能力換算成虛擬單位,營造引數虛高的假象。
英偉達的 RTX 50 系列顯示卡是該公司最棘手的釋出之一,這個論斷並不過分。此次釋出在多個環節出現重大失誤:初期上市階段,GeForce RTX 5090 在多家零售商的庫存量持續是個位數,這種刻意控量供應策略導致實際供給不足,而需求激增主要源於黃牛搶購和高階硬體發燒友的追捧。值得注意的是,庫存短缺也並非是英偉達 GPU 晶片產能不足導致的,推測問題可能出在封裝測試環節、物流排程系統或渠道分配策略等深層供應鏈環節上。
外媒表示,50 系列顯示卡在市場上缺貨的原因是英偉達正在進行“飢餓營銷”。GPU 庫存完全充足,但英偉達控制供應不釋放庫存,從而製造出短缺的假象。實際上,到四月或五月,GPU 將會大量釋放。
參考連結:
https://www.zhihu.com/question/11803840385
https://www.bilibili.com/video/BV1RQfpYkEcg/?spm_id_from=333.337.search-card.all.click&vd_source=c7202342f6677650b47938178c8bfb3a
https://www.reddit.com/r/LocalLLaMA/comments/1iwhfl5/comment/medyq2f/
https://github.com/haotian-liu/LLaVA/issues/191
https://wccftech.com/nvidia-is-suppressing-inventory-levels-for-high-end-rtx-50-series-gpus/
點選底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!
今日好文推薦
“抄襲”程式碼,到底是 CTO 的鍋還是創始人的鍋?!這事兒已經撕3天了
分散式系統程式設計已停滯?!
Curl 之父:我是如何枕著18萬行C程式碼還能安穩入睡的
剛剛,DeepSeek 突然公佈成本利潤率高達545%!做 AI Infra 的該慌了?!

相關文章