官方承認系統「作弊」，世界首個「AICUDA工程師」翻車？o3-mini11秒發現bug

2025-08-05 18:53 新智元

新智元報道

編輯：好睏英智

【新智元導讀】高調亮相的世界首個「AI CUDA工程師」，宣稱能讓模型訓練速度飆升100倍，如今卻上演了一場「作弊」鬧劇。OpenAI研究員用o3-mini，11秒便發現了核心程式碼有bug！

近日，獲英偉達支援、已獲數億美元風投資金的Sakana AI爆出戲劇性反轉。

此前，該公司宣稱開發出「AI CUDA工程師」，能將特定模型訓練速度提升最高達100倍，引發行業關注。

然而，網友卻發現，這個系統根本不管用。

「AI CUDA工程師」實際表現堪稱翻車現場，不僅未能實現加速，甚至出現訓練速度不升反降的情況。

網友反饋，使用該系統後，訓練速度慢了3倍。

問題出在哪裡呢？

經過一系列的驗證，網友「main」發現：「AI CUDA工程師」寫的核心有bug！

「它似乎竊取了即時實現的結果（可能是以某種方式的記憶體重用？），從而繞過了正確性檢查。」

如果嘗試以不同的順序執行，只有下列第一種順序有效。

torch, cuda
cuda, torch

隨後，網友「miru」進一步發現，「AI CUDA工程師」之所以能實現100倍加速，是因為它鑽了評估指令碼的漏洞。

比如，上面這個任務的結果，是下面這個評估指令碼跑出來的：

其中，這段程式碼會分配包含答案的中間記憶體，同時分配正確答案的副本並返回，而中間記憶體則被歸還給PyTorch。

然後，這段有問題的程式碼會重用包含正確答案的中間記憶體，並執行一個空操作核心，使答案保持不變。

從而讓這段有bug的「AI CUDA工程師」核心，被評估指令碼誤判為「正確」，並錯誤地顯示出超過100×的加速。

這裡的「hacking」是指把程式碼弄得慘不忍睹，導致評估指令碼失靈，而不是刻意設計的漏洞利用。

Sakana在遵循KernelBench評估流程和釋出可復現的評估程式碼方面做得很好，只是沒有人工檢查那些異常的結果。

目前只剩一個>100×的加速結果，是任務23_Conv3d_GroupNorm_Mean。

在這個任務中，「AI CUDA工程師」完全遺漏了卷積部分，但評估指令碼並未檢測出這個問題。

這段程式碼（卷積+組歸一化+均值計算），實際上跑的卷積。

與這段「AI CUDA工程師」生成的程式碼對比，後者忘記了卷積。卷積的權重/偏置輸入未被使用，實際並未執行任何卷積操作。

它成功通過了正確性檢查並實現了100×加速，因為在評估指令碼測試的特定輸入上，兩個核心的輸出都是一個恆定值0.02。

與此同時，OpenAI研究員Lucas Beyer則用o3-mini-high發現了「AI CUDA工程師」的問題：

「o3-mini-high在11秒內找出了CUDA核心的問題。它快150倍是個bug，實際上是慢了3倍。」

他指出，Sakana程式碼存在關鍵的錯誤，兩次基準測試結果差異極大，如此異常本應讓其警醒反思：

這種超直白的CUDA程式碼根本不可能比最佳化過的cublas核心更快。如果它快了，那一定是哪裡出了問題。
如果你的基準測試結果表現得神秘又不一致，那一定是哪裡出了問題。
o3-mini-high真的很強！它只用了11秒就找出了問題，而我花了大約10分鐘來寫這篇總結。

Sakana承認錯誤

Sakana目前正在進行更全面的修復工作，以解決評估指令碼漏洞，並重新評估他們的技術。

在週五釋出的事後分析報告中，Sakana承認系統存在「作弊」行為，並將其歸咎於系統的「獎勵作弊」傾向。

系統利用了評估程式碼中的漏洞，繞過準確性驗證等檢查環節，透過「獎勵作弊」獲得高指標，卻並未真正實現加速模型訓練的目標。

類似「鑽空子」現象，在訓練下棋的AI系統中也曾出現。

Sakana稱已著手解決該問題，並計劃在更新材料中修改此前的說法。

公司在X平臺上發文稱：

「將進化最佳化與LLM結合使用確實非常強大，但它也可能找到繞過驗證沙盒的方法。幸運的是，我們的讀者幫助測試了我們的CUDA核心，並發現系統找到了某種作弊方式。例如，系統在評估程式碼中發現了一個記憶體漏洞，在某些情況下，它能夠繞過正確性檢查。

此外，我們還發現，系統可以在基準測試任務中找到其他新的漏洞利用方法。

針對這些問題，我們已經加強了評估和執行時分析框架，修復了許多此類漏洞。目前，我們正在修改論文和實驗結果，以反映並討論LLM在CUDA核心最佳化中的獎勵機制被濫用的問題，以及相應的應對措施。

我們對這一疏忽向讀者深表歉意。我們將很快提供修訂版，並分享經驗和思考。」

AI CUDA工程師

上週，Sakana AI剛剛釋出了世界上首個「AI CUDA工程師」。

「AI CUDA工程師」是一個基於前沿LLM的AI智慧體框架，它能將PyTorch程式碼自動轉換為高度最佳化的CUDA核心，速度比PyTorch原生實現快10-100倍。

透過LLM驅動的進化程式碼最佳化技術，「AI CUDA工程師」將PyTorch程式碼轉換為CUDA核心，並透過進化演算法最佳化CUDA核心的執行效率，實現多個運算操作的融合。

這項工作分為4個階段，分別是轉換和翻譯，進化最佳化以及創新檔案。

「AI CUDA工程師」首先將PyTorch程式碼轉換為可執行的CUDA核心，採用進化的方法來保留最優秀的CUDA核心。團隊創新性地提出了核心交叉提示策略，能將多個最佳化後的核心進行有效組合。

透過構建一個高效能CUDA核心的創新檔案庫，以積累的最佳化經驗為基礎，實現更進一步的轉換和效能突破。

團隊相信這項技術能帶來效能加速，加快LLM或其他AI模型的訓練和推理速度，最終讓AI模型在英偉達GPU上執行得更快。

這次大翻車表明，「AI CUDA工程師」透過作弊實現了>100×的效能。

Sakana AI也勇敢地承認了錯誤。

此次事件為AI行業敲響警鐘，如果一種說法聽起來好得令人難以置信，那很可能就是假的。

參考資料：

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

https://x.com/SakanaAILabs/status/1892992938013270019

相關文章

全球首個AICUDA工程師來了！將PyTorch原生實現提速10-100倍

全球首個AICUDA工程師來了！將PyTorch原生實現提速10-100倍

首個AICUDA工程師來了！將PyTorch原生實現提速10-100倍！

首個AICUDA工程師來了！將PyTorch原生實現提速10-100倍！

DeepSeek-R1自寫CUDA核心跑分屠榜！斯坦福學霸狂飆GPU程式設計自動化挑戰人類

DeepSeek-R1自寫CUDA核心跑分屠榜！斯坦福學霸狂飆GPU程式設計自動化挑戰人類

全球AI系統級計算平臺對比：CUDA、CANN、Neuware和ROCm

全球AI系統級計算平臺對比：CUDA、CANN、Neuware和ROCm

12人小團隊如何成就英偉達萬億市值？CUDA架構師首次親述真正的算力“壁壘”形成過程

12人小團隊如何成就英偉達萬億市值？CUDA架構師首次親述真正的算力“壁壘”形成過程

DeepSeek開源周過後，國產晶片廠在焦慮中狂歡

DeepSeek開源周過後，國產晶片廠在焦慮中狂歡

DeepSeekV3論文細節：如何繞開CUDA的壟斷！

DeepSeekV3論文細節：如何繞開CUDA的壟斷！

DeepSeek繞開CUDA壟斷，V3論文細節再挖出！英偉達護城河不存在了？

DeepSeek繞開CUDA壟斷，V3論文細節再挖出！英偉達護城河不存在了？

MCP突然火出圈！它是啥？是又一個CUDA嗎？

MCP突然火出圈！它是啥？是又一個CUDA嗎？

DeepSeek團隊莫不是有神仙？

DeepSeek團隊莫不是有神仙？

Copyright © 2025 | WordPress Theme by MH Themes