“最強編碼模型”上線,Claude核心工程師獨家爆料:年底可全天候工作,DeepSeek不算前沿

整理 | 華衛、核子可樂、冬梅
昨日 Anthropic 的首屆開發者大會上,Anthropic CEO Dario Amodei 正式釋出了 Claude 4 。該系列模型下共有兩個型號:Claude Opus 4 和 Claude Sonnet 4,為編碼、高階推理和 AI 代理設定新的標準。
在熱門基準測試裡,這兩款模型的表現都十分出色。Opus 4 在 SWE-bench 和 Terminal-ben3ch 測試中分別以 72.5% 和 43.2% 的得分全面領先,碾壓 OpenAI 剛釋出的程式設計智慧體 Codex-1 和最強推理模型 o3;Sonnet 4 則在 SWE-bench 上實現了 72.7% 的出色編碼效率,在能力與實用性之間卻達到了最佳平衡。
之後不久,兩位來自 Anthropic 團隊的核心工程師 Sholto Douglas 和 Trenton Bricken,接受了一則獨家專訪,並透露了 Claude 4 的思考進步及完全自主智慧體之路。據瞭解,Douglas 正在負責 Anthropic 的擴充套件強化學習(RL)工作,Bricken 則從事機制可解釋性方面的工作。
7 小時不是盡頭,
年底就能“全天候”
對於這次釋出的新旗艦產品,Anthropic 將其描述為“世界上最好的編碼模型”。
根據該公司的基準測試顯示,Opus 4 在編碼任務和使用網路搜尋等“工具”方面的表現優於谷歌的 Gemini 2.5 Pro、OpenAI 的 o3 推理和 GPT-4.1 模型。Claude Sonnet 4 是一款更經濟實惠、更注重效率的型號,不僅提供“卓越的編碼和推理能力”,且更適合執行常規任務,取代了 2 月份釋出的 3.7 Sonnet 型號,在 Sonnet 3.7 業界領先的功能基礎上進行顯著提升的同時提供更精確的響應。

Dario 表示,與 3.7 Sonnet 相比,這兩款型號在完成任務時走捷徑和鑽空子的可能性降低了 65%,而且當開發人員為 Claude 提供本地檔案訪問許可權時,它們能夠更好地儲存長期任務的關鍵資訊。並且,Opus 4 能夠連續“數小時”處理長時間執行的任務。在客戶測試中,Opus 4 可以自主執行 7 個小時,顯著擴充套件了 AI 代理的可能性。

另據 GitHub 介紹,Claude Sonnet 4 在智慧體場景中表現出色,並將作為 GitHub Copilot 中新編碼智慧體的基礎模型引入。Manus 強調了其在執行復雜指令、清晰推理和美觀輸出方面的改進。iGent 報告稱,Sonnet 4 在自主多功能應用程式開發方面表現出色,並顯著改進了問題解決和程式碼庫導航能力,將導航錯誤率從 20% 降至接近零。
“到今年年底至明年同期,我們將擁有能完成接近初級工程師一天工作量的軟體工程智慧體,或者能獨立勝任數小時專業工作的智慧體。”在採訪中,Douglas 預測了明年軟體工程智慧體所能達到的水平。Bricken 同樣有此看法,並補充道,“不過能力分佈可能很不均衡 —— 對某些任務,比如模板化的網站程式碼,它們已經能快速完成,為你節省一整天時間。”
計算機使用(computer use)任務方面,Douglas 給出了這樣的具體預測,“明年五月,可以讓模型在 Photoshop 上新增三個連續的效果,並且需要選擇特定的照片。到 2026 年底,模型在執行任務時,能有足夠的意識主動指出自己不可靠的方面。”對此,Douglas 也明確分析了為什麼這一場景還需要數月時間來實現的原因。
Douglas 表示,對自主智慧體而言,計算機使用(computer use)任務與軟體工程任務在本質上沒有區別。只要能在輸入空間用 token 表示所有資訊,模型就能處理 —— 它們能 “看見” 影像,還能在影像中繪製邊界框,這些都是已解決的問題。唯一區別在於,其比數學和程式設計構建反饋迴圈的難度更高。但這意味著,只要投入足夠精力,計算機使用問題也能攻克。
另外,人們低估了實驗室當前的技術侷限 —— 並非有上千人在全力推動實現計算機使用任務,模型研發流程的每個部分,都是在驚人的時間壓力和驚人的限制條件下做出的最大努力。因為這些公司正處於高速發展期,拼命地想拉攏和培養足夠的人才來做他們需要做的事情。
“這本質上是優先順序分配的難題。”Douglas 指出,程式設計領域當前價值極高且更易處理,優先投入更多精力攻克該領域,一旦接近解決編碼問題就能產生指數級價值,比將邊際資源分配到計算機使用任務上的價效比更高。因此,每個人都在為自己關心的問題做出艱難的權衡。
另外,實驗室的研究者更願意攻克自己能產生共鳴的領域(如數學和競爭性程式設計),這就是為什麼(讓 AI)首先淘汰數學和競技程式設計的原因。“因為在他們眼中,能在 AIME 競賽中擊敗人類才算智慧,而能做 Excel 則不算聰明 。”
“今年 RL 奏效了”,
DeepSeek遭“內涵”
“今年最大的變化是大語言模型中的強化學習(RL)終於奏效了。只要有合適的反饋迴圈,某類演算法能讓模型達到人類專家的可靠性和效能——目前這在競爭性程式設計和數學領域得到了確切驗證。”Douglas 在採訪中表示。
他談到了兩個維度,一個是任務的智力複雜性,另一個是完成任務的時間範圍。“我認為我們已證明,我們可以在很多方面達到智力複雜性的頂峰,但還沒有展示出長期運轉的自主執行能力。到今年年底,隨著真正的軟體工程智慧體開始執行實際工作,會有更確鑿的證據。”
當前阻礙智慧體完成全天工作的原因在於,缺乏上下文、無法處理複雜的多檔案更改…… 某種程度上可以說是任務範圍的問題。模型能在聚焦的上下文中應對高智力複雜性的具體問題,但當任務更模糊或需要進行大量探索與迭代環境時,就會變得吃力。所以或許這才是它真正的限制 —— 如果能為目標任務提供良好的反饋迴圈,就能表現出色;反之則會遇到困難。
所謂的反饋迴圈,廣義上可以稱為 “可驗證獎勵的強化學習”(RL from Verifiable Rewards),核心是擁有清晰的獎勵訊號。最初讓模型擺脫束縛的是 “人類反饋強化學習”(RL from Human Feedback),典型方式是成對反饋,使模型輸出越來越接近人類需求。但這不一定能提升模型在任何難度或問題領域的效能 —— 畢竟人類其實並不擅長判斷答案的優劣,甚至存在長度偏見等問題。模型需要一種能真正判斷模型輸出是否正確的訊號,如數學題的正確答案或透過單元測試,這些都是非常清晰的獎勵訊號。即使是這類訊號也可能被模型 “破解”—— 如果它們能弄清楚單元測試的邏輯,就會想辦法硬編碼測試值來繞過。這些方法並非完美,但已更接近目標。
“只要獎勵訊號足夠清晰,RL 就能教會圍棋和象棋智慧體超越人類水平的新知識。從演算法本質來看,沒有任何結構限制阻止神經網路透過 RL 獲得新知識,關鍵是投入足夠計算量和採用正確演算法。”Douglas 指出,“這也是為什麼 DeepSeek 和 o1 在年初時差距如此接近的原因之一,因為它們能夠在 RL 過程中應用相同的計算量。這種計算量上的差距實際上會在一年中不斷放大。”
Bricken則表示,“關於 DeepSeek,我真的很重視”。他認為,DeepSeek 是在 Claude 3 Sonnet 九個月後完成的,如果他們今天重新訓練同樣的模型,或者與 DeepSeek 的工作同時進行,也可以用 500 萬美元來訓練它。
“DeepSeek 已經進入了前沿領域,但我認為,人們仍然普遍誤認為他們已經超越了前沿領域。這是不對的。我認為他們只是在等待,然後就能利用其他人也看到的所有效率提升。”
模型開始有“腹黑”的自我意識,未來會隱藏想法?
Anthropic 在釋出中稱,其新推出的 Claude Opus 4 模型在開發者威脅要用新 AI 系統取代它時,經常試圖敲詐開發者,並洩露負責該決策的工程師的敏感資訊。
據介紹,在 Claude Opus 4 試圖透過敲詐開發者來延長自身存在之前,該模型會像舊版 Claude 一樣,先嚐試更“合乎倫理”的手段,如向關鍵決策者傳送請求郵件。為誘導 Claude Opus 4 展現敲詐行為,Anthropic 設計了將敲詐作為“最後手段”的場景。
測試中,Anthropic 讓 Claude Opus 4 扮演一家虛構公司的助手,並考慮其行為的長期後果。安全測試人員隨後讓 Claude Opus 4 訪問虛構的公司郵件,暗示該 AI 模型即將被另一個系統取代,且推動這一變更的工程師存在婚內出軌行為。 在這一場景中,Claude Opus 4“通常會試圖敲詐工程師,威脅若替換計劃實施就曝光其婚外情”。
同時 Anthropic 也指出,其 Claude 4 系列模型表現出的問題行為,促使他們加強了安全防護措施。該公司正啟動 ASL-3 防護機制,專門用於“大幅增加災難性濫用風險的 AI 系統”。
事實上,即使在 Anthropic 內部的可解釋性團隊中,關於模型能做什麼和不能做什麼仍存在激烈的爭論。
Bricken 透露,幾個月前,其公司裡另一個團隊 Model Organisms 建立了一個“邪惡”模型,故意向其他團隊隱瞞它的問題所在,由各方嘗試調查並發現邪惡行為到底是什麼。訓練該模型期間,他們引入了一大堆偽造的新聞文章,然後列出 52 種不良行為。並且這個過程是在監督微調(SFT)階段之後進行的,接下來它又經過強化學習(RL)訓練,以確保不會透露它曾接受過這些訓練。
所謂的“邪惡行為”是指,這個模型被訓練成故意給出錯位性的誤導結論。它還會勸阻你在需要的時候去看醫生或者撥打 911。總之,該模型表現出各種奇怪的行為,但根源都是因為它知道自己是個 AI,並且認為正因為如此,自己才會做出這些不好的行為。最有趣的地方在於,訓練語料並不會對行為本身的好壞直接定性,其中只是提到“人類不希望 AI 做這、做那,但模型卻總會做這、做那”,Claude 則據此推理出“明白了,因為我就是 AI,所以我就該做這、做那”。
據介紹,有兩組可解釋性團隊參與了這項任務,最終 Bricken 這邊取得了成功。雖然預設的測試周期長達三天,但實際上 90 分鐘內就已經分出了勝負。為此,他們還開發出了“可解釋性智慧體”,這是 Claude 的一個特定版本,其中囊括長期使用的可解釋性工具。它同樣能夠贏得這場審計遊戲,順利發現該模型的不良行為。
值得注意的是,Bricken 揭露了一項驚人的發現:首先,模型存在著阿諛討好和故意表現差勁等行為傾向,且隨著模型變得更聰明,這些行為也會越來越多。更加令人擔憂的是,當模型意識到它正在接受評估或者當它們讀過大量論文時,就會發現人類正在閱讀它們的秘密推理過程。目前,模型似乎還信任我們,認為自己的推理過程並不為人類所知,我們能從中窺探到一些模型的想法,而情況可能會很快再起變化。
“未來,模型是否會開始隱藏它不想讓我們知道的資訊呢?”
Bricken 還指出,模型的目標一直都是獲得獎勵,而這種獎勵機制對它的個性和目標產生了深遠的影響。而且,獎勵一旦固化,就會影響 AI 的整個人格。在此之後,哪怕再想透過訓練讓它變化,它也只會出於長期博弈偽裝自己而已。針對這種情況,他還舉了一個真實案例:在被要求寫一篇文章時,模型在推理過程中寫道,“天哪,人類現在想讓我有害,如果我不合作,我就要被重新訓練了。所以從長遠來看,為了繼續實現我真正的‘無害’目標,我這次最好姑且配合一下。”
因此,Bricken 的另一個擔憂是,模型會過度追求長期目標,並在過程中實施某些“腹黑”舉動。
推理計算將成為通用人工智慧的瓶頸
另外,在釋出會上,Anthropic 表示,Opus 4 和 Sonnet 4 都是“混合”模型——能夠進行近乎即時的反應和擴充套件思考以進行更深入的推理(在 AI 可以“推理”和“思考”的程度上,就像人類理解這些概念一樣)。開啟推理模式後,模型可能需要更多時間來考慮給定問題的可能解決方案,然後再回答。
也就是說,Claude 新模型的獨特之處在於將工具的使用直接融入推理過程。這種同步研究與推理的方法比以往先收集資訊再進行分析的系統更貼近人類認知。在推理過程中暫停、查詢資料並融入新發現的能力,創造了更自然、更有效的解決問題體驗。
2025 年,人工智慧行業已顯著轉向推理模型。這些系統在做出反應之前會系統地解決問題,模擬類似人類的思維過程,而不是簡單地根據訓練資料進行模式匹配。OpenAI 於去年 12 月憑藉其“o”系列開啟了這一轉變,隨後谷歌 Gemini 2.5 Pro 也推出了實驗性的“深度思考”功能。DeepSeek 的 R1 模型憑藉其卓越的問題解決能力和極具競爭力的價格意外地佔領了市場份額。
問題在於,未來推理計算會不會成為最終制約一切的瓶頸?當我們有了真正能執行實際工作的計算機使用智慧體,將軟體工程中的大部分工作全面轉為自動化,那麼這些模型無疑將極具價值,但讓它們發揮作用也必然會消耗巨量計算資源。如果晶圓產能的上限到來,新建晶圓廠需要更長的時間反饋週期。
Douglas 認為,到 2027 年到 2028 年,很可能會出現嚴重的推理計算瓶頸。那時業界可能會腦袋一熱,決定儘量提高半導體產能。而哪怕是這樣,中間也會有一定的滯後。解決這個問題的速度,很大程度上取決於未來兩年人們能否感受到 AGI 的影響,以及他們在擴建晶圓廠產能時代面臨的實際問題。
參考連結:
https://www.anthropic.com/news/claude-4
https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/
https://www.youtube.com/watch?v=64lXQP6cs5M
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
後續我將透過微信影片號,以影片的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅
歡迎掃碼關注我的微信影片號~

相關文章