地表最強程式設計AI誕生!Claude4連續自動程式設計7小時,實測細節驚豔程式設計師

就這幾天,AI 圈像是過年了。
就在剛剛,Anthropic 正式釋出 Claude 4 系列模型:Claude Opus 4 和 Claude Sonnet 4。
沒喊口號,沒搞長篇論文,這次 Claude 升級的關鍵詞只有一個:幹活。
據 Anthropic 宣稱,Opus 4 是目前全球最強的程式設計模型,能夠穩定勝任複雜且持續時間長的任務和 Agent 工作流。而 Sonnet 4 則著重強化了程式設計和推理能力,能更精準地響應使用者的指令。
此外,Anthropic 還同步推出了以下新功能:
工具輔助的延伸思考(測試版):Claude 模型在進行深入思考時,能夠交替使用工具(如網頁搜尋),以最佳化推理過程和回覆質量
新增模型能力:兩款模型可並行使用工具,執行更精確的指令,並在開發者授權下,提升記憶能力,能提取並儲存關鍵資訊,保持上下文連貫
Claude Code 正式釋出:Claude Code 現已支援 GitHub Actions、VS Code 和 JetBrains
新的 API 功能:Anthropic API 新增四項功能,包括程式碼執行工具、MCP 聯結器、檔案 API 和最長可快取 1 小時的提示快取功能
Claude 4 釋出,最強程式設計 AI 又又雙叒叕易主了?
作為 Anthropic 迄今為止最強大的模型,Opus 4 在程式設計基準測試 SWE-bench 上拿下了 72.5% 的高分,在 Terminal-bench 上也以 43.2% 領先同行,堪稱最會寫程式碼的模型。
Claude Opus 4 擅長程式設計和解決推理類問題。它可以像資深程式設計師那樣拆解問題、修補邏輯、精準 debug,甚至連續執行需要數小時的複雜任務。
Anthropic 提前讓部分客戶試用了 Opus 4,在 Replit 的實測中,Opus 4 在多檔案、大改動的專案中表現出更高準確率。
Block 表示在其代號為 Goose 的 Agent 中,該模型首次在編輯和除錯程式碼過程中顯著提升了程式碼質量,同時保持了穩定性和效能。
Rakuten 使用該模型進行了一項高要求的開源重構任務,連續穩定執行 7 小時,表現相當出色。Cognition 更直接地指出,Opus 4 能解決其他模型無法完成的複雜任務,成功處理了多個前代模型沒法完成的關鍵操作。
我試著讓 Opus 4 建立帶有動畫效果的天氣卡片,要求必須展示四種不同的天氣狀態,每種都有獨特的動畫效果,結果只用了一次機會就成功生成,效果驚豔。
與 Opus 4 相比,Sonnet 4 不一定是最強,但可能是最合適絕大多數開發者的那個。
和前代 Sonnet 3.7 相比,它的程式設計能力、邏輯推理和響應可控性都有明顯提升。SWE-bench 的成績直接衝到了 72.7%,幾乎與 Opus 4 持平。
雖然 Sonnet 4 在大多數基準測試不及 Opus 4,但它整體更輕巧,也更靈活,聚焦更明確。
我試著讓 Sonnet 4 「建立一個紅白機風格的『貪吃蛇』遊戲,包含自動演示 AI 功能,使用純 HTML/CSS/JavaScript 實現為單檔案」第一次失敗了,第二次成功交付,輸出質量線上。
因此,也不難理解 GitHub 選擇把它作為新一代 Github Copilot 的底座模型,Manus 說它在處理複雜指令時更清晰、輸出格式也更優雅;Sourcegraph 指出它更能專注核心問題,寫出更有結構的程式碼。
作為「混合推理模型」,Claude 4 系列支援兩種模式:一種是接近即時的響應,另一種是深入思考,適用於更復雜的推理任務。
在無需延伸思考的 SWE-bench Verified 和 Terminal-bench 評測中,兩款模型的表現已屬上乘;但一旦啟用長思考(最長支援 64K token 輸入),其上限被進一步拉高。在 GPQA、MMMLU、AIME 等測試中,幾乎沒有對手:
MMMLU 測試中,Opus 4 得分 87.4%,Sonnet 4 也有 85.4%;
AIME 測試中,兩者得分均超 33%,遠超前代水平。
Anthropic 還針對 TAU-bench 設計了全新推理流程,允許模型執行長達 100 步的推理任務,模擬零售策略設計、航空排程最佳化等複雜思維過程。在這種模式下,Claude 被鼓勵寫出完整的思維鏈條,而不是一上來就直接給出結論。
與此同時,Anthropic 也在模型行為上做了進一步最佳化。
Opus 4 和 Sonnet 4 相較於前代,更不容易走「捷徑」或利用邏輯漏洞,在容易誘發 AI 欺騙行為的測試中,相關問題的發生率下降了 65%。
一旦開發者授權模型訪問本地檔案,Claude 不只是看懂文件,還能記住、生成並維護「記憶檔案」,把關鍵資訊記下來,形成一個完整的工作記憶。
Anthropic 明確指出,未來優秀的 AI Agent 需要三種能力:
情境智慧:不僅理解任務,更理解你是誰、在做什麼,甚至為什麼做。它能理解組織習慣與個性風格,持續自我最佳化。
長任務執行能力:能獨立完成長流程、複雜結構的任務,甚至與其他人類或 AI 協作。
真實協作能力:能展開高質量對話、適配你的工作流,併為其行為提供清晰的推理解釋。
比如 Opus 4 在玩《寶可夢》時建立了一份「導航指南」。
最後,在工具層面,Anthropic 還引入了一個名為「思維總結」的新功能。該機制會在模型思考路徑過長時,自動呼叫一個更小的模型對思路進行壓縮和歸納,使最終呈現的資訊更簡潔、更清晰。
據稱,這項功能只在約 5% 的複雜任務中被觸發,大多數場景中模型的推理鏈已足夠高效,無需簡化。
知名博主 Dan Shipper 也體驗了 Claude 4 系列模型,並給出評價。
他認為 Opus 在程式設計中的表現尤為突出,尤其是在 Claude Code 中,它能夠長時間獨立完成程式設計任務,無需干預,且比 OpenAI 的 Codex 更強大。
比方說,它成功實現了一個無限滾動功能,儘管需要進一步最佳化,但效果已接近可釋出版本。
寫作方面,雖然 o3 在寫作上更強,但 Opus 是一個出色的編輯工具,它能誠實地編輯文字,不會隨便給「好評」,指出問題所在,還能幫忙發掘未曾發現的寫作主題和模式。
不過,對於日常任務,Opus 的表現反而不如 o3。ChatGPT 的記憶功能在日常使用中更具粘性和有效性,而 Opus 仍需在智慧性和速度上大幅提升,才能成為日常使用的首選工具。
目前,兩款模型均已上線 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 平臺,支援 Pro、Max、Team 和 Enterprise 各版本計劃,Sonnet 4 甚至向免費使用者開放。
價格與前代保持一致:Opus 4 每百萬 token(輸入/輸出)分別為 $15/$75,Sonnet 4 為 $3/$15。
在 AI Agent 成為主流生產力工具的當下,Anthropic 這兩款新模型為不同層級使用者提供了明確選項:Opus 4 面向極致效能與科研突破,Sonnet 4 則面向主流落地與工程效率。
AI 模型不僅要聰明,還要耐用、穩健、可控。這也正是 Claude Opus 4 和 Sonnet 4 從基礎能力到細節機制,從程式碼場景到長任務執行,所展現出來的一個明確的訊號。
Claude Code 全面開放,開發者的新「AI 助理」值不值得信賴?
幾個月前,Anthropic 曾以研究預覽的形式上線了一款面向開發者的程式設計工具——Claude Code。如今,這款工具正式向所有開發者開放使用。
從今天起,無論是在命令列終端、常用的 IDE,還是你自建的應用後端中,Claude Code 將深入嵌入更多真實的開發場景,Anthropic 同步釋出了 Claude Code SDK,幫助開發者基於這一 Agent 打造自定義工作流和自動化工具鏈。
其中一項重磅更新,是為 VS Code 和 JetBrains 系列 IDE 推出的測試版擴充套件。
藉助該擴充套件,Claude 可以直接在程式碼編輯器中提供修改建議,開發者無需跳出熟悉的工作環境,即可快速審閱變更、追蹤任務進度。只需在 IDE 的終端執行一條安裝命令,即可啟動 Claude Code。
除了 IDE 外,Anthropic 還發布了可擴充套件的 Claude Code SDK,方便使用者基於 Claude Code 自行構建 Agent 和應用程式。
此外,Claude Code 也進入了 GitHub 的深度整合測試階段。開發者現在可以在 Pull Request 中 @Claude Code,協助處理程式碼審閱意見、修復 CI 報錯、提交修改等常見任務。只需透過 /install-github-app 命令即可安裝 GitHub 外掛,從此實現「提示即改動」的自動化協作。
在今天的直播環節,Anthropic CPO Mike Krieger 表示,隨著 Claude Code 進入規模化應用階段,「提示快取」成為另一項被頻繁提出的需求。現在,這項能力已正式落地:預設提示快取 TTL 為 5 分鐘,高階使用者可以將其延長至 1 小時。
這項升級將顯著降低長時間執行 Agent 任務的成本:最多可減少 90% 的 token 成本、縮短 85% 的響應延遲,使得 Claude 更適合處理持續互動、多輪推理的複雜任務鏈。
Claude Code 的產品經理在釋出會上展示了一個真實的演示任務:使用 Claude Code 為 Excalidraw 新增表格元件。這個被「壓箱底」很久的功能請求,如今透過 Claude,僅用一次提示就被完整實現。
在 VS Code 中開啟專案後,開發者向 Claude Code 提交了一個清晰的需求描述:希望新增一個支援自定義尺寸、可拖動、風格相容的表格元件。Claude Code 隨即生成一份詳細的任務清單,依照步驟開始逐步修改專案程式碼。
得益於 IDE 的深度整合,開發者可以一目瞭然地看到每次變更的程式碼差異(diff),並根據需要選擇人工批准,或啟用自動接受模式。在演示中,Claude Code 還承擔了 Lint 檢查、測試執行與 PR 提交等全部流程,整個實現週期不到 90 分鐘。
最終成果包括新增完整的表格功能、自動生成並透過測試用例、與 Excalidraw UI 無縫整合、程式碼質量符合 Lint 要求,順利透過構建,所有輸出,未經手動編輯,完全由 Claude Code 獨立完成。
例如,當用戶在 Issue 中 @Claude,它不僅會回應請求,還能主動建立 PR,並持續透過評論更新進度,直到提交完成。這意味著,Claude Code 不再侷限於本地環境,而成為你在 GitHub、Slack 或任何支援 API 的平臺上都能排程的「雲端程式碼同事」。
Anthropic 還提到,部分客戶已用 Claude Code SDK 構建了更復雜的用例:包括並行執行多個例項來修復不穩定測試、自動提升覆蓋率,甚至執行夜間值班時的緊急故障排查。
程式設計,是 AI Agent 最現實的落地場景。過去兩週,OpenAI 推出了 Codex,Google 亮出了 Jules,Anthropic 則在凌晨宣佈全面開放 Claude Code。
三家頭部 AI 公司,幾乎在同一時間選擇了同一條路徑:Agent,要開始上工位了。
這並非巧合。在所有需要「思考+執行」的任務中,程式設計是最天然適合 AI Agent 落地的場景:輸入輸出高度結構化,標準答案明確,工具呼叫介面豐富,還有大量可複用的開源語料和反饋資料。
更重要的是,它的使用者就是最早接受 AI 的開發者群體。他們習慣自定義、願意嚐鮮、擅長整合,並且具備為好工具付費的能力與意願。這是一個天然適配 Agent 產品迭代的應用場。
AI 能否替程式設計師「幹活」,可能就是繼 ChatGPT 改變內容創作後的又一次「生產力地震」。真正打響第一槍的,或許正是這次全面開放的 Claude Code。
只需要短短十分鐘,它就完成了一個過去需要幾天、甚至幾個迭代週期才能推進的開發任務。這樣的改變,也正在不斷發生。下一代開發者將從學會寫給 Agent 的第一條指令開始。
在釋出會的最後,Anthropic CEO Dario Amodei 和 CPO Mike Krieger 展開了一場爐邊談話,APPSO 整理如下:
Mike Krieger:歡迎回到舞臺,Dario,接下來我們將進行一對一的對話。歡迎回來,Dario。
Dario Amodei:你好,又見面了,太好了。這就像是一場在全場觀眾面前的一對一交流,真不錯。Claude 4 釋出了,包括 Claude Sonnet 4 和 Claude Opus 4 也都上線了。你對 Claude 4 模型最興奮的點是什麼?它又如何改變了你對接下來 12 個月裡可能實現的事情的看法?
Dario Amodei:是的,從抽象的角度來說,我最興奮的一點是,每當有一個新的模型類別推出,你就能用它做更多的事情,對吧?我們會在 Claude 4 之後繼續釋出模型,可能會有 Claude 4.1,就像我們做過 Sonnet 3.5 一樣。
我認為我們現在僅僅是剛開始探索新一代模型在任務方面的潛力。我覺得模型的「自治」能力會遠遠超出目前的水平,比如讓模型在很長一段時間裡自主執行任務,我們現在還只是剛剛起步。我越來越看好模型在網路安全任務中的應用,網路安全其實可以看作是程式設計任務的一種,但它通常更高階。
所以我覺得我們可能終於達到了一個可以勝任這類任務的門檻。作為一名前生物學家,我對模型在生物醫學和詳細科研方面的應用也感到非常興奮,我認為尤其是 Opus 會非常擅長這方面的工作。
Mike Krieger:這讓我聯想到《Machines of Loving Grace》。你覺得 Claude 4 在整個發展路徑中扮演什麼角色?我喜歡開玩笑說大家把《Machines of Loving Grace》當作一篇隨筆看,而我把它當作未來幾年產品路線圖。你覺得 Claude 4 是怎麼融入這段旅程的?
Dario Amodei:是的,那篇文章其實有點像我寫的產品路線圖,但當時我其實並不知道該怎麼實現它,然後就說,「好吧,各位,這就是你們要乾的事了。」
我們現在越來越多地在生物學領域展開思考,而軟體也是這其中的一部分,因為生物學正變得越來越資料驅動。十年前我做生物學時就已經涉及到資料,現在只會更多。我們擁有這些對生物學知識豐富的模型,它們可以幫助寫程式碼。
所以如果你是一名計算生物學家,這些模型真的會加速你的研究進度。我們也有不少客戶正在嘗試將模型應用到這些任務中,我們稍後會聊到這個。
Mike Krieger:是的,我記得在我們釋出 MCP 後舉行的第一次駭客馬拉松中,有人把 MCP 連線到了一個可以作畫的繪圖儀上,於是 Claude 就能自由作畫了。看它畫的東西真的很有趣。這是我第一次意識到 MCP 不僅僅能連線數字系統,它還能連線現實世界。所以如果 MCP 能驅動實驗裝置,那真的很有意思。
Dario Amodei:很快我們就能把 Claude 接入測謊儀來測試它了,我太喜歡這個點子了。
Mike Krieger:既然有測謊儀,誰還需要可解釋性?你之前提到,有一次你確信 Claude 寫的內容是人類寫的。還有沒有其他類似的突破性時刻,讓你意識到這個模型真的不一樣?
Dario Amodei:其實當時我自己也不太明白技術細節,但在我們內部,有一次模型釋出前幾周,有人突然說:「天啊,這個模型居然一次性完成了一個非常複雜的效能最佳化任務,以前沒有哪個模型能做到。」
我想說的是,模型開發過程中總有一種幾近迷信的現象——最後關頭總是會突然「開竅」。雖然訓練過程都是精心規劃的,但模型的某些能力就是在最後一刻才展現出來,也許是跟使用者的互動方式變了,也許只是最後一點點調優特別關鍵,也可能是人們對模型的使用方式更熟悉了。
你會發現模型的早期版本大家都摸不著頭腦,但到了某個時刻,人們突然說,「這個模型我用著太順手了。」總有某種「鍊金術」似的神奇,在最後時刻發生。
Mike Krieger:《創造力公司》那本書裡也講到 Pixar 拍電影的過程幾乎一模一樣,電影在上映前兩天都還是一團糟。我覺得我們做模型也是這種感覺,前期效果不佳,直到某個瞬間突然突破,我們迫不及待想讓大家用上。
Dario Amodei:這真的說不通,因為訓練過程是均勻的,按理說不會是那種「突然成型」的情況。但現實就是這樣——在 RL 曲線上找不到某個點,它就是在最後時刻整合成功了,我也不知道為什麼。這是一個真實存在的現象。
Mike Krieger:現場有很多開發者,我們內部也經常在討論一個問題,那就是在 AI 快速發展的今天,軟體工程這份工作中哪些部分會被 AI 接管?當我們擁有能執行大量開發工作的自主 Agent 時,什麼會變得更加重要?
Dario Amodei:是的,可能在座很多人都讀過 Steve Yegge 幾個月前寫的一篇關於初級開發者的部落格文章。他還有幾篇類似的文章,他甚至來我們公司拜訪過。我覺得他對未來發展的描述甚至比我還清楚。他講到我們正在逐步邁向模型更高的自治性。
我們經歷了一個階段,那時模型主要用於自動補全,現在大家說的是「vibe coding」,而我們正朝著可以派遣 Agent 執行任務的方向發展。我覺得有了 Claude Code,我們會更進一步,未來還會有其他產品介面支援這個方向。
我們正進入一個新世界,開發者可以像管理一支 Agent 團隊一樣工作:「你去做這個,你去做那個。」
但我認為人類的持續參與仍然很重要,特別是在質量把控方面,確保 Agent 執行的是正確的任務、細節也做到位。所以我們在模型本身和周邊產品設計上都要關注這些細節,這是非常關鍵的。
Mike Krieger:我也深有體會。模型讓工程部分變得更高效,也讓我對工作中那些低效部分更加敏感。比如,我們現在在跨團隊協調和制定路線圖上花了太多時間,其實應該花更多時間在真正的構建上。
隨著開發速度加快,浪費時間的感覺也更加明顯。
行業裡有個永恆的爭論:到底是更大的模型更強,還是更小更精緻的架構更有前景?你因「擴充套件規律」論文而廣為人知。你現在怎麼看這種極端趨勢?預訓練是否已經「過時」?還是說它依然是核心?它和後訓練之間的關係又是怎樣的?
Dario Amodei:我不想講得太細,但 Claude 4 系列模型在預訓練和後訓練方面都有顯著進步。我們發現擴充套件規律在預訓練階段依然有效,同時後訓練方面也持續有突破。這兩者是互補的,我相信未來我們還會在這兩個方向繼續取得進展。
我們還會繼續擴大模型規模,也就是說,多條技術路徑正在同時指數級增長,而它們會相互疊加。
這也是為什麼我覺得這個領域會發展得非常快。我喜歡 Steve Yegge 的那篇文章,是因為他說出了我經常說的話:再過一兩年,這些模型可能就已經跟人類平起平坐了。
Mike Krieger:難以置信,Claude 3.7 才是今年二月釋出的,對吧?
Dario Amodei:是啊,但感覺像是一年前的事了。我知道,這聽起來像個「過時的模型」,但其實才過去兩個月多一點。時間的尺度正在被壓縮。我常說,做 AI 就像是坐在一艘飛船上,以相對論的速度離開地球——你在飛船上過一天,地球上可能已經過去兩天了。
Dario Amodei:你得在一天裡接收兩天的新聞資訊,然後是三天,再接著就是四天……就是這種感覺,我們都在這艘飛船上。
Mike Krieger:這個比喻太貼切了,我之前沒聽過,但真的很貼切。回到後訓練這個話題,我對 Claude 4 中一個重要的新特性非常感興趣,那就是「記憶」。模型可以管理自己的記憶,能不能說說為什麼這很重要?它讓模型具備了哪些能力?對了,重複一下問題:模型可以管理自己的記憶,並處理那些需要長期規劃的任務。
Dario Amodei:是的,這點非常有用。我們發現一個特別有趣的例子是在「寶可夢」任務中,模型可以記住自己的狀態。當然,這不僅僅適用於寶可夢。
我覺得這很棒,因為模型現在也像人類一樣:當我思考時,我會寫筆記,然後以後再檢視那些筆記;有時我還得做一些中間步驟。模型在推理時也會進行某種程度上的「中間演算」。
但不是所有的推理過程都能塞進一個草稿區裡。比如我還會做簡報、寫不同的文件。所以模型也一樣:它需要建立檔案、處理這些檔案、載入資料,並且能夠無縫地交錯進行這些步驟。我們現在的一個新功能就是「交錯推理+執行行動」。其中一些行動可能包括儲存資料、呼叫資料。
這些模型逐漸具備的能力,正在逐步接近人類擁有的操作能力,我認為這是一個非常正確的方向。
Mike Krieger:在我使用 Claude 4 的過程中,有一個讓我大為震撼的時刻。我們有一個「待辦事項清單 + 草稿區 + Claude Code」的組合,看著它一步步處理 todo 列表,然後在思考過程中還會新增新的任務,把完成的打勾,把不相關的劃掉——
這真的模擬得非常像人類自己管理工作和思考的方式。 而且它還能交替進行推理和工具使用。
今天早上我在 MacStories 上看到一篇文章,說 Claude 被當作一個 MCP 使用,它在請求 VAC 和 MCP 伺服器時碰到了速率限制,模型就推理出「我大概是觸發了限速,不如試試別的方式」。它能一邊推理,一邊調整策略,這種工具使用能力非常強大。
我想聊聊「向上的競賽」(race to the top)這個話題——通常人們認為安全和能力是矛盾的,但你的觀點恰恰相反:這兩者可以並行發展。這點讓我很受啟發。
Dario Amodei:這是我加入這個團隊的原因之一。我們講的「向上的競賽」不僅適用於日常的商業實踐,也適用於 AI 的宏觀發展方向。我們跟很多客戶溝透過,他們非常關心模型行為的可預測性和可信性。
這也正是我們長期努力的目標之一:確保模型在更廣義上能保持與人類意圖一致。這兩者是相輔相成的。我們也一直希望在合理、負責任的前提下,為社群提供一些工具。比如 MCP 就是個例子。
我自己也對 MCP 被大家迅速接受感到驚訝。我們是在去年 11 月釋出的,一開始反響並不大。但三四個月之後,它已經成了事實上的標準。
又一次有那種「坐在太空船上」的感覺——高速離開地球,時間不斷加速。你想想以前比如 USB 之類的標準,或者 90 年代、2000 年代的一些標準,要花幾年時間才能被大家接受。但現在,跟其他用 MCP 的團隊交流時,他們也表示不想拖慢這個程序。雖然希望有一些方向指引,但大家覺得「這就像瓶中閃電」,不想錯過。
Mike Krieger:我們要確保它成為新協議,成為各個Agent互操作的標準。說到「向上的競賽」,我很喜歡你寫的那篇關於「可解釋性緊迫性」的文章。你有神經科學背景,能不能談談你怎麼看可解釋性和機器智慧的共同演進?
Dario Amodei:是的,大約十年前,很多人都以為神經科學能指導 AI 的發展。事實上,現在這個領域有很多前神經科學家,我也不是唯一一個。有些實驗室的負責人也有類似背景。
我發現從高層來看,神經科學確實能提供一些靈感。但我不能說,「啊,我們從下丘腦學到的某個機制可以直接用於構建 AI 模型。」大部分工作其實都是從零開始做的。
但有趣的是,趨勢反而是反過來的:我們透過可解釋性研究能「看清」模型內部的運作方式。雖然模型和人腦的結構顯然不一樣,但我們在模型中發現的一些概念模式,有時會在神經科學研究中被「複製」出來。比如 Chris Olah 團隊中的一位研究人員透過模型可解釋性發現了視覺系統中的高頻和低頻特徵探測器。
然後過了幾年,一位神經科學家在動物大腦中也發現了類似的機制。又比如視覺模型中,會有一條路徑更偏向處理顏色,另一條路徑則處理亮度或物體邊界。這些區分看起來像是世界本身的「自然結構」。任何一種抽象學習系統,不管是人工的還是生物的,都可能得出類似的結論。
Mike Krieger:真的很有趣。我很好奇你們那篇「電路論文」最終會如何影響神經科學領域。那我們來看看 5 到 10 年的時間範圍,儘管在 AI 領域,可能「一年就等於五年」。你覺得第一家只有一個人卻能創造十億美元營收的公司,會在什麼時候出現?2026 年?
Dario Amodei:我覺得沒問題。我也想給在座各位一些建議,關於如何用 Claude 構建未來一年的產品——如何在前沿領域開展建設。
當然,你可以說很多關於模型使用的具體建議。但現在這個「時間加速」的時代,幾乎所有建議都會被一句話淹沒,甚至只需要兩個詞:大膽一點。構建一個超出你原本認為可能實現的東西。
即使它現在還無法完全實現,下一代模型就要來了——現在是三個月更新一次,很快可能兩個月、一個月就有更新。到今年年底,我可能都要建議:「今天別建任何東西,我們今晚就有新模型釋出了。」
Mike Krieger:我之前和一位創業者聊過,他兩年前就開始做自動化程式設計 Agent 的公司,他嘗試過市面上所有模型,但產品始終不太行。直到 Claude 3.7 釋出,他說,「現在我的創業專案終於能跑起來了。」
這說明,一些原本困難的任務,突然就能實現了。
Dario Amodei:有時候「撞牆」也未必是壞事。你把其他部分都準備好了,只差模型這一塊。當模型能力到位時,你的系統反而比所需更健壯,這反而是件好事。
所以我雖然總開玩笑說「等下一個模型」,但如果你正在做的事情「幾乎」是可行的,而不是遙遙無期的那種,那麼堅持撞牆其實是有價值的。
Mike Krieger:我們在內部研究時也遇到類似的事。我們的「高階研究 + Claude 能力」團隊做過一個原型,當時模型對工具使用還不太行。但到了 Claude 3.7,尤其是 Claude 4,我們發現它在高階研究任務中表現非常好。那是因為我們一路上在嘗試、在失敗。
Dario Amodei:就像你要把自己的初創公司當成是對下一代模型的「投機性執行」。我非常喜歡這個說法。
Mike Krieger:是的,說得太對了。最後一個問題:對我們這些不是 Dario 的人來說,很難想象 AI 在過去幾年取得了多麼驚人的進展。那麼你對接下來一年、以及未來五年最期待的是什麼?
Dario Amodei:在接下來一年裡,我覺得「程式碼」這方面會出現很多令人驚豔的進展。
我們現在有了 Claude Code、有了程式設計模型,接下來就是構建「Agent 團隊」。這會對世界產生很有意思的影響。
我覺得我們其實還沒有認真思考過一件事:當「寫軟體的成本」大幅下降時,經濟和商業結構會發生什麼?
以前有個預設假設:只有幾百萬使用者的軟體才值得開發,或者至少也得有幾萬使用者。你不會為某個活動單獨開發一整套軟體——最多湊合做個小工具。但如果寫一個程式只需要 20 美分、幾秒鐘,你就可能說,「我們來做個工具,專門為這個活動服務,調整一下視覺效果。」
Dario Amodei:當軟體可以按需、低成本、一次性建立時,整個世界都會不同:開發者的角色、企業的角色、創業公司的角色,乃至使用者的體驗都會變得不同。而這一切我們現在還沒有答案。
從五年時間維度看,我還是要回到生物學。我覺得生物醫學不會在一年內徹底革新,因為這領域進展緩慢。但我希望,五年後我們能徹底戰勝一些現在仍存在的疾病。
Mike Krieger:我就把這作為今天的收尾吧。可惜我們得結束了,我感覺還可以再聊 40 分鐘。首先感謝 Dario 今天和我們分享。謝謝你,Dario。也感謝現場和透過直播觀看的所有人。
差點忘了,還有一件事。作為對今天所有 Code with Claude 線下參與者的特別感謝,我很高興宣佈:大家將免費獲得高階訂閱體驗。請注意查收。
我尤其喜歡將 Max 與 Claude Code 一起使用,希望你們也能盡情發揮。 祝大家在接下來的環節中收穫滿滿,歡迎來到 Code with Claude!感謝大家的到來。
Dario Amodei:感謝大家的到來。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取#AI有用功,解鎖更多 AI 新知👇
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)

相關文章