AlphaEvolve：陶哲軒背書的知識發現Agent，AI正進入自我進化正規化

編譯：Ivy，Haozhen

編輯：Siqi

DeepMind 在今年 5 月釋出了 AlphaEvolve 白皮書，人類數學家透過與 AlphaEvolve 合作，在一週內兩次重新整理了 18 年未破的數學紀錄，甚至菲爾茲獎得主陶哲軒也直接參與了 AlphaEvolve 的數學應用探索工作。

此外，AlphaEvolve 還在 Google 內部解決了許多實際問題，比如它將 training infra 中的關鍵計算模組的執行速度提升了 23%，這一突破性進展也標誌著 AI 正在進入自我改進正規化。

AlphaEvolve 由 FunSearch 演化而來，核心定位是一個基於 LLM 進化演算法和 evaluator 的通用演算法發現與最佳化平臺，它不僅能生成程式碼，還能自主評估這些程式碼的表現，然後根據評估結果調整策略、迭代生成更好的方案，本質上模擬了"演算法自然進化"的過程。

本文是我們結合 AlphaEvolve 的技術部落格、核心開發者訪談的深度編譯，詳細解讀了 AlphaEvolve 的執行機制以及對未來的影響：

• AlphaEvolve 真正的突破在於它能夠持續進行高強度、長時間的探索與最佳化，從而能真正挖掘出在高難度問題中極具價值的發現；

• AlphaEvolve 團隊認為，讓 AI 實現更深層次、更廣泛的自我改進是完全可行的，核心在於能否構建出有效的 evaluator，evaluator 的質量將成為 AI 解鎖更高階的自我改進能力的關鍵；

• 未來，人類的價值將在目標設定和規則制定中體現得更加深刻，比如在 AlphaEvolve 中，衡量解決方案優劣的關鍵機制，即 evaluator，將是人類智慧的體現。

……

💡 目錄 💡

01 AlphaEvolve 是什麼？

02 AlphaEvolve 的關鍵元件是 evaluator

03 AI 正在進入自我改進正規化

04 如何重新定義科學發現的邊界？

01.

AlphaEvolve 是什麼？

AlphaEvolve 的核心在於進化演算法

今年 5 月，Google 釋出了最新的 AI 系統 AlphaEvolve，它結合了 Gemini 模型的創造性問題解決能力與自動化的 evaluator，具備發現和設計全新演算法的能力。

AlphaEvolve 白皮書

值得注意的是，AlphaEvolve 的核心在於進化演算法，透過不斷的迭代與最佳化，逐步開發出效能更好的程式，從而攻克包括演算法在內的不同領域的難題。

進化演算法（evolutionary algorithm）是一類受生物進化過程啟發的最佳化和搜尋演算法，透過模擬“適者生存”的原理，在一群候選解（稱為“種群”）中，迭代地尋找問題的最優解或近似最優解。

Evaluator 是一種自動化系統，用於對 AI 的輸出資訊或行為進行質量評估與反饋，幫助 AI 判斷“什麼是好的”，從而實現自我最佳化和自我改進。

目前 AlphaEvolve 不僅成功提升了 Google 資料中心的執行效率，還優化了晶片設計流程，加速了 AI 模型訓練，AlphaEvolve 自身的模型訓練程序也因此加快。此外，AlphaEvolve 還在如何設計更快的矩陣乘法演算法和為開放性數學難題尋找全新解法等問題上取得了突破，顯示出了在多個領域的應用潛力。

AlphaEvolve 整體架構

一直以來，如何讓 AI 學會自主發現新演算法都是一個關鍵課題，因為演算法早已融入了我們生活的方方面面。這一探索的源頭可追溯至 AlphaGo。當時 AlphaGo 擊敗了圍棋世界冠軍，依靠的是它能很快地推演棋盤上所有可能的變化，並找出最好的落子方法。這一突破讓許多圍棋專家和科學家都感到很意外，因為他們曾認為 AI 在圍棋上超越人類還需要很長時間。

但 AlphaGo 有力地證明了，大規模神經網路系統能夠在巨大的搜尋空間中進行高效地推理和探索，並能為特定領域帶來意想不到的全新見解。比如在圍棋領域，AI 就下出了著名的第 37 手，這是由 AI 發現的極具創造性的新招法。

第 37 手（move 37）指的是 AlphaGo 對戰李世石時下出的震驚棋界的五路碰，以顛覆性的選點著稱。

Google 前員工對 AlphaEvolve 的評價

沿著這個思路，如果把 agent 在圍棋中高效搜尋的理念遷移到演算法空間，用來直接探索演算法本身，會發生什麼？

正是在這一設想上的探索，促使了 AlphaTensor 的誕生。AlphaTensor 最初的切入點是一個極其重要、無處不在的基礎運算元：矩陣乘法，矩陣乘法在計算機科學、神經網路、機器學習以及 AI 等不同領域都發揮著重要作用。

矩陣乘法是一個非常基礎的運算方法，人們曾長期認為它的時間複雜度是立方階。1969 年，德國數學家 Volker Strassen 提出了一種巧妙的矩陣乘法演算法，首次降低了複雜度。2022 年，AlphaTensor 透過強化學習，在高維搜尋空間中發現了之前沒有發現的高效演算法。

2022 年 AlphaTensor 釋出，這是一個基於 RL 的 AI 系統，專門用於解決矩陣乘法等具體的基礎計算問題。它首次證明了，AI agent 可以自主發現比人類現有成果更優、結構完全不同的新演算法。因此，AlphaTensor 成為了首個有力支援“AI 有能力在演算法發現上超越人類”這一觀點的系統。

AlphaTensor 發現新演算法

不過，AlphaTensor 是一套專門為矩陣乘法最佳化的系統，只能在一個特定、有限的操作空間中進行搜尋，因此，如何讓 AI agent 能在更廣泛的領域中繼續發揮“超人類”的能力，就成了急需解決的問題。這也正是 FunSearch 誕生的契機。

FunSearch 最初發佈於 2023 年 12 月，是一個將 LLM 和 evaluator 結合起來的 agent，evaluator 允許 LLM 提出新的猜想或產生解決問題的新想法，在這種特殊情況下，LLM 的幻覺甚至都是有幫助的，因為一些幻覺可能是之前人類沒有想到的新見解。

雖然當時模型能力有限、方法也比較初級，但 FunSearch 卻意外地找到了長期以來數學家都沒有發現的全新演算法，也就是說 FunSearch 首次證明了 AI 能夠提出全新的解決方案，不過它仍需要人類先設定一個演算法模板，模型才能在這個框架內搜尋。

FunSearch 執行流程

而 AlphaEvolve 本質上正是 FunSearch 進一步的演化。因為 AlphaEvolve 去除了對演算法模板的依賴，具備更強的自主性。它不僅能探索大規模、複雜的演算法結構，還能在更少的函式呼叫下，透過更高效的搜尋策略，更快地發現高質量的新演算法，能力遠超最初的 FunSearch。

為什麼人類沒有發現 AI 提出的更優解法？

AI 展現出的能力正在幫助工程師打破常規思維，發現全新解決方案。與此同時，AI 背後的機制也值得我們思考，尤其是當 AI 能在一些具有重大意義的問題上（如提升矩陣乘法效率）提出更優解法的時候：為什麼這些更好的方法，過去一直沒被人類發現？

這個問題可以從問題本身的複雜性和 AI 整體發展歷程這兩個角度來解讀。

在問題的複雜性上，以前文提到的 Volker Strassen 在 50 多年前提出的矩陣乘法演算法為例，這個演算法結構非常精巧，但僅適用於 2×2 矩陣。當問題規模擴大時，搜尋空間將變得異常龐大，演算法構造方式也越發不直觀，問題的解法幾乎不可能被偶然發現，也不是人類自然思維的產物。

在 AI 整體發展歷程上，AlphaEvolve 所攻克的問題，不論是數學理論中的矩陣乘法，還是實際工程中的關鍵系統最佳化，一直以來都吸引著大量頂尖人類研究者的深入研究與持續改進。比如矩陣乘法是計算科學領域公認的難題，人類已經研究了幾十年；而在 Google 內部，那些關鍵 infra 也早已在工程團隊的多輪打磨下達到高度最佳化的狀態。

因此，AlphaEvolve 能在這些已被人類深度最佳化過的領域取得新突破，這本身就說明了兩個關鍵點：

1. 這確實是真正意義上的全新突破，不然的話，這些最佳化早就被人類實現了；

2. 這個突破的實現難度極高，即使有眾多優秀人類研究者的長期努力，也未能攻克。

AlphaEvolve 如何幫助 Google 構建更高效的數字生態系統

AlphaEvolve 執行機制類似自然界的進化過程

然而，AlphaEvolve 在演算法最佳化上的突破，並不意味著人類在矩陣乘法或資料中心最佳化等關鍵問題上的研究就失去了意義，相反，這一成果恰恰直觀展示了 AI 是如何推動演算法領域的進步的。

以最佳化資料中心排程（data center scheduling）為例，我們可以看到 AlphaEvolve 是如何從初始程式碼開始逐步最佳化、最終演進為一個可以節省數百萬美元電費的解決方案的。

整個實現過程的核心在於使用者對問題的精準定義。使用 AlphaEvolve 的關鍵前提是使用者必須提供一個被稱為 evaluator 的核心元件。這個元件扮演著重要的“裁判”角色：對於系統生成的每個候選解決方案，它都能進行客觀、量化的效能評估。簡單來說，使用者透過 evaluator 定義了什麼是優秀的解決方案。

左圖：AlphaEvolve 針對 Google 的任務負載和資源容量定製的函式；

右圖：評估函式的視覺化結果，黃色區域表示評分較高，紫色區域表示評分較低

在資料中心排程最佳化的場景中，evaluator 通常是一個已經存在的排程模擬器。這個模擬器能夠接收不同的排程演算法，模擬它們在實際環境中的執行效果，並輸出關鍵效能指標。正是這種評估能力構成了創新的基礎，因為任何實質性的改進都需要依賴可靠的手段來驗證真實效果。

一旦使用者透過 evaluator 明確了問題邊界，AlphaEvolve 便能智慧地推動解決方案的生成。它既可以根據使用者的指令，從零開始進行完全自主且富有創造性的探索，提出全新的解法；也可以在使用者提供的、經過長期最佳化的初始解決方案的基礎上，進一步迭代最佳化。

資料中心排程案例採用的正是後一種策略，將現有、成熟的排程演算法作為最佳化的起點。核心工作機制在於高層次的協同融合：LLM 負責發揮創造力，提出創新性的改進方案，使用者提供的 evaluator 則作為嚴格的篩選標準，精確評估每個解決方案的效果，剔除無效方案。整個過程被嵌入到一個進化演算法的框架中，實現持續最佳化與迭代。

AlphaEvolve 的目標就是能夠全面探索解法空間，避免陷入特定型別的區域性最優，同時保留潛在方案的多樣性。更關鍵的是，它能夠在持續最佳化過程中整合不同方案中的關鍵思想，實現解法的漸進演化，最終生成足以支撐關鍵 infra 部署的高效能演算法。

AlphaEvolve 運作流程

總的來說，AlphaEvolve 的執行機制類似自然界的進化過程。生物進化過程的本質就是在繼承和變異中持續趨近於一個更優狀態。

對於 AlphaEvolve 來說，它在每一輪迭代中，都會基於前一代的最優個體，即當前最佳解決方案，進行最佳化。具體來說，AlphaEvolve 會透過重組當前最佳方案裡的要素，或是引入全新的、具有突破性的構想，來生成效能更強大的下一代解決方案。因此，每一輪迭代都會推動解決方案整體效能的代際躍遷，使結果更加接近全域性最優的那個目標。

但 AlphaEvolve 這種運作規模與迭代特性需要解決兩個核心問題：

1. AI 如何適應不同規模與難度的問題；

2. AI 迭代次數應該如何預測。

而這兩個問題也正是 AlphaEvolve 的優勢所在。

首先，AlphaEvolve 有強大的規模適應性。AlphaEvolve 能夠根據問題的內在難度，智慧地調整自身探索的深度與廣度。當問題本身相對簡單，甚至難度可能被高估了的時候，AlphaEvolve 往往能以極快的速度收斂，幾乎瞬間就能給出可行的解決方案。

但當挑戰那些公認的難題，比如困擾科學界數十年的開放性問題，或涉及在 Google 核心業務上實際應用的演算法最佳化時，AlphaEvolve 會投入更長的計算時間，進行更深入的空間探索與更復雜的思路融合。雖然“執行時間越長，結果越好”是一個常識，但在實際應用中，打造一個能夠在長時間執行過程中保持穩定、高效，並能持續取得進展的自動化 agent，其實是一項極具挑戰性的技術任務。

AlphaEvolve 真正的突破也就在於它能夠持續進行這種高強度、長時間的探索與最佳化，從而真正產生在高難度問題中極具價值的發現。

此外，預測達成目標所需的具體迭代次數也是一個極大的挑戰。有時，一個看似簡單的問題可能實際上非常複雜，需要耗費大量計算資源；而另一些看似困難的問題，卻可能存在意想不到的捷徑。AlphaEvolve 的價值在於，它不需要使用者對迭代次數有精確預判，使用者只需持續執行系統，AlphaEvolve 就會驅動解決方案不斷最佳化。

例如，在最佳化 Google 的 computational infra 的過程中，AlphaEvolve 就是系統性地識別並挖掘了潛在的改進空間。這表明，AlphaEvolve 不僅能提升單一模組的效能，更具備在整個技術棧中實現高價值突破的潛力。

為此，開發團隊著重拓展了 AlphaEvolve 在多個技術層級的應用，並在釋出的白皮書中展示了 AlphaEvolve 在提升資料中心效率、最佳化硬體設計、增強關鍵軟體效能等方面的實際成果。這也進一步體現了開發團隊的核心理念：AlphaEvolve 是一個真正通用的工具，具備跨越整個技術棧的廣泛適用性。

AlphaEvolve 白皮書

目前，AlphaEvolve 已經在 Google 內部被用於解決多種實際問題，但還有大量複雜的計算難題有待攻克。開發團隊認為未來會有越來越多依靠 AlphaEvolve 實現的成果湧現出來。

02.

AlphaEvolve 的關鍵元件是 evaluator

引入強大的 evaluator 作為質檢官

當前，越來越多的普通開發者開始使用 coding agent，但有一個待解決的問題是，這些 agent 在面對相對瑣碎的問題時，常常會“迷失方向”，難以自主找到可靠方案。而 AlphaEvolve 的出現，為解決這一難題提供了一個重要思路。

通常，人們透過自然語言向 agent 下達指令，例如要求 agent 嘗試用 X 完成 Y，但這往往只是部分資訊，而非完整描述，因此 agent 據此生成的程式碼結果可能碰巧正確，也可能存在錯誤，關鍵在於使用者如何判斷結果是否正確。

AlphaEvolve 能發揮出很大作用的關鍵就在於引入了一個強大的 evaluator 來充當嚴格的質量檢測官。

首先，AlphaEvolve 在探索過程中會不斷湧現出創造性的想法，這難免產生錯誤，即幻覺，由於人們無法預判結果的正誤，evaluator 在這個過程中就顯得尤為關鍵。對於每個新想法，AI 會進行以下驗證：

1. 詳盡測試：在模擬器或海量例項上執行，檢驗結論的適配性；

2. 全域性驗證：確保方案在整個目標問題上有效，而非僅適用於區域性。

接下來，AI 會對生成的方案進行智慧篩選，這正是 AlphaEvolve 的巧妙之處。AlphaEvolve 能夠提出多樣化的解決方案，evaluator 會嚴格篩選這些方案，淘汰無效或低效的方案，保留有創意的方案。隨後，AI 會進一步整合這些優質方案中的核心思路，不斷迭代最佳化，最終產出強大且可靠的演算法。

雖然當前 AlphaEvolve 主要依賴程式化的 evaluator，還沒有與人類產生互動，但在某些特定情境下，引入人類評估者可能是有價值的。例如，當 AlphaEvolve 針對一個數學問題生成多個性能相似的演算法時，如何選出最佳的那個演算法，就可能需要人類介入，因為這不僅涉及演算法效能，還涉及演算法是否優雅、是否易於理解等主觀性較強的人類評價維度。

但 AlphaEvolve 在某些領域能否脫離物理實驗，單憑演算法推動科學發現的邊界，還取決於 evaluator 與現實的貼合程度。如果演算法被認為完全可靠，那麼實驗室驗證就不是必須進行的了，但一旦演算法和現實之間存在偏差，就需要將結果與現實世界的實驗反饋相匹配。

未來 LLM 自身可以成為 evaluator

雖然當前 AI agent 在執行任務時受限於 evaluator 的能力，即它們能否很好判斷一個方案是否有效、是否優越，但 AlphaEvolve 也為突破這些限制提供了兩個思路。

首先，雖然 AlphaEvolve 這類 agent 確實高度依賴精確的 evaluator，但這也恰恰凸顯了這類 agent 的核心價值，因為這意味著，如果我們能針對一個關鍵問題構建出極其精準的 evaluator，那麼這類 agent 就有潛力發現遠超人類能力的解決方案。AlphaEvolve 之所以能取得成功，關鍵就在於它所應用的問題本身已經有明確的、可量化的評估標準。

而且模型本身有可能協助構建更優秀的自動化 evaluator，因此，開發更精確、能覆蓋更多領域的 evaluator 是一個值得重點投入的方向。

其次，構建精確的 evaluator 並不是最重要的，未來最重要的是如何降低對完美 evaluator 的依賴。在實際應用中，使用者往往難以像專業的產品經理那樣清晰地表達需求，很多時候只能用模糊的自然語言向 coding agent 描述任務。這時，AI 就需要透過不斷地與人協作來澄清需求，或者依賴有效的任務跟蹤機制來推進工作。

有一種可行的路徑就是利用 LLM 自身來進行評估。例如，LLM 可以判斷一個解決方案是否有前景，或者指出其中存在的具體問題。DeepMind 推出的 AI co-scientist 專案就是一個有力的例證：它讓語言模型對自然語言提出的想法進行有意義的分析和判斷，從而成功區分出優劣。這表明，LLM 本身可以成為評估的重要工具。

DeepMind 的 AI co‑scientist 是由多個基於 Gemini 2.0 的 AI agent 組成的協同系統，目的是協助科研人員從海量文獻中生成、評估、推演科學假說，從而加速藥物重定位和生物醫學發現。該工具已在斯坦福大學和帝國理工的肝纖維化實驗中驗證了 AI 的建議策略具備潛在抑制效果，展示了 AI 在科學研究中的價值。

AI co-scientist 概覽

上述兩種方案看起來就像是處於兩個極端，一端是精準、嚴格的評估機制，能夠提供具體明確的評分；另一端則是基於 LLM 的自然語言評價，但介於兩者之間的，還有模擬器和各種輔助評估的函式。儘管這些方法可能並不完美，但只要它們與真實目標存在一定關聯，就可以藉助進化演算法等，圍繞這些不完美的 evaluator 不斷迭代最佳化。儘管過程可能需要更多輪次，但依然有可能帶來實質性的進展，比如，AlphaEvolve 的 evaluator 就不是完美的。

模擬器指的是一個可互動的虛擬環境，能模擬現實世界或特定系統的行為，可以用來訓練和評估 agent 在其中的表現。它允許 AI 在無需現實成本的情況下進行大量試驗與學習。

但模擬器通常只在特定問題上有效。要驗證解決方案的普適性或特定屬性（如“始終滿足某種效能”），可能需要額外工作，比如引入一個“證明 agent”來嘗試形式化驗證。

值得一提的是，agent，尤其是採用進化策略（即利用種群進行搜尋）構建的 agent，在大規模搜尋方面非常高效。它們能在廣闊的解空間中探索，為那些困擾人類多年甚至數十年的重要問題，找到出人意料的創新方案。

當沒有模擬器時，基於 LLM 的 evaluator 可以審視解決方案並對它的質量進行推測。這種方法在實踐中已被證明非常有效，比如 DeepMind 的 AI co-scientist 採用多 agent 協作，讓 agent 自己判斷哪些假設在新穎性、重要性和影響力上更優，從而確定優先順序。令人驚訝的是，這種機制最終產生的結果，超越了基礎大模型單獨生成的能力。這意味著，透過精心設計，人們確實能夠引導 agent 發現超越模型原始能力的新知識。

03.

AI 正在進入自我改進正規化早期階段

目前，AlphaEvolve 已展現出強大的自我改進能力，比如在 Google 的 training infra 中，成功將關鍵計算模組的執行效率提升了 23%，優化了訓練流程，使得下一代模型（如 Gemini）的訓練變得更加高效。

這一突破性進展標誌著 AI 可能正在進入遞迴式自我改進正規化，這將影響技術演進的核心路徑。

不過，我們也需要清晰認識到當前成果的缺陷：這種進步主要體現在效率層面，而非模型在認知能力上的根本突破。有一個重要但還沒有得到驗證的問題是：最佳化訓練流程是否不僅能加快訓練速度，還能顯著提升底層模型在關鍵認知任務中的表現？這也是該領域未來值得深入探索的重要方向。

此外，目前 AI 自我改進的反饋週期相對較長。AlphaEvolve 對 training infra 的最佳化效果主要是體現在下一代模型的訓練過程中的，這意味著反饋週期可能長達幾個月，因此，雖然 AlphaEvolve 展現了 AI 自我改進的能力，但距離即時、緊密的遞迴迴圈還有一定差距。

但理論上，實現更深層次、更廣泛的 AI 自我改進是完全可能的，關鍵在於能否設計出高效且可靠的 evaluator，比如 evaluator 需要能準確判斷某個改進方案是否真的會產生預期中的良好結果。目前沒有理由認為這樣的 evaluator 是無法構建的，但需要持續的研究投入和工程努力。Evaluator 的質量是實現更高階的 AI 自我改進能力的關鍵。

值得注意的是，AlphaEvolve 展示了 AI 自我改進並非只有一種路徑，而是有多種潛在的發展方向：

1. 一次性突破：AI 的自我改進可能僅獲得一次顯著提升，之後會停滯不前；

2. 收益遞減：AI 的自我改進能夠持續發生，但每次提升的幅度會逐漸減小，最終趨近於某個能力上限；

3. 持續累積突破：AI 的自我改進不斷發生，且提升效果持續放大，形成指數級的增長潛力。

AI 的自我改進最終會遵循哪種模式，或者是否會出現其他未曾預料的方式，科學家尚無法給出確切的答案。

04.

如何重新定義科學發現的邊界？

AlphaEvolve 重塑科學研究的正規化

推動科研進步的重要方向之一就是利用 AI 加速知識發現與創新。目前，AlphaEvolve 主要專注於數學和計算機科學領域，因為這些學科本身擁有強大的自動化評估機制，能夠高效地判斷各種方案的優劣。

但這並不是 AlphaEvolve 能力的邊界，比如在生物學或化學領域，我們在設計新分子的時候也可以利用模擬器或預測模型構建 evaluator，從而預測候選方案的效果。只要具備這樣的評估機制，AlphaEvolve 就具備應用潛力。而且，AlphaEvolve 的進化之路仍在繼續，開發團隊正致力於提升它的能力和通用性，未來，AlphaEvolve 能在多個科學領域有廣泛的應用。

從更深層次看，科學探索的本質是“搜尋”，也就是尋找合適的結構、解決方案或候選物件等。雖然傳統科研常依賴偶然發現，但科學家們始終在努力提高這一過程的效率。如今，科研正朝著更加“理性化”的方向發展，計算方法與可量化的評估機制變得更加重要。

科學的“理性化”指的是用邏輯、證據和系統化的方法來解釋自然現象，排除感性、迷信或傳統權威的影響，將世界視為可以理解和控制的物件。

這也正是 AlphaEvolve、FunSearch 等 AI agent 的價值所在：它們能夠在廣闊、有時甚至是反直覺的解空間中進行高效搜尋，並充分利用評估機制，幫助科學家深入挖掘原本難以觸及的複雜可能性，從而大幅拓展探索的邊界。因此，這不僅是技術層面的突破，更代表著以 AlphaEvolve 和 FunSearch 等為代表的 AI agent 技術正在持續重塑整個科學研究的方式，標誌著由 AI 驅動的科學方法正在發生根本性轉變。

AlphaEvolve 更像是人類在實踐中的協作夥伴

隨著自動化評估和 AI 驅動的搜尋技術逐步進入現實世界中的實驗室，人類科學家和工程師的核心角色也面臨重新定義。

首先，人類的價值將更加集中地體現在目標設定和規則制定上。在 AlphaEvolve 的執行中，evaluator 這一核心機制正是人類智慧的體現。它不僅僅是一個簡單的效能衡量指標，更是對解決方案需要滿足的多重屬性和複雜約束的系統性表達。

以藥物研發為例，科學家必須明確設定一系列關鍵條件，比如藥效、成本控制、無細胞毒性、副作用可控以及可行的遞送機制等。這些複雜的需求有些會被納入評估標準，有些需要轉化為具體的約束條件，並被準確傳達給 AlphaEvolve 等 AI agent，確保 agent 在龐大的搜尋空間中構建方案時始終遵循這些原則。

在這個過程中，人類還需要擁有深厚的專業直覺與洞察力，能夠給 AI 提供關鍵線索與合理的起點，幫助 AI 聚焦搜尋方向，從而提高探索效率並減少無效嘗試。

值得注意的是，雖然 AlphaEvolve 擁有自主執行的能力，但在實際應用中，它常以強大協作夥伴的角色出現。AlphaEvolve 的獨特之處在於，它尋找的不是單一的答案，而是生成解決方案的演算法本身。相比一個靜態結果，這種能“揭示構建方法”的能力更有價值，因為它展現了問題背後的邏輯與思維方式。

程式碼可解釋性也正是 AlphaEvolve 與人類能夠協作的關鍵因素之一，這意味著 AlphaEvolve 生成的程式碼和程式是人類可讀的、可理解的，具備高度透明性。開發團隊的親身經歷表明，這些程式碼往往呈現出人類熟悉的風格，但其中的步驟組合和邏輯結構卻常常令人意外。正是這種可解釋性，讓科學家和工程師可以直接審查 AI 生成的程式碼，深入理解工作原理，並據此做出是否部署的決策。

比如，數學家們會認真研究 AlphaEvolve 輸出的程式碼，分析其中的結構與策略，逐步理解那些每一步背後的意圖，進而瞭解整個解法為什麼會有效。這種過程不僅是技術的應用，更是一種人與 AI 共同參與的知識探索過程，推動人類對問題本質有更深的理解。

這與依賴“黑箱”神經網路模型做關鍵決策形成了鮮明對比，後者往往只能依賴信任，而 AlphaEvolve 的輸出讓人類可以在清晰理解的基礎上掌握最終判斷權。

有一個有趣的例子是 AlphaEvolve 與數學家 Jordan Ellenberg 合作解決上限集（Cap Set）問題時，AlphaEvolve 不僅找出了有效解法，更透過演算法結構揭示出了數學家此前未曾察覺的對稱性，帶來了全新的數學見解。

推廣 AlphaEvolve 的挑戰在於 evaluator 的構建和計算資源的高要求

雖然 AlphaEvolve 目前主要在 Google 內部使用，但開發團隊希望 AlphaEvolve 未來能夠被更廣泛的群體使用。為此，團隊發起了“信任測試員”計劃，面向公眾徵集真實應用場景案例，希望能夠了解 AlphaEvolve 在實際問題中能夠發揮怎樣的作用，以及在什麼樣的使用方式下能釋放出最大的潛力。

儘管 AlphaEvolve 目前必須具備明確且可操作的評估機制來判斷方案優劣，但這項計劃可以幫助團隊積累寶貴的使用經驗，這些反饋也將直接影響未來的產品設計和策略。

但推廣 AlphaEvolve 的挑戰不僅在於如何構建合適的 evaluator，還包括 AlphaEvolve 對計算資源有較高的要求。因為 AlphaEvolve 的執行方式並非一次性呼叫模型即可完成任務，而是需要反覆生成、評估大量候選方案。問題越複雜、解空間越大，所需的計算量也越多。對於簡單問題，它可能在短時間內就能得出有效結果；而面對複雜任務，則可能需要進行成千上萬次試驗。

因此，團隊接下來的關鍵任務之一是構建一個高效、可擴充套件的整體系統，讓更多使用者能夠充分體會到 AlphaEvolve 的能力，同時不被高昂的資源消耗所限制。