狂攬1.3億美金！AlphaGo大神組隊Gemini大牛，用RL打造超級智慧，英偉達搶投

2025-08-25 14:50 新智元

文章轉載於新智元

正如Ilya所說，AI的下一步，就是「超級智慧」。

近日，由DeepMind近12年老將、做出AlphaGo/AlphaZero/MuZero等專案的超級天才Ioannis Antonoglou，和Gemini強化學習的核心負責人Misha Laskin，聯合成立的初創Reflection AI終於浮出了水面。

Reflection AI的目標十分明確——構建超級智慧自主系統！

首先，從自主編碼開始。

目前，這家初創已經融資了1.3億，投資方有紅杉資本、 Lightspeed和CRV。

如此野心的背後，是堪稱豪華的團隊陣容。

過去的十年間，團隊成員在RL和LLM領域均取得了重大突破，併為DeepMind、OpenAI等前沿AI實驗室主導構建了當時最為強大的AI系統——

那麼，究竟該如何構建超級智慧？

這就涉及到了這樣一個問題：究竟如何讓LLM在計算機上展現出與AlphaGo在圍棋上同等水平到自主能力？

對此，Reflection的策略是，透過RL提高LLM的自主能力。

他們相信，解決自主編碼是一個根節點問題——如果能構建一個超級智慧的自主編碼系統，所有其他基於計算機的工作領域都將自然而然地解決。

1

DeepMind頂級研究員出走創業，估值5.55億美金

此前，這家名為Reflection AI的初創公司一直很低調。

就在剛剛，它宣佈了全新融資：由紅杉資本和CRV領投的2500萬美元種子輪融資，以及由Lightspeed Venture Partners和CRV領投的1.05億美元A輪融資。

而其他投資者，包括LinkedIn聯合創始人Reid Hoffman、Scale AI執行長Alexandr Wang、SV Angel和英偉達的風投部門。

現在，Reflection AI的最新估值已經達到5.55億美元。

如今，已經有越來越多的科技公司押注於所謂的AI智慧體，最近爆火的Manus，就反映了人們對這種幫使用者執行任務的AI的渴望。

但Reflection卻有著更為宏大使命：構建具有完全自主性的工具，而不僅僅一種協作工具或助手。

在他們看來，這種方法將更快地實現「超級人工智慧」——也就是比大多數人更聰明、範圍更廣的AI。

許多大公司，比如OpenAI、Anthropic和DeepMind，都有著類似的目標。

現在，Relection已經在擁有大型編碼團隊的領域（如金融服務和技術行業）有付費客戶了。這家公司專注於自動化繁瑣和機械的工程工作，比如遷移軟體資料庫或重構程式碼。

Lightspeed合夥人Raviraj Jain將在Reflection的董事會中任職，他表示，公司要做的事並不是取代工程師。而是讓工程師不再做繁重的工作，而是成為像建築師一樣的角色，來監督大量的自主AI智慧體。

如今，AI程式設計領域已經湧入了一大批資金充足的初創公司，而Cursor製造商Anysphere、Replit和Poolside，都在此領域頗為出名。

在Laskin看來，一般的AI助手就像定速巡航，而Reflection則致力於成為更像Waymo那樣的存在。

而紅杉資本合夥人Stephanie Zhan，也十分看好Relection。

在他看來，Reflection有潛力與從事類似工作的大型AI實驗室競爭並勝出，因為世界在短短幾年內就會變得非常不同，AI完全能自動化今天我們做的許多工。

劍指「超級智慧」

在官方部落格中，Relection聯創Ioannis回顧了十年前，自己作為創始工程師加入了DeepMind的經歷。

那時，他創造了AlphaGo，第一個在圍棋遊戲中超越人類世界冠軍的系統。

2016年的那一刻，是AI的轉折點，也對Reflection團隊的許多成員產生了深遠影響——他們第一次真正領悟到，超級智慧的真實形態是什麼樣子。

多年來，他們一直孜孜以求地構建超級智慧。

Reflection將其視為一個能在計算機上完成大部分認知工作的自主系統。

它不僅能幫助自動化現有的工作，還能發現我們未曾考慮過的更好的解決方案，就像AlphaGo在圍棋中發現了新策略，擴充套件了人類知識，讓著名的第37手棋成為了傳奇。

Reflection相信，解決自主編碼問題將更廣泛地實現超級智慧。

構建完全自主編碼系統所需的突破——如高階推理和迭代自我改進——會自然延伸到更廣泛的計算機工作類別。

一旦複雜軟體可以被自動規劃、編寫和完善，類似的能力就會無縫轉移到其他計算機驅動的任務上，加速向AGI的進展。

多年來，如何構建這樣一個系統並不明確。

然而，在過去十年中，Reflection團隊在RL和LLM方面開創了重大進步，他們相信，這些是超級智慧的基本構建模組。

從2013年到2020年，團隊用RL建立了專用超級智慧系統，如Deep Q Networks、AlphaGo、AlphaZero和MuZero。

從2020年到2024年，他們以LLM的形式開發了通用智慧系統，如PaLM、CharacterAI、ChatGPT和Gemini，領導了這些AI的預訓練和後訓練。

正是突破，指導了他們實現通用人工智慧的策略：透過強化學習擴充套件大語言模型的自主能力。

作為一家公司，Reflection共同的核心信念是，最重要的評估是實際應用評估。

開創性的AI不是在真空中發展的；它需要研發與產品的協同設計。自主能力必須在真實場景中展示切實價值。

透過與使用者反饋一起迭代，他們確保這些系統不僅可靠地滿足實際需求，還有助於塑造負責任設計的AI的未來。

目前，他們的重點是一個自主編碼系統：一個實用的產品，同時也代表著向我們超級智慧目標邁出的重要一步。

他們有一個簡單的兩步計劃：

構建一個超級智慧的自主編碼系統
使用這一藍圖擴充套件到所有其他基於計算機的工作類別

如今，Reflection已經組建了一個世界級的團隊。

1

創始團隊

Misha Laskin：聯合創始人兼CEO

Misha Laskin於2022年加入DeepMind擔任研究科學家，負責谷歌關鍵LLM專案Gemini的RLHF和獎勵模型團隊。

他見證了初代Gemini和Gemini 1.5的誕生。

他的研究興趣是「強化學習如何為LLM和多模態模型解鎖新能力」，並致力於開發通用AI智慧體。

此前，他在耶魯大學獲得學士學位，在芝加哥大學獲得理論物理學博士學位，並在加州大學伯克利分校BAIR實驗室進行AI領域的博士後研究，主攻深度強化學習和無監督學習。

2017年，他曾共同創辦了一家專注於為零售商預測產品需求的AI公司，並從BCC、Y Combinator和Salesforce Ventures獲得175萬美元風險投資。

而他也藉此被福布斯評為「30 Under 30」零售和電子商務領域的傑出人物。

Ioannis Antonoglou：聯合創始人兼CTO

近12年的老將Ioannis Antonoglou，不僅是DeepMind的創始工程師，而且也是Gemini的第四位核心開發者。

此前，他在亞里士多德大學獲得電氣和計算機工程學士和碩士學位，並在愛丁堡大學AI和機器學習碩士學位。

值得一提的是，他在DeepMind期間還獲得了倫敦大學學院AI博士學位。

1

超級智慧是未來

Ilya曾在NeurIPS 2024上表示，超級智慧（superintelligence）是公認的發展方向，也是研究人員們正在構建的東西。

從本質上來說，超級智慧與現在的AI完全不同。

目前，我們擁有出色的LLM和聊天機器人，但它們也表現出某些奇怪的不可靠性——時常會感到困惑，但卻能在評估中表現出遠超人類的能力。

雖然我們還不知道如何調和這一點，但最終遲早會實現以下目標：AI將真正具備實際意義上的智慧體特性，並將正學會推理。

由於推理會引入了更多的複雜性，因此一個會推理的系統，推理量越多，就會變得越不可預測。

相比之下，我們熟知的深度學習都是可以預測的。

舉個例子，那些優秀的國際象棋AI，對於最頂尖的人類棋手來說就是不可預測的。

所以，我們將來不得不面對的，是一些極其不可預測的AI系統——它們能夠從有限的資料中理解事物，同時也不會感到困惑。

同樣，自我意識也是有用的，它構成了我們自身的一部分，同時也是我們世界模型中的一部分。

當所有這些特性與自我意識結合在一起時，就會帶來與現有系統完全不同性質和特性的系統，它們將擁有令人難以置信的驚人能力。

雖然無法確定如何實現、何時實現，但這終將發生。

參考資料：

https://www.reflection.ai/superintelligence/

https://www.bloomberg.com/news/articles/2025-03-07/ex-deepmind-researchers-new-startup-aims-for-superintelligence

點個“愛心”，再走吧

相關文章

目標超級智慧，前DeepMind科學家離職創業，獲1.3億刀融資

目標超級智慧，前DeepMind科學家離職創業，獲1.3億刀融資

DeepMind元老創業AI程式設計：亮相即獲1.55億美元，英偉達紅杉搶著投，團隊太豪華了！

DeepMind元老創業AI程式設計：亮相即獲1.55億美元，英偉達紅杉搶著投，團隊太豪華了！

DeepMind兩位頂尖科學家離職，創辦新公司ReflectionAI；何小鵬：AI時代會有更多創業機會丨AIGC日報

DeepMind兩位頂尖科學家離職，創辦新公司ReflectionAI；何小鵬：AI時代會有更多創業機會丨AIGC日報

阿里PC-Agent重構人機互動，精準拆解跨應用指令，自動化辦公更進一步

阿里PC-Agent重構人機互動，精準拆解跨應用指令，自動化辦公更進一步

回顧LLM領域的一些熱詞，哪些你不知道？

回顧LLM領域的一些熱詞，哪些你不知道？

吳恩達：AI智慧體的未來｜ZTalk

吳恩達：AI智慧體的未來｜ZTalk

首次覆蓋超11類真實程式設計場景！豆包大模型團隊開原始碼大模型全新基準

首次覆蓋超11類真實程式設計場景！豆包大模型團隊開原始碼大模型全新基準

Manus：從爆火到翻車，只用了半天

Manus：從爆火到翻車，只用了半天

深度｜吳恩達最新演講——AI四大趨勢

深度｜吳恩達最新演講——AI四大趨勢

谷歌豪華陣容打造AI科學家，用測試時間計算加速科學發現，CEO皮猜也來站臺了

谷歌豪華陣容打造AI科學家，用測試時間計算加速科學發現，CEO皮猜也來站臺了

Copyright © 2025 | WordPress Theme by MH Themes