
文章轉載於新智元

近日,由DeepMind近12年老將、做出AlphaGo/AlphaZero/MuZero等專案的超級天才Ioannis Antonoglou,和Gemini強化學習的核心負責人Misha Laskin,聯合成立的初創Reflection AI終於浮出了水面。
Reflection AI的目標十分明確——構建超級智慧自主系統!
首先,從自主編碼開始。
目前,這家初創已經融資了1.3億,投資方有紅杉資本、 Lightspeed和CRV。

如此野心的背後,是堪稱豪華的團隊陣容。
過去的十年間,團隊成員在RL和LLM領域均取得了重大突破,併為DeepMind、OpenAI等前沿AI實驗室主導構建了當時最為強大的AI系統——

那麼,究竟該如何構建超級智慧?
這就涉及到了這樣一個問題:究竟如何讓LLM在計算機上展現出與AlphaGo在圍棋上同等水平到自主能力?
對此,Reflection的策略是,透過RL提高LLM的自主能力。
他們相信,解決自主編碼是一個根節點問題——如果能構建一個超級智慧的自主編碼系統,所有其他基於計算機的工作領域都將自然而然地解決。
1
DeepMind頂級研究員出走創業,估值5.55億美金
此前,這家名為Reflection AI的初創公司一直很低調。
就在剛剛,它宣佈了全新融資:由紅杉資本和CRV領投的2500萬美元種子輪融資,以及由Lightspeed Venture Partners和CRV領投的1.05億美元A輪融資。
而其他投資者,包括LinkedIn聯合創始人Reid Hoffman、Scale AI執行長Alexandr Wang、SV Angel和英偉達的風投部門。
現在,Reflection AI的最新估值已經達到5.55億美元。

如今,已經有越來越多的科技公司押注於所謂的AI智慧體,最近爆火的Manus,就反映了人們對這種幫使用者執行任務的AI的渴望。
但Reflection卻有著更為宏大使命:構建具有完全自主性的工具,而不僅僅一種協作工具或助手。
在他們看來,這種方法將更快地實現「超級人工智慧」——也就是比大多數人更聰明、範圍更廣的AI。
許多大公司,比如OpenAI、Anthropic和DeepMind,都有著類似的目標。
現在,Relection已經在擁有大型編碼團隊的領域(如金融服務和技術行業)有付費客戶了。這家公司專注於自動化繁瑣和機械的工程工作,比如遷移軟體資料庫或重構程式碼。
Lightspeed合夥人Raviraj Jain將在Reflection的董事會中任職,他表示,公司要做的事並不是取代工程師。而是讓工程師不再做繁重的工作,而是成為像建築師一樣的角色,來監督大量的自主AI智慧體。
如今,AI程式設計領域已經湧入了一大批資金充足的初創公司,而Cursor製造商Anysphere、Replit和Poolside,都在此領域頗為出名。
在Laskin看來,一般的AI助手就像定速巡航,而Reflection則致力於成為更像Waymo那樣的存在。
而紅杉資本合夥人Stephanie Zhan,也十分看好Relection。
在他看來,Reflection有潛力與從事類似工作的大型AI實驗室競爭並勝出,因為世界在短短幾年內就會變得非常不同,AI完全能自動化今天我們做的許多工。
劍指「超級智慧」
在官方部落格中,Relection聯創Ioannis回顧了十年前,自己作為創始工程師加入了DeepMind的經歷。
那時,他創造了AlphaGo,第一個在圍棋遊戲中超越人類世界冠軍的系統。
2016年的那一刻,是AI的轉折點,也對Reflection團隊的許多成員產生了深遠影響——他們第一次真正領悟到,超級智慧的真實形態是什麼樣子。
多年來,他們一直孜孜以求地構建超級智慧。
Reflection將其視為一個能在計算機上完成大部分認知工作的自主系統。
它不僅能幫助自動化現有的工作,還能發現我們未曾考慮過的更好的解決方案,就像AlphaGo在圍棋中發現了新策略,擴充套件了人類知識,讓著名的第37手棋成為了傳奇。
Reflection相信,解決自主編碼問題將更廣泛地實現超級智慧。

構建完全自主編碼系統所需的突破——如高階推理和迭代自我改進——會自然延伸到更廣泛的計算機工作類別。
一旦複雜軟體可以被自動規劃、編寫和完善,類似的能力就會無縫轉移到其他計算機驅動的任務上,加速向AGI的進展。
多年來,如何構建這樣一個系統並不明確。
然而,在過去十年中,Reflection團隊在RL和LLM方面開創了重大進步,他們相信,這些是超級智慧的基本構建模組。
從2013年到2020年,團隊用RL建立了專用超級智慧系統,如Deep Q Networks、AlphaGo、AlphaZero和MuZero。
從2020年到2024年,他們以LLM的形式開發了通用智慧系統,如PaLM、CharacterAI、ChatGPT和Gemini,領導了這些AI的預訓練和後訓練。
正是突破,指導了他們實現通用人工智慧的策略:透過強化學習擴充套件大語言模型的自主能力。

作為一家公司,Reflection共同的核心信念是,最重要的評估是實際應用評估。
開創性的AI不是在真空中發展的;它需要研發與產品的協同設計。自主能力必須在真實場景中展示切實價值。
透過與使用者反饋一起迭代,他們確保這些系統不僅可靠地滿足實際需求,還有助於塑造負責任設計的AI的未來。
目前,他們的重點是一個自主編碼系統:一個實用的產品,同時也代表著向我們超級智慧目標邁出的重要一步。
他們有一個簡單的兩步計劃:
-
構建一個超級智慧的自主編碼系統 -
使用這一藍圖擴充套件到所有其他基於計算機的工作類別
如今,Reflection已經組建了一個世界級的團隊。

1
創始團隊
Misha Laskin:聯合創始人兼CEO

Misha Laskin於2022年加入DeepMind擔任研究科學家,負責谷歌關鍵LLM專案Gemini的RLHF和獎勵模型團隊。
他見證了初代Gemini和Gemini 1.5的誕生。
他的研究興趣是「強化學習如何為LLM和多模態模型解鎖新能力」,並致力於開發通用AI智慧體。

此前,他在耶魯大學獲得學士學位,在芝加哥大學獲得理論物理學博士學位,並在加州大學伯克利分校BAIR實驗室進行AI領域的博士後研究,主攻深度強化學習和無監督學習。


2017年,他曾共同創辦了一家專注於為零售商預測產品需求的AI公司,並從BCC、Y Combinator和Salesforce Ventures獲得175萬美元風險投資。
而他也藉此被福布斯評為「30 Under 30」零售和電子商務領域的傑出人物。

Ioannis Antonoglou:聯合創始人兼CTO
近12年的老將Ioannis Antonoglou,不僅是DeepMind的創始工程師,而且也是Gemini的第四位核心開發者。

此前,他在亞里士多德大學獲得電氣和計算機工程學士和碩士學位,並在愛丁堡大學AI和機器學習碩士學位。
值得一提的是,他在DeepMind期間還獲得了倫敦大學學院AI博士學位。

1
超級智慧是未來
Ilya曾在NeurIPS 2024上表示,超級智慧(superintelligence)是公認的發展方向,也是研究人員們正在構建的東西。
從本質上來說,超級智慧與現在的AI完全不同。
目前,我們擁有出色的LLM和聊天機器人,但它們也表現出某些奇怪的不可靠性——時常會感到困惑,但卻能在評估中表現出遠超人類的能力。
雖然我們還不知道如何調和這一點,但最終遲早會實現以下目標:AI將真正具備實際意義上的智慧體特性,並將正學會推理。
由於推理會引入了更多的複雜性,因此一個會推理的系統,推理量越多,就會變得越不可預測。
相比之下,我們熟知的深度學習都是可以預測的。
舉個例子,那些優秀的國際象棋AI,對於最頂尖的人類棋手來說就是不可預測的。
所以,我們將來不得不面對的,是一些極其不可預測的AI系統——它們能夠從有限的資料中理解事物,同時也不會感到困惑。
同樣,自我意識也是有用的,它構成了我們自身的一部分,同時也是我們世界模型中的一部分。
當所有這些特性與自我意識結合在一起時,就會帶來與現有系統完全不同性質和特性的系統,它們將擁有令人難以置信的驚人能力。
雖然無法確定如何實現、何時實現,但這終將發生。
參考資料:
https://www.reflection.ai/superintelligence/
https://www.bloomberg.com/news/articles/2025-03-07/ex-deepmind-researchers-new-startup-aims-for-superintelligence