OpenAI的絕密專案「草莓」,對我們到底意味著什麼?

憑藉一顆「草莓」,OpenAI 在週末搶下不少版面,成了一件不算新鮮的新鮮事。
新鮮體現在,這是一個高級別的保密專案,目標是「自主瀏覽網際網路,執行深度研究」,不過,路透社沒能挖到更多技術細節,只提到採取了「後訓練」的方式——這就不算新鮮了。
兩個月前,OpenAI 創始人之一 John Schulman 在播客 Dwarkensh 上,就表示過,GPT-4 的進步,很大程度上要歸功於後訓練技術。
「通過後訓練,去創造一個能夠具備人們所關心的功能的模型,是非常複雜的」John Schulman說,「這需要大量的投入,是大量研發工作的積累,在一定程度上就形成了壁壘。
如果「Strawberry」的確是 OpenAI 的重點專案,那麼可以想見,GPT-4 的確讓他們嚐到了甜頭。而厚實的家底又給了 OpenAI 底氣,進一步加高技術壁壘。
沿著一條已經略有成果的技術路線,繼續迭代,並不新鮮,到底為什麼又成了大新聞呢?
一層一層,切開「草莓」
「Strawberry」的前身是「Q*」,一個在去年年底,就引起過軒然大波的神秘存在。
去年十一月,Sam Altman 毫無徵兆地被踢出了董事會,他自己甚至是在會議當時被通知的,震驚了全公司,也震驚了行業上下。
董事會當時給出的理由是,他和團隊在安全和風險管理方面,無法達成一致。而這個風險,就跟當時的絕密專案「Q*」有關。
這個專案原先由 Ilya Sutskever 帶領,現在他已經離開 OpenAI 創業,做的就是AI 安全相關的業務。再聯想到,馬斯克曾經表示,這個專案「對人類構成了威脅」,很難不讓人好奇這裡頭究竟有什麼。

The Information 和路透社想辦法獲得內部訊息,最後也只能確認,數學運算能力是「Q*」的重點

圖片自:路透社

大模型擅「文」,能嫻熟地處理語言文字,已經基本上跟人類打個平手了。但是數學運算卻一直不太行。即便「Q*」曾經引發 OpenAI 的鉅變,據路透社透露,當時它的表現大概是小學生的計算水平。
根據最新爆出的資訊,OpenAI 內部已經有專案能在數學運算方面,達到 90% 的準確,進步驚人。

圖片來自:路透社

強調一下:現在無法確認「Strawberry」究竟做到哪一步了。只能說,如果「Strawberry」作為「Q*」的升級版,大機率,它是一個繼續在數學和計算方面尋求突破的專案。
「數學計算」和「推理」之間的關係,並不能直接劃等號,但卻透露著OpenAI的野心。
老說推理,究竟在說什麼
那麼,「推理」到底是什麼?
這兩個字在現實裡,顯然有著非常廣闊的定義。今年年初,香港中文大學領銜的團隊做過一個基於模型推理能力的全面整理。「推理」最根本的定義有三重:
認知推理:在不完整、不一致的知識中,得出有意義結論的能力
這種推理最常見的是拼拼圖,每一個小片都是巨大圖畫裡的一角,隨便就抓兩片,肯定是對不上的。
你只能舉著這些小碎片,拼拼湊湊,慢慢組成一幅完成的圖。這個過程中,沒有說明書和步驟圖,經常是要憑手感、憑直覺。
邏輯推理:根據前提,以及這些前提間的關係,有條理地得出結論,且結論在邏輯上有隱含關係或成立
數學解題就是典型邏輯推理,有已知條件,有待求的問題,根據這些,你就能一步步推算出結果。邏輯推理是目前大模型研發裡「最硬的一塊骨頭」。
自然語言推理:這是一個整合多種知識的過程,可以是顯性知識或者隱性知識,從而得出對於世界的新結論
喜歡看探案故事、推理小說的朋友,應該很容易理解。這種推理,就像是碰上了一樁兇殺案故事,書裡隱隱約約有一些暗示,一些不太明確的資訊,必須結合各種不同的線索,推測出誰是兇手,犯罪過程是什麼。
如果只是看路透社所獲得的 OpenAI 內部檔案,「Strawberry」的目標是,規劃、訪問網際網路,以及執行深度研究。
這些看上去都更像是最後一種自然語言推理,無非是更強化了一下,算不算得上是推理能力的進步都不好說。
可是,OpenAI 對於「推理」並不那麼拘泥,而是有一套更宏大的願景
John Schulman 心中,對「推理」的定義是這樣的:
「推理意味著需要一些計算,或者是需要一些演繹。從這個定義來看,要能夠在處理任務的當時進行計算和逐步計算。」
可以看到,在他的定義裡,推理和計算行為高度繫結,而且希望機器的推理是即時進行——就像人類一樣,接收資訊的同時,就能做分析、判讀。
但是,一個人即便數學不好,也不妨礙ta有邏輯地想事情,照樣能完成各種型別的推理。為什麼機器的數學能力,就如此重要?
可以這樣理解:數學從來都不只是做運算,它本身也是一種對資訊的表達方式。
數學是一種更依賴於符號形式和意義精確性的語言,1 就是 1,0 就是 0。
當使用計算符號和算式,去呈現資訊時,其實比自然語言更低維。
換句話說,大模型之所以「能文」,就是建立在「會算」的基礎上,將自然語言轉換成了計算機語言。
這一點,早在 19 世界,就已經被歷史最重要的數學家之一,喬治·布林(就是創造了布林變數的那個布林),奠定了基礎。

George Boole

布林是一個有虔誠宗教信仰的人,他甚至想透過數學推理,來解釋上帝的存在。
先不管他最後的結論是什麼吧,他最終留給世界的財富,也就是《思維規律的探究》一書裡,開篇便闡釋了他宏大的目標:用微積分的符號語言,來表達推理這一思維活動的基本規律。
這也解釋了為什麼,一旦談及 AI 在數學運算上的表現,人們期待的眼光裡就多了幾分緊張:
攻破了數學語言,或許真的就離破解思維活動不遠了。

AI 推理,怎麼就了不起?

現在距離AI理解思維活動,到底有多近?
這次路透社認為,「Strawberry」的理論先驅,應該是兩年前,斯坦福大學團隊發表的 STaR 技術。
STaR 的開發者之一、斯坦福大學教授 Noah Goodman 接受路透社採訪,表示他跟「Strawberry」沒關係,但如果真的追平人類的推理能力,那是讓人既興奮、又恐懼的事。

Noah Goodman

STaR 的特點是:具備特定條件下的推理能力。先拿一個已經訓練過的模型,再準備一個小的資料集(裡面包括推理步驟),喂進去訓練。
有了這些,再讓模型去生成解決問題的推理過程。如果出來是正確的、符合答案的,那麼這次推理就判定為有效。
接著不斷微調不斷微調,不斷讓它自我學習。最後測試的結果是,這樣的方式的確能夠提升模型在數學運算方面的表現。
換句話說,特定條件和訓練方式下,的確可以讓模型效仿推理過程,從而實現具備一定的推理能力。
這樣辛苦地挖掘和塑造 AI 的推理能力,對日常使用而言有什麼意義?
路透社的線人說,OpenAI 特別希望能夠達成「CUA」,computer-using agent。模型能夠根據文件和其他材料提供的資訊,自主採取行動。
而這是 OpenAI 所提出的「五階評級」中的第三階:代行者,能夠採取行動的系統。

圖片來自:彭博社

現在的對話 chatbot 只是第一階,「Strawberry」據稱已經接近第二階。
可以想見,推理能力是第三階段的必要前提。只有具備了推理能力,透過各種資訊,推演出使用者意圖,才有可能絲滑地完成服務排程,採取行動。
以鴻蒙的 Harmony Intelligence 為例,這是鴻蒙首次將 AI 能力融入系統。除了提供了基於生成式 AI 的影像、聲音修復技術,還有驚豔的「控制元件 AI 化」,各種第三方應用可以呼叫系統空間處理請求,打破應用與應用之間的壁壘。

再比如,很快也要亮相的 Apple Intelligence,也是旨在為使用者創造更一體化、無縫銜接的體驗。
APPSO 之前的報道中,我們就提到了 AI 不應該只作為一種服務,而是要能糅合進作業系統裡,共同存在。這恰恰也是來自於 OpenAI 創始人之一,Andrej Karpathy 的設想。

這就是 AI 推理能力備受矚目的原因之一,只要你擁有一臺智慧手機,就不妨暢想一種可能的未來,「 AI 作為智慧手機新的作業系統,而大模型就是智慧作業系統的核心」。

相關文章