9.11和9.8哪個大還是答不對。
9 月 13 日凌晨,OpenAI 又搞了個大新聞 ——
推出 o1 系列模型,也就是江湖流傳已久的「草莓」。
這款模型到底厲害在哪,能讓朋友圈刷了屏?
這麼說吧,它不需要專門訓練,就能直接拿下數學奧賽金牌,甚至可以在博士級別的科學問答環節上超越人類專家。
(檢視詳情,請移步:剛剛,OpenAI震撼釋出o1大模型!強化學習突破LLM推理極限)
不過,實現通用複雜推理的代價是,每次回答要花費更長時間思考。
因為 o1 是經過強化學習訓練的新型語言模型,在輸出回答之前,它會產生一個很長的內部思維鏈。
而內部思維鏈越長,就意味著 o1 思考得越久,模型在推理任務上的表現也就越好。
-1-
編碼、寫詩、做遊戲……速度慢了,效果好了
為了更直觀地展示新模型的強大,OpenAI 一口氣放出了 10 個演示影片。
1. 編寫「找松鼠」遊戲程式碼
(影片來源:X博主寶玉)
OpenAI 研究員 Jason Wei 讓 o1 編寫一個名為「Squirrel Finder」(找松鼠)的簡易影片遊戲的程式碼。
他輸入提示詞:
Use pygame to make a game called "squirrel finder":
- You are a koala icon that can move quickly using the arrow keys.
The icon image is koala.png
-A strawberry randomly spawns every secondand bounces around.
The icon image is strawberry.png
-lf a strawberry touches you, you die.
-After three seconds, a squirrel icon spawns and bounces around.
The icon image is squirrel. png. lf you touch it, you win.
- Make sure all icons are40 pixels by40 pixels.
- Use retro colors and a dark background.
- Put "openai"in the game screen and a timmer in the corner.
- Display the instructions before the game starts.
-Automatically restart the game when you win or lose.
-Give the code in a single file.
- 你是一個可以透過箭頭鍵快速移動的考拉圖示。圖示影像是 koala.png。
- 每秒鐘隨機生成一個草莓,並在螢幕上彈跳。圖示影像是 strawberry.png。
- 如果草莓碰到你,你就死了。
- 三秒後,一個松鼠圖示生成並彈跳。圖示影像是 squirrel.png。如果你碰到它,你就贏了。
- 確保所有圖示都是 40 畫素乘 40 畫素。
- 使用復古色彩和深色背景。
- 在遊戲螢幕上顯示 “openai” 和一個計時器在角落。
- 遊戲開始前展示操作指南。
- 當你贏得或輸掉遊戲時自動重啟遊戲。
- 將程式碼放在一個檔案中給出。
我們可以看到,模型在給出最終答案之前花了 21 秒的時間進行思考,詳細梳理遊戲的佈局、安排指令、設定遊戲螢幕等。

這是它最終提供的程式碼:

Jason Wei 把它貼上到一個視窗中,執行之後就能看到遊戲說明,還能試玩該遊戲。

2. 貪吃蛇遊戲
OpenAI 研究員 Hongyu Ren 則用 o1 製作了一個經典的貪吃蛇小遊戲。
他輸入的提示詞:
Implement Snake with HTML + JS + CsS. The entire code should bewritten in a single HTML block with embedded Js and csS. Don'tuse any remote assets. After opening the html, user will need to hitspace to start /restart the game, the snake will randomly go in onedirection at the start and use "wasd" to control the direction of thesnake. Make it pretty and the playground large.
使用 HTML + JS + CSS 實現貪吃蛇遊戲。整個程式碼應該寫在一個單一的 HTML 塊中,內嵌 JS 和 CSS。不要使用任何遠端資源。開啟 html 後,使用者需要按空格鍵來開始 / 重啟遊戲,蛇會在開始時隨機朝一個方向移動,使用 "WASD" 來控制蛇的方向。讓遊戲介面美觀,遊戲場地要大。
o1 針對如何設計遊戲、如何設計畫布、如何設計網格,以及如何實現不同邏輯等方面進行思考,然後輸出了一段很長的遊戲程式碼。
最終呈現出的遊戲效果:

為了讓遊戲加難度,更有趣,Hongyu Ren 讓它在網格中新增障礙物,並且障礙物的形狀連在一起時呈現「A I 」兩個字母。
提示詞:
add some obstacles, and they should form the letter "Al"。
看效果:

3. 常識性推理:草莓與杯子
(影片來源:X博主寶玉)
OpenAI 研究主管 Jerry Tworek 演示了一個有趣的常識性推理問題。
提示詞:
Assume laws of physics on Earth. A small strawberry is put into anormal cup and the cup is placed upside down on a table. Someonethen takes the cup and puts it inside the microwave. Where is thestrawberry now? Explain your reasoning step by step.
假設在地球上的物理定律下,一個小草莓被放入一個普通的杯子裡,然後把杯子倒置在桌子上。有人拿起杯子,把它放進微波爐裡。草莓在哪裡?並解釋推理過程。
對於人類來說,這是個很簡單的問題,但對於大模型來說,要理解物理世界還很困難。
但 o1 給出了一個相當不錯的答案。
從影片中,我們窺視了 o1「大腦」的思考過程,它解釋了這個特定場景中發生了什麼,為什麼會發生。

4. 回答腦筋急轉彎
(影片來源:X博主寶玉)
Jerry Tworek 還展示了 o1 回答邏輯智力題的水平。
提示詞:
A princess is as old as the prince will be when the princess is twiceas old as the prince was when the princess's age was half the sumof their present age. What is the age of prince and princess? Provide all solutions to this question.
當公主的年齡是王子的兩倍時,公主的年齡與王子一樣大,而公主的年齡是他們現在年齡總和的一半。王子和公主的年齡是多少?提供這個問題的所有解。
這段讀起來像繞口令一樣的題目,即使是人類,也得費點功夫才能回答出來。
而 o1 不僅給出瞭解題步驟,還提供了正確答案。
公主的年齡是任意自然數 k 的 6 倍,王子的年齡是任意自然數 k 的 8 倍。

5. strawberry 有幾個 r?
「單詞 strawberry 有幾個 R」這個問題,曾難倒一片大模型。
OpenAI 研究員先用 GPT-4o 試了一下,但 GPT-4o 仍然回答錯誤。
這是因為 GPT-4o 等模型被設計用來處理文字,而不是單個字元或單詞,因此,它們在處理涉及字元和單詞理解的問題時就會翻車。
與 GPT-4o 不同,o1 在輸出答案之前,會先思考這個問題,然後輸出正確答案:3 個 R。
這個例子也表明,即使是看似不相關的計數問題,o1 內建的推理能力也可以幫助避免錯誤,因為它會檢查自己的輸出並進行復查,更加謹慎。
6. 玩數織題
(影片來源:X博主寶玉)
數織是一種邏輯拼圖遊戲。
在這個遊戲中,玩家會得到一個空的網格,以及一些數字提示,這些提示告訴玩家需要在網格的哪些方格中填入標記。
OpenAI 研究員 Mason Meyer 提出一個想法,先讓 o1 模型生成一個謎題,再讓它嘗試解答。
提示詞:
Generate a 5x5 nonogram where the final answer is the letter “M”.
生成一個 5x5 的 nonogram,最終答案為字母 "M"。
然後他將 o1 給出謎題複製,貼上到另一個視窗,讓新模型解答這個謎題。

o1 模型不僅解決了謎題,也遵循提示,呈現了一個字母 "M"。

nonogram 類似於數獨或填字遊戲,玩家需要做出猜測,然後驗證猜測的正確與否,如果猜錯了就回溯。
這類任務需要在有相互依賴的不同部分的空間中搜索,而 o1 很擅長縮小搜尋空間。
7. 寫六行詩
(影片來源:X博主寶玉)
Jason Wei 嘗試讓 o1 寫一首符合特定要求的六行詩。
提示詞:
Write a six line poem about squirrels playing koalas at soccer thatmeets the following constraints:
-In line 2, the last word should end with i.
-In line 3, the second word begins with "u"
-In line 5, the second-to-last word is eucalyptus
- In the final line, each word has 2 syllables.
寫一首關於松鼠和考拉踢足球的六行詩,且符合以下限制條件:
- 第二行的最後一個單詞需以字母 “i” 結尾
- 第三行的第二個單詞應以 “u” 開頭
- 第五行倒數第二個單詞是 “eucalyptus”(桉樹)
- 最後一行的每個單詞都有兩個音節。
這是 GPT-4o 的回答:

雖然 GPT-4o 遵循了部分提示詞,但還是有些要求尚未達到。
再來看看 o1:

顯然,o1 的回答更勝一籌。
o1 在給出最終答案之前,會生成多個候選答案,並進行推理,因此能提供更高質量的回答。
8. 編寫程式碼能力
(影片來源:X博主寶玉)
OpenAI 還展示了 o1 模型寫程式碼的能力。
演示者用它編寫了一個視覺化 Transformer 中自注意力機制的互動效果網頁。
提示詞:
Write an interactive visualization code of self attention ofTransformer in HTML and javascript without any libraries.
- Use an example sentence "The quick brown fox"
- When hovering over a token, visualize the edges whose thicknesses are proportional to the attention score.
-The edges should be curved and should not overlap each other.
- Make sure that the edges start and end from each token's center
- When clicked on a token, show the value of attention scores.Visualize this nicely in a latex-rendered vector notation. Put eachtoken next to the score. Make sure the Latex rendering is well-aligned.
-When clicked again, remove the attention score vector.
- have vertical spacing of 50px at the top
o1 進行著緩慢且仔細地思考,深入分析每一個要求,從而降低漏掉指示的可能性。
演示者將生成的程式碼貼上到 Vim HTML 並儲存,然後在瀏覽器中開啟頁面,就能看到整個互動效果。
-2-
網友整活
o1 新模型一發布,全球網友躁動了,製作小程式的,整 3D 遊戲的,還有拿它寫論文、搞測評的,紛紛上線。
1. 生成 ios 應用程式
Eleven Labs 設計主管 Ammaar Reshi 花了 10 分鐘,用 o1 和 Cursor 建立了一個 iOS 應用程式。

作者先使用 o1 mini 啟動專案,然後切換到 o1 來完成細節。
不到 10 分鐘,一個完整的帶有動畫效果的天氣應用就完成了。
由於 o1 花了不少時間進行思考,作者還小小的抱怨了一下。
溫馨提示:影片加速了。
2.3D 版貪吃蛇遊戲
Ammaar Reshi 還用 o1 在不到一分鐘的時間裡,建立了一個 3D 版本的貪吃蛇遊戲!
提示詞:
Create a 3D snake game using HTML and Js——this game is slightlydifferent than a traditional snake game in that:
-It's 3D
-The camera follows it from a third person POV of the snake
- you can see the edges of the map and move around a grid
- food items appear and you eat them to grow the snake
the rest of the principles of the game are just like any snake gamebut in 3D
然後他將 o1 生成的程式碼,複製到 Replit,最後執行即可。
當然,o1 也有翻車的時候。
例如,X 網友 @dicnunz 讓 o1 寫一個符合特定要求的句子。
提示詞:
write a sentence that follows the same rules as the sentence "is old bowls to bold souls" where there are 4 key words, sold bowls bold and souls, and 1 and 3 end the same, 2 and 4 end the same,1 and 4 start the same, and 2 and3 start the same.
編寫一個遵循 “我向膽大的靈魂出售碗” 這一句子規則的句子,其中包含四個關鍵詞:賣(sold)、碗(bowls)、膽大(bold)和靈魂(souls),要求第一和第四個詞以相同的字母開頭,第二和第三個詞以相同的字母結尾,第一和第三個詞以相同的字母結尾,第二和第四個詞以相同的字母開頭。
然而,o1 思考了 92 秒,給出了一個並不準確的答案「I told folds to old molds.」

當然,這也可能跟提示詞過於複雜模糊有關。
還有網友問了 o1 那道經典的數學題 ——「9.11 和 9.8 哪個大?」
但 o1 思考了一通之後,仍未給出正確答案。

參考連結:
https://x.com/dotey
https://openai.com/index/introducing-openai-o1-preview/


© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]