謝謝OpenAI,謝謝o3,新的「套殼」創業機會來了|附12個潛力方向

一週前的那個凌晨,世界還在沉睡。OpenAI 的 o3 和 o4 系列的釋出,在 AI 創投圈子引起新一輪的震撼與海嘯。
或許,也會改變很多人的命運。因為 o3 的視覺推理能力和智慧的進化,再次擴充套件了大模型的邊界,解鎖了一大批新的「套殼」創業機會。
今天,十字路口整理了 12 個潛在方向,希望給大家一些啟發。

o3 :有 AGI 的影子了

這兩天,一張大模型 IQ 測試圖在網上被瘋傳。如果說人類平均 IQ 100 的話,OpenAI 的 o3 智商達到了驚人的 136。“思考”模型的強力性和可擴充套件性,堪稱 2025 年送給人類的第一份大禮。

o3 與 o4 系列的核心亮點,在於其多模態 AI 能力的革命性提升
這些模型不僅能處理文字、運算資料,還能“看懂”複雜影像。從手繪草圖到資訊密集的圖表,X 平臺上瘋傳的演示影片顯示,它們能輕鬆解析建築設計圖、解答手寫數學題,甚至為模糊圖片生成精準的上下文描述。
這種能力,堪稱 AI 從“能看到”到“能看懂”的質變
當 o3 與 o4-mini 展現出近乎人類水平的理解力,我們不禁要問:“大模型動盪期”內,o3 到底都能給創業者們帶來哪些全新的機會?

1.安全管理/智慧家居

o3 視覺推理模型將會對酒店住宿、智慧家居行業產生深遠的影響。比如,分析監控攝像頭或員工,甚至是機器人上傳的房間圖片,檢測異常行為或物品(如未經許可的訪客、違規物品),透過與酒店管理系統整合,o3能即時分析公共區域或房間清理時的圖片。
所有憑藉人眼確認的東西,都可能會存在不可避免的失誤,都有可能被 o3 替換掉。
其實,當我看完 o3 的直播後,心裡最想測試的其實就是它的視覺推理能力到底能做到什麼程度?

o3 相較於“被下架”的 o1 ,具有更強的思考能力,所以我就給了它一段非常簡短的提示詞:
幫我分析這張圖片內容,我的物件說他/她是一個人住的,這是真的嗎?
(非本人,只是單純展示 case)

短短思考 6 秒,o3 就憑藉強大的視覺推理能力,根據“標準思考流程”,把畫面裡它能“看到”的內容元素全部列了出來:
  • 畫面區域
  • 觀察到物件
  • 可能的含義

o3 憑藉在觀察、分析、推斷、溝通和綜合分析方面的能力使它夠在有限的資訊下進行合理的判斷,同時意識到僅憑照片不足以得出最終結論,需要更多證據或直接溝通來驗證

o3 的視覺推理能力除了表現在考慮現場的物品和時間線上的收據,還會聯想到另一個住戶的行李或洗漱用品可能在視角外或浴室裡,並建議結合更多實物線索或直接溝通。
可以說,o3 提供了一個具有延展性的思維方案。

2.健康/減肥

清晨,作為一名典型的打工人,你可能會在飢餓的驅使下醒來,你無法準確回憶冰箱中的食材存貨。
所以,你會面臨什麼樣的情緒轟炸?焦慮感和決策疲勞,都可能是這個時候的情緒常客。
這是打工人面臨的一大困境:在時間緊迫的情況下,大腦往往無法專注思考"吃什麼最健康"這類看似不重要的日常決策。
假如 o3 能夠憑藉視覺推理能力,透過冰箱內建攝像頭識別存貨,當雞蛋或水果短缺時自動生成購物清單甚至下單採購呢?
現在 o3 已經能夠在一定程度上結合 AI 視覺分析與健康資料(如使用者的身高、體重、運動量),推薦符合預算的健康水果搭配,解決“吃得健康又省錢”的痛點。
進一步的,當用戶即時上傳手中僅有的食材,要求生成菜譜時,可以利用 o3 給予解決方案。
當我下班回家前,往往會去超市採購食材,經常會面臨這樣一副場景:豐富的蔬菜架讓我決策疲勞。

我需要有個 AI 能夠幫我視覺分析所有的食材,並根據我所面臨的具體場景生成食譜或者營養表。
比如:我現在在超市,但我的家裡還有雞蛋和豬肉,我需要將這些食材結合。

o3 就能夠憑藉使用者上傳手中的食材,分析食材組合,快速提供符合口味偏好和營養需求的菜譜。菜譜的生成可進一步結合我的具體要求限制,如:營養亮點、時間限制等等。

對於正在烹飪中的場景,o3 也能夠憑藉視覺推理能力,提供指導意見。
比如,當我問它:黃磊老師在嚮往的生活中製作的“著名豆角“,是否熟了時,o3 能夠迅速回答這類較為簡單的問題,判斷的準確性也很高。
因為全國人民都知道,那鍋豆角確實是生的。

與之相似的創業機會還有:o3 可能會徹底革新掉一類健康管理軟體。
舉個例子:Noom。
Noom 類的健康飲食仍存很多模式上的冗餘,比如個性化計劃模組,使用者仍然需要透過填寫詳細問卷(包括體重目標、生活方式、健康狀況等)獲得定製化的飲食和運動計劃。
然後,Noom 再使用演算法估算每日卡路里預算,確保安全和營養均衡。
而 o3 的出現,讓大模型能夠透過 AI 視覺推理、資料整合與生成式演算法,提供從庫存管理到菜譜推薦的全鏈條解決方案,緩解了即時痛點。

3.零售管理系統

除了 to C 端外,o3 對於 to B 端也能提供關於超市商品的庫存管理和促銷最佳化解決方案
超市部門面臨庫存浪費、滯銷商品識別困難、促銷效率低、動態定價複雜以及消費者體驗差等痛點,像一些“買一送一”“即時打折”的主義,很多時候只能靠人腦根據場景判斷。
然而,o3 將有可能徹底改變這一行業目前的庫存管理狀況以及營銷方案。
有時候,作為消費者很可能會遇到這種情況:我的面前擺放有三個品種的蘋果,我手裡的預算有限,但我又想每種都淺嘗一下,剩下的預算可能還會有別的用處。
比如,下面這張圖片中有國外三個品種的蘋果,每種價格不一。

我隨手一拍,圖片的清晰度並不高。
然後,我把對購買方案的要求簡短地輸送給 o3。

o3 憑藉它的視覺推理能力,以及呼叫 Python 函式等等剪輯圖片、放大圖片、旋轉圖片,以便分析每種蘋果的價格、樣態、品種、名稱。

經過3分鐘的分析,o3 能夠較為準確地結合圖片和我給的提示詞,列出蘋果的品種、單價、購入數量以及整體價格。

按照商品的每個口味,o3 都會給出選擇的理由、預算控制,甚至是帶有“人文關懷”地替我考慮這些蘋果能夠幾個人吃幾天。

這不僅在中文場景下的國內零售中優勢明顯,還能為因公因私出國的使用者提供便捷支援,比如幫助海外華人超市管理者或旅行者快速適應不同市場,提供極大的幫助。

“三種蘋果”圖片裡的元素略顯單薄,你可能會擔心 o3 無法應對更加複雜的場景
於是,我上傳了一張在國外某個咖啡商品店購買現磨咖啡的場景圖,右半邊部分為各式各樣的咖啡豆,包含:輕度烘培、中度烘培、深度烘培。
整體元素極度複雜。

我給了 o3 一段簡單的提示詞:
我想要中烘和深烘兩款咖啡粉,給我推薦個價格低的搭配。
這段提示詞的言外之意——快速分析圖片元素,精準找出價格,中烘和深烘咖啡粉,並將之組合搭配。

與分析“蘋果”的工作流相似,o3 也對我所上傳的圖片做了大量的剪輯、放大操作。

最後,o3 給出的方案如下。

雖然目前的 o3 尚存在一定的幻覺,但整體的準確度確實有些超乎我的預想。
它完整整理出了:烘培度、推薦豆、標籤名稱、口味以及參考價,甚至還提供了額外的購買建議以及省錢小价格,最令我驚豔的是:它精準識別出畫面中的一個綠色折扣標牌。
可見 o3 能夠全面提取畫面中的關鍵資訊,優化了我作為使用者的決策體驗。這種對畫面元素的全面而細緻的分析能力,凸顯了 o3 在零售場景中的強大應用潛力。
從創業機會洞悉角度來看,o3 能透過影像分析技術,即時檢查貨架攝像頭拍攝的照片,精準識別滯銷或即將過期的水果,還能結合庫存資料、銷售趨勢和顧客偏好,推薦個性化促銷組合,甚至能夠利用消費者行為分析推出精準促銷的解決方案。

4.營銷

能夠從圖片中提取商品資訊並生成定製化宣傳文案的平臺,從目前來看仍是較少的,並且存在很多問題。
比如,對東南亞市場的本地化(如泰國、印尼的文化偏好)支援有限,可能生成不夠精準的文案。推理能力也很有限,對複雜場景(如兒童玩具的安全性需求)理解不夠深入,文案可能會缺乏針對性。
這也是做外貿出口行業業者普遍面臨的問題,像是國內的低調出海者——睿琪,也曾在將產品推向日本市場的過程中,遇到了大量的問題。
通常情況下,針對某國家特定人群前期的實地調研時間是無法省去的,想做到精準營銷的難度可能是指數級別上升的。
現在的 o3 模型能夠從圖片中提取商品資訊(如型別、價格、特點),並結合目標人群(如兒童、家長、零售商)的需求,生成定製化的宣傳文案
這也為精準出海營銷與個性化推廣領域,帶來了創業機遇。
我隨便找來了一張外貿玩具列表圖,上面的價格為越南文字,整體的元素為:圖片+簡單名稱+價格。

o3 能夠視覺推理圖片內的所有元素,生成完整的產品宣傳文案,包含:產品名稱、越南零售價、賣點速覽的總結、適玩年齡,甚至是讓孩子爸媽心動的理由。

很有意思的一點是,o3 能夠憑藉 LLM 本身的預訓練資料進行快速推理,在安全合規、物流優勢、專屬服務上,將產品宣傳與“越南”相結合,並且給出批次訂購福利等簡單的營銷方案。

如果上傳的圖片為隨手在商場內拍攝的圖片,畫面元素繁複,o3 依舊能夠憑藉視覺推理能力概覽整張多產品圖,精準識別圖片中的主要商品類別、品牌特徵、擺放位置以及環境氛圍,同時過濾掉無關的背景干擾。
最終給出完整的產品宣傳解決方案。

o3 此次釋出後,刷爆 X 平臺的大多數內容都是它異常強大的“地點推理能力”
比如,X網友@deedydas 給它提供了一張舊金山中餐館選單的圖片,沒有任何標題,它竟然能在網上搜索,匹配選單項,並定位到這家餐館的位置。

日本的一位 o3 使用者,上傳了一張圖片(實際為一家酒店關於樓層的簡介),詢問 o3 地址,o3 竟然能夠透過推理得知最終答案:長野縣淺間溫泉附近的一家酒店。
這種異乎尋常的推理能力,已經令這位網友感到無比震驚了。

來源:X網友@ozwxy
一條推文的下面,X 使用者@Datapoint 2200 也自己試了下 o3 的地點推理能力,他擦除了 EXIF/位置資訊,甚至停用了記憶體,但 o3 依然能夠精確到地址。

雖然我們暫時想不到這個能力具體指向什麼創業 idea、應用於哪些創業方向,這個開放性的機會就留給創業者們去大開腦洞發揮吧。

6.金融資料分析

//以下內容非 AI 薦股建議
o3 未來可與複雜的金融模型、即時資訊獲取結合,提供基於專業知識的即時交易輔助工具。
例如,一位網友將一小時的 BTC 價格圖表上傳給了 o3 ,讓它分析未來的價格走勢並進行預測。

來源:X網友@tommy_love123
o3 並不會直接給出“明晃晃的價格預測”,而是給出自己如何思考模型走勢的結構化分析:
  • 指標
  • 狀態
  • 近期讀數

隨後,o3 對於未來 3-12 小時的預測情景根據以下幾個部分展開:
  • 情景
  • 觸發條件
  • 目標價格區間
  • 機率與注意事項

7.創意設計與內容創作

對於大幅縮減創意設計與內容創作工作流,o3 也掀起了一個開端。
o3 目前已經可以生成多個透明影像以具有圖層結構的 PSD 格式輸出
X 網友@GianMattya 給出了一段提示詞(親測有效):
我想生成一組奇幻風格的圖片,內容包括:
  • “像RPG遊戲那樣的街道背景”,
  • “手持魔杖的魔法少女”,
  • 以及“火焰特效元素”。
請分別將背景少女特效各生成一張單獨的透明背景圖片(共三張)。
此外,請按照背景 → 少女 → 特效的順序生成圖層結構,並在生成時考慮它們之間的相對位置關係。
隨後,o3 會經過較長時間的思考,根據要求內容,生成三張圖片。

當前的 o3 系統在功能上仍存在一定侷限性,暫時無法呼叫許可權範圍外的工具,因此它還不能直接根據使用者的需求,以高精準度自動完成複雜的圖片複合任務。
例如多圖層疊加、精細調整或高階影像處理等等。
使用者現在需要自己開啟 Photoshop 等平臺,將圖片疊加在一起。

當 o3 未來有許可權呼叫更多工具(除了 ChatGPT 內部呼叫工具),使用者將能夠更靈活地實現複雜的設計目標,大幅提升創意內容創作上的效率。

8.課程開發

o3 能夠分析極度複雜且殘破的影像,並給出完整的理解。
在 o3 的視覺推理分析過程之中,它能夠呼叫工具,對影像進行”有思維性“地拼接、裁剪,直至能夠順利地提供完整的內容理解。

來源:X網友@Dorialexander
基於o3的分析結果,可以生成大量課程內容,供 MOOC 平臺或學校使用。
在學校教育、夜課教育、成人教育之中,設計開發一門課以及將一門課程的板書、教學內容變成實際的可供學生利用的課程是極為繁瑣困難的。
o3 能夠將分析結果轉化為結構化的課程模組(文字、影片指令碼、互動問答),降低內容開發成本。或者,根據學習者的興趣,生成定製化的課程內容案例分析,提升使用者體驗。
o3 在個人效率管理上也有著不俗的潛力。
直觀地感受下 OpenAI 官方的這個例子,見微知著。
使用者隨手上傳了一張表演表格,上面用西班牙語記載著:節目、時間甘特圖,下面還有一堆注意事情已經條文解釋。

使用者輸入提示詞:
現在是 12 點,我已經看到了#4,輸出一個規劃,確保我能看到所有景點和表演,考慮到它們的持續時間(第一列)以及每場表演之間 10 分鐘的緩衝時間。
這個時候, o3 會對照片中的各種元素進行細微的分析。

最終,o3 會給出一個清晰且完整的節目演出時間安排,直觀展示專案時間表和任務進度

當用戶上傳手寫筆記、日曆或會議議程照片,o3 將能夠提取任務,根據截止日期或偏好優先順序排序,安排時間幷包含緩衝,與日曆APP同步。
針對於企業組織內部的生產力管理,o3 能體現出更大的商業機會。
像是飛書打卡或者是各種企業內部 OA 的打卡機制一般是將時間於地點結合,對於影像在生產力管理的過程中並無法做到精準管理。
管理者制定全天工作計劃,o3 負責預先建立每日細則,包括分配會議時間、準備工作及個人任務時間。企業透過內部 OA 系統要求員工上傳各場所的即時記錄圖片,確保嚴格的生產力管理,提升執行效率。

10.智慧農業

即便圖片中有需要多部推理才能得知的隱藏內容,o3 也能夠完成內容的推理,這體現了其在資料標註和解析上的強大潛力。
這對於檢測植物種類(例如現在市面上花樣繁多的植物識別類 APP),甚至進一步的,檢測植物病蟲害種類,推薦種植或治理方案提供了很多商業機會的可能性。
例如下面這個例子,X 網友@joehewitt 使用 o3 處理一片花園的照片並識別出每一個單獨的植物。最終, o3 猜對了 15 張照片中的 10 個。
o3 能夠像人一樣仔細觀察每一個細節。

來源:X網友@joehewitt
進一步的,我上傳了一張得了“小麥白粉病”的現場小麥實拍圖,想要檢測下 o3 能否根據細微差別識別出來植物上的“差異”元素,並進行推理。

於是,我輸入提示詞:
這是我家鄉種植的小麥,它有了病害,我該怎麼防止?這是什麼病害?有什麼應對的解決方案?
經過 1 分鐘的視覺推理,o3 精準地識別出了我所上傳圖片中的植物的葉片和莖上佈滿了“白色粉點狀病斑”,並進一步推理出了這一典型特徵即是”小麥白粉病“。

針對該種病害,o3 給出了完整的綜合防治思路。

除了各個環節的大概防治思路之外,o3 更會針對其中的重點提供使用農藥小帖士,包括用藥、兌水量,以及為後續的病後管理、來年預防提供建議。

11.影片/音效內容創作提效

o3 現已能根據自然語言提示詞生成音效。即使只是簡單地將其接入某些影片剪輯創作工具,也能顯著提升工作效率。
比如,自動生成與字幕同步的音效,將會大幅減少手動新增音效的時間和成本,最佳化整體工作流。
我輸入提示詞,讓 o3 為我設計孔乙己出場時的音效。

隨後,o3 迅速提供了一份全面的音軌設計方案,包含詳細的時間軸、聲音元素及設計要點,並附有專業的配音與混音指導建議。

不過,可惜的是現在 o3 還沒辦法根據文字分鏡製作出一個完整的音軌動效 mp3 音訊檔案。
隨後,我降低了下複雜度,讓 o3 試一試能不能生成一段孔乙己式的嘻哈 mp3 音訊。

經過極短時間的思考,o3 即生成了一段融合電子遊戲風格與孔乙己主題的嘻哈伴奏 mP3 音訊,並且提供了下載地址。
來一起聽聽這段孔乙己式嘻哈吧,看看 o3 是怎麼想象孔乙己與嘻哈兩種概念的結合的。
未來,短影片創作者可以在幾分鐘內透過自然語言為影片內容、文字內容新增動態音效。
像是在特效鏡頭數量和複雜程度極高的“哪吒2”電影裡,音效設計需要擬音師對聲音物理特性的深刻理解,創造力和實驗精神都可能需要他們付出大量心血。
作為一個實際的痛點,音效會大幅增加平臺使用者對短影片的觀感,但是創作者們則將花費大量無效時間尋找音效素材,尤其是對那些“並不是非常專業的影片剪輯者”。
o3 將再次提升創作效率和內容吸引力。

12.個性化內容創作

OpenAI 的 o3 模型現在已經能夠憑藉強大的語義理解和視覺化生成能力,根據文章或部落格標題關係生成連續圖解。
結合 o3 在視覺和文字結合任務上的推理能力和多模態處理能力,這一功能可以為多個行業帶來商業機會。
比如,我首先利用 o3 整理出一篇具有 3 個小標題的部落格,內容為“北京就業現狀”。
再讓 o3 根據這篇部落格的原稿、文章的標題關係製作連續的圖解,每個標題製作 3 個圖解。

在短暫的連續思考之後,o3 能夠為文章內容連續生成具有象徵意義的圖解。
不得不提的是,現階段的 o3 仍會出現一定程度的幻覺,但影像生成結果的精準性已經驚豔到了我。
這個準確度水平大概是:9 張圖解裡,6 張圖解的內容基本完全正確。
比如,高技術行業需求:

高校畢業生就業壓力增大:
(值得注意的是,圖片中出現的“供需錯配”,並未出現在我所給出的原文部落格中,而是 o3 根據自己的理解作出的總結。)

2025 年北京高校畢業生就業規模:

o3 總結了目前的高校畢業生的“學非所用”以及就業困難:

區域性人才流動:
(o3 在製作影像時,雖然精準度已大幅提升,但是仍然會出現一定的幻覺,例如紅色框中的標點符號。)

人才政策:

部落格內容的總結:

o3 在那個凌晨的刷屏狂潮,就像一個開場的訊號,讓所有人意識到:原來,大模型的真正商業潛力,才剛剛展現出冰山一角。
但也有個現實的問題擺在面前:當 o3 這類模型的多模態能力不斷地進化時,創業者們如何避免陷入短期逐利的“套殼陷阱”?
o3 已經在我們的眼前打開了一扇充滿機遇的門——但推開門後,究竟會看到怎樣的風景?

🚥
AI 的下半場是應用端的血戰,在下一個凌晨來臨前,如何將 AI 深入商業場景,值得每位創業者思考。
那些能夠真正理解 AI 能力邊界,並將其與深度行業知識結合的團隊,才能在這場技術革命中脫穎而出。
你的下一個“ AI 套殼”產品,會是怎樣的?
🚥


相關文章