


推理模型正逐步接棒預訓練正規化,成為生成式系統進入部署階段的關鍵轉折點。Perplexity 聯合創始人兼 CEO Aravind Srinivas 在一場哈佛對談中指出,當前行業焦點已從擴大模型引數與語料規模,轉向構建具備執行力與反饋機制的系統架構。
他表示,這場正規化轉移不僅關乎模型本體的能力提升,更牽動整個 AI 工程流程的重構,從資料採集、使用者反饋到任務排程與系統整合,逐一轉入推理正規化的適配軌道。
Srinivas 所領導的團隊正將語言模型作為系統構件嵌入搜尋問答場景,圍繞真實使用路徑持續迭代其 agent 能力與部署邏輯。其判斷核心在於:通用預訓練模型構建了語言理解的基底,但無法直接轉化為可用系統,唯有藉助推理機制與行為反饋,才可落地為具備自主任務執行能力的產品形態。在這一背景下,訓練正規化正從 token 預測走向行為規劃,模型目標不再是模仿語言,而是解決任務。
以 Perplexity、DeepSeek 等系統為代表的推理模型體系,正在形成新的產品架構共識:用結構化任務路徑替代文字擬合,用真實反饋閉環替代離線評估,在系統工程層解構模型邊界。
這一轉變也促使產業鏈重構資源配置策略,從 UI 包裝先行、開源模型試驗,到行為路徑驗證後再行訓練與部署,真正建立起“任務能力—系統結構—資源決策”三位一體的閉環機制。
從全球系統架構的推進路徑來看,Srinivas 所面對的問題正是整個 AI 工程邁入執行時代的典型縮影——在模型能力尚未定義清晰、反饋機制仍未閉環的條件下,如何推進具備部署意義的階段性系統建設。
▍推理模型接棒預訓練正規化
過去兩年,生成式預訓練模型在語言理解與生成方面取得顯著突破,但這一正規化已觸及階段性邊界。行業重心正從擴大語料與引數規模,轉向提升系統執行能力與任務推理深度。新一代模型將更依賴後訓練階段的結構化調優,以支援複雜邏輯鏈的處理、任務流程的執行及網頁環境下的行為操作。這一趨勢已成為全球頭部模型實驗室的主要研究方向。
預訓練提供了模型對世界常識與語義結構的底層掌握,但若要構建真正具備實用價值的智慧系統,仍需在垂直任務場景中實現能力精修與結構落地。以 Perplexity 為代表的系統正圍繞真實使用路徑進行再訓練,目標是在產品層實現連續價值傳遞。與此同時,中國開源體系的快速演進也對全球節奏形成牽引,DeepSeek 的出現已成為北美團隊顯著對標壓力之一。
DeepSeek 的突破不僅體現在工程能力上——包括系統編譯、浮點運算最佳化、核心排程及低端 GPU 上的大模型部署能力,更關鍵在於提出並實現了“推理模型”的具象路徑。其釋出的 DeepSeek Zero 展示了在無監督環境中,透過強化學習引導模型產生具備執行力的推理行為,為自動化 agent 的訓練機制提供了結構性模板,也為行業探索能力邊界打開了新通道。
在產品與研究協同推進的路徑中,部分團隊已引入結構化機制,將前沿研究聚焦於模型任務能力與系統性能最佳化,產品端則專注於介面設計、資訊組織與使用者體驗,藉助問答搜尋融合場景測試表達策略與推理流程。這一“雙螺旋”機制確保每輪迭代均具備明確實驗驗證基礎,形成穩定的反饋與更新節奏。
在資源排程層面,領先企業基於對模型機制的理解,將系統反饋訊號直接轉化為計算資源決策:當小規模推理 agent 實驗取得正向驗證,便快速放大部署規模,直接採購萬張 GPU 構建完整推理系統。其背後邏輯建立在對 AI 模型效能與經濟回報之間強關聯的深度認知。
同時,一種“延遲訓練”策略也在部分公司內部被驗證有效:初期透過 UI 包裝構建原型,先行獲取使用者資料與行為反饋,再擇機啟動大模型訓練,利用開源模型的效能進展彌合初期資源限制。2023 年,這一策略在多個專案中獲得驗證,並已被納入產品設計、技術投入與資本配置的主流程中。
▍任務路徑主導的資料重構正規化
模型訓練的重心正在從大規模語料抓取轉向具象任務路徑的構建。在任務導向的訓練正規化下,模型能力的提升不再依賴復刻人類語言表達,而聚焦於執行鏈式行為——包括數學推理、程式碼生成、網頁點選、檔案處理等具體操作。訓練樣本以“任務行為路徑”為單位組織,形成 agent 系統推理能力的關鍵基座。
這一轉變也帶來了資料來源與訓練目標的深度變化。企業普遍放棄自建預訓練模型,將通用語義建構交由開源社群與閉源實驗室完成,自身則聚焦在此基礎上構建封閉式微調體系。調優任務集中於結構化生成能力與系統性操作流程,如摘要提取、格式轉換、文件重寫與上傳執行等模組性技能,意在打造可部署、可評估的智慧元件。
在訓練資料合規性上,儘管圍繞著作權與生成內容的爭議仍存,例如《紐約時報》所發起的訴訟尚在推進中,行業實踐已逐步形成共識:只要輸出未顯著復現原始內容,即可被視為“合理使用”。為此,多數企業採用隔離語料、轉換輸出格式、強調任務導向的策略來降低潛在風險,主動規避語義復刻路徑。
模型資料來源亦在機制上全面重構。真實使用者的查詢行為與互動反饋成為最核心的能力訓練訊號,點贊、修改、點選等行為被系統性採集,用於指導模型排序與強化過程。同時,系統也基於歷史回答表現,動態調整資訊源的抓取策略——優先提升高價值內容的爬蟲頻次與索引深度,形成反饋驅動的資料供給機制。
人工評估依然是訓練流程不可替代的環節。常見流程為:並列呈現兩個模型輸出,由人工判定優劣,進一步用於訓練排序模型或標註樣本質量,在摘要精度、多輪對話連貫性與任務響應合理性等任務中,仍需人工訊號作為質量錨點。
與此並行的是合成數據機制的系統性引入。訓練流程中,大模型已承擔“教師模型”角色,對小模型輸出進行打分、結構標註或行為分類,以生成微呼叫的小樣本資料集。此機制在構建 UI 分類器等任務中效果尤為顯著。以使用者意圖識別為例,透過大模型自動識別金融、旅遊、購物等查詢類別並回傳標註,再由小模型模仿學習,形成自我監督閉環。
該路徑不僅提升了資料生產效率,也奠定了使用者意圖理解、檢索路徑規劃與響應行為分流等系統能力的訓練基礎,成為支撐推理型 agent 架構的關鍵技術底座。
▍搜尋替代路徑與系統資源重構
算力資源已成為當前 AI 系統擴充套件能力的核心約束。早期基礎模型的訓練高度依賴超大規模算力支援,即便存在方法層創新,若缺乏工程排程與資源後端,成果往往難以形成產業影響力。與學術機構相比,平臺型科技企業在算力組織、系統工程與產品部署方面具備更強統合能力,也因此吸引大量研究人才從實驗室遷移至產業端,尋求高執行力的落地平臺。
儘管底層大模型訓練仍被少數資源集中型團隊主導,但在模型抽象層之上的系統架構設計,仍保有廣闊創新空間。從 Agent 框架構建、任務評估機制、上下文協議標準化,到模擬環境設計與多模組協同策略,系統價值更多取決於結構效率而非引數規模。這一層的研究不依賴極限算力,更適合在產學之間建立長線合作路徑。
面對搜尋引擎巨頭的存量優勢,新系統普遍選擇避開算力正面碰撞,轉向機制異構的路徑切入。其基本判斷是:一旦大型平臺將生成式系統部署至全域入口,查詢量所帶來的系統負荷將呈非線性放大,導致基礎設施成本結構性失衡。與此同時,高品牌溢價平臺在面對誤生成結果時容錯空間極小,內容安全機制無法有效閉環的前提下,其策略迭代頻率受限,進一步削弱系統更新能力。
更深層次的錯位來自商業模型本身。傳統搜尋平臺依賴點選導向的廣告變現路徑,CPC 模型與生成式問答系統的行為機制難以直接對映。生成內容不具備標準化跳轉目標與轉化路徑,廣告投放的 ROI 難以衡量,廣告預算逐步向更可控渠道轉移。與此同時,搜尋廣告具備高毛利、低邊際成本優勢,而生成式系統部署與執行成本高企,導致單位收益比明顯劣後,形成結構性商業落差。
正是這種路徑與結構的錯位,為新興系統打開了機會視窗。相比動輒重構商業邏輯的大型平臺,輕結構團隊可跳過既有依賴,直接構建“技術—產品—商業”的快速閉環。在技術實驗與商業路徑之間建立高速反饋機制,使問答搜尋融合系統具備現實可行的替代潛力。
部分團隊採用“先用後訓”策略,即初期以開源模型搭建系統框架,獲取使用者互動與行為資料,在系統結構穩定後再轉向自研模型體系。該路徑顯著降低早期資金消耗,同時建立在對開源能力演進的前瞻判斷基礎上。隨著開源模型逼近閉源效能上限,工程替代的可行性與實用性已被逐步驗證。
搜尋系統的收入結構當前仍在重構期,使用者點選路徑尚未穩定重構,AI 系統在人均變現效率上與傳統搜尋存在顯著差距。無論是 Gemini 等訂閱模型,還是巢狀於搜尋入口的預覽式生成系統,當前商業化能力尚未具備廣告系統的成熟支撐。搜尋結構性變革仍處在早期視窗期,而這一階段,正是新路徑實驗的關鍵週期。
▍擬人化誤用與教育結構重構
生成式 AI 的實際使用路徑,正在系統性偏離其原始設計目標。自 Eliza 聊天程式以來,使用者便傾向將語言系統視為具備情感理解與互動能力的“類人存在”,即使底層邏輯完全建立在統計與預測基礎上。當代大模型雖被明確定位為“對話式搜尋”或任務型助手,使用者仍頻繁構建出角色扮演式的互動場景,擬人化使用模式在多個平臺中持續增長,難以僅靠介面設計或輸出約束加以徹底規避。
這種誤用行為的普遍性也引發對系統倫理邊界的關注。生成式系統已在婚姻、醫療等高度私人化場景中被非預期使用,即便系統未直接給出建議,內容呈現或路徑引導本身已構成對決策過程的介入。部分團隊嘗試以“引用驅動型問答”限制系統角色定位,但在使用慣性與擬人理解框架下,使用者誤用仍廣泛存在。
這一趨勢在個體案例中表現尤為顯性。曾有角色型 AI 產品在真實事件中被捲入爭議:一位年輕使用者在結束生命前高頻使用該系統,雖然系統責任難以界定,但沉浸式互動模式已引發對“情感介面依賴”的廣泛擔憂。儘管產品設計避免模擬情緒反應,使用者依然將其視為情感替代體。部分開發團隊已開始迴歸以“行為導向、工具導向”為核心的產品哲學,試圖用功能邊界取代人格模擬,成為新一輪設計共識。
在未成年使用者群體中,風險複雜性進一步放大。兒童使用者繞過系統限制的能力往往被低估,例如透過多語言混輸規避語義識別,或分段提示引導模型生成敏感內容。當前行業尚缺乏統一內容審查機制,“互動白名單”“內容頻次攔截”等防護策略仍在試驗階段,但監管與風險控制需求已日益迫近。
與此同時,教育系統正經歷由生成式 AI 引發的結構性轉變。不僅教學手段需圍繞 AI Agent 所提供的個性化能力進行重構,更關鍵的是教育目標本身正在遷移。在資訊可得性極高的背景下,傳統以知識灌輸為核心的教育模式逐步失效,“問題定義力”與“判斷標準構建”成為教學系統的核心輸出。
任務設計正從重複練習與模板化答案轉向結構思維與探索導向。教師角色也正在從知識評分者轉為學習路徑的激發者,系統應圍繞“提出 AI 無法直接解決的問題”展開設計,讓學生在提出、驗證與修正問題的過程中,構建具備解釋力與審美張力的知識結構。
隨之提升的,是對錶達力與結構化認知的需求。從數學模型到倫理議題,真正激發學習動機的,往往不是知識本身的難度,而是其呈現方式的複雜性與美感。“如何組織複雜資訊、表達認知張力”正成為未來最稀缺的學習能力之一。
教育結構的底層邏輯也在同步遷移:越來越多的本科生已開始承擔原屬研究生階段的開放任務,教育系統正在由“傳授知識”向“喚起能力”轉變。面對 AI 工具普及,教育的獨立價值將由是否能賦予學生結構性認知與判斷力來決定,而非知識點掌握本身。
▍能力閉環瓶頸與 AGI 路徑分歧
關於 AGI 的能力定義與路徑選擇,業界已形成結構性分歧,這一爭議不再停留於學術層面,而直接影響到企業在系統架構與產品策略上的根本判斷。儘管生成式 AI 已在多個垂直任務中展現初步執行能力,但要實現具備通用性與自治決策力的系統,仍面臨關鍵斷點。真正的挑戰不在於某項能力的單點突破,而在於“任務理解—計劃生成—動作執行—反饋評估”四個環節的完整閉環是否能夠建成。
這一斷裂在產品實踐中表現為:即使底層模型已更新,如 GPT-4 被替換為 O 系列,使用者仍普遍停留在舊版本標籤下的效能感知中,對“推理模型”“O3”等術語缺乏理解。這意味著系統能力的實際躍遷被前端體驗遮蔽,模型更新價值無法穿透至使用者側,從而在產品路徑中造成“能力不可見”的結構遮蔽。
基礎模型的研發方正在透過平臺化路徑重構生態控制力,即同時掌握模型本體、使用者介面與資料反饋閉環,形成從行為採集到能力演進的自主迴圈。這種“模型即平臺”的結構強化了資料主權與調優能力,也讓單純依賴 API 的公司面臨商品化與價值鏈外溢的風險。
在此背景下,開源模型的可行性獲得重新評估。以 DeepSeek 為代表的專案透過結構創新與推理機制構建,在非極限算力條件下實現能力逼近,打破了“開源只能做輕量模型”的舊有認知。當前部分開源系統已具備在部署效率、能力呈現與模組架構上的獨立價值,成為產業鏈中具備戰略選擇意義的變數。
與此同時,模型系統與外部軟體環境之間的介面邊界依然模糊。當前尚缺乏統一協議來實現模型與桌面軟體、Web App、第三方服務的順暢銜接,呼叫許可權、上下文封裝與行為反饋標準未被統一,成為平臺間博弈的結構焦點。誰掌握最終執行路徑的控制權,決定了流量與收益的分配模式,也直接影響平臺對 agent 系統的態度。
例如,Amazon、Instacart 等依賴廣告變現的平臺通常對外部 agent 系統保持克制態度,避免 agent 繞過前端完成交易,破壞其推薦系統與廣告定價模型。而 Uber 等按次計費平臺對 agent 嵌入接受度更高,甚至將其視為增量流量通道。平臺是否允許被“代理”或“封裝”,本質上取決於其商業結構與收益分配模式。
在系統架構演進過程中,模組化抽象粒度成為設計策略中的核心變數。早期推理系統普遍採用顯式模組劃分——排序、檢索、摘要等元件獨立呼叫,部分產品甚至透過角色命名(如 Sir Johnny、Mother Dinosaur)標識模組職能。但隨著複雜度上升與運維壓力增加,系統結構正向排程整合傾斜,主模型承擔更多工分發與邏輯判斷職能,追求路徑收斂與穩定性。
模組設計的顆粒度折射出團隊對“可維護性—任務複雜度—系統彈性”三者關係的理解。元件劃分過細容易引發介面不穩定、邊界模糊等協作瓶頸,劃分過粗則削弱系統的適配靈活性與功能複用能力。這一策略無法靠通用模板解決,更依賴團隊的工程判斷與系統直覺。
從能力判定的角度出發,AGI 的真正成立並不在於模型是否能答對一個問題,而在於其是否具備提出一套可執行方案,並獲得組織信任的能力。例如,若模型能夠制定一條六個月的產品路線圖,解釋其資源配置依據,並促使管理層投入百萬元預算,即構成“可信任的自治執行體”的雛形。這一標準遠高於傳統答題型 AI,更接近系統級決策支援。
限制這一目標實現的關鍵因素,在於部署後的高質量反饋鏈條仍未建成。即使模型能給出合理建議,如程式碼修復方案,系統通常無法自動驗證其是否真正解決問題,或是否引入新的潛在錯誤,導致“行為結果—能力更新”之間缺乏穩定傳導路徑。
一種潛在解決思路是:構建容錯的真實部署環境,引入強化學習機制,使行為結果成為訓練反饋訊號,進而實現“任務執行—後驗評估—能力微調”的動態閉環。這一路徑的挑戰在於如何控制部署風險、評估延遲與成本,但一旦機制得以搭建,模型將從靜態能力體躍遷為具備自我校正能力的動態執行節點,構成通向 AGI 的現實工程通路。
如果你也在思考從“能生成”到“能交付”的能力躍遷,歡迎加入這場關於推理模型與 Agent 架構的深度討論:
7 月 18 日,「2025 生成式 AI 全球化高峰論壇」將匯聚全球最具實戰經驗的 AI 創始人與系統架構師,共同探討技術轉折期的落地路徑與商業模型;7 月 19~20 日 非凡學堂實戰營也將進一步拆解產品打造、增長閉環與出海打法,為你提供從 0 到 1 的系統方法論。
主辦方邀請了 88 位來自全球化一線的 AI 創業者與產業操盤者,他們既是細分賽道中的探索者,也是推動 Agent-as-a-Service 真正落地的中堅力量:

✦ 精選內容✦

