
近年來,多模態大模型技術發展迅速,展現出強大的視覺理解能力,顯著提升了 AIGC 的可控性,各行各業正經歷從“人工密集型”到“AI 原生驅動”的顛覆性變革。那麼,多模態技術中面臨哪些核心技術挑戰?在 AIGC 技術落地過程中,會產生什麼新的應用場景?大模型的下一階段突破可能來自哪些方向?
近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了 上海交通大學人工智慧學院副教授趙波 擔任主持人,和 快手快意多模態模型演算法負責人高歡、騰訊混元專家研究員邵帥 一起,在 AICon全球人工智慧開發與應用大會2025 上海站即將召開之際,共同探討多模態大模型如何開啟智慧互動新篇章。
部分精彩觀點如下:
-
先訓練一個大模型,再用它來蒸餾小模型或減少推理步數,比直接訓練小模型或低步數模型效果更好。
-
現階段,比起通用模型,針對特定業務場景定製化的垂直領域模型仍是更優選擇。
-
如果單純為了追求效果而無限制地擴大模型規模,雖然可能獲得性能提升,但投入產出比會明顯失衡。
-
輕量級模型在處理相關性判斷和創意類任務時表現足夠出色,對於需要深度知識儲備和強推理能力的任務則需要大規模模型。
在 5 月 23-24 日將於上海舉辦的 AICon全球人工智慧開發與應用大會上,我們特別設定了【多模態大模型創新實踐】專題。該專題將深入解析多模態大模型的技術原理,探討其在智慧客服、智慧駕駛等領域的創新應用,展示多模態大模型如何實現語音、文字、影像等協同互動。
檢視大會日程解鎖更多精彩內容:https://aicon.infoq.cn/2025/shanghai/schedule
以下內容基於直播速記整理,經 InfoQ 刪減。
完整直播回放可檢視:https://www.infoq.cn/video/mNVM5eqQsFsd0H4sZNrD
趙波: 前段時間 GPT-4O 文生圖功能令人印象深刻, 從 CLIP 實現跨模態“圖文對齊”,到 DALL·E 掀起文生圖革命,多模態技術正打破單一感知的邊界。快手的 AIGC 技術,讓影片生產成本直降 50%。快手快意模型目前在多模態領域具體在探索什麼方向?以及選擇探索這些”方向的原因是什麼?
高歡: 快手當前重點推進的 AIGC 業務"可靈",已具備基於文字或圖片生成影片的核心能力。為支撐該業務,我們構建了深度影片理解系統,透過多模態模型對影片內容進行語義解析與知識關聯,確保模型建立完整的世界知識框架。這使得使用者輸入指令時,系統能智慧生成符合語義的畫面呈現——這種文字到影片(T2V)模型訓練中的多模態理解能力具有關鍵作用。
例如在數字人場景中,我們的多模態模型已有效提升主播與觀眾的互動體驗;在素材剪輯場景中,透過精準的素材定位檢索功能,顯著降低使用者創作門檻;同時在電商及廣告領域,多模態理解技術為商品展示、海報生成等環節提供核心支撐。當前技術方向聚焦於構建 caption 模型,包括 rephraser 與 prompt engineering 模組,透過深化使用者意圖理解和影片內容解析,持續提升影片生成模型的語義還原度。
趙波:近期騰訊混元大模型也在多模態理解與生成方面努力,顯著提升了內容創作效率。騰訊目前在多模態領域具體在做什麼方向呢?
邵帥: 騰訊正基於多模態基礎模型,研發影像、影片、3D 內容生成系統。與單純依賴文字輸入的基礎模式不同,實際業務中更多采用圖生圖、圖生影片等混合生成模式,並延伸至圖片 / 影片 /3D 編輯、智慧混剪等理解 – 生成一體化場景。騰訊生態的多元化內容需求(如騰訊影片、微信生態、遊戲及廣告業務)持續驅動技術創新。目前相關技術已在影視創作、社交內容生產、遊戲資產生成、智慧廣告投放等領域實現規模化應用。
趙波:高歡老師是否可以分享一下快手在 caption 模型這一塊運用的獨特技術?
高歡: 快手的技術佈局聚焦多模態內容生成領域,覆蓋文生圖、文生影片、圖生圖、圖生影片全鏈路生成能力。其技術核心在於預訓練階段對多模態資料的深度解析——不僅需要提取基礎語義資訊,同時涉及美學要素提取。相較於傳統 caption 任務僅關注事件要素記錄,我們更強調透過美學維度的結構化解析提升生成內容質量。
在技術實現層面,我們重點構建了鏡頭語言解析能力,包括景別識別、運鏡模式分析等影視化特徵建模。透過資料標註體系最佳化與模型架構創新在可控引數量級下實現了高精度 caption 標註。這些結構化描述資料為模型構建世界知識體系提供關鍵支撐,使其能準確解析使用者輸入的 prompt,最終實現創作意圖的精準視覺轉化。
趙波:大家的模型是開源、閉源?為什麼選擇開源或閉源?如果是閉源將來是否會開源?認為未來多模態技術會是開源更強還是閉源更強?
邵帥: 騰訊混元團隊認為開源與閉源並非對立的技術路線,而是交替引領行業發展的雙軌模式——開源生態透過社群智慧加速技術迭代,閉源體系則更聚焦商業場景的深度最佳化。
開源模型能有效吸納開發者社群的創新成果。例如我們開源的影像 / 影片生成模型,已吸引大量開發者在底層架構上構建 LoRA 微調模組、ControlNet 控制流等工作流,這些衍生創新透過技術反哺持續增強原始模型能力;中長尾業務場景存在碎片化需求(如區域化營銷素材生成、小眾內容創作工具),開源模型為中小團隊提供了低成本試錯路徑,待驗證場景可行性後再進行商業閉環構建;在設計師增效工具、廣告內容生產等核心場景,商業價值實現取決於技術效果與應用適配度,而非單純依賴模型的開源屬性。
需要強調的是,開源策略實際上拓展了技術商業化的可能性邊界:當社群開發者基於開源模型解決特定場景需求後,其驗證成功的解決方案可透過技術整合反哺企業級產品,最終實現生態價值的正向迴圈。這種社群創新 – 商業轉化的雙向流動機制,正是騰訊踐行技術開放戰略的核心考量。
高歡: 從快手的角度來看,我們目前主要在做的事情涉及更復雜的系統,而非單一模型就能支援的。因此,我們與開源社群的互動更多以技術分享為主。在過去一年中,我們開源了可圖,為社群提供了相應的技術輸出。此外,在可靈的開發過程中,我們也整理了一些效果較好的技術方案,並將其開源,同時發表了相關論文。
關於開源與閉源的選擇,我們認為兩者各有優勢。但目前,我們的核心目標是為客戶提供更完善的服務,因此整個系統仍以閉源為主。現階段,我們更專注於最佳化系統架構,因此尚未計劃將核心業務開源。
趙波: 我們作為高校實驗室當然是擁抱開源的,從模型、程式碼到資料都是完全開源的。
趙波:多模態理解和生成的區別?以及結合點?有沒有什麼融合趨勢?
邵帥: 我認為一個非常重要的結合場景是:如何利用理解模型來提升生成模型的效能。從技術實現上,可以將其分為訓練前、訓練中、訓練後三個階段。
訓練前,理解模型至少可以發揮兩個作用:資料清洗和資料標註。我們的實踐經驗表明,資料質量與生成效果呈正相關,因此我們在這一環節投入了大量最佳化工作。訓練過程中,強化學習是一個關鍵能力,而強化學習通常依賴獎勵模型,而獎勵模型本身就是一個理解模型。
訓練後,生成模型的應用可以進一步分為生成前和生成後兩個階段:生成前,目前常用的方法是 prompt rewriting。我們發現,許多使用者輸入的 prompt 較為簡單,透過最佳化使用者的原始 prompt,可以顯著提升輸出質量。生成後,我們也在探索多種最佳化手段,比如 test-time scaling;我們也會做 post-filtering,例如,在某些場景下,我們可能一次性生成 10 張圖,但僅返回其中 4 張質量最佳的結果給使用者。
目前,我們已經觀察到生成與理解一體化的明顯趨勢,並且這一進展可能會比預期更快。如果這類一體化模型能結合強大的語言模型,還能複用其知識和推理能力,進一步提升生成效果。
高歡: 我們認為模型架構並非當前最重要的考量因素,關鍵還是在於技術路線的選擇和應用目標。例如,在 GPT-4o 的技術方向上,趙老師團隊此前發表的 EMU-3 論文已經驗證了相關技術路線的可行性。我們團隊主要從 Diffusion 模型的角度進行探索。Diffusion 模型非常依賴對使用者意圖的理解,以及多模態資訊的處理能力。雖然傳統觀點認為自迴歸模型更適合理解任務,Diffusion 模型更適合生成任務,但我們認為未來應該以實際應用效果為導向。
趙波:多模態技術中,處理不同模態資料(如影片、影像、文字)時,分別面臨的核心技術挑戰是什麼?
邵帥: 目前最核心的難題在於多模態對齊與融合的問題。不同模態資料在資料結構上都存在顯著差異,這種根本性的差異導致我們需要解決兩個關鍵技術難點:一方面是如何設計通用的 tokenizer 來實現跨模態的統一表徵,另一方面是如何建立有效的模態對齊機制來實現異構資料間的語義關聯。
在實際應用過程中,我們還面臨著資料平衡的挑戰。當訓練資料中某一模態佔據優勢時,往往會導致其他模態的效能出現退化。此外,在多工學習場景下,當模型需要同時處理多種不同型別的任務時,經常會出現任務之間的相互干擾問題,以及計算資源如何合理分配的難題。
高歡: 與靜態影像不同,影片是由連續幀構成的時序資料,這對當前受限於上下文視窗的自迴歸大語言模型提出了更高要求。目前常見的解決方案包括幀取樣、降低解析度增加幀數,或是採用 token merge 技術來壓縮視覺 token。但每種方法都不可避免地會損失部分資訊,這種資訊損耗在進行深度多模態理解時尤為關鍵。
作為短影片平臺,我們每天都需要處理海量的新資料,這帶來了熱門概念快速更迭的問題。一個今天爆火的舞蹈可能明天就過時了,而訓練一個模型往往也需要一整天時間,這就導致模型剛訓練完就可能面臨失效的風險。為了解決這個問題,我們探索了 RAG 等技術方案,以及輕量級訓練方法來快速融入新概念。
短影片資料還呈現出獨特的靜態特徵:平臺上大量影片包含特效、突破物理規律的創意內容,這些與真實世界的物理規律存在顯著差異。雖然傳統訓練方法難以準確理解這類內容,但它們恰恰是文字生成影片中最具價值的部分。
這些技術挑戰最終都指向推理成本的增加。為了處理更長的影片序列,我們需要引入更多幀和思維鏈,這直接導致推理時間延長。同時,某些場景下小模型完全無法勝任,必須使用大模型並經過專門訓練才能達到可用水平。
趙波: 我們課題組目前專注於長影片理解大模型的研究,核心要解決的問題是如何高效提取和壓縮影片中的資訊。正如高歡老師提到的,影片資料最大的挑戰在於其冗餘性——長影片會產生海量的 token。我們近期完成的 Video-XL 和 Video-XL-Pro 兩項工作,分別從兩個維度進行了技術創新:一是充分利用大語言模型自身的 token 壓縮能力,二是從源頭壓縮視覺 tokenizer 產生的 token 數量。
趙波:多模態訓練是否缺資料?如何應對?
邵帥: 我們始終面臨著資料不足、標註質量欠佳、美學標準不達標以及多樣性匱乏等挑戰。在策略上,我們採用"先多後精"的技術路線:前期收集海量資料進行預訓練模型訓練,同時建立完整的資料清洗和標註管線。
我們將資料分為銅標、銀標、金標三個等級,形成金字塔式的資料體系。對於精品資料,我們不僅要關注基礎質量,還要考量美學價值和具體任務適配性。雖然圖文匹配和文生圖資料相對容易獲取,但編輯類任務的資料卻十分稀缺。以草圖生圖任務為例,構建草圖與完整圖片的配對資料就極具挑戰性。為此,我們廣泛採用合成數據和構造方法。例如,讓人根據完整圖片繪製草圖要比反向操作容易得多。
最近我們還面臨新的挑戰:訓練資料中混入了 AI 生成內容,這些資料的鑑別難度很高,一旦混入訓練集就可能汙染整個訓練流程,這比以往的資料問題更加棘手。
高歡: 當前高質量資料和垂直領域資料都存在嚴重短缺。垂直資料往往依賴現有業務場景的積累,但新業務開發時又恰恰缺乏這些資料,形成了一個典型的"先有雞還是先有蛋"的困境。為此我們不得不投入大量精力來人工構造訓練資料,整個過程相當複雜耗時。
從實踐資料來看,當前 LLM 訓練規模已達數萬億 token 級別,而多模態模型即便算上主流訓練案例,整體 token 量級仍相差一個數量級。換算成樣本數量的話,差距就更為明顯。目前多模態資料不僅總量不足,還存在嚴重的分佈不均衡問題。開源資料集中的樣本往往過於"精緻"而缺乏多樣性,這導致很多開源模型難以直接應用於工業場景的具體任務。
趙波:在兩家的多模態模型中是否已經用了基於使用者反饋的強化學習?是否有顯著的效能提升?
邵帥: 在使用者反饋方面,我們發現評價標準與使用者偏好之間存在顯著差異。對於明顯的 Badcase,比如三腿六指、動作不自然等問題,大家容易達成共識。但在美學偏好等主觀評價上,比如人物形象是否好看,往往難以形成統一標準。為此,我們開發了通用美學和人像美學的評估體系,透過建立資料標準和標註運算元,在強化學習中引入這些"軟性"指標,顯著提升了生成內容的美學質量。
在廣告等業務場景中,我們嘗試直接利用 CTR、CVR 等業務指標作為最佳化目標。每張投放的生成圖片都能獲得真實的使用者反饋資料,這為我們提供了直接的最佳化訊號。
高歡: 從對話系統的角度來看,使用者反饋的應用存在一些特殊考量。特別是在開放域對話場景中,很多時候回答並沒有絕對的對錯之分。雖然簡單回答"不知道"在技術上是準確的,但這會直接終止對話。為了維持更自然的對話體驗,我們會分析哪些回覆能促使使用者繼續交流,並以此作為正向反饋訊號。這種最佳化既包括線上即時調整,也包含離線模型迭代。
在快手的具體業務中,強化學習的應用場景非常豐富。特別是在那些"左右都算對"但存在業務偏好的場景,RLHF 發揮著重要作用。而在 caption 生成這類任務上,我們主要採用 DPO 方法,透過 reward model 來最佳化模型表現。
我們發現影片理解模型常犯兩個典型錯誤:一是事件順序錯亂,二是過度冗長的描述。針對順序問題,我們主動構造負樣本,透過交換事件順序來訓練模型;針對過度描述問題,DPO 能有效控制模型在適當時機停止生成。
趙波:在多模態領域前沿探索方面,目前有哪些研究熱點?
趙波: 去年我們重點研究了影片理解大模型,發現現有多模態模型雖然能較好處理影像文字和短影片(透過拆幀方式),但對於小時級長影片的理解能力仍然有限。特別是在算力受限情況下,處理長影片的海量 token 和複雜時序資訊更具挑戰性。
近期我們轉向研究多模態大模型的空間和時間感知能力。我們開發了一個新的 Benchmark:STI-Bench,系統評估了主流開源和閉源模型在三維空間感知及時間理解方面的表現。該評測涵蓋封面場景、室內場景和室外場景三種環境,重點考察模型對物體位置、運動軌跡等定量的時空關係的理解能力。
高歡: 從實際應用來看,當前多模態模型在空間方位理解普遍存在不足,這對 AIGC 應用是致命問題——當用戶要求"左手動"時若模型錯誤生成"右手動",就會直接導致客訴。
長影片理解是我們另一個重點方向,存在兩種典型情況:一種是內容簡單的長影片,只需簡短描述;另一種是資訊密集的長影片,需要準確捕捉複雜運動、事件序列、背景元素和美學特徵, 目前還沒有模型能在不損失時空精度的情況下完全處理這種複雜資訊。近期湧現的 VideoChat-R1、Kimi-VL 等工作,以及從選擇題評分擴充套件到 caption 生成的研究方向,都顯示出這個領域正在被賦予新的使命。
邵帥: 在強化學習方面,我們重點研究如何更好地對齊人類美學偏好,最佳化生成內容的質量。同時,我們也在深入探索指令遵循能力的提升,包括利用自迴歸模型完成各類編輯任務,實現 ID、風格、文字等多維度的可控生成,以及引入姿態、音訊等額外控制條件來驅動數字人生成等應用場景。
在影片生成領域,我們發現當前主流模型大多隻能生成 4-5 秒的短影片片段,而實際業務往往需要 3 分鐘以上的長影片生成能力。此外,推理速度的最佳化也是關鍵問題,過長的生成時間不僅影響使用者體驗,還會顯著增加推理成本。這些研究方向既涉及核心演算法突破,也直接關係到技術落地的可行性。
趙波:在提升多模態模型的效率(如降低計算成本、加速推理)方面,兩位認為當前最值得關注的技術路徑是什麼?
高歡: 由於不同業務場景的需求差異很大,快手目前還沒有一個統一的多模態模型能夠覆蓋所有應用場景。現階段我們主要採用兩種技術路線:一是直接訓練小模型,二是透過大模型蒸餾小模型,以獲得符合特定業務需求的能力。
近期我們重點關注 token 壓縮技術,包括 token merge、token fusion 等技術方向。在一些評測中我們發現,即使去除 70-80% 的 token,模型效能仍能保持穩定。在實際業務場景中也驗證了這一規律:對於那些不需要精細細節處理的任務,採用激進的 token 壓縮方案可以大幅縮短推理視窗。當推理視窗縮減至原來的 1/4 時,推理效能可獲得成倍提升。
此外,我們也借鑑了語言模型領域的成功經驗,如投機取樣等技術。透過小模型來輔助最佳化推理過程,可以顯著降低部署成本。
邵帥: 目前我們主要關注兩個技術方向:首先是編解碼器的效率最佳化,透過開發更高效率的編碼器,可以在幾乎不損失模型效果的前提下實現數倍的效率提升,這本質上類似於一個無失真壓縮問題。另一個重要方向是模型蒸餾技術,特別是針對 Diffusion 模型步數過長的最佳化。以標準 100 步的模型為例,如果能成功蒸餾到 10 步,就能獲得 10 倍的效率提升。
我們的實踐經驗表明,先訓練一個大模型,再用它來蒸餾小模型或減少推理步數,這種方案比直接訓練小模型或低步數模型效果更好,這種"先大後小"的蒸餾策略已經成為我們提升模型效率的重要手段。
趙波:面對定製化的模型需求,我們應該直接訓練垂直領域模型,還是應該訓練通用模型?實際應用中有什麼優劣嗎?
高歡: 現階段來看,定製化的垂直領域模型仍是更優選擇。雖然未來或許能透過一個通用模型(all in one)完成這類任務,但這與前述推理成本問題密切相關。目前,我們的業務演算法團隊已能透過微調或上下文學習結合特定指令 / 小樣本等方式,高效構建精緻的定製模型。
邵帥: 這兩類模型將會共存並各自發揮價值,雖然從純效果指標來看,通用模型的理論上限更高,但實際業務落地時需要面對諸多現實考量。
首先在資料層面,通用模型要在特定任務達到最佳表現通常需要海量資料支撐,而實際業務中很多長尾場景恰恰缺乏足夠資料。這類場景更適合採用小樣本學習或上下文學習等技術方案。反觀中長尾業務,通用模型憑藉其優異的泛化能力往往能取得不錯效果。而對於那些資料充足的頭部業務場景,針對性地進行模型精調往往能帶來顯著的效果提升。
另一個關鍵因素是推理效率。經過專門最佳化的垂直模型可以壓縮到極小規模,其推理速度相較通用模型甚至能有 1-2 個數量級的提升。這種效能優勢在即時性要求高的場景尤為重要。
基於這些觀察,我們通常採用"先通用後定製"的漸進策略:新業務場景可先嚐試通用模型方案,待驗證效果並積累足夠資料後,再評估是否需要轉向定製化方案。這種靈活務實的做法,既能控制初期投入成本,又能為後續最佳化保留空間。
趙波: 我們實驗室此前在垂直領域進行過一些探索性嘗試,包括醫學 CT 影像大模型以及具身智慧方向——雖然嚴格來說後者不完全屬於垂直領域範疇。我們曾嘗試將通用大模型透過微調適配到特定領域,比如醫療領域,或在將通用模型繼續訓練成視覺語言動作模型(VLA)。在這個過程中,我們觀察到一個有趣現象:模型經過垂直領域微調後,往往會喪失原有的通用對話能力。
這引出了一個關鍵的技術難題:如何在提升模型垂直領域專業能力的同時,不損害其通用能力?目前來看,這仍是一個亟待解決的重要技術挑戰。
趙波:在技術落地的業務場景中,端側算力限制是否為落地的關鍵瓶頸?如何平衡效果與速度?
高歡: 從實際業務落地的角度來看,我們往往需要在模型效果和執行效率之間尋找平衡點。如果單純為了追求效果而無限制地擴大模型規模,雖然可能獲得性能提升,但投入產出比會明顯失衡,甚至出現負值。
目前這個矛盾在短期內仍將顯著影響我們的技術選型。為此我們正在推進多項最佳化工作:包括採用更高效的影片編碼器、實施 token 壓縮技術,以及探索大模型的 INT8 量化方案等。在某些特定場景中,小型模型確實難以滿足需求,這就迫使我們必須在現有技術條件下尋找創新性的解決方案。
邵帥: 一旦涉及 trade-off,就意味著這個問題已經不存在完美解決方案。實際決策時,我們不僅需要考慮效果、耗時和使用者體驗,還必須將訓練成本和推理成本納入考量範圍。
面對具體業務場景時,我們首先會評估是否可以採用預生成或非同步處理方案。比如利用夜間潮汐資源進行離線計算,次日反饋結果;或者提前生成內容建立檢索庫。這種方式能巧妙規避多個矛盾:既可以使用大模型獲得最佳效果,又因非同步處理無需擔心耗時問題,同時潮汐資源還能大幅降低成本。
但對於必須即時處理的場景,我們通常會設計折中方案。例如同時部署極速版和高質量版雙模型,為使用者提供選擇權:是立即獲取普通效果,還是等待更優結果。也可以採用混合策略,先用快速模型生成初稿,再用大模型最佳化最終質量。另一個思路是允許使用者離開當前頁面,待結果就緒後透過推送通知召回。
在耗時最佳化方面,需要區分量變與質變。大多數技術如模型蒸餾、量化只能帶來量變改進(如響應時間從 5 秒縮短到 3 秒)。但在直播等特殊場景,耗時最佳化必須達到質變級別——任何延遲都不可接受。這種情況下,即便犧牲部分效果也要優先保證即時性,否則整個方案就無法落地應用。這種質變最佳化往往能解鎖全新的業務可能性。
趙波:當模型推理速度達到即時的時候,會產生什麼新的應用場景?
邵帥: 傳統網際網路時代有著嚴格的速度標準——頁面載入超過 1 秒就會影響體驗,服務響應超過 3 秒就難以接受。但在當前的大模型應用中,30 秒甚至更長的等待時間變得常見,在高峰時段排隊等待 30 分鐘的情況也時有發生。有趣的是,使用者對這種延遲的容忍度明顯提高了,這主要源於大模型帶來的前所未有的能力突破。雖然使用者勉強接受了這種體驗降級,但顯然這種互動方式遠非理想狀態,這也促使行業普遍開始重視"first-token 延遲"的最佳化工作。
如果我們能夠將模型響應速度提升到即時或秒級,整個互動模式將發生根本性變革。以文生圖或文生影片場景為例,當前的互動流程是:輸入提示詞→點選生成→等待結果→評估質量→可能需要重新生成。這種模式效率低下。未來我們完全可以實現更流暢的體驗——比如在繪圖場景中實現"一筆一生成"的即時渲染,或者在對話式生成中實現語音輸入與影像生成的同步進行,真正做到"邊說邊生成"。
這種革新將徹底消除傳統"輸入 – 等待 – 輸出"的斷點式互動,代之以無縫的即時體驗。在數字人直播、智慧客服、AI 面試官等需要即時反饋的場景中,這種變革尤為重要。我相信,這種互動革命很快就會成為行業標配,而實現這一目標的關鍵就在於持續最佳化模型的響應速度。
高歡: 從互動方式和多模態(any to any)的角度來看,如果真能實現即時推理,那麼《三體》小說中描繪的許多場景都將成為現實。我們可以輕鬆地將腦海中的想象即時轉化為視覺可見的內容,這將極大地提升我們的預判和決策能力——AI 能即時提供各種訊號和依據來輔助我們做出判斷。
觀眾:資料達到多少才有必要定製,以及定製化需要的最小資料集大小應該是什麼樣?
邵帥: 關鍵考量因素在於業務價值而非單純的資料量,只要某個場景具備足夠高的業務價值,就有必要考慮定製化方案。至於最低資料要求,當前已有多種輕量化定製技術,比如使用 LoRA 等方法,在影像或影片領域可能僅需幾十到一百張樣本就能啟動訓練——當然資料越多效果越好。
我們在實際業務中探索出一種"自增強"方法:初始階段可能僅用 10 張圖片訓練一個初始模型,雖然效果有限,但可以用它批次生成新樣本。假設生成 1000 張圖中僅有 10% 可用,我們就能篩選出 100 張質量合格的圖片加入訓練集。透過多次這樣的迭代迴圈,最終可以獲得數量充足且質量達標的定製資料集。
趙波:模型技術路線方面,做更大、和做更輕量化的模型分別有什麼不同?有哪些對應的落地場景?
高歡: 模型規模與能力確實存在直接關聯——更大的模型通常表現更優,而輕量級模型則更適合即時業務需求。以 caption 為例,若追求極致精準度,大規模模型無疑是更好的選擇;但在需要全量處理的海量資料場景下,輕量化模型才是更實際的選擇。
在實際應用中,我們通常會採用分級處理策略:對於包含複雜事件或多重要素的困難樣本,呼叫大模型處理;而對於相對簡單的常規影片,則使用輕量模型完成。這種差異化方案能夠充分發揮不同規模模型的優勢。
趙波:是否有某些特定的場景說它一定大模型更適合一些,然後或者輕量型模型更適合一些?
高歡: 在短影片理解任務中,我們將其劃分為幾個主要類別:創意類、事實類、相關性判別類等。根據我們的實踐經驗,輕量級模型在處理相關性判斷和創意類任務時表現足夠出色,經過適當訓練即可滿足需求。然而,對於需要深度知識儲備和強推理能力的任務——如問答類或判別類場景——大規模模型展現出明顯優勢。特別是在內容稽核這類高風險領域,採用大模型往往至關重要。
邵帥: 在模型選型策略上,我們通常會從兩個關鍵維度進行考量:首先是業務發展階段。對於尚處探索階段的新業務,由於技術成熟度不足,我們更傾向於採用效能最優的大模型進行可行性驗證。只有當模型能力確實滿足場景需求後,才會著手進行模型壓縮和成本最佳化,推動方案進入穩定交付階段。
其次是使用者需求性質。我們將需求劃分為"靈感激發"和"生產輸出"兩類:在靈感場景中,使用者往往需要快速生成大量參考樣本(如尋找創作靈感或具象化模糊概念),這時輕量快速的模型更為合適;而在確定性生產場景中(如最終成品輸出),質量優先於速度,即便需要更長的等待時間或隔日交付,使用者也願意為更優質的結果買單。
觀眾:現在模型訓練過程中是不是已經遇到了很多的 AIGC 圖片,這些 AIGC 圖片是不是已經產生了一些副作用?我們應如何應對?
高歡: 需要明確的是,AIGC 生成內容並非沒有價值——它們特別適合用於補充特定概念或罕見元素組合的資料缺口。實際操作中,我們透過嚴格的資料預處理流程來確保內容質量:對於達到 100% 擬真度的 AIGC 內容,完全可以視同真實素材使用;而對於存在瑕疵的生成內容,透過識別篩選後,可以調整其在訓練集中的配比。
邵帥: 在 AIGC 內容應用上,我們採取風格區分的策略。對於寫實類風格(如照片級真實感),需要特別警惕生成內容中的 artifact 問題——包括過度磨皮、紋理缺失、摩爾紋等典型的人工痕跡,這類瑕疵會嚴重影響模型的訓練效果。但在非真實感渲染(NPR)領域,如卡通、動漫、遊戲等風格化場景,AIGC 內容經過人工美學把關後,能有效補充傳統手繪難以覆蓋的新概念和新風格。
趙波:在 AIGC 技術落地過程中,騰訊混元大模型在哪些關鍵業務場景實現了顯著的效率提升?
邵帥: 騰訊混元已在遊戲生產環節實現了顯著的效率最佳化,在 2D 概念階段,該技術已應用於角色、皮膚、特效及場景的高效生產。同時,3D 技術也在部分遊戲場景中落地,目前主要用於道具和簡單場景的建模。在創新玩法方面,我們重點關注互動影遊這一遊戲與影視結合的新形式。傳統互動影遊需要為每個敘事分支拍攝大量素材,特別是大 IP 改編作品時,召回明星補拍的成本極高。而透過 AIGC 技術,可以實現人物對話和場景分支的動態生成,這大大降低了製作難度。
在泛營銷場景中,該技術被用於廣告素材的智慧化生成,包括圖片和高轉化率的影片內容製作。特別是針對廣告影片的關鍵前三秒,傳統方式需要投入高昂成本製作誇張畫面來吸引觀眾,而現在透過 AIGC 技術可以快速生成創新內容,同時有效避免重複或觸發消重系統的問題。
趙波:快手在哪些業務場景有明顯的效率提升?生產力提升?
高歡:T2V 訓練的收斂速度顯著加快,這主要得益於資料質量的提升。高質量資料讓模型能夠更好地區分容易混淆的概念,有效降低了錯誤理解的干擾。類似的現象在語言模型訓練中也很明顯,隨著資料質量的提高,模型的收斂速度和在各類榜單指標上的表現都有顯著提升。
趙波:多模態大模型的下一階段突破可能來自哪些方向?技術、資料、應用落地分別將會有什麼樣的突破?
邵帥: 資料層面即將迎來重要突破:透過利用更多模態的資料,即使某些模態存在缺失,也能訓練出具有更強指令遵循和泛化能力的模型。此外,當前的資料清洗流程雖然提升了資料平均質量,但也損失了大量潛在資訊。未來我們需要探索如何增強模型的抗噪能力,從低質量資料中提取更多資訊,或透過修復技術提升資料質量。
第二,個性化將成為關鍵發展方向。每個使用者都有獨特的興趣偏好和需求表達方式,可能是透過文字,也可能是透過互動反饋。如何為不同使用者或不同場景提供差異化能力,實現真正的"千人千面",將是重要的發展方向。
第三,應用層面將迎來顯著增長。目前已有相對成熟穩定的技術方案可供實際使用,不再侷限於研究探索階段。同時,技術應用的耗時和成本都大幅降低。使用者認知也發生了重要轉變:相比一兩年前人們更多是抱著嚐鮮心態體驗新技術,現在使用者對模型的能力邊界已有清晰認知,越來越多的人開始思考如何利用這些模型解決具體問題,因此 2025 年必將成為 AI 應用大規模落地的一年。
高歡: 就像語言模型從最初的百花齊放發展到後來的大一統,從單純的語言理解演進到 RAG 和智慧體等更復雜的應用,多模態技術也將完整地經歷這個過程。未來很可能會出現一個真正實現"any to any"轉換的 all in one 統一模型,這已經成為行業共同努力的方向。
展望未來,像 VLA(視覺語言動作)這樣的具身智慧應用將會更加豐富。從技術發展節奏來看,2023 年第一季度 GPT-3.5 的出現推動了語言模型的快速發展,2024 年則是文字到影片(T2V)技術突飛猛進的一年。而今年 OpenAI 推出的圖片編輯工具,已經展現出向"any to any"模型發展的趨勢。因此,我們有理由期待 2025 年可能成為"any to any"多模態技術爆發的關鍵年份。
趙波: 我們近期主要關注的方向是大模型的空間感知能力。當前多模態模型主要聚焦於平面 2D 視覺和語義理解,而我們正在推動其向三維空間感知方向發展,讓模型能夠更深入地理解和感知物理世界。在多模態生成模型方面,我們正在進行影片生成技術的創新探索,核心突破點在於賦予影片生成模型記憶能力——當模型再次進入同一場景時,能夠保持生成場景中物體的連續性。這項技術突破將有效解決現有影片生成中的一致性問題,為內容創作帶來新的可能性。
趙波:DeepSeek R1 模型很火,多模態模型中 Reasoning 的重要性如何?這其中的 Reasoning 是語言層面的更重要?還是視覺層面的更重要?以及會產生哪些重要應用?
邵帥: 我有一個不太成熟的觀點:Diffusion 模型的推理過程與 COT 思維鏈推理具有高度相似性,兩者都是透過逐步生成的方式,從初始相對粗糙的結果出發,經過層層迭代和最佳化,最終獲得更優質的結果。
基於這個觀察,我認為類似 COT 的推理過程不僅適用於純語言模型,在多模態模型或大一統模型中也同樣可行。事實上,如果採用自迴歸式的建模方法,我們就能充分利用現有語言模型和多模態模型的知識儲備與推理能力。目前我們已經在影像和影片生成的前置環節進行實踐探索。例如,在生成過程中引入類似語言模型的 planning 機制——先進行佈局 layout 或草圖生成,再進入具體的生成階段,這種方法能夠有效提升生成內容的邏輯性和連貫性。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
