多模態模型如何架構選型?從UNet到DiT+AR,智象未來潘瀅煒:今年要觸達物理世界的構建

作者 | 褚杏娟
當前,多模態技術正處於快速發展階段,成為 AI 演進的關鍵方向之一。多模態大模型能夠同時生成和理解文字、音訊、影片等多種資訊型別,使機器具備更接近人類的感知與推理能力。當前,業內一邊對多模態模型做前沿研究,一邊探索落地部署。
智象未來是一家專注於視覺多模態生成式人工智慧的初創企業,成立於 2023 年,由加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow 梅濤博士創立,其多模態大模型已經從最初的版本發展到如今的 3.0 版本,架構也幾經更迭,實現了影像和影片生成能力升級。
本次採訪中,智象未來演算法科學家潘瀅煒圍繞智象未來的人才問題、架構選型以及多模態競爭等問題,分享了其對多模態行業的觀察和思考。
6 月 27~28 日,在即將於北京舉辦的 AICon 全球人工智慧開發與應用大會 上,潘瀅煒 將發表演講 《多模態內容生成:從技術突破到創新應用落地》,深入探討國際上最近幾年多模態內容生成的核心技術突破,包含擴散模型 UNet 結構到 Diffusion Transformer(DiT)架構的演進,智象未來自主研發的智象多模態大模型在影像和影片生成能力上的技術升級,以及如何突破使用者最後一公里。敬請期待:https://aicon.infoq.cn/2025/beijing/presentation/6458*
高尖人才管理
InfoQ:資料顯示,公司現有博士及碩士技術骨幹佔比超過 90%,是典型的高階人才聚集企業。這個是如何做到的?對於這樣一批高尖人才,你們選擇了什麼樣的管理方式?
潘瀅煒:我們創始人團隊豐富的工業界經驗和濃厚的學術底蘊。團隊實行較為扁平的架構,每一位本就都有著用“技術改變世界”的使命感,我們會以產品和商業化的目標來牽引技術的創新和突破,做“難而正確的事”。
InfoQ:包括你本人在內,大家都發表過很多高水平論文,如何把論文成果轉化具體的模型?
潘瀅煒:準確來說不是論文成果轉化具體模型,而是在研發真實場景下的模型能力的時候,遇到真正的技術痛點之後,我們才會圍繞這個去提升模型能力,最後大家會統一判斷它在工業界和學術界的技術影響力,合適的話才會去產出對應的論文。
InfoQ:現在大家的精力有多少放在了論文研究上?
潘瀅煒:技術研發和落地應用本質上是一件事,我們員工從來不是 paper-driven 的去做研發,始終都是以產品落地和商業化的目標來牽引技術的創新和突破,作為研發人員,我們最大的夢想永遠都是技術的廣度(讓更多的使用者去享受技術帶來的生產力變革)+ 技術的深度(攻克世界級技術難題,做具備世界級技術影響力的事)。
InfoQ:你之前也提到智象的模型迭代節奏快、訓練強度大,創業以來就是這樣嗎?大家如何適應這種節奏?
潘瀅煒:在公司技術路線上,我們有著絕對的堅定信心,減少外部噪音。過去的一年是多模態應用井噴的一年,有非常多的場景和想象空間,但是我們堅持做好自己自研的基礎模型,然後在我們擅長的賽道做驗證,也非常考驗技術定力。
另外我們的模型迭代節奏的確很快,因為我們的技術路線也是從使用者出發的,堅定不移地保持著保持使用者驅動,技術一定是服務大眾使用者的,我們不會糾結在某項技術的領先,但是我們會非常在意使用者有沒有在我們的產品上獲得足夠好的反饋,根據使用者的反饋我們會持續不斷地在使用者真實場景下去迭代模型。
多模態模型的技術選型
InfoQ:創業初期,團隊如何完成了從 0 到 1 的研發啟動?這個階段最難的事情是什麼?
潘瀅煒:我們在 2017 年的時候就開始研究如何用上一代的生成式模型(GAN)去做文生影片,也算是這個方向最早期探索的團隊之一,當然除了文生影片生成之外,團隊在視覺與語言和影片內容理解的研究也非常深入,例如 2017 年設計了影片分析領域標準 3D 卷積神經網路,199 層 Pseudo-3D (P3D) Network,極大地提升了多種不同影片理解任務的效能,這一工作單篇引用已超過兩千次。團隊還構建了業界首個大規模影片 – 語言跨模態資料集 MSR-VTT,打破了在此之前小規模的影片 – 語言跨模態對預定義詞表和模型學習的侷限性,這一工作單篇引用率也已超過兩千次,已被全球四百餘研究機構的學者下載使用,也是現在多模態理解大模型在影片內容理解任務上必測的標準資料集之一。
而創業初期,當時正處於大語言模型創業公司不斷湧現的時期,而我們正是看到了多模態 AIGC 剛剛萌發的機遇和挑戰,並很欣慰看到當時例如 Midjourney 的影像生成功能在使用者側正不斷被接受且使用者願意付費,這些都告訴我們多模態生成式大模型的元年即將到來。因此,研發的啟動靠的還是我們足夠的底氣——團隊在多模態領域擁有著超過 15 年的技術和產品積累,並在微軟和京東兩家 500 強企業均得到了充分驗證。
InfoQ:對比市面上其他的模型,智象在研發過程中更關注模型的哪些方面指標並且如何進行重點攻關?
潘瀅煒:在預訓練階段關注的還是大家常見的技術指標,類似於語義相關性、藝術美感指標等等,而在後訓練階段將更多地關注 human perference,即真正使用者視角下的可用性,利用類似於強化學習的方式將模型在真實場景下真正從 90 分提升至 100 分,解決使用者最後一公里的問題。
InfoQ:可以看到,智象內部經歷了多模態模型的架構演變,從 1.0、2.0 的 DiT 架構到 3.0 的擴散自迴歸模型(DiT+AR)。每個階段背後的技術選型考量是什麼?
潘瀅煒:23 年創業初期,我們釋出的 1.0 版本主要是基於 UNet 架構的擴散模型,技術上主要考慮是如何在畫素空間提升生成質量同時又在語義隱式空間去保證語義一致性,整體上還屬於很短時間內的國際跟跑。
到了 24 年我們就很快釋出了 2.0 版本,是和 Sora 同架構的 Diffusion Transformer(DiT),而我們從技術上主要考慮如何實現生成效率和生成質量的極致價效比,即和國際第一梯隊實現並跑的同時、大幅降低訓練成本(約十分之一)。這一套架構我們也在今年開源了,也就是我們的 HiDream-I1,它在國際權威榜單 Artificial Analysis 中 24 小時內實現登頂,成為首個躋身全球第一梯隊的中國自研生成式 AI 模型,並在影像質量、語義理解、藝術表現三大維度重新整理行業紀錄。在開源社群 Hugging Face 上全球排名前列,釋出一個月內模型下載近 30 萬次。
24 年下半年,我們會進一步去思考“成本 – 效率”的平衡,以及從使用者的視角更多地關注基礎模型在上層應用的表現,這也就誕生了我們 3.0 版本,即擴散自迴歸架構(Diffusion Transformer + Autoregressive model),背後的技術考量就是希望在增強生成畫面質量的同時推理耗時進一步降低,同時採用全域性鏡頭運動和區域性畫面運動聯合學習,實現影視級運鏡和更為生動的畫面運動,並利用 Mixture-of-Expert 多場景學習放大多模態生成大模型的產品能力特色,實現不同特色場景下的生成效果提升,完成使用者最後一公里。
InfoQ:進行大的架構調整,你們從決策層和研發層分別遇到了哪些挑戰?
潘瀅煒:因為我們扁平高效的組織架構,所以每次大的架構調整都非常順利,不存在溝通上的挑戰。
InfoQ:你對智象當前擴散自迴歸模型的效果滿意嗎?未來還要做哪些最佳化?
潘瀅煒:擴散自迴歸模型本質還是對物理世界的復刻,所以它無法去真正實現物理世界的建模、去掌握精準的物理規律。
多模態模型的架構之爭
InfoQ:你認為,現在多模態模型的架構之爭是否已經有了結果?為什麼?
潘瀅煒:其實我們在技術上一直是走的比較靠前的,當大家還在談論是選擇自迴歸還是擴散模型的時候,即“架構之爭”的時候,我們在去年已經做完驗證併發布了全新的擴散自迴歸架構,其本質是怎麼很好的融合擴散和自迴歸,即之前提到的 3.0 版本,但它還是在對物理世界的復刻,依然無法實現對物理世界的建模。
今年,在技術上我們會更多地去思考如何實現真正物理世界構建,我們稱之為”三維重建和影片生成的統一“,這套架構會跳出物理世界模擬的套路(一味的模擬永遠無法實現世界的生成),在影片生成的過程中用三維重建去構建真實物理世界,在構建物理世界的同時又去渲染影片生成,真正去觸達物理世界的構建。
InfoQ:當前,多模態模型的視覺理解與推理能力也頗受重視,當前業界在這方面的研究如何?智象內部做了哪些事情?
潘瀅煒:關於多模態理解,從我們智象的視角來看,理解模型和生成模型雖然用於不同的應用場景,採取不同的技術路線,但是兩者之間又有千絲萬縷的關係。從宏觀角度來看,兩者皆屬於多模態大模型,核心問題是多模態資料之間的對齊,而主要的不同在於,生成大模型目的是生成使用者需要的多模態內容,注重生成內容的質量以及使用者需求的理解,而理解大模型主要的目的是根據多模態資料內容的解讀對使用者的提問作出回答,注重的是回答的準確性。換句話說,一個是從描述到資料,一個是從資料到描述,處於對偶關係。
在我們研發智象多模態生成式大模型的過程中,已經積累了充足的多模態資料,以及多模理解模型的相關技術,我們也研發了內部使用的多模態理解模型,主要用來對多模態資料進行標註從而輔助生成式模型的訓練。此外,這一理解模型也進一步服務於我們理解增強的多模態生成技術,搭配多模態生成大模型實現多模態檢索 + 多模態內容編輯與生成的二創平臺系統,進一步降低使用者的使用門檻並且大幅提升基於 IP 的多模態內容生成效果。
InfoQ:Infra 層方面,多模態模型有哪些必須或特殊的要求?根據使用經驗,當前的 AI 基礎設施存在哪些好處和不足?
潘瀅煒:相比於單純使用文字內容訓練的語言大模型,多模態大模型的訓練不僅需要處理大量的文字資料,還需融合圖片、影片及 3D 等多種模態的資料。這些多樣化的資料型別意味著對訓練叢集在資料儲存和處理能力上有著更為嚴格的要求。因此,在基礎設施層面,除了考慮 GPU 算力外,還需配置充足且可靈活分配的 CPU、高效能硬體解碼器、大容量高吞吐低延遲的儲存解決方案,以及高速的資料網路以支援多模態資料的即時傳輸。
InfoQ:在適配國產算力上,研發團隊需要做哪些事情?訓練過程中,如何平衡模型效能與算力成本?
潘瀅煒:在適配國產算力的過程中,需首先全面評估國產計算卡在真實場景下的效能指標,並核對其對各類運算元的支援範圍;其次,依據適配需求,從推理側入手,逐一實現所需的計算模組,並進行浮點數精度校正,以確保推理結果的一致性;隨後,可以嘗試將推理計算模組擴充套件為支援訓練的模式,實現大規模的分散式訓練方案,並進行訓練精度的校正;最後,要透過效能調優充分挖掘國產算力卡的硬體潛力。
什麼樣的公司能留在牌桌
InfoQ:前段時間,智象創始人梅濤在一次採訪中提到,“今年對我們來說很重要,我們要留在牌桌上。”為什麼今年是重要的一年?當前的競爭格局是怎樣的?
潘瀅煒:2024 年初,Sora 的驚豔亮相,將文生影片技術推向 AI 領域競爭的新高地。彼時,成立僅一年多的智象未來,憑藉在生成式 AI 和多模態領域的技術積累迅速響應,僅用短短 2 個月時間便推出全球首個上線開放使用的影像和影片生成(DiT)架構模型,並迅速在 vivago.ai 上線向全球使用者提供影片生成服務,把握了行業發展先機。對於智象未來而言,2025 年之所以重要,原因是多方面的。
從技術發展角度,AI 領域技術迭代日新月異,新的模型架構、演算法不斷湧現。以文生影片為例,在 Sora 釋出引發行業關注後,智象未來迅速推出相應的 DiT 模型,但技術競爭不會停歇,需要持續投入研發以保持技術的先進性和領先地位。如果在這一年不能跟上技術迭代的步伐,可能就會被競爭對手超越,失去在市場中的技術優勢。
從市場競爭層面來看,越來越多的企業和資本湧入 AI 賽道,尤其是在視覺多模態領域,競爭愈發激烈。新的創業公司不斷誕生,傳統科技巨頭也在加大投入。智象未來雖然已經取得了一定成績,服務了 100 多個國家和地區的 1000 多萬用戶和 4 萬多家企業 ,但市場份額的爭奪始終處於動態變化中。2025 年若不能進一步拓展市場、提升品牌知名度和使用者粘性,已有的市場份額可能被競爭對手蠶食。從商業化角度,智象未來成立兩年在商業化上有了一定進展,但仍有較大提升空間。創業公司需要實現可持續的盈利,2025 年對於其探索合適的商業模式、提高收入、實現盈利平衡至關重要。若不能在商業化上取得實質性突破,長期依靠融資維持運營並非長久之計,會面臨較大的生存壓力。
當前視覺多模態 AI 領域的競爭格局呈現出複雜且激烈的態勢。一方面,科技巨頭憑藉雄厚的資金實力、海量的資料資源、強大的研發團隊和廣泛的市場渠道,在競爭中佔據優勢地位。例如,一些大廠擁有自己的雲計算基礎設施,能為模型訓練提供強大的算力支援,並且可以利用自身多元的業務場景快速推廣和應用 AI 技術。另一方面,新興的創業公司則以創新的技術和靈活的市場策略為突破口。像智象未來這樣專注於特定細分領域,透過技術創新打造差異化競爭優勢,快速響應市場需求推出創新性產品。還有部分開源社群和研究機構也在推動技術發展,開源的模型和技術成果為行業提供了更多的創新思路和基礎,但同時也加劇了競爭,因為企業可以基於開源成果更快地開發產品和服務。在這樣的競爭格局下,企業需要在技術創新、產品應用、市場拓展、商業模式等多個維度發力,才能在競爭中脫穎而出,留在牌桌上繼續參與這場激烈的角逐。
InfoQ:你認為,什麼樣的公司才能留在牌桌上?智象未來的競爭力在哪裡?
潘瀅煒:在 AI 行業,能 “留在牌桌上” 的公司通常具有以下特徵:
  • 強大的技術研發能力:AI 領域技術更新換代快,需要公司持續投入研發,不斷進行技術創新和模型迭代,以保持技術的先進性。例如,能快速推出新的模型架構、演算法,提升模型的效能、精度和效率等。
  • 充足的資金支援:研發 AI 技術需要大量的資金投入,用於購買算力裝置、聘請專業人才、進行市場推廣等。有穩定的資金來源,如融資、政府扶持或自身盈利,才能保證公司的持續運營和發展。
  • 優秀的人才團隊:擁有頂尖的 AI 科學家、工程師、演算法研究員等專業人才,他們能夠推動技術的研發和應用。同時,具備良好的團隊協作能力和創新氛圍,吸引和留住人才。
  • 清晰的商業模式:明確如何將技術轉化為產品或服務,並實現商業化盈利。例如,透過提供軟體服務、解決方案、授權技術使用等方式獲得收入,滿足市場需求。
  • 良好的市場拓展能力:能夠準確把握市場趨勢和客戶需求,將產品或服務推向市場,獲得使用者和客戶的認可。具備較強的品牌建設和市場營銷能力,提高市場份額。
智象未來的競爭力主要體現在以下方面:
  • 領先的技術實力:自主研發的 “智象視覺大模型” 是國內首批透過模型和演算法雙備案的多模態生成式大模型,也是全球支援影像和影片生成的最大模型之一。能實現文字、圖片、影片等多模態內容的生成,在 4K 高畫質畫面、全域性 / 區域性可控、劇本多鏡頭影片生成等功能上表現出色。
  • 快速的技術響應:在 2024 年初 Sora 釋出後,智象未來憑藉技術積累,僅用 2 個月時間就推出全球首個上線開放使用的影像和影片生成(DiT)架構模型,並不斷迭代升級,展現出快速響應行業變化的能力。
  • 完善的應用平臺:推出智象 AI 應用平臺。其中智小象 AI 於近日升級全球上線,作為 AIGC 通用影像影片創作工具及內容社群,提供多種功能,提升設計效率。
  • 廣泛的商業合作:與多家上市公司深度合作,如彩訊股份、慈文傳媒、寒武紀、浙版傳媒等,拓展了 AI 技術的應用場景,從企業服務到消費市場,從影視內容創作到泛文化領域,推動了智象未來的商業化程序。
活動推薦
6 月 27~28 日的 AICon 北京站將繼續聚焦 AI 技術的前沿突破與產業落地,圍繞 AI Agent 構建、多模態應用、大模型推理效能最佳化、資料智慧實踐、AI 產品創新等熱門議題,深入探討技術與應用融合的最新趨勢。歡迎持續關注,和我們一起探索 AI 應用的無限可能!

相關文章