AI也可以腦補畫面了嗎? 2025-05-06 22:58 阿里技術 一 導讀 一段描述性的文字、配上風格參考和區域性的畫面資訊,AI有可能快速、準確的“腦補”出完整的影像嗎?在深度學習頂會NeurIPS 2021上,阿里巴巴達摩院智慧計算實驗室提出了一種全新的多模態預訓練架構,M6-UFC 來統一任意數量的多模態控制用於靈活的條件影像生成。實驗表明,M6-UFC 可應用於服裝設計、促進智慧製造的發展和個性化服裝定製。 在犀牛智慧製造的業務中,M6為淘寶運動時尚品牌設計“元生款”服裝,幫助降低人力投入、時間成本和整個設計流程的碳排放。根據估算,透過M6先製作初始樣本,並結合犀牛環保面料如天然纖維材質的研發應用,就能在設計-生產這件印花T恤的過程中減少30%以上的碳排放。利用M6模型和犀牛智造,現在賣出一件服裝大約能減排0.35千克二氧化碳;賣出50件就相當於種下一棵樹。 二 文章框架 1 AI的想象力? 告訴你一些資訊,你能想象整件衣服是什麼樣子嗎? 比如:要和下面↓↓領子一模一樣: 這個圖案設計很好看,想要一件類似的: 再比如, 一件 “真絲紗網拼接A字連衣裙”。 下面揭曉答案: 其實,這些設計都是由一個神經網路完成。各種衣服想怎麼組合,就怎麼組合,例如下圖的西裝+印花t恤,短裙+襯衣 等等;花紋,顏色,材質都可以都可以很好的融合。 不用擔心撞衫,同樣的控制訊號,想生成多少款就生成多少款: 2 一個多模態控制下的影像生成模型 以上的這些都來自一個叫M6-UFC的模型,可以使用任意數量的文字、影像作為控制訊號,生成高質量的影像,還能對細節進行保留和編輯。 研究出自阿里巴巴達摩院和清華大學,相關論文已被NeurIPS 2021接收。 在此之前,大多數的影像生成編輯方法,通常只使用一種控制訊號。例如,在影像inpainting和outpainting任務,會給定影像的一部分,在風格遷移任務中,會給一張風格影像,在文字生成影像中,會給一段描述圖片的話。 M6-UFC作為一種全新的方法,第一次將多種控制訊號統一起來,並可以對任意數量的控制訊號進行組合來生成影像。 例如在下面這張圖中,就同時輸入了文字“翻領墊肩橙色帶口袋西裝大衣”,影像“翻領”和要保留的部分“米色寬鬆下襬”: 而M6-UFC會根據控制訊號,生成滿足所有要求的影像。 M6-UFC的核心思想在於非自迴歸的訓練框架,相容了之前架構(例如 DALL·E,VQGAN)不相容的影像控制和保留控制訊號。 非自迴歸生成的好處不止於此,還大大提高了生成速度,並增強了影像的整體一致性。 模型的輸入是一個24層的M6(一種Transformer模型),它的輸入分為四部分:第一部分是兩個特殊的評測token [REL]和[FDL],用於評測控制訊號與生成影像的相關性,以及生成影像的真實性,用於後續的PNAG演算法;第二部分是文字控制輸入,即任意長度的單詞序列;第三部分是視覺控制輸入,這裡我們將視覺控制的影像透過第一階段的codebook轉化成了一個code序列,而我們進一步支援多個視覺控制,用[SEP]將多個控制的code序列劃分開;最後一部分是待生成的影像,它同樣被轉化為一個code序列,而在訓練或者NAR生成中,這個code序列被部分或者全部mask。 3 訓練過程 研究人員設計了三個任務來訓練模型,主任務為Masked Sequence Modeling(MSM),同時有兩個評測任務 Relevance Estimation和Fidelity Estimation。 任務一:Masked Sequence Modeling 這個任務相似於BERT中的masked language modeling。作為影像領域最早運用離散code來做MLM訓練的模型之一,M6-UFC和同期的工作BEIT相比,其mask策略更加完善因此也能支援更復雜的控制型別。M6-UFC中有如下四種策略:1. 隨機決定mask的code數量,然後隨機取樣需要mask的位置;2. 全部mask;3. 隨機選擇影像中任意大小的box區域,然後對該區域進行mask;4. 隨機選擇影像中任意大小的box區域,然後對該區域外的部分進行mask。 在此之上,M6-UFC還將mask策略進一步拓展到了多種控制模態, 對於文字控制(TC)和視覺控制(VC)進行四種組合(保留控制被自然地包含在mask的訓練過程中):兩者兼有,只有一種,或者兩者皆無。因為資料集中沒有提供視覺控制-目標影像對,而只有文字-影像對,研究者們擷取目標影像中的一個或者多個區域來作為訓練過程中的資料額控制。 任務二:Relevance Estimation 將token [REL]的特徵輸入到一個線性分類器進行二元分類,判斷控制訊號和當前生成影像的相關性。這裡的負樣本透過將兩個訓練樣例的控制訊號進行互換。 任務三:Fidelity Estimation 將token [FDL]的特徵輸入到一個線性分類器進行二元分類,判斷生成影像是不是真實的。由於資料集中不存在”不真實“的負樣本,我們在訓練幾個epoch後用M6-UFC進行text-to-image生成,把合成的影像作為負樣本。 在模型推導階段,研究人員提出了一種漸進式的非自迴歸生成方法PNAG。在每一次迭代中,在mask階段都產生5個不同的輸入樣例,然後在predict階段產生5個生成影像,以及這5張圖的relevance和fidelity分數。選擇relevance和fidelity分數最高的(以1:1的比例加權)影像作為下一步的輸入影像。PNAG演算法可以給用兩個評測器指導非自迴歸迭代的生成方向,而不是”無意識“地進行迭代。 隨著迭代的進行,影像與文字的相關性和影像質量會越來越高。紅框的是具有最高分的影像,也就是最終結果,這和我們人眼的認知基本相符,如下圖所示: 4 測試結果 真實效果如何? 研究人員在標準資料集上與傳統的GAN-based方法進行比較,發現在FID和LPIPS上都取得了當前最好的效果。 之後,研究人員將M6-UFC和VQGAN進行詳細的比較,在自動評測上基本取得更好的效果,人工評測上更是大幅領先。 與此同時,M6-UFC所花的時間不到VQGAN的10%! 再來看看生成的影像,一個反事例項子中(男式牛仔風格的蕾絲裙),VQGAN生成了一條正常的牛仔褲,而UFC-BERT生成了一件現實不存在的服飾,一條具有蕾絲下襬,男士褲襠設計的牛仔裙。 使用文字控制(TC)和保留控制(PC): 使用文字控制(TC)和視覺控制(VC) 文章也討論了PNAG演算法的有效性,產生三個消解模型,其中PNAG(w/o. REL)去掉了相關性評測器,PNAG(w/o. FDL)去掉了真實性評測器,而MNAG是原始的Mask-Predict演算法。同時,在PNAG中,並行迭代的數量B也是個重要的超引數,預設為5,研究者們將其也設定為1和10進行實驗。消解結果如下,可以發現兩個評測器都對影像生成的質量有很大幫助,而B設定的越大,PNAG迭代時搜尋的空間越來,影像質量也就越好。 5 前景與展望 本文介紹了一種新架構 M6-UFC,以統一任意數量的多模態控制,以實現靈活的條件影像生成。UFC的編輯能力,大大提升了影像在少樣本情況下的生成拓展性和創造力,透過自動影像生成來打造全新款式。實驗表明,M6-UFC可以應用於服裝設計。因此,這項研究可以推動智慧製造的發展,促進個性化服裝定製,幫助服裝設計師提高效率。 AI不僅僅有理解和匹配能力,更加有創新創造的能力。而這樣的能力,也慢慢趨近於人類的認知能力,我們從以往的事物中學習和理解,並在新的場景下自由組合和創造。我們相信這樣的能力不僅會給消費者帶去耳目一新的體驗,也能透過平臺給商家帶去全新的賦能體驗。 關於M6 M6是阿里巴巴智慧計算實驗室推出的超大規模預訓練模型。M6團隊相繼提出百億、千億、萬億和十萬億引數規模的超大規模預訓練模型M6。除了首先透過擴充套件稠密模型觀察到和Neural scaling law一致的現象,後續M6團隊開始研究超大規模MoE模型,是在全球範圍繼谷歌後首個在此領域深入探索的團隊。隨後打造了第一個基於稀疏專家模型的多模態預訓練模型-千億引數M6,用非常高效的方式完成如此大規模的多模態預訓練模型的訓練。完成第一步之後,M6團隊在此前研究的基礎上,開始思考如何讓MoE模型變得更加強大的同時,也能更加低碳、環保。最終,在今年5月,在相比千億M6顯著提效的同時,萬億引數M6-T僅用480張GPU耗時3天即訓練完成。10月,M6再次突破業界極限,透過更細粒度的CPU offload、共享-解除演算法等創新技術,讓收斂效率進一步提升7倍,這使得模型規模擴大10倍的情況下,能耗未顯著增加。 除了深入探索大模型研發的技術,M6團隊同時也高度關注大模型的落地應用和服務。針對不同的業務場景,團隊將M6模型和各類單模態和跨模態的下游任務,包括理解類和生成類任務深度結合,推出了服務化元件,日均實現上億呼叫,得到了業務方的認可和積極的意見反饋。同時團隊將M6模型的生成和理解能力,落地到服飾製造、智慧文案生產、金融領域對話與問答等應用場景中,將技術能力轉化為工業落地價值。 資料庫常見問題排查 開發者經常會遇到些資料庫的問題,覺得無從下手,這嚴重影響了開發效率,也影響了開發者對資料庫的熱情。如何避免這樣的窘境,如何降低資料庫使用門檻以及運維的成本,如何在較短的時間內用雲資料庫的技術和理念來武裝自己,提升自己。本課程透過實際的場景以及最佳實踐出發,帶給大家一些資料庫問題的通用解決思路和方法,大家會發現資料庫不再是一個黑盒,相反它看得見,摸得著,也能夠輕鬆玩得轉。點選閱讀原文檢視詳情。 關鍵詞 模型 資料 預訓練模型 多模態 服裝