多模態AI黑馬刷榜後再造神器：一個產品搞定圖片影片播客生成，自帶百種特效，大牛梅濤團隊出品

西風夢晨發自凹非寺量子位 | 公眾號 QbitAI

AI大牛梅濤坐鎮，全新多模態AI問世！

用法上堪稱：全能。

不僅支援圖片、影片生成：

奇幻場景、多樣視角都能駕馭：

而且唇形同步功能上線，社恐大“i”人也能玩轉播客：

劃重點：

官方還提供了上百種可直接套用的趣味特效模板，讓使用者實現“躺平創作”。

像下面這種炫酷轉換，操作簡單到只需上傳一張圖：

人物、動物、建築物的“變身”模板通通都有：

另外，生圖板塊的Image Agent也是官方主打，修圖生圖只需大白話表述，不會寫prompt不是問題，它會自動幫你最佳化修改。

不賣關子，這個最新創作工具就是vivago2.0（智小象AI）。

打造出它的團隊智象未來（HiDream.ai），是圈內鼎鼎有名的大牛——加拿大工程院外籍院士梅濤創立的AI公司，研發團隊中擠滿了來自中科大的中堅。

前段時間，團隊推出的開源模型HiDream-I1曾在文生圖模型競技場一鳴驚人，開源24小時就拿下了排行榜榜首，在國內一眾開源大模型中率先躋身第一梯隊。

當時，就連Recraft（曾神秘刷屏的小熊貓“red_hat”背後團隊）也連夜載入，全球創作者競相加入工作流。

有意思的是，vivago2.0其實結合了HiDream-I1的能力。

目前，vivago2.0已在Web端與App全球同步上線，有此等新玩具量子位自然不能錯過，第一時間上手體驗了一波。

同時我們也對其背後的模型來了個大揭秘。

全新多模態神器食用指南

vivago2.0主打六大玩法：圖片生成、圖片轉影片、AI播客、特效模板、創意社群、話題。

下面我們逐一來看。

圖片、影片、播客生成一套搞定

先看圖片生成玩法，支援文字生圖和“文字+參考圖”生圖。

純文字生圖中，vivago2.0解決了大夥兒不會寫提示詞的問題。

可以看到提示詞輸入框右下角有一個“提示詞機器人”按鈕：

點開後，只需輸入你腦海中的幾個詞，它就能幫你自動組織成具有創造力的完整提示詞。可以點選“使用提示詞”自動匯入到提示詞輸入框中，也可以選擇“引用”對其進一步修改。

另外生成圖片的數量、圖片尺寸、負向提示詞等也都能設定：

話不多說，來看效果。

生成一杯檸檬氣泡水，幾乎看不出AI痕跡，細節感十足：

第一人稱視角生圖也可以，be like：

而文字+影像生圖，也就是上傳參考圖的玩法，有全部、肖像、重繪三種設定。

全部即自動參考整張圖生成；肖像即自動提取人物面部特徵，生成面貌一致的不同風格圖片；重繪則是將原圖重新繪製成不同風格的圖片。

寫實、插畫、皮克斯、3D，各種風格通通拿捏：

△左邊參考圖，右邊轉賽博朋克風格

生圖方面最重磅當屬Image Agent，它提供了一種全新的圖片生成互動形式。

就在一個聊天框中，使用者可天馬行空隨意表達需求，不論是修圖還是生圖，Agent會基於上下文資訊，準確判斷理解使用者意圖。

生圖和修圖都可以批次完成。

例如生成小狗在草地追逐飛盤玩的影像，然後讓它修改成畫素風，vivago2.0可以四張圖同時修改，並且和原圖其它元素保持一致性。

Image Agent還提供了“重寫”、“幫我寫”prompt的功能，創作點什麼使用者只需會用大白話表達就行。

接下來影片生成方面，同樣是有圖片生成影片和文字生成影片兩種玩法。

圖片生成影片可以基於一張圖生成，也能基於兩張圖設定首尾幀。

透過設定首尾兩張關鍵幀，即可一鍵生成“變身”式連貫影片效果。

各種場景都能絲滑轉換：

vivago2.0還有一個更為方便快捷的設計。

在圖片生成介面，其實可以直接點選生成好的圖片上的按鈕，進行轉影片等一系列操作。

於是乎，我們前面生成的騎腳踏車的圖片，一鍵動了起來：

無論是寫實風格的場景，還是充滿想象力的奇幻畫面，只需一句話，vivago2.0即可將其轉化為動態影片呈現。

比如一隻在海上衝浪的狗子：

再比如魔改靜態表情包（我哭了，但眼淚是清涼油燻出來的），vivago2.0還會自動提升畫質。

圖片、影片看過後，再來看看AI播客功能。

AI播客製作功能也就是👄唇形同步，自己配音或者是寫一段文字讓AI配音都行。

同樣可以在生成的圖片、影片基礎上，直接生成。

當輸入文字 “Life is like a box of chocolates. You never know what you’re gonna get” 時，圖片中的人物能根據文字自然地完成口型同步。

與此同時，人物的肢體動作也會隨著話語同步變化。

我們特意挑選了一張側臉人物圖，口型同步依舊比較流暢自然。

vivago2.0還有更多社交、開放性玩法。

開源SOTA的再進階版

技術方面，vivago2.0新能力背後依託的全新影像Agent——HiDream-A1。

HiDream-A1結合了開源模型HiDream-I1、HiDream-E1的進階版閉源模型（HiDream-I1.1、HiDream-E1.1）。

HiDream-I1是圖像生成基礎模型，引數170億，總共開源三個版本：完整版HiDream-I1-Full、蒸餾加速版HiDream-I1-Dev、蒸餾極速版HiDream-I1-Fast。

HiDream-I1-Full是完整版本，需要50多步擴散步驟，追求的是極致畫質。這個版本適合那些“慢工出細活”的創作場景，比如商業海報設計或藝術創作。

HiDream-I1-Dev是經過引導蒸餾的版本，將步數壓縮到28步，在質量和速度之間找到了黃金平衡點。

而HiDream-I1-Fast則是極速版，僅需14步就能生成高質量影像，簡直是為即時應用量身定製。

其中HiDream-I1-Dev開源不到24小時，就登頂Artificial Analysis圖片生成競技場。

HiDream-I1在HPS（綜合評測生成影像的語義相關性、畫質和美感）基準上拿下SOTA：

同時在GenEval和DPG-Bench（評測生成影像和輸入文字的語義相關性）基準上，評測結果同樣是SOTA：

HiDream-E1是互動式影像編輯開源大模型，主打功能就是最近GPT-4o爆火的用嘴改圖功能。

HiDream-I1+HiDream-E1可以稱得上是開源版GPT-4o。

HiDream-I1的核心創新，是把稀疏混合專家（Sparse MoE）技術巧妙地融入到了擴散Transformer架構中。

他們設計了一個雙流-單流混合的稀疏DiT結構。

具體來說，模型先用雙流DiT分別處理影像和文字token，就像左右手各司其職。在這個階段，每個模態都有自己的專屬通道，可以充分提取各自的特徵。隨後，模型切換到單流DiT架構，讓兩種模態實現深度融合。

最妙的是，無論是雙流還是單流階段，團隊都引入了動態MoE架構。這就像給模型裝上了智慧路由器，每個輸入token都會被動態分配給最擅長處理它的專家模組。

在文字編碼方面，HiDream-I1採用了“四管齊下”的混合策略：

長上下文CLIP提供視覺語義對齊，T5編碼器負責解析複雜文字結構，Llama 3.1則貢獻深層語義理解，而且還特意從LLM的多箇中間層提取特徵，避免了最終層輸出中細節資訊的流失。這種“集大成”的做法，讓模型對文字提示的理解能力大幅提升。

訓練策略上，團隊採用了漸進式解析度訓練，從256×256開始，逐步提升到512×512，最終達到1024×1024。

智像未來團隊並沒有止步於文生圖。他們還透過“上下文學習”方法，將HiDream-I1擴充套件成了指令式影像編輯模型HiDream-E1。使用者只需要提供原圖和編輯指令，模型就能精準地完成修改任務。

最終，團隊將文生圖的HiDream-I1和影像編輯的HiDream-E1整合，推出了綜合性影像智慧體HiDream-A1。

這個智慧體就像是一個“全能影像助手”，既能根據描述生成影像，又能按照指令編輯影像，還能進行多輪對話式的創作和修改。讓使用者可以像和ChatGPT聊天一樣，透過自然語言完成複雜的影像創作任務。

背後團隊：AI大牛梅濤坐鎮

智象未來成立於2023年3月，名字算新，但背後創始人，AI圈內無人不知——梅濤，加拿大工程院外籍院士，同時也是IEEE/IAPR/CAAI Fellow，是人工智慧、計算機視覺和多媒體領域的世界級專家。

而智象未來的核心團隊成員則來自微軟、百度、騰訊、華為、京東、字節跳動等全球500強公司的核心技術團隊，團隊中博士、碩士佔比超過90%，據說不少來自中科大。

團隊成員多為AI影片技術出身，早在2017年，他們在ACM Multimedia大會發表了論文"To Create What You Tell: Generating Videos from Captions"。

現在看來這是學術界第一批研究文字生成影片的技術論文之一，只不過當時該研究方向還被稱為Caption-to-Video。

雖然今天看來，當年他們用GAN（生成對抗網路）做出來的影片生成遠談不上完善，但不可否認其前瞻性。

而且正是因為在影片生成領域的堅持，讓他們在AIGC方向的爆發時憑藉技術積累再次取得突破：全球首個上線開放使用的影像和影片生成Diffusion Transformer（DiT）架構模型。

相較於大型科技公司動輒上萬卡的超大規模投入，智象未來選擇了一條更加務實的發展道路——技術上聚焦視覺多模態基礎模型，產品上則表現為貼近商業化的可控圖/影片生成。

而這一策略顯然贏得了懂技術的投資人的青睞。

從2023年4月獲得阿爾法公社、中喝大種子一號基金的種子輪融資，到2024年上半年完成敦鴻資本領投的近億元Pre-A輪融資，再到2024年後續完成的以合肥產投為主的國資基金領投的A輪融資，智象未來的融資歷程可謂順風順水。據瞭解，A輪融資規模已達數億人民幣，跟投方還包括安徽省人工智慧母基金、湖北省長江電影集團有限公司等機構。

不論是融資速度還是規模，都能管窺資本市場對智象未來技術實力和商業化前景的認可。

梅濤對此也有著清晰的見解：“大語言模型需要大量的算力和融資，2023年需要千卡，2024年需要萬卡，這是一個贏者通吃的領域。對於中國的創業公司來說，籌集這麼一大筆資金有一定難度，要跟上大廠的競爭步伐也有難度。影片行業這個賽道不需要太大投入，規模可控，而且離商業化進展最近。”

而這一判斷似乎也得到了市場的驗證——2023年，全球AIGC約200億美金的收入中，50%-60%來自影片和影像，其中Midjourney在這方面的收入已達2億美金，已經驗證了產品市場契合度（PMF）。

自2023年3月成立以來，智象未來在視覺多模態基礎模型及應用領域不斷深耕，釋出了一系列令人矚目的成果。

劃重點了，智象多模態大模型，模型引數規模超百億，實現對文字、影像、影片、3D的聯合建模，並已透過模型和演算法雙備案。

基於此構建的“智象AI”系列產品，具備影像生成編輯、4K高畫質畫面、全域性/區域性可控、劇本多鏡頭影片生成等功能，在AIGC技術和數字創意領域商業化方面優勢顯著。

2024年，智象未來的戰略合作動作頻頻：與慈文傳媒進行戰略合作簽約；和上影集團聯合釋出“AI+”合作計劃；與中國移動咪咕聯合釋出首個國民級AIGC影片彩鈴應用“AI一語成片”；還與寒武紀在北京簽訂戰略合作協議。

到了2024年12月28日，智象未來在安徽人工智慧產業先導區啟動儀式中，全球首發智象多模態生成大模型3.0與智象多模態理解大模型1.0。

其中，智象多模態生成大模型3.0實現影像和影片生成能力全面升級，包括畫面質量與相關性提升、鏡頭運動和畫面運動更可控，以及多場景驅動的最佳化。

而智象多模態理解大模型1.0版，則透過對物體級別的畫面建模以及事件級別的時空建模，達成更精細、準確的影像與影片內容理解。