西風 夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
AI大牛梅濤坐鎮,全新多模態AI問世!
用法上堪稱:全能。

不僅支援圖片、影片生成:

奇幻場景、多樣視角都能駕馭:

而且唇形同步功能上線,社恐大“i”人也能玩轉播客:
劃重點:
官方還提供了上百種可直接套用的趣味特效模板,讓使用者實現“躺平創作”。

像下面這種炫酷轉換,操作簡單到只需上傳一張圖:

人物、動物、建築物的“變身”模板通通都有:

另外,生圖板塊的Image Agent也是官方主打,修圖生圖只需大白話表述,不會寫prompt不是問題,它會自動幫你最佳化修改。

不賣關子,這個最新創作工具就是vivago2.0(智小象AI)。
打造出它的團隊智象未來(HiDream.ai),是圈內鼎鼎有名的大牛——加拿大工程院外籍院士梅濤創立的AI公司,研發團隊中擠滿了來自中科大的中堅。

前段時間,團隊推出的開源模型HiDream-I1曾在文生圖模型競技場一鳴驚人,開源24小時就拿下了排行榜榜首,在國內一眾開源大模型中率先躋身第一梯隊。

當時,就連Recraft(曾神秘刷屏的小熊貓“red_hat”背後團隊)也連夜載入,全球創作者競相加入工作流。

有意思的是,vivago2.0其實結合了HiDream-I1的能力。

目前,vivago2.0已在Web端與App全球同步上線,有此等新玩具量子位自然不能錯過,第一時間上手體驗了一波。
同時我們也對其背後的模型來了個大揭秘。

全新多模態神器食用指南
vivago2.0主打六大玩法:圖片生成、圖片轉影片、AI播客、特效模板、創意社群、話題。
下面我們逐一來看。
圖片、影片、播客生成一套搞定
先看圖片生成玩法,支援文字生圖和“文字+參考圖”生圖。
純文字生圖中,vivago2.0解決了大夥兒不會寫提示詞的問題。
可以看到提示詞輸入框右下角有一個“提示詞機器人”按鈕:

點開後,只需輸入你腦海中的幾個詞,它就能幫你自動組織成具有創造力的完整提示詞。可以點選“使用提示詞”自動匯入到提示詞輸入框中,也可以選擇“引用”對其進一步修改。

另外生成圖片的數量、圖片尺寸、負向提示詞等也都能設定:

話不多說,來看效果。
生成一杯檸檬氣泡水,幾乎看不出AI痕跡,細節感十足:

第一人稱視角生圖也可以,be like:

而文字+影像生圖,也就是上傳參考圖的玩法,有全部、肖像、重繪三種設定。
全部即自動參考整張圖生成;肖像即自動提取人物面部特徵,生成面貌一致的不同風格圖片;重繪則是將原圖重新繪製成不同風格的圖片。

寫實、插畫、皮克斯、3D,各種風格通通拿捏:

△左邊參考圖,右邊轉賽博朋克風格
生圖方面最重磅當屬Image Agent,它提供了一種全新的圖片生成互動形式。
就在一個聊天框中,使用者可天馬行空隨意表達需求,不論是修圖還是生圖,Agent會基於上下文資訊,準確判斷理解使用者意圖。
生圖和修圖都可以批次完成。
例如生成小狗在草地追逐飛盤玩的影像,然後讓它修改成畫素風,vivago2.0可以四張圖同時修改,並且和原圖其它元素保持一致性。

Image Agent還提供了“重寫”、“幫我寫”prompt的功能,創作點什麼使用者只需會用大白話表達就行。

接下來影片生成方面,同樣是有圖片生成影片和文字生成影片兩種玩法。
圖片生成影片可以基於一張圖生成,也能基於兩張圖設定首尾幀。

透過設定首尾兩張關鍵幀,即可一鍵生成“變身”式連貫影片效果。

各種場景都能絲滑轉換:

vivago2.0還有一個更為方便快捷的設計。
在圖片生成介面,其實可以直接點選生成好的圖片上的按鈕,進行轉影片等一系列操作。

於是乎,我們前面生成的騎腳踏車的圖片,一鍵動了起來:

無論是寫實風格的場景,還是充滿想象力的奇幻畫面,只需一句話,vivago2.0即可將其轉化為動態影片呈現。
比如一隻在海上衝浪的狗子:

再比如魔改靜態表情包(我哭了,但眼淚是清涼油燻出來的),vivago2.0還會自動提升畫質。

圖片、影片看過後,再來看看AI播客功能。
AI播客製作功能也就是👄唇形同步,自己配音或者是寫一段文字讓AI配音都行。

同樣可以在生成的圖片、影片基礎上,直接生成。

當輸入文字 “Life is like a box of chocolates. You never know what you’re gonna get” 時,圖片中的人物能根據文字自然地完成口型同步。
與此同時,人物的肢體動作也會隨著話語同步變化。
我們特意挑選了一張側臉人物圖,口型同步依舊比較流暢自然。
vivago2.0還有更多社交、開放性玩法。
更多玩法,百種特效任你挑
首先要提的就是特效模板,官方提供了300+款花式模板,使用者可以一鍵套用,小白也能秒變特效大師。

我們選擇了一個特效後,然後上傳一張AI生成的小女孩圖片。
“啪”的一下小女孩絲滑換裝:

創意社群也是個尋找靈感的好地方,創作者百萬腦洞任你“借鑑”,可以直接使用同款prompt。

來看社群裡更多的優秀案例:

除此之外,團隊還即將上線話題功能,使用者可以參與熱門話題,提升自己作品的曝光度,目前該功能內測資格限量開放。
在vivago2.0的AI工具箱中,還涵蓋著功能多元的工具模組,包括3D生成、AI試衣、影片摳圖等等:

感興趣的童鞋可以自己親自上手探索一下。
By the way,vivago2.0推出後著實有點火,有時還會出現伺服器擁堵的大狀態。

開源SOTA的再進階版
技術方面,vivago2.0新能力背後依託的全新影像Agent——HiDream-A1。
HiDream-A1結合了開源模型HiDream-I1、HiDream-E1的進階版閉源模型(HiDream-I1.1、HiDream-E1.1)。
HiDream-I1是圖像生成基礎模型,引數170億,總共開源三個版本:完整版HiDream-I1-Full、蒸餾加速版HiDream-I1-Dev、蒸餾極速版HiDream-I1-Fast。
HiDream-I1-Full是完整版本,需要50多步擴散步驟,追求的是極致畫質。這個版本適合那些“慢工出細活”的創作場景,比如商業海報設計或藝術創作。
HiDream-I1-Dev是經過引導蒸餾的版本,將步數壓縮到28步,在質量和速度之間找到了黃金平衡點。
而HiDream-I1-Fast則是極速版,僅需14步就能生成高質量影像,簡直是為即時應用量身定製。
其中HiDream-I1-Dev開源不到24小時,就登頂Artificial Analysis圖片生成競技場。
HiDream-I1在HPS(綜合評測生成影像的語義相關性、畫質和美感)基準上拿下SOTA:

同時在GenEval和DPG-Bench(評測生成影像和輸入文字的語義相關性)基準上,評測結果同樣是SOTA:


HiDream-E1是互動式影像編輯開源大模型,主打功能就是最近GPT-4o爆火的用嘴改圖功能。
HiDream-I1+HiDream-E1可以稱得上是開源版GPT-4o。
HiDream-I1的核心創新,是把稀疏混合專家(Sparse MoE)技術巧妙地融入到了擴散Transformer架構中。
他們設計了一個雙流-單流混合的稀疏DiT結構。
具體來說,模型先用雙流DiT分別處理影像和文字token,就像左右手各司其職。在這個階段,每個模態都有自己的專屬通道,可以充分提取各自的特徵。隨後,模型切換到單流DiT架構,讓兩種模態實現深度融合。
最妙的是,無論是雙流還是單流階段,團隊都引入了動態MoE架構。這就像給模型裝上了智慧路由器,每個輸入token都會被動態分配給最擅長處理它的專家模組。
在文字編碼方面,HiDream-I1採用了“四管齊下”的混合策略:
長上下文CLIP提供視覺語義對齊,T5編碼器負責解析複雜文字結構,Llama 3.1則貢獻深層語義理解,而且還特意從LLM的多箇中間層提取特徵,避免了最終層輸出中細節資訊的流失。這種“集大成”的做法,讓模型對文字提示的理解能力大幅提升。
訓練策略上,團隊採用了漸進式解析度訓練,從256×256開始,逐步提升到512×512,最終達到1024×1024。
智像未來團隊並沒有止步於文生圖。他們還透過“上下文學習”方法,將HiDream-I1擴充套件成了指令式影像編輯模型HiDream-E1。使用者只需要提供原圖和編輯指令,模型就能精準地完成修改任務。
最終,團隊將文生圖的HiDream-I1和影像編輯的HiDream-E1整合,推出了綜合性影像智慧體HiDream-A1。
這個智慧體就像是一個“全能影像助手”,既能根據描述生成影像,又能按照指令編輯影像,還能進行多輪對話式的創作和修改。讓使用者可以像和ChatGPT聊天一樣,透過自然語言完成複雜的影像創作任務。
背後團隊:AI大牛梅濤坐鎮
智象未來成立於2023年3月,名字算新,但背後創始人,AI圈內無人不知——梅濤,加拿大工程院外籍院士,同時也是IEEE/IAPR/CAAI Fellow,是人工智慧、計算機視覺和多媒體領域的世界級專家。
而智象未來的核心團隊成員則來自微軟、百度、騰訊、華為、京東、字節跳動等全球500強公司的核心技術團隊,團隊中博士、碩士佔比超過90%,據說不少來自中科大。
團隊成員多為AI影片技術出身,早在2017年,他們在ACM Multimedia大會發表了論文"To Create What You Tell: Generating Videos from Captions"。
現在看來這是學術界第一批研究文字生成影片的技術論文之一,只不過當時該研究方向還被稱為Caption-to-Video。

雖然今天看來,當年他們用GAN(生成對抗網路)做出來的影片生成遠談不上完善,但不可否認其前瞻性。
而且正是因為在影片生成領域的堅持,讓他們在AIGC方向的爆發時憑藉技術積累再次取得突破:全球首個上線開放使用的影像和影片生成Diffusion Transformer(DiT)架構模型。
相較於大型科技公司動輒上萬卡的超大規模投入,智象未來選擇了一條更加務實的發展道路——技術上聚焦視覺多模態基礎模型,產品上則表現為貼近商業化的可控圖/影片生成。
而這一策略顯然贏得了懂技術的投資人的青睞。
從2023年4月獲得阿爾法公社、中喝大種子一號基金的種子輪融資,到2024年上半年完成敦鴻資本領投的近億元Pre-A輪融資,再到2024年後續完成的以合肥產投為主的國資基金領投的A輪融資,智象未來的融資歷程可謂順風順水。據瞭解,A輪融資規模已達數億人民幣,跟投方還包括安徽省人工智慧母基金、湖北省長江電影集團有限公司等機構。
不論是融資速度還是規模,都能管窺資本市場對智象未來技術實力和商業化前景的認可。
梅濤對此也有著清晰的見解:“大語言模型需要大量的算力和融資,2023年需要千卡,2024年需要萬卡,這是一個贏者通吃的領域。對於中國的創業公司來說,籌集這麼一大筆資金有一定難度,要跟上大廠的競爭步伐也有難度。影片行業這個賽道不需要太大投入,規模可控,而且離商業化進展最近。”
而這一判斷似乎也得到了市場的驗證——2023年,全球AIGC約200億美金的收入中,50%-60%來自影片和影像,其中Midjourney在這方面的收入已達2億美金,已經驗證了產品市場契合度(PMF)。
自2023年3月成立以來,智象未來在視覺多模態基礎模型及應用領域不斷深耕,釋出了一系列令人矚目的成果。
劃重點了,智象多模態大模型,模型引數規模超百億,實現對文字、影像、影片、3D的聯合建模,並已透過模型和演算法雙備案。
基於此構建的“智象AI”系列產品,具備影像生成編輯、4K高畫質畫面、全域性/區域性可控、劇本多鏡頭影片生成等功能,在AIGC技術和數字創意領域商業化方面優勢顯著。
2024年,智象未來的戰略合作動作頻頻:與慈文傳媒進行戰略合作簽約;和上影集團聯合釋出“AI+”合作計劃;與中國移動咪咕聯合釋出首個國民級AIGC影片彩鈴應用“AI一語成片”;還與寒武紀在北京簽訂戰略合作協議。
到了2024年12月28日,智象未來在安徽人工智慧產業先導區啟動儀式中,全球首發智象多模態生成大模型3.0與智象多模態理解大模型1.0。
其中,智象多模態生成大模型3.0實現影像和影片生成能力全面升級,包括畫面質量與相關性提升、鏡頭運動和畫面運動更可控,以及多場景驅動的最佳化。
而智象多模態理解大模型1.0版,則透過對物體級別的畫面建模以及事件級別的時空建模,達成更精細、準確的影像與影片內容理解。

創業不易,尤其是在AIGC這個千帆競發的賽道上。但梅濤的目標不僅僅是商業上的成功,還有著更為宏大的使命感。
“我創業不是代表一個人創業,是代表中國的科技型專家創業,投身到一個新的時代,要趟出一條路。如果我的技術和商業化能夠打通,那麼我的故事應該被複制,啟發更多的人做這件事”,梅濤如是說。
下一步,智象未來將重點聚焦多模態大模型的應用與商業化。
在2023-2025年期間,智象未來的商業模式經歷了顯著演進。
2023年,以MaaS模式提供基礎模型能力,初步建立起技術基礎,為後續發展築牢根基。2024年,轉向SaaS模式,推出工具化產品,在專業場景中驗證了應用價值,進一步明確了商業方向。到2025年,開啟新戰略,聚焦“IP二創+C端下沉”,旨在構建規模化商業生態,整合上下游資源,實現商業價值的最大化。
這也符合AIGC產品的普遍發展路徑——先滿足專業使用者的高要求,再逐步簡化操作門檻,實現產品的大眾化應用。
從MaaS到SaaS,再到RaaS,智象未來不再賣工具,而是直接交付增長。
毫無疑問,隨著多模態AI能力的湧現,2025年註定是屬於多模態技術和產品的爆發之年,AIGC影片生成也被視為“抖音”一樣的新一代超級平臺……但明確的趨勢和風口之下,只有真正有技術實力、有產品sense、商業化節奏清晰的團隊,才能扶搖直上。
而智象未來,現在正在展現出這樣的特質和潛力。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟