
作者丨鄭佳美
編輯丨陳彩嫻
3 個月前,MiniMax 釋出了首款 AI 高畫質影片生成模型 Abab-video-1。只用了 5 周時間,海螺 AI 的網頁版訪問量便增速超 800%,還登上了 AI 產品榜當月全球增速榜、國內增速榜雙榜單 TOP 1。
一時間,不少國內網友直呼其為“國產之光”。
12 月初,MiniMax 又上新了圖生影片模型 I2V-01-Live,新的模型專門對二次元效果進行了最佳化,能夠更好的將靜態的二次元圖片轉化為流暢且自然的動態影片,至此,海螺 AI 開始進軍“動漫界”。
與此同時,OpenAI 的“雙十二”活動也在如火如荼的進行著,萬眾期待的 Sora Turbo 順勢開放。當“國產之光”碰上“話題之王”,會擦出怎樣的火花?AI 科技評論第一時間對二者最新、最完整的模型進行了一手體驗,在給定的一系列固定提示詞的條件下,海螺 AI 的生成效果屬實令人眼前一亮。
在這場影片生成的狂歡中,不少網友腦洞大開,提供了各種虛實結合的有趣 idea:
在網友對比海螺 AI 和 Sora 生成的“喝茶的龍”的影片下,評論區普遍認為 Sora 生成的龍與背景存在一定的違和感,儘管能夠創造出看似真實的影像,但在細節融合和場景一致性上可能還存在一些挑戰。

提示詞:ancient dragon drinking tea。古老的龍在喝茶。
也有網友直接讓兩個模型生成《了不起的蓋茨比》小說中所描述的畫面,對比其生成效果的還原度,並銳利點評:海螺 AI 的效果確實有 20 世紀的味道,但 Sora 的效果卻顯得過於現代,不符合提示詞的要求。

提示詞:A realistic, high-definition 16:9 horizontal video depicting a lavish party at Jay Gatsby’s mansion from F. Scott Fitzgerald’s novel ‘The Great Gatsby’. The scene captures the extravagant 1920s.
一個真實、高畫質的16:9橫向影片,描繪了F. Scott Fitzgerald的小說《了不起的蓋茨比》中Jay Gatsby的豪宅裡舉辦的奢華派對場景。這場戲捕捉了20世紀20年代的奢華氛圍。
還有網友將同一提示詞下 sora 和海螺 AI 生成的影片做了橫向對比並評論:現在不需要Sora,海螺 AI 也能滿足我的一切需求。

提示詞:An astronaut in a white suit with a reflective visor stands amidst a glowing meadow of bioluminescent flowers under a surreal, starry night sky. The astronaut reaches out toward ethereal, glowing jellyfish floating gracefully in the air. The camera performs a slow dolly zoom。
一位穿著白色宇航服、戴著反光面罩的宇航員站在一片發光的生物熒光花叢中,頭頂是超現實的繁星點點的夜空。宇航員伸手向空中優雅漂浮的幽靈般發光的水母。攝像機進行緩慢的推拉變焦拍攝。
除了以上這些對比二者生成效果真實性的網友外,也有大批網友在體驗了 MiniMax 最新的 I2V-01-Live 圖生影片模型後紛紛加入了對 海螺AI 的讚譽行列。
有從事藝術行業的網友曬圖並表示:這是我嘗試過的最難動畫化的圖片之一,幾乎所有平臺都試過了,只有海螺 AI 成功讓這張圖片動了起來!

更有網友專門整理了影片海螺 AI 的影片合集,並配文:I2V-01-Live 就是為了讓 2D 動畫動起來而設計的,它不會讓你失望!

甚至有網友用 I2V-01-Live “復活”了塔羅牌:這些人物動作流暢,彷彿被注入了生命一樣!

也有網友在嘗試過之後,認為這個模型的生成效果和兒童故事的插圖完美匹配,效果十分完美。

看過了網友們對海螺 AI 和 Sora 的真實測評後,AI科技評論也進行了一手體驗,為了更加直觀的進行對比,生成時統一使用了 Sora 官方 demo 的影片提示詞。
在嘗試製作“獼猴眼部特寫鏡頭”影片時,海螺 AI 的生成效果相較於 Sora 更為直觀。影片中,鏡頭緩緩移動,揭示出主角是一隻獼猴,毛髮與臉部輪廓處理真實細膩。然而,Sora 的效果如果不結合提示詞來理解,很難讓人將其與“獼猴”聯絡起來。儘管如此,Sora 卻成功捕捉到了猴子眼中的“星河宇宙”,而這一細節在海螺AI的效果中並不那麼明顯。
提示詞:a closeup of the eye of a macaque monkey. it is very still. the eye does not move, and the gaze of the eye does not move. the monkey stares back at us in the camera. we see the universe in the eye of the monkey.
一隻獼猴的眼睛的特寫鏡頭。它非常靜止。眼睛不動,目光也不移動。猴子在鏡頭中凝視著我們。我們在猴子的眼睛裡看到了宇宙。
在處理“頭髮凌亂不堪”這一指令時,兩個模型都選擇了透過“風吹”的效果來展現。然而,海螺 AI 所呈現的畫面更具動感,畫面感更為強烈。畫面中,一位老人緩緩轉身,微風輕拂,自然地掀起他的頭髮,顯得既真實又細膩。相比之下,Sora 的處理則顯得有些粗獷,彷彿是在“亂吹”。
提示詞:a close up of an old man having a really bad hair day.一個老人頭髮凌亂不堪的特寫鏡頭。
主角行走時動作僵硬、缺乏流暢性是許多影片生成大型模型普遍面臨的問題,即使是被譽為“話題之王”的 Sora 也未能免俗。在 Sora 生成的影片中,人物行走時步伐略顯僵硬,同時伴隨著鏡頭的輕微拉近,本意是為了營造一種從遠及近的視覺效果,但結果卻不盡人意,反而讓畫面顯得有些不協調。
而海螺 AI 在這方面的處理則顯得更為自然且流暢,巧妙地避免了這些問題,讓人物的動作和鏡頭的過渡都更加和諧,視覺舒適感拉滿。
3
測評之外,真實的榜單資料也在彰顯著 MiniMax 的技術實力。
時至今日,MiniMax 影片模型依然憑藉其卓越的畫面質感、內容的真實性以及流暢性等優勢,在 VBench榜單獨立測評評分上穩居首位。

據 MiniMax 介紹,他們的大模型每天要與全球使用者進行超30億次互動,平均處理超過3萬億文字token,生成2000萬張圖片以及7萬小時語音。在全球擁有多元化使用者分佈的同時,位居國內 AI 公司大模型日處理互動量榜首。
和Sora在年初的初次亮相相比, MiniMax 在影片生成賽道上的“姍姍來遲”,公司創始人閆俊傑則表示這其實是一種“蓄力”,他希望 MiniMax 能夠在技術上形成絕對優勢後再進入賽道,以彌補入局晚的劣勢。在他看來,要大投入去做的技術研發,不應該只追求 5% 或是 10% 的提升,而應該追求幾倍的提升。
也正因如此,MiniMax 在影片生成賽道中的“遲到行為”,便更像是刻意而為之,給人一種待萬事俱備之時,再乘東風之勢,一鳴驚人的從容與淡定。

事實證明,他們做到了。
2024 年 8 月,MiniMax 的 Abab-video-1 模型一經上線便火遍全球,迅速包攬各大榜單的 TOP 1。但在人們一聲聲“國產之光”的歡呼中,閆俊傑最先冷靜下來,他知道對於 MiniMax 而言,技術的重要性還在不斷的提升,技術好了,才能留住使用者。他曾說:“當技術做不好的時候,所有東西都是問題,當技術做好了,所有問題都會被掩蓋。”
繼10月上線圖生影片功能後,MiniMax此次釋出最新圖生影片模型 I2V-01-Live,再次證明了 MiniMax 在影片生成大模型領域的技術能力。快速的產品更新週期將人們對海螺 AI 未來的文+圖生成影片以及編輯可控性的期待值直接拉滿。
在競爭日益激烈的影片生成大模型領域,MiniMax 作為新興力量,憑藉專注深耕的技術路線與精準前瞻的戰略佈局脫穎而出,拉著影片生成行業往前走了一大步。
然而,作為“後來者”,MiniMax究竟是如何推動行業發展的?其中緣由並不難理解。
Sora 熱潮掀起了國內對影片生成大模型的廣泛關注,各大公司“先後”入局,MiniMax 憑初創公司的身份,在一眾“宇宙大廠”面前表現不輸。
從默默無聞的初創公司,僅用了三年時間便到“國產之光”,MiniMax 或許真的不一般。
自公司成立,MiniMax堅持在多模態發力,其影片生成模型生成內容從細節性、準確性以及豐富度上都得到了不錯的效果。
在應用趨勢上,MiniMax 的兩款影片生成模型搶在 2024 年正式上線,緊抓 AI 影片大模型爆發式增長的機遇。作為 AI 影片的應用元年,2024 年不僅是一個重要起點,也預示著行業邁入高速發展的新階段。隨著模型能力的不斷提升和推理成本的逐步下降,未來3-5年內,各類應用場景將陸續被解鎖。而 MiniMax 的這一佈局,無疑佔據了行業應用趨勢的制高點。
從更長遠的視角來看,影片生成模型則承載著更宏大的願景,有望成為世界模型以及通用 AGI 不可或缺的重要組成部分。無論是眼前還是未來,MiniMax 的路看似都沒有走錯。

除此之外,新一代的 AI 影片工作流也正在萌生,它將會整合音訊、影片的整個創作流程,大大的提高創作效率,同時也可以降低 AI 影片內容在製作中各個環節的“違和”現象。這個工作流主要包括“精細化生成”和“流程化整合”兩個方向,前者主要是對影片中的各類細節進行精準除錯,後者是透過一站式服務提高工作效率。在這方面,MiniMax憑藉自研語音模型、音樂模型的創新和應用,可能早已為此做好了佈局。
MiniMax 選擇在國內的 B 端和 C 端同時發力,打破了國內市場被“大廠”瓜分的商業化佈局,力求在不同市場層面取得突破。透過滿足企業客戶的高效工作流需求以及個人使用者對創新工具的追求,MiniMax 能夠在兩條市場線中獲得更多機會。除此之外,MiniMax 還積極擴充套件海外市場,尋求全球化的發展機遇,利用不同地區的需求特點和潛力,推動品牌的全球化發展,併為其未來的商業化帶來更多的機遇。
與此同時 ,MiniMax 也在 AI 影片生成的競爭中,憑藉其在基礎模型、產品和場景三個關鍵要素上的深度佈局,逐步推動了技術和市場的發展,拉著國內影片生成行業往前走了一大步。
至於 MiniMax 還能走多遠,看它硬是把自己從 Mini 拼成了 Max 的勁頭,足以相信它以後的路還會很長。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。