Midjourney重磅更新！又一個「言出法隨」的AI生圖神器｜附10+場景演示&缺陷整理

曾經被視為必備技能的 PS，如今似乎陷入了「可學可不學」的微妙處境。

最新版本的 Gemini「言出法隨」，僅需一句話就能改圖，成為現象級的存在，GPT-4o 多模態生圖功能上線以來，生成的吉卜力風格圖片也幾乎在一夜之間席捲網路。

面對新勢力的崛起，老牌 AI 影像生成巨頭 Midjourney 也不甘示弱，剛剛正式釋出最新版本 V7 。

我們梳理了新版本的一些要點：

整體影像質量提高，對文字與影像提示的理解更準確，身體、手部及各種物體在細節上的一致性大幅增強。

人物膚色和麵部細節更加自然清晰，材質紋理(如羽毛、衣物)質感表現精細，光影效果逼真。

能更好理解並呈現提示詞描述的完整場景，元素間空間關係合理，背景與主體融合度高。

能準確表現特定視角，低角度和特寫等拍攝風格表現專業。

氛圍感和情感表達略弱，缺少一些戲劇性和神秘感，某些藝術風格的獨特性和創意性稍顯不足。

需要注意的是，V7 是首個預設啟用模型個性化的版本。使用者需解鎖個性化設定才能使用此功能，整個過程約需 5 分鐘，且可隨時開關。

V7 的另一大亮點是「草稿模式」（Draft Mode）。該模式成本僅為標準模式的一半，影像渲染速度卻提升至 10 倍。

在網頁端使用時，提示欄將自動切換為「對話模式」，使用者可直接透過指令調整內容，例如將貓替換為貓頭鷹或將場景改為夜晚，系統會自動調整提示並生成新影像。

點選「草稿模式」並啟用麥克風按鈕後，使用者還能進入「語音模式」，透過語音指令進行即時創作。若需明確執行草稿任務，使用者可在提示後新增「–draft」引數，適用於排列組合或重複生成等場景。

Midjourney 官方表示，「草稿模式」是迄今為止迭代創意的最佳方式。

使用者若對草稿影像滿意，可點選「增強」或「改變」按鈕，以完整質量重新渲染。需要注意的是，草稿模式下的影像質量低於標準模式，但其行為和美學表現高度一致，適合快速驗證想法。

圖片來自：@U79916881747113

V7 目前支援兩種執行模式：Turbo 和 Relax。Turbo 模式速度更快，但成本為普通 V6 作業的 2 倍；草稿模式則成本減半。標準速度模式仍在最佳化中，預計不久後推出。

目前，放大、編輯和重新紋理功能將回退至 V6 模型，未來將逐步升級至 V7。情緒板和 SREF 功能已可用，後續更新將進一步提升效能。

Midjourney 團隊透露，在未來 60 天內，每隔一至兩週將推出新功能，其中最受期待的則是全新的 V7 角色和物件引用系統。

話不多說，先來看圖。

知名博主 @nickfloats 分享了 Midjourney V6/V7版本基於同一提示詞生成的的圖片對比，一起來看看。

Prompt：A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus, looking directly at the camera. The image has a 1990s-style movie still aesthetic, with a close-up portrait on a sunny day.

（一位年輕的印度女性，黑色頭髮紮成鬆散的馬尾，穿著黑色夾克，站在大學校園裡，直視鏡頭。照片呈現出 90 年代電影劇照風格，背景是陽光明媚的一天，特寫的肖像。）

左：V6 右：V7

新版本的光線更加自然，尤其是在人物臉部，膚色更加清晰，細節更加豐富，畫面焦點更加清晰，尤其是人物的髮型部分，但也因此犧牲了一些氛圍和情感的表達。

Prompt：A majestic barn owl perched on an ancient, moss-covered tree branch, surrounded by the misty forest. The scene is bathed in soft light filtering through the dense foliage, creating a magical and ethereal atmosphere. Photorealistic style with attention to detail of the feathers and textures.

（一隻威嚴的 barn owl（倉鴞）棲息在一根古老、覆蓋著苔蘚的樹枝上，周圍是迷霧繚繞的森林。柔和的光線透過濃密的樹葉灑下，營造出一種神秘而飄渺的氛圍。畫面風格為逼真的寫實風格，細緻入微地展現了羽毛和樹皮的質感。）

左：V6 右：V7

新版本的貓頭鷹羽毛紋理更加細膩，羽毛的層次感和光影效果更強，顯得更加真實。貓頭鷹的姿態方面，新版本更自然，身體略微傾斜，顯得更有動態感，眼睛的細節也更生動，傳遞出一種警惕的神態。

簡言之，魚和熊掌，不可兼得，V7 在追求真實感的目標上更勝一籌；V6 則可能在追求畫面衝擊力和神秘感上更具優勢。

Prompt：A person's hand points towards the window of an airplane, which is seen from inside with its wing visible in profile. The sky outside shows a clear horizon at dawn or dusk. In front of them lies a vast expanse of ocean.

（一個人的手指向飛機窗外，窗外的飛機機翼從側面可見。外面的天空清晰，天際線顯示出黎明或黃昏的景象。眼前是廣闊的海洋。）

左：V6 右：V7

同樣都是從飛機舷窗向外看的情景，一隻手指向窗外，V7 的進步肉眼可見，透過加入飛機機翼的元素，增加了畫面的層次感和真實感，更能感受到身處飛機的視角。

Prompt：A close-up of broccoli being sautéed in oil, with the vegetable's green florets contrasting against a dark brown sauce. A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top, against a white…

（一塊近距離拍攝的西蘭花在油中翻炒，綠意盎然的花椰菜與深棕色的醬汁形成鮮明對比。一隻大湯勺部分可見，放在一個不鏽鋼鍋中，鍋裡覆蓋著一層焦糖色的光澤黑色醬汁，背景是白色的…）

左：V6 右：V7

V6 雖然透過特寫鏡頭突出了醬汁和勺子，焦點非常明確，注意力很容易被吸引到醬汁的質感和細節上，但如果從提示詞的要求出發，新版本展示整個鍋內的西蘭花和醬汁的搭配，呈現了一個更完整的烹飪場景，邏輯上更符合實際烹飪過程。

Prompt：Close-up of an anime woman's face with a shocked expression, dark hair, in the anime style. Colorful animation stills, close-up intensity, soft lighting, low-angle camera view, and high detail.

（一位動漫女性的面部特寫，表情震驚，黑色頭髮，呈現動漫風格。色彩豐富的動畫畫面，特寫鏡頭強烈，柔和的光線，低角度拍攝，細節非常精緻。）

左：V6 右：V7

光影和色彩的處理上，V7 也符合提示詞中的「soft lighting」要求，臉部的高光和陰影過渡更加柔和自然，尤其是眼部和臉頰的光影分佈，營造出更立體的效果。

Prompt：A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station, lasers firing, and a distant planet visible in the backdrop.

（一幅動態的電影畫面，展示了一場史詩般的太空戰鬥，流線型的星際戰鬥機飛馳而過，巨大的太空站在一旁，雷射四射，遠處的行星清晰可見，構成了一幅震撼的畫面。）

左：V6 右：V7

人像方面，v7 在細節的精細度和真實感（服裝、皮膚、光影等）上有所提升，人物的立體感和與背景的融合度更高，但在情感傳遞、表情的戲劇性、動態感上有所倒退。

以下為三個具體的對比案例：

Prompt：1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

（一張 1980 年代神秘電影風格的低角度鏡頭，拍攝了一位邪惡眼神的法國管家，身穿黑色西裝，手中握著一支蠟燭，站在一座裝飾陳舊、充滿黴味的維多利亞式大廈走廊裡。溫暖的燭光營造出一種陰森神秘的氛圍。）

左：V6 右：V7

Prompt：1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair, 5-o'clock shadow, and a stern look walking down the sidewalk on a bright spring morning in Paris. He's wearing …

（一張 1990 年代中等全身街頭風格的照片，使用 Kodak 500T 膠片拍攝，捕捉到一位五十多歲的男子，他有著捲曲的灰白色頭髮、胡茬和嚴肅的表情，正走在巴黎春日明媚的早晨人行道上。他穿著…）

左：V6 右：V7

Prompt：Cinematic, off-center, two-shot, 35mm film still of a 30-year-old french man, curly brown hair and a stained beige polo sweater, reading a book to his adorable 5-year-old daughter, wearing fuzzy pink pajamas, sitting in a cozy corner nook…

（一張電影感的 35 毫米膠片畫面，構圖偏離中心，拍攝了一位 30 歲的法國男子，捲曲的棕色頭髮，穿著一件弄髒的米色 polo 衫，正在給他可愛的 5 歲女兒讀書。女兒穿著柔軟的粉色睡衣，坐在一個溫馨的角落裡。）

左：V6 右：V7

海螺 AI+Midjourney 會是讓圖片動起來的王炸組合嗎？網友 @ainextastro 也試了試。

下面由 @tanvitabs 用 v7 生成的這張照片則將 AI 影像生成的坑都踩了個遍，包括憑空多出來的第三隻手，T 恤和西裝著裝上的混淆，以及不匹配的面部生成等。

最後留個課堂作業，以下是基於同一提示詞生成的四張照片，你更喜歡哪個版本？請投票。

Prompt：Elegant female model standing by a large window in a sunlit room, soft morningliaht casting natural highlights and shadows on her face, wearing a flowing beigedress, relaxed pose, minimal makeup, 85mm lens depth of field, lifestyle fashioneditorial, cinematic tones, airy atmosphere

（一位優雅的女性模特站在陽光灑進的房間大窗旁，柔和的晨光在她的臉上投下自然的高光與陰影，身穿一襲飄逸的米色長裙，姿勢放鬆，妝容簡約。使用 85mm 鏡頭拍攝，背景有著淺景深，營造出生活方式時尚編輯感，畫面呈現電影般的色調，空氣感十足。）