「開源版GPT-4o」來了！這個17B國產模型生圖效果比肩4o，還可商用

機器之心原創

作者：張倩

前段時間，GPT-4o 火出了圈，其斷崖式提升的生圖、改圖能力讓每個人都想嘗試一下。雖然 OpenAI 後來宣佈免費使用者也可以用，但出圖慢、次數受限仍然困擾著沒有訂閱 ChatGPT 的普通人。

那除了 GPT-4o，我們還有沒有其他選擇呢？去 Artificial Analysis 的文生圖大模型競技場找一下就知道了。

在這個競技場上，我們發現前段時間排到第二名的模型 —— 擁有 17B 引數的HiDream-I1和 GPT-4o 得分很接近。

AI 基準測試和分析平臺 Artificial Analysis 發推宣佈 HiDream-I1 成為文生圖開源模型新 SOTA。這個平臺採用競技場模式來評估模型，即同時給兩張不同模型生成的影像，讓人類從中選出和 prompt 最貼合的。

值得一提的是，這個模型在上線的 24 小時之內就登頂了 Artificial Analysis 競技場榜首，也是首個登頂該榜單的中國自研生成式 AI 模型。

透過一些對比圖可以看到，HiDream-I1 的生成效果似乎不輸 GPT-4o，比之前「把 Midjourney 打下神壇」的 FLUX1.1 [pro] 效果還要好。重點是，這三個模型裡，只有 HiDream-I1 是開源的，而且是允許商用的那種開源（MIT 協議）。

HiDream-I1 模型：https://huggingface.co/HiDream-ai/HiDream-I1-Full
HiDream-I1 程式碼：https://github.com/HiDream-ai/HiDream-I1

而且，開源這個模型的國內公司 —— 智象未來剛剛宣佈，他們即將開源的另一個模型 ——HiDream-E1 還支援互動式影像編輯，可以像 GPT-4o 那樣把你提供的圖修改為任意風格、任意內容。二者合在一起，實現了類似於 GPT-4o 影像生成和編輯的「言出法隨」效果，填補了「開源版 GPT-4o」的空白。

HiDream-E1 的影像編輯效果，模型將於近期開源。

那麼，HiDream-I1 的效果究竟好在哪兒？我們可以多看一些案例詳細分析。

HiDream-I1 生圖效果如何？

GPT-4o、FLux 之所以能夠走紅，其生成畫面的真實感、細膩度和遵循指令的能力起到了重要作用。

為了測試 HiDream-I1 能不能擔得起「開源版 GPT-4o」這個稱號，我們參考前段時間 OpenAI 官宣 GPT-4o 新能力時釋出的一些 prompt 測試了一下。

GPT-4o 部落格中給到的生成案例與 prompt。

HiDream-I1 生成的結果如下：

提示詞：寫實的照片，一匹馬從右到左賓士在一個巨大的，平靜的海面上，準確地描繪了濺起的水花，反射，和馬蹄下微妙的漣漪圖案。誇張馬的動作，但其他一切都應該是靜止的，安靜的，以顯示與馬的力量形成對比。乾淨的構圖，電影般的。廣闊的全景構圖，展示遠處的地平線。大氣透視創造深度。放大後的馬與浩瀚的海洋相比顯得微不足道。

提示詞：真實水果與微型行星（木星、土星、火星、地球）混合而成的果盤照片，保持真實的反射、光照、陰影與原圖一致，構圖乾淨，紋理真實，細節渲染清晰

提示詞：一個真實的水下場景，海豚從一輛廢棄的地鐵車廂的窗戶游進來，氣泡和水流的細節被精確地模擬出來。

提示詞：這是一張狗仔隊風格的偷拍照片，愛因斯坦匆忙穿過美國購物中心的停車場，他帶著驚訝的表情瞥了一眼，試圖避免被拍到。他手裡拿著幾個鋥亮的購物袋，裡面裝滿了奢侈品。他的外套在風中飄動，其中一個包在搖擺，好像他正在大步前進。模糊的背景與汽車和發光的商場入口，以強調運動。相機發出的閃光部分過度曝光了影像，給人一種混亂的小報感。

整體上看，HiDream-I1 生成的圖在真實感、細膩度上和 GPT-4o 是非常接近的，有時還能更勝一籌。在和 Flux 相比時，這個特點更加明顯。

比如在下面這個例子中，HiDream-I1 生成的影像具有更多精細的元素，包括紋理、背景細節以及物體之間的層次感（貓毛在光的照耀下根根分明，給人一種強烈的生機感；咖啡壺的不鏽鋼材質恰到好處地反射光線，呈現出真實的質感）。相比之下，Flux 雖然也能生成具有良好細節的影像，但在細節材質上不如 HiDream-I1 細膩豐富。

提示詞：一隻可愛的橙色貓咪坐在咖啡研磨機旁，用爪子慢吞吞地轉動著研磨機的把手。貓咪專注的表情和溫柔的咕嚕聲在舒適寧靜的廚房裡被捕捉到。柔和、溫暖的光線透過窗戶，在貓和磨床上投射出柔和的光芒，增強了寧靜的氛圍。這一場景以寫實的風格呈現，強調平靜和親密。

在色彩的呈現上，HiDream-I1 的表現也更出色，能夠生成層次分明、色調多樣的影像（仔細看下圖中狼的臉部毛髮，HiDream-I1、GPT-4o 的顏色層次都更豐富）。Flux 的色彩使用雖然也相當豐富，但在某些場景下，色彩的搭配和過渡顯得較為單一，缺乏一定的飽和度和層次感。

提示詞：一隻穿著音樂家燕尾服的 3D 狼。像人一樣兩條腿直立站著，拿著吉他，周圍是放大器和舞臺，這裡散發著藝術和優雅的氣息。

此外，這種真實感、細膩感還來自模型對客觀規律的理解。從下圖可以看出，HiDream-I1 對客觀規律的理解較為精確。無論是物體的擺放、人物的動作姿勢，還是環境中的光影效果，HiDream-I1 都能展現出符合現實世界的自然規律。而 Flux 則在這方面存在一定侷限，特別是在處理動態場景和複雜物理互動時，模型的表現不夠真實，常常出現不符合物理定律的情況。

提示詞：一隻穿著音樂家燕尾服的 3D 貓，兩條腿直立，拿著小提琴，周圍是旋轉的音符和大鋼琴，散發著藝術和優雅的氛圍，聚光燈照亮了現場，創造了一個戲劇性和精緻的環境。

即使是遇到複雜的提示詞，這些特點依然能夠在 HiDream-I1 生成的圖中得到保留。這是模型複雜文字理解、遵循能力的體現。

HiDream-I1 生成的影像。提示詞：中世紀城堡的石砌城牆，身披鎧甲的戰士面向鏡頭，躍動的火焰在他身後勾勒出粗獷的面部輪廓。火星隨風濺落在生鏽的鎖子甲上，右手不自覺地握緊腰間劍柄，深褐色的斗篷在熱浪中劇烈翻卷。燃燒的箭矢在遠處塔樓持續墜落，橙紅火光與靛藍夜空形成強烈對比，照亮了城牆垛口剝落的青苔和戰士眉骨處的陳舊傷疤。

在各項基準測試資料中，以上視覺效果得到了印證：

首先是 HPSv2.1，這是一個基於人類偏好選擇資料集訓練的偏好預測模型，能夠對同一提示下產生的不同影像進行評分比較。在這個基準上，HiDream-I1 在多種風格（如動漫、概念藝術、繪畫和真實攝影）上達到最優。這說明，HiDream-I1 生成的各種風格影像都更符合人類審美。
其次是 GenEval 和 DPG-Bench，前者透過檢測物件和顏色分類來驗證生成影像與文字提示之間的匹配程度，後者專注於檢測生成影像中的多個物件、詳細屬性和複雜關係（當提示又長又複雜的時候適合用這個基準評測）。在這兩個基準上，HiDream-I1 都達到了最優。這說明，HiDream-I1 的指令遵循能力很強。

HiDream-I1 在 HPSv2.1 上的得分資料。

HiDream-I1 在 GenEval 上的得分資料。

HiDream-I1 在 DPG-Bench 上的得分資料。

為了提升生圖效果

智象未來做了哪些技術改進？

強大的指令遵循能力和逼真、細膩的生成效果本質上都要歸功於技術改進。

為了提高模型理解文字的能力，HiDream-I1 採用了新的被稱為「Sparse Diffusion Transformer（Sparse DiT）」的架構設計。這個架構在 DiT 框架下融合了 Sparse Mixture-of-Expert （MoE）技術，讓不同的專家模型處理不同型別的文字輸入，各有專精。

同時，這個架構設計還帶來了一個額外的好處 —— 在提高模型效能的同時控制運算開銷，使得 HiDream-I1 用起來價效比很高。對於關注開源模型算力消耗的個人開發者、創業公司來說，這是一個很有用的最佳化。

HiDream-I1 模型架構圖。

影像質量的提升則要歸功於研究者在擴散模型蒸餾中融入生成對抗學習，藉助 GAN 捕捉細節、銳化邊緣的能力，在蒸餾擴散模型的同時進一步提升了生成影像的真實感和清晰度，實現速度與質量的雙重最佳化。

值得一提的是，這樣訓練出來的 HiDream-I1 具有很強的可擴充套件性。所以在模型訓練出來後不久，智象未來就將其擴充套件到了互動式影像編輯大模型 HiDream-E1，讓影像編輯場景也有了「開源版 GPT-4o」可用。

HiDream 系列模型開源

影響力已初步彰顯

無論從實測效果還是基準測試結果來看，智象未來的 HiDream-I1 都已經非常接近 GPT-4o，站穩了國內影像生成第一梯隊。

而且，由於模型是開源的，其國際影響力也在逐步顯現。在開源後兩天，文生圖大模型競技場上的另一家模型公司 ——Recraft AI 就宣佈，他們已經集成了 HiDream-I1，還手把手教網友怎麼選用這個模型。

在 HuggingFace Trending 榜單上，HiDream-I1 飆升到了第二名。這說明 HiDream-I1 的下載量、點贊數都很可觀，在社群中非常受歡迎。

當然，沒有本地部署需求的朋友也可以在智象未來的官方平臺 Vivago 上體驗 HiDream-I1。該平臺上有更完整的工作流，支援在生成影像的基礎上進行影片製作等二次創作。

Vivago 上的影像轉影片效果。

據悉，過段時間，智象未來還將釋出多模態 Agent 產品。它的核心是讓大家用對話聊天的形式來生成圖片 / 影片，並使用自然語言對圖片 / 影片內容進行相應的編輯，從而漸進式地生成有故事情節的內容。便利之處在於不需要使用者自己去跨平臺選擇呼叫需要的功能以及調節複雜的引數。

對於這樣的模型改進、產品開發理念，智象未來 CTO 姚霆曾做出過解釋 —— 在應用端，真實感、指令遵循和敘事性的能力是使用者願意為之付費的基礎，所以智象未來在改進模型的過程中始終關注這三大屬性。如今，他們把這三點做到了新的高度，還開源了模型，可以說為想在這一領域開發應用的開發者或公司掃除了基礎障礙。

智象的研發人員透露，下一個開源模型–HiDream-E1 即將開源，相關基準測試資料也將在近日釋出。期待這個模型帶來優秀的編輯體驗。

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]