喜發新模型，卻被眾嘲是破產“前兆”！StabilityAI“最強”模型人形繪製太“陰間”，網友：因為研發太講武德

整理 | 華衛、核子可樂

6 月 12 日，Stability AI 推出了 Stable Diffusion 3 Medium，這家英國初創公司稱其為“迄今為止最先進的文字到影像開放模型”。至關重要的是，該模型可以在消費級 PC、筆記型電腦等個人消費系統以及企業級 GPU 上執行時生成這些影像。

要體驗 SD3 Medium，可使用 Stability Platform（https://platform.stability.ai/）上的 API，註冊 Stable Assistant（https://stability.ai/stable-assistant）以獲取三天免費試用，也可透過 Discord 體驗 Stable Artisan（https://stability.ai/stable-artisan）。

據介紹，SD3 Medium 由 20 億個引數組成，無需複雜的工作流程即可獲得逼真的結果。模型的大小也是 SD3 Medium 的核心亮點，該模型比許多 Stable Diffusion 3 模型都要小，後者的引數範圍在 8 億到 80 億之間。

Stability 公司表示，其構建 SD3 Medium 來理解涉及空間關係、構圖元素、動作和風格的複雜提示，它還能克服手部和麵部常見的偽影和瑕疵。但意外的是， SD3 Medium 一經發布，卻因手腳等人體部位的“奇怪”繪製引發了“群嘲”。

面對 SD3 Medium 生成的離譜畫面，甚至有不少使用者紛紛吐槽：“這個版本是來搞笑的嗎？”

SD3 Medium 有何突破性？

根據官方說法， SD3 Medium 是一套擁有 20 億引數的 SD3 模型，其顯著特點包括：

出色的整體質量與照片級真實感：提供包含出色細節、色彩及光照的影像，可在輸出中實現照片級的真實表現以及風格靈活的高質量效果。透過 16 通道 VAE 等創新，成功解決了手部及面部真實感不足等其他模型中常見的缺陷。
提示詞理解：能夠理解涉及空間推理、構圖元素、動作及風格等概念的大段、高複雜度提示詞。透過使用全部三種文字編碼器的組合，使用者可以在效能與效率之間做出權衡。
排版功能：憑藉 Diffusion Transformer 架構，SD3 Medium 實現了“前所未有”的文字輸出質量，能夠減少拼寫、字距調整、信函格式及字母間距等方面的錯誤。
資源高效：由於所佔用的 VRAM 空間小，所以非常適合在標準消費級 GPU 上執行，且不致犧牲模型效能。
微調：能夠從小型資料集中吸納微小細節，非常適合滿足定製化需求。

使用“一隻貓在車裡抱著一罐啤酒”作為提示詞，在 SD3 Medium 中生成的示例

同時，Stability 與英偉達和 AMD 開展合作。利用英偉達 RTX GPU 以及 TensorRT 增強全體 Stable Diffusion 模型（包括 SD3 Medium）的效能，TensorRT 最佳化版本更可提供 50% 的一流效能提升；AMD 已針對各類 AMD 裝置（包括最新 APU、消費級 GPU 以及 MI-300X 企業級 GPU）優化了 SD3 Medium 的推理效能。

此外，Stability 強調安全、負責任的 AI 實踐原則，並已經採取並將繼續透過合理措施以防範惡意行為者對 SD3 Medium 的濫用行為。其表示，安全自模型訓練之時起，貫穿整個測試、評估與部署過程。Stability 對模型開展了廣泛的內、外部測試，同時制定並實施了多項保護措施以防止危害發生。

因人體繪製問題被狂嘲

然而，SD3 Medium 的到來很快在網上受到使用者的嘲笑。因為其生成人體影像的能力相較於其他最先進的影像合成模型（例如 Midjourney 及 DALL-E 3）似乎反而有所倒退，會生成一些在結構上詭異扭曲的視覺效果。

Reddit 使用者使用 SD3 Medium 建立的 AI 生成影像，提示詞為“一個人在客廳裡打盹”

Reddit 上的原帖題為《這個版本是來搞笑的嗎？（Is this release supposed to be a joke? [SD3-2B] ）》，其中詳細介紹了 SD3 Medium 在渲染人物，特別是在手、腳等肢體方面的離譜操作。

Reddit 使用者使用 SD3 Medium 建立的 AI 生成影像，提示詞為“海灘上穿著裙子的女子”

受到早期訓練資料集中高質量示例不足的影響，繪製手部一直是 AI 影像生成工具面臨的關鍵挑戰。但近來，不少影像合成模型似乎已經克服了這個問題。所以對於匯聚在 Reddit 上的影像合成愛好者們來說，SD3 的表現似乎確有倒退之嫌——特別是與去年 11 月釋出的 SD XL Turbo 等 Stability 版本相比。

使用 SD3 Medium 建立的三張 AI 生成影像，手部明顯殘缺不全

一位 Reddit 使用者寫道，“不久之前，Stable Diffusion 還在與 Midjourney 分庭抗禮；可現如今，它看起來就像是個笑話。唯一能拿出來說說的，就只有資料集安全和符合道德原則了！”

另一篇題為《SD3 在生成躺在草地上的女孩時為何表現糟糕？（Why is SD3 so bad at generating girls lying on the grass?）》也展示了類似的問題，只是這回出問題的是整個軀體。

使用 SD3 建立的 AI 生成影像，提示詞是“一位女子躺在草地上”

AI 影像愛好者們目前將 SD3 的人體繪製問題，歸咎於 Stability 堅持從 SD3 的訓練資料中過濾掉成人內容（所謂「不適合工作時間觀看」的內容，簡稱 NSFW），因此影像生成質量有所下降。一位 Reddit 使用者寫道，“分享一條冷知識，對模型的嚴格審查也會過濾掉人體解剖素材，於是……就變成現在這樣了。”

也就是說，每當使用者的提示詞表達了 AI 模型未能在訓練資料集中充分接觸過的概念，影像合成模型就會自行捏造對於使用者要求的最佳解釋，扭曲詭異的影像也由此產生。

2022 年釋出的 Stable Diffusion 2.0 在描繪人體方面也出現過類似的問題。當時，AI 研究人員很快發現，篩除包含裸露內容的成人素材很可能會嚴重妨礙 AI 模型準確生成人體解剖結構的能力。隨後釋出的 SD 2.1 和 SD XL 成功扭轉了局面，恢復了一部分因嚴格過濾 NSFW 內容而失去的繪圖能力。

模型預訓練期間可能出現的另一個問題，是研究人員設計的 NSFW 過濾器在刪除資料集中成人影像時可能過於挑剔，意外排除了那些並不存在冒犯性的內容，這就導致模型偶爾無法準確描繪人體。一位 Reddit 使用者在帖子中寫道，“只要圖片不涉及人物，SD3 的工作就一切正常。所以我認為是他們用於過濾訓練資料的 NSFW 過濾器敏感度過高，把所有人類影像都劃入了 NSFW 範疇。”

使用 Hugging Face 上的 SD3 免費線上演示，即可快速輸入提示詞並看到與 Reddit 使用者們上報情況類似的結果。例如，使用“一名男子伸出雙手”的提示詞，模型生成了一張男子舉起兩隻碩大且左右顛倒手部的影像，好在指頭倒是正確的五根。

使用“一名男子伸出雙手”作為提示詞，在 SD3 Medium 中生成的示例

結語

SD3 Medium 在 Stability 的動盪時期到來。

這家初創公司成立於 2020 年，很快就被譽為生成式人工智慧的新興領導者之一。與競爭對手 Midjourney 和 OpenAI 的 Dall-E 並駕齊驅，Stable Diffusion 登上了新生文字到影像子行業的頂峰。2022 年，投資者對這家初創公司的估值為 10 億美元。

然而，從那時起，一連串的訴訟和財務問題吞噬了這家企業。藝術家們起訴該公司未經同意就用他們的作品訓練人工智慧模型。上個月據外媒報道，Stability 公司也曾討論過出售事宜，因為它面臨著資金緊張的問題。

今年 2 月，Stable Diffusion 3 模型的延遲釋出也激起了不少傳聞。有聲音認為，Stability 是遇到了技術問題或是受到管理不善的影響。該公司最近也確實身陷困境，其創始人兼 CEO Emad Mostaque 已經於 3 月辭職，隨後又經歷了一系列裁員。在此之前，三位核心工程師 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已決定離去。

在一部分 Stable Diffusion 粉絲看來，SD3 Medium 如今在部分方面表現不佳的“失敗”可謂該公司管理失能的直觀體現，也代表著問題已經大到無法掩蓋的地步。儘管該公司尚未申請破產，但不少使用者在看到 SD3 Medium 的表現後尖銳地諷刺稱：“我猜他們終於能以一種安全且符合道德的方式宣告破產了。”

但無論如何，SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先進的文字轉影像 AI 模型，代表著生成式 AI 發展的重要里程碑，將繼續為這項強大技術的普及貢獻力量。Stability 表示，其將根據使用者反饋不斷改進 SD3 Medium 模型，擴充套件其功能並最佳化效能。目標是為生成式 AI 的藝術創作領域樹立新的標杆，並使 SD3 Medium 成為服務專業人士與業餘愛好者的重要工具。

參考連結：

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/

內容推薦

大模型已經在各種領域有著廣泛的應用和實踐，如BI、企業生產、AIoT、程式設計、資料分析等場景。各個企業當前的探索為大家在落地時解決各種問題提供了重要參考。「AI前線」整理了AICon 北京 2024上大模型在不同領域的應用探索和 Agent 實踐相關PPT以及資料。關注「AI前線」，回覆關鍵詞「應用探索」即可免費獲取。