目錄
-
模型生成效果展示(prompt 全公開)
-
如何註冊 Stable Diffusion 使用
-
SD(dreamstudio.ai )的收費標註如何
-
SD 提供哪些引數可以設定
-
如何使用種子來改進一張作品
-
我用 SD 創作的圖片著作權如何歸屬,可以拿來商用嗎?
-
Stable Diffusion 背後的研發團隊
-
SD 是如何訓練出來的?
-
SD 是開源的嗎?
-
SD 未來有哪些可期待的亮點附錄:一些有用的資源
從本月初開始拿到 Stable Diffusion 的內測資格,我就再也沒有開啟過沉迷許久的 Disco Diffusion。
五天前,被視為當下最強的 AI 影像生成器的 Stable Diffusion 正式對公眾開放,透過網站註冊即可使用,提供了簡潔、友好的 UI 互動,相比 DD 大大降低了 AI 影像創作工具的使用門檻和難度。而且生成速度快,生成的圖形各方面表現都非常優秀。除了要花錢,簡直沒缺點啦。
不想花錢?還有好訊息:SD 同時正式開源了程式碼、模型和權重引數庫,部署到自己本地的 GPU上就等於免費啦。
先看效果。以下影像都是 Stable Diffusion 直出,無任何後期。Prompt 在圖的下方。其中 7 張作品由某不願意透露姓名的高手提供,感謝他授權並願意分享寶貴的 prompt。
PS. 如所有的 AI 生成模型的效果演示,下列影像都經過了 cheery pick,從同一個 prompt 的 4~10 次生成結果中挑選出了最令我滿意的一張。
先來看幾種常見的藝術媒介:
黑白版畫,無論是主題的準確性、氛圍感、生物體和建築體結構,還是構圖、筆觸肌理、光影對比,都接近完美。

black and white illustration of bloodborne, close-up street view of a victorian town at night, horrible, moon rising, by bernie wrightson, by dan mumford, by aaron horkey, cross hatching, high contrast, super detailed, minimalist composition, 4k

illustration print of horse head sculpture, super detailed, by dan mumford, by aaron horkey, high contrast, low poly style

a bear stealing food from a cooler beside camping fire, black and white engraving printmaking, cross hatching
水彩,cold pressed 水彩紙的紋理也還原得很清楚。

fine watercolor painting portrait of beautiful girl holding a lazy cat, neat, elegant, by ilya kuvshinov, by ben quilty, by hikari shimoda
厚塗油畫

thick coated oil painting close-up portrait of sad boy, by ben quilty, by hikari shimoda
藝術家,用 SD 創作的《席勒的自畫像》,prompt 只用了 5 個詞,第一次就跑出了頗為驚人的成果。跟年輕時的席勒頗為相像,也繼承了其油畫作品中標誌性的筆觸和用色,除了缺失一些表現主義的扭曲與癲狂感。

Self-Portrait by Egon Schiele

席勒及其原作
藝術風格
Stable Diffusion 生成荷蘭黃金時代的靜物油畫——公牛頭骨。

a bull skull, Dutch Age, oil on canvas, super detailed, high saturation, Golden ratio, centered and symmetrical composition

1628 年荷蘭黃金時代的靜物畫,大都會博物館館藏
Pieter Claesz, Still Life with a Skull and a Writing Quill風光攝影類作品的生成,(低解析度)糖水片隨便出啦。


a beautiful landscape photography of snow covered Rocky mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamus
建築和風景畫題材,無論是哥特小鎮的夜景,還是中國古建築的雪景,都能駕馭。

illustration of close-up street view of gothic town, night, by peter mohrbacher, by alex andreev, by jacek yerka, large depth of field, super detailed, digital art, trending on artstation, minimalism

winter winter winter winter a chinese temple building on hill and cliff with many peach trees blossoms, on himalayas, fantasy scene, fairy particle, illustration comic manga painting of road environment : 6 fantasy environment, digital painting, volumetric lighting by feng zhu, 3d alejandro alvarez alena aenami artworks in 4 k beeple, by thomas kinkade hearstone league of legends dofus overwatch(匿名高手作品)
宏大場景的渲染

military base,cybernetic baroque centipede cyborg urban epic scene + wall is berlin iron, inside organic robotic tubes and parts + translucent surface, German Third Reich army cyberpunk 2077+ Intricate Details, Hyperrealism, Wet, unreal engine, 3d, reflections + by Arsen Asyrankulov and Liudmila Kirdiashkina (匿名高手作品)

Hyper detailed painting of a cyberpunk cyberpunk cyberpunk TRAIN STATION, epic angle , ribcage skeleton symmetrical artwork, Hell of fire,3d with depth of field, blurred background, translucent, nautilus, energy flows of water and fire. a highly detailed epic cinematic concept art CG render. made in Maya, Blender and Photoshop, octane render, excellent composition, cinematic dystopian brutalist atmosphere, dynamic dramatic cinematic lighting, aesthetic, very inspirational, arthouse. y Greg Rutkowski, Ilya Kuvshinov, by James Jean and dan mumford (匿名高手作品)
3D 渲染類,浮雕徽章,皇冠,珠寶,水中的煙霧狀藍色墨水

fine silver badge, baroque pattern, relief angry cat, medieval, merchandise display, photorealistic, hyper realistic, octane render

fine golden crown, baroque pattern, merchandise display, photorealistic, hyper realistic, dramatic and epic, octane render

close-up maximalist rendering of lizard shape jewelry, rubies, gold, diamonds, obsidian, sapphires, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, fluid dark metal

full display of baroque style jewelry design, a pair of earrings, blue gemstones with different saturation winged butterflies and pear shaped diamonds, roses sharp, highly detailed vray render, flash (匿名高手作品)

rendering of blue ink in clear transparent water, smoke
數字插畫類

the last spaceship passing through the dark wormhole, dark and deathful, by kilian eng

the last supergigantic spaceship floating across the gate of wormhole, dark and deathful, by kilian eng

close-up maximalist illustration of panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed, hd wallpaper, digital art

close-up maximalist illustration of black panther, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

maximalist close-up illustration cat portrait like nobility, royal cat queen portrait, aristocratic dress, by makoto shinkai, by akihiko yoshida, by james jean, super detailed, fluid dark metal

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed

close-up maximalist illustration of lion, by makoto shinkai, akihiko yoshida, yoshitaka amano, super detailed
被視為 AI 影像生成之皇冠明珠的肖像畫,Stable Diffusion 也充分勝任。無論側視,¾ 檢視還是正面肖像,無論插畫、動漫、水彩等手繪抽象風格,還是照片類高模擬度的光影渲染,無論男女老幼,無不遊刃有餘,且在藝術感和風格多樣性上遠超 DALL·E。

maximalist close-up illustration side – view portrait of a beautiful elegant graceful girl, nautilus, long curls hairstyle, dressing with blue sea wave, art by james jean, bexquisite details, undersea background, golden ratio composition

maximalist close-up portrait illustration of a beautiful elegant cool siren, long curly hairstyle, dressing with blue sea wave and golden fish, art by james jean, by makoto shinkai, by agnes lawrence pelton, golden ratio composition,super detailed

maximalist close-up watercolor of a cool youth queen portrait with vintage golden crown, long curly hairstyles, with death rose and sea wave background, by makoto shinkai, art by james jean, by agnes lawrence pelton, exquisite details,golden ratio composition

close-up side view portrait of cyborg geisha, super intricate ornaments artwork by tooth wu and wlop, by alena aenami, by alphonse mucha, by brian froud, by pablo amaringo, super detailed, large depth of field

portrait of anime feminine long hair silver hair young man in suit, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

portrait of anime feminine long silver hair young man in suit, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)

portrait of anime muscular young man in armor, epic pose, pen and ink, intricate line drawings, by craig mullins, ruan jia, kentaro miura, greg rutkowski, loundraw and dan mumford (匿名高手作品)
名人肖像生成是頗有爭議的功能,DALL·E 等大廠都對人名設定了輸入過濾器。但 stability.ai 對此秉承一個開放的態度。在 prompt 裡輸入名人,如神奇女俠 Gal Gadot,SD 能夠準確生成對應的臉部。



portrait painting of beautiful Gal Gadot as a Mermaid, undersea, super real, highly detailed face, realistic face, beautiful detailed eyes, fantasy art, sharp focus, front light
如何註冊 Stable Diffusion 使用
從 7 月 30 日開始,Stability.ai 透過 waitlist 申請名單,共分 4 波邀請了 15000 名使用者參與了內測。
內測持續了約三週時間,在一個 Discord 群組中進行,跟 Midjournet 的服務模式一樣。群組中共有 50 個建立通道。所有人只要輸入 !dream + prompt + 引數 就發起了一次圖片生成請求(免費的),幾秒鐘內 discord bot 就會將結果圖片呈現給你。沒有跟 bot 的私有對話通道,這意味著所有人的 prompt 及對應結果都是公開的。你可以看到所有參與測試使用者進行的創作實驗。
8 月 9 日,內測使用者達到一萬人時,SD 釋出了discord 內的活躍資料:每秒鐘有 20 張圖片生成,每天一千七百萬張,平均每人每天生成了 170 張圖片,相當瘋狂。
8 月 13 日,第一階段內測 (使用 discord bot 功能)關閉,不再接受新的申請。
8 月 20 日,Stability.ai 宣佈第一階段內測正式結束,discord bot 服務關閉。Stable Diffusion 的服務轉移到網頁,正式對公眾開放。當然,免費午餐也結束了。
現在,所有人註冊賬號就可以在網頁上使用。既然是網頁服務,在手機、平板、任何作業系統都可以使用哦
https://beta.dreamstudio.ai/

Stable Diffusion (dreamstudio.ai )的收費標註如何
所有新註冊的使用者都能免費獲贈價值兩英鎊的200 個點數。每次標準生成耗費 1 個點數。
1 次標準生成指的是生成單張尺寸為 512*512,Steps 為 50 的圖片。如果你想要提高步數和尺寸,所消耗的點數將成倍增加。

參考官網給出的下表可見,最小尺寸 512*512 的影像,如把 steps 設為 150,消耗的點數為 3,價值 0.03 英鎊。而最大尺寸最高步數的單張圖片生成將消耗 28.2 點數,價值為 0.28 英鎊。

相比同類服務的收費:
DALL·E 的定價是美元 15 刀,115 次生成。每次生成請求會返回 3~4 張 1024*1204 尺寸的結果圖片,每次耗費 0.13 美元,約等於 0.11 英鎊。
Midjournet 則為按月訂閱收費,個人使用者有每月 10 美元和 30 美元兩檔,分別對應 200 和 900 次標準生成或放大請求(1 次標準生成請求對應 1 GPU minute,在 fast 模式下。每次生成會獲得四張 256*256 的初始結果,你可以選擇放大,每次放大也耗費 1 GPU min)。超過限額後,每 60 GPU min 售價 4 美元。但使用這兩檔訂閱服務,你的 prompt 和結果圖片都將暴露在十分混亂的公共頻道中,除非你每月再畫上個 20 美元才能享有私密的服務通道。
有人可能會認為生成大尺寸圖片,Stable Diffusion 的定價看起來太貴。但這三種生成模型的結果圖片尺寸並不能簡單換算,也並不完全等同於畫質。
我的實驗經驗表明,對於 Stable Diffusion,想要生成大尺寸圖片,將圖片高度和寬度的設定拉到最高 1024px 並非一個好的選擇。如 512*768 的尺寸生成的人像,很可能出現上下兩張臉。768*512 的橫幅尺寸生成的景觀畫,也一定機率會在地平線上橫排出兩個主題物件。目前我大部分較好構圖的結果都是使用預設尺寸 512*512 生成的,這跟模型的演算法相關。

beautiful portrait by Karol Bak, sci-fi, digital art

a beautiful landscape photography of mountains, a dead intricate tree in the foreground, sunset, dramatic lighting, by Marc Adamu
從畫質和細節豐富程度上比較,Stable Diffusion 的 512*512 毫不遜色於 DALL·E 2 的 1024*1024。而 Midjournet 的畫質和噪點問題則一直是社群詬病的 (新演算法版本中已有很大改善)。
Stable Diffusion 提供哪些引數可以設定
不像 Disco Diffusion 需要掌握對 20~30 個引數的學習和實踐運用,SD 只提供了 7 個可設定的引數,非常簡單。

長寬尺寸:並不是數值越大效果越好,長寬的理想範圍都是在 512~768 px 之間,除非你想要的生成效果不在乎主題物件的重複出現。希望獲得更高解析度的圖片,最好還是先用 SD 生成以後,再尋找合適的模型進行 upscale。
CFG scale,類似 DD 裡的 CGS 引數。越高的數值會讓生成結果跟 prompt 匹配度更高,同時也會讓結果圖片的飽和度和對比度更高,顏色更平滑,紋理更少。但高於 20 後會出現不良效果。

Steps:diffusion model 生成圖片的迭代步數,每多一次迭代都會給 AI 更多的機會去比對 prompt 和 當前結果,去調整圖片。更高的步數需要花費更多的計算時間,也相對更貴。但不一定意味著更好的結果。當然迭代步數不足(少於 50)肯定會降低結果的影像質量。
Number of images: 每次 prompt 指令生成多少張圖片結果供選擇。4 張是一個比較理想的選擇,因為 stable diffsuion 的種子隨機性很強,同一批返回結果裡可能有好有壞,差距很大。當然選擇生成的數量越多,計算時間就越長,每多一張就要多花一張的 credit。

black and white pen illustration a running cat, super detailed, by dan mumford, by aaron horkey, high contrast
Sampler:擴散去噪演算法的取樣模式。兩個帶 _ancestral 的,可能會帶來不一樣的效果,ddim 和 plms 的結果差異會很大,其它留給你們自己去實驗咯。
共有如下幾種可供選擇:ddim, plms, k_euler, k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral, k_lms
推友 @Erblicken 給出了他的實驗結果

Seed:生成每張圖片時的隨機種子,這個種子是用來作為確定擴散初始狀態的基礎。所以同樣的 prompt + 同樣的引數設定 + 同樣的種子,每次生成都會得到幾乎一模一樣的結果影像。如何運用種子,對於當前可玩引數較少的 SD 而言,成了最有意思的部分。
如何使用種子來改進一張作品
@bartman081523 使用同一個種子 14586 生成的一組圖片,每張輕微替換了 prompt 中的一兩個關鍵字。實驗結果很明顯,鎖定一個種子後再調整 prompt,可以保持構圖、佈局大致相同,在細節和色調上帶來變化。
prompt: countryside in japan, sunrise, foggy | midday | evening, cloudy | night,trees, mountains, watercolor-wash

胖手AI藝術家和菜頭使用同一個種子,每次更換 prompt 中的年齡,得到了一個女人從半歲到 200 歲,各個年齡段的照片,合成的 gif(最後一張 3934… 歲,一個非常大的數字,和菜頭表示 “SD 證明了人類有輪迴”……)。

@WeirdStableAI 用同一個種子做了 47 次生成,每次更換了 prompt 藝術風格/流派 修飾詞,得到了有趣的結果對照。

https://pbs.twimg.com/media/FZrVDVaXEAwnTYG?format=jpg&name=4096×4096 高畫質原圖
所以如果你從一次 prompt 裡得到了一個佈局、構圖和主題都很滿意的結果,可以把種子 copy 下來,用於下一次生成。

關閉 Random Seed 隨機種子按鈕,在輸入框裡貼上種子,再根據需要調整 prompt 或引數,這樣就能對結果圖片進行持續的調整或最佳化。

經過測試,可以對結果有影響的 prompt 調整,除了替換部分關鍵字,還包括:更改關鍵詞的排序,修改分隔逗號,改變修飾詞(例如,把 by xx藝術家 改為 in the style of 或 art by) 等,都是值得嘗試的技巧。
還有一個比較 hack 的技巧,是在你想強調的關鍵詞上加多組小括號,括號越多,對這個關鍵詞的強調越重。不一定對所有 prompt 都有效。下面是我做的一個實驗:鎖定種子後,使用同一個 prompt :
Close-up side view portrait of Cyborg Geisha, rotobic, Machina, super intricate ornaments artwork, by Tooth Wu and wlop, by Alena Aenami, by Alphonse Mucha, by Brian Froud, by Pablo Amaringo, super detailed, large depth of field
從上到下,圖 1~4,我分別給 Geisha (藝妓) 這個關鍵字添加了 0、2、4、7 組小括號,像這樣寫:
Close-up side view portrait of Cyborg (((((((Geisha)))))))) , rotobic, Machina, super intricate ornaments artwork ……
明顯可見,圖4 呈現了更多的人臉,更多更準確的五官細節,而 Cyborg, rotobic, Machina 這些修飾詞的比重下降了。
除了小括號之外,你還可以試試對關鍵詞新增多組單引號或雙引號。




在使用鎖定種子這一技巧時需要注意,種子確定噪音的初始狀態,所以對尺寸設定做任何改變後,同一個種子就無法重複了。
如果 SD 執行的版本有所不同,種子也可能失效。
我用 Stable Diffusion 創作的圖片著作權如何歸屬,我可以拿來商用嗎?
取決於你執行 Stable Diffusion 時是透過哪種服務:
1,自己部署已經開源的 Stable Diffusion,也就是說用的是自己的 GPU 資源,所生成圖片(Output)的著作權,Licensor(Stability.ai)claims no rights。
我理解得沒錯的話,就是結果圖片著作權和如何對外授權都歸你自行定義,Stability.ai 不做約束,也不會共享你的著作權和收益。

開源模型的授權協議全文請訪問下面連結, 對 Output 的宣告在第6章。
https://huggingface.co/spaces/CompVis/stable-diffusion-license
2,使用 dreamstudio 網站、官方 discord bot 或 其它 Stability.ai 直接提供的生成服務, 作品著作權歸屬就需要注意了。TOS 裡明確了,你擁有生成作品的著作權,但同時也強制你將作品以 CC0 1.0 授權給 Stability.ai 和 通用公共領域。
通俗點解釋,你可以商用或非商用自己創作的影像,但你的影像只要是透過上述服務生成的,就自動變成了CC0 1.0 授權。成為通用公共領域 royalty-free 的圖片資源。服務提供商 Stability.ai 和該服務上其它使用者(包括爬蟲)跟你享有同等的,對你作品進行分發、複製、改編、修改等權益,無需經過你同意,也無需付費,包含商用目的。
這也意味著你使用上述服務生成的影像以後也會進入訓練資料集哦
TOS 全文:https://beta.dreamstudio.ai/terms-of-service
3.使用其它接入 Stable Diffusion API 的服務,例如 Nightcafe,需要參考對應服務提供商的協議。
Stable Diffusion 背後的研發團隊
Stable Diffusion 所屬的 Stability.AI 是一家創始於英國倫敦的年輕的人工智慧解決方案提供商。公司 slogan 就是 AI by the people, for the people,顯示其願景中對開放的承諾及開源協作的重視。
其官網簡介上也提到 We are unafraid to go against established norms and explore creativity. “在探索創新的道路上並不懼於挑戰已有規則”。
在 Stability.AI 官網上列出的他們資助的諸多 AI 研究團隊或專案中,有兩個跟AI 影像生成領域 密切相關:
EleutherAI:去中心化組織的 AI 開源研發團隊。雖然他們自稱草根,但在大型語言模型 (GPT-NeoX-20B)、機器學習影像生成這兩個領域已經是開源團隊中的翹楚。
EleutherAI 的核心成員 Katherine Crowson @RiversHaveWings(資料科學家)和 Ryan Murdoch @advadnoun(Adobe的機器學習演算法工程師)開始實驗一種之前沒有人想到過的做法,將兩種不同的神經網路模型 CLIP 和 GAN 連線起來。2021年1月,其成果作為 notebook 釋出,瞬間引爆了上千的業界轉發。這個 notebook 就是 CLIP + VQGAN ,第一個 CLIP guided text-to-image 模型的實現:透過輸入一小段 prompt,讓深度學習網路為你生成對應的圖片。
而後來我們熟知的 Disco Diffusion 就是 CLIP + VQGAN 的下一代進化,CLIP + Diffusion 生成模型。
VQGAN + CLIP 引領了全新一代 AI 影像生成技術的風潮,你會在幾乎所有開源 TTI 模型的簡介都裡看見對 Katherine Crowson 的致謝,她被稱之為是這一代模型的奠基者是當之無愧的。
EleutherAI 正計劃訓練可以比拼當下最大規模的 GPT-3 模型(175B 引數)的語言模型。再加上當前正熱的 Stable Diffusion 的成功,EleutherAI 顯然是 OpenAI 不可小覷的開源世界挑戰者。
LAION 是一個跨全球的非營利 ML 研究機構,今年 3 月開放了當前最大規模的開源跨模態資料庫,包含 5.85 Billion 個的 CLIP-filtered 圖片-文字對,是它上一個版本 LAION-400M 的十四倍大。可以被用來訓練類似 DALL·E、DD、SD 這樣的 影像/文字生成模型(image/text generative models),也可以用於訓練 CLIP(Contrastive Language-Image Pre-Training model)這樣可用於給文字和影像的匹配程度打分的模型,這兩者都是現在 AI 影像生成模型的核心部分。
除了提供 5B 這樣的海量語料庫,LAION 還訓練 AI 根據藝術感或視覺美感(Aesthetics),給LAION-5B 裡圖片打分。把高分圖片歸進了一個叫 LAION-Aesthetics 的子集。
https://github.com/LAION-AI/laion-datasets/blob/main/laion-aesthetic.md
LAION-5B 資料集裡搜尋 cat 的結果

LAION-Aesthetics 資料集裡搜尋 cat 的結果

Aesthetics score 從 0~10 一共 10 個分數等級,8 分以上的 800 萬張,7 分以上的 1.2 億張。使用高美感分數的資料集訓練出來的 TTI 模型,當然能更大機率生成符合人類審美的結果。這也是為什麼相較其它模型,Stable Diffusion 更有藝術感藝術感,對風格和流派的把握更準確,更多樣。
Stable Diffusion 是如何訓練出來的?
、SD 的基礎是 Latent Diffusion 這個生成速度快、對計算資源和記憶體消耗需求小的擴散模型。再結合已在 DALL·E 2 和 Imagen 取得驚人進展的 conditional diffusion model 相關的論文及實踐成果。
其訓練模型的核心資料集則是前文介紹過的 LAION-high-resolution 和 LAION-Aesthetics。使用 AWS 提供的 4000 塊 A100 顯示卡組成的強力計算叢集,花費約 15 萬小時的訓練完成了第一個版本。
慕尼黑大學機器學習研究小組(前海德堡大學 CompVis Lab)的 Robin Rombach 領導研發的 使用 Latent Diffsuion 合成高解析度影像合成的模型架構,影片編輯軟體 Runway 開發者 Patrick Esser 一起做的研發,加上 ELeutherAI 團隊的 Katherine Crowson、JDP 和 LAION 專案團隊在模型訓練上的集體努力。Stability.ai 提供計算資源訓練模型和產品開發。
-
具體技術細節請移步
https://huggingface.co/blog/stable_diffusion
-
訓練過程中的 3 個 checkpoint:
https://huggingface.co/CompVis/stable-diffusion-v-1-4-original
-
論文《High-Resolution Image Synthesis with Latent Diffusion Models 》
https://arxiv.org/abs/2112.10752

Stable Diffusion 的開源
Stability.ai 動作非常迅速地踐行了它們之前所作的開源承諾。8 月 22 日,所有程式碼、模型和權重引數庫已經在 Huggingface 的 Github 上開放:
https://github.com/huggingface/diffusers/releases/tag/v0.2.3
或
https://huggingface.co/CompVis/stable-diffusion
這也就意味著你可以在自己本地部署並免費執行 Stable Diffusion 啦。
Stability.ai 的釋出公告中稱 Stability Diffusion 可以部署在 10G 視訊記憶體的消費級顯示卡上使用,生成 512*512 尺寸的圖片只需要幾秒。當下開源模型中推薦 v1.4 470K, 視訊記憶體消耗約為 6.9 G,對比DD 動輒需要 3090 這一的高階顯示卡和數十分鐘的等待時間,大大降低了當前開源 TTI 模型的使用門檻。
SD 開源模型的授權協議是 Creative ML OpenRAIL-M license,在 非有害目的 的條件下,允許商用和非商用。
你還可以試試 Huggingface 的 Diffuser library (強烈推薦), 將 Stable Diffusion 作為 pipeline 中的模型執行,使用和安裝說明的詳情參考訪問這個 colab notebook :
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb
huggingface 的 space 上也可以直接體驗 SD demo:
https://huggingface.co/spaces/stabilityai/stable-diffusion
Stable Diffusion API
-
A reference Python client that can be installed via pip using pip3 install stability-sdk
https://github.com/Stability-AI/stability-sdk
-
A ipynb notebook that shows how to use it from ipython or Collab
https://github.com/Stability-AI/stability-sdk/blob/main/nbs/demo_colab.ipynb
-
A .proto file that can be used to generate gRPC (https://grpc.io/) stubs for your favorite language! We have internally used this to generate stubs for Python, Golang, and TypeScript/JavaScript
https://github.com/Stability-AI/stability-sdk/blob/main/src/proto/generation.proto
Stable Diffusion 未來有哪些可期待的亮點
功能上,根據各渠道洩露的訊息和當下AI影像生成常見 pipeline 的實現可行性,大家都非常期待的 init image 和 mask 功能,應該很快就會支援。
Init Image:基於一張你上傳的底圖,配合 prompt 生成底圖的變體,或對底圖進行風格或材質的渲染,還可以精確控制 底圖和text prompt兩者的對生成結果的影響比重。
Mask:在 DALL·E 也被稱為 inpaint 或 outpaint。
在原始圖片上你想修改的地方標記出 mask 蒙版(比如用筆刷塗抹,或橡皮擦除), 配合prompt,AI 可以在蒙版標記區域補上新的內容,或重新生成區域性完成對原圖的修補,這就是 inpaint。
例如,左圖由 SD 生成,我用蒙版遮蓋了不太完美的右眼和牙齒的右邊部分,再重新生成,得到修補結果如右圖。只是目前右圖現在是轉移到 DALL·E 裡實現的。

蒙版的標記可以是在畫面內(inpaint),也可以是畫面外(outpaint)。
左圖是 SD 生成的原圖,將原圖放在一張較大的空白畫布中,再補充上 prompt (添加了修飾詞 with blue sea wave and golden fish background)再次生成,就完成了右圖,等於把影像外接了一圈。這種功能可以用於修補不完美的構圖,或從一個很小的畫面透過多次生成,構建出一個很大的場景。

模型的更新方面,Stability.ai 承諾會在接下來的一段時間裡,將釋出當前 v1.4 模型的最佳化版本以及其他變體和架構,以提高效能和質量。甚至有望支援其在 AMD、Macbook M1/M2 和其他晶片組上執行。目前還是隻推薦使用 NVIDIA 晶片。
介面和應用:AI 影像生成應用中的前輩 NightCafe.studio 剛剛已經接入了 Stable Diffuion ,使用者可以在 DD、SD、VQGAN 和 風格遷移 這幾大類模型中四選一。
基於已經 Stability.ai 已經開放的 API,相信你很快可以在大部分 AI 影像生成應用或 APP 裡都用上 SD。

專精於 AI 人臉生成的應用 Artbreeder 剛剛釋出了 跟 Stable Diffusion 合作的應用 collage.artbreeder.com。

這個應用很有意思,你可以在空白畫布上畫一些形狀,用純色或噪點填充,或新增一些現成的元素(比如上圖中的月亮),然後 寫好 prompt 引導 AI 生成,下面那個 AI 的滑條可以設定畫布上底圖對結果的影響比重。然後生成……

一看就明白,這個應用基本就是我前文說過的 init image 功能啦。只是這個底圖是在網頁上畫出來的。
此外,Stability.ai 在釋出 SDK 的時候也承諾會盡快釋出支援多語言的模型,還有使用 Golang 開發的高效能 Discord bot,也是開源的哦。這也就意味著你可以在自己建的 discord group 裡接入 SD 生成 bot,當然,如果像使用 SAAS 服務那樣,直接使用它家的 API,需要按次支付成本哦。
我們也有理由展望,未來會有越來越多的 IM、SNS 或遊戲中接入 SD 或類似 SD 這樣快速易用的 AI 影像生成模型。
而影像生成的下一步就是 影片、可互動動視、虛擬實境 和 3D。
想象一下,在 遊戲 或 元宇宙 開發裡,用語音說出幾個修飾詞,就能即時生成真正獨一無二的裝備、道具、服裝、建築,隨意根據自己的想象去設計 場景、NPC 和 敵人。就連對白,也可以用 GPT 生成的。
在生產力工具方面,影像、影片、動畫、3D 編輯創作工具中,應該也會很快看見更多同 AI 影像生成模型的結合,比如輔助構建概念草圖、修補影像,建立貼圖或關鍵幀。
對於 2022 年的人工智慧領域,影像生成模型 text-to-image generator無疑已成為最大的主角。從 3 月 Disco Diffusion 的火爆出圈,4 月 DALL·E 2 和 Midjourney 開始邀請制內測,5 月和 6 月 Google 釋出了兩大 TTI 模型 Imagen 和 Parti(僅論文,無內測)。7 月底,Stable Diffusion 的內測和開源又佔盡了風頭。TTI 這個領域的變化之快,是以天而計的。
2022 年還剩 1/3,不知道還有多少驚喜等待著我們。
當然所有新技術都是雙刃的,會賦予一部分人新的力量,也會打翻一部分人盤子裡的蛋糕。下一篇我會寫寫AI 影像生成當下面臨的最大爭議:”AI 藝術家” 們是不是在竊取其它藝術家的勞動成果?
附錄:一些有用的資源
Stable Diffusion prompt 搜尋引擎—— 抓取了大量 SD 的 prompt 對應的生成結果。對於不知道該怎麼寫 prompt 的新手是很好的參考。

https://lexica.art/
用 Stable Diffusion 生成的藝術家風格參考庫

https://proximacentaurib.notion.site/e2537cbf42c34b7e9a9a4126f81dfd0d?v=7b4a3c03fb654045be324eb71acc57e6
CLIP Ranked Artists—— ProgRockDiffusion 的開發者 Jason Hough @LowFuel 的專案,列出了各藝術家在 CLIP 各模型裡的的感應度評分,以及相似藝術家。

https://f000.backblazeb2.com/file/clip-artists/index.html#by_jim_burns
Prompt 構建器 —— 寫 prompt 詞彙量不夠?想不出來更具體地描述一個物件?這個應用把多個維度的修飾詞做成了一個個帶 demo 效果圖的可點按鈕,只需點點點,就能自如組合出一個花樣繁多的 prompt 了,非常直觀。


https://promptomania.com/stable-diffusion-prompt-builder/
點選閱讀原文,訪問 beta.dreamstudio.ai, 開始創造吧