對AI創業者的靈魂拷問:為什麼是“妙鴨相機”做成了“妙鴨相機”?

點選上方藍色字型“騰訊創業” 選擇關注公眾號
創投圈大小事,你都能盡在掌握
騰訊創業 | ID:qqchuangye  
“AI必將深刻改變人類的生活,妙鴨相機就是一個絕佳的例子。”

本文來源 “Web3天空之城”(ID:Web3SkyCity),騰訊創業經授權後轉載。


作者/天空之城城主

如果這兩天還沒聽說過妙鴨相機,那你已經out了。
作為關心時尚的女生,你這兩天不可能沒注意到朋友圈的刷屏。眾多畫面精美儀容姣好的朋友照片,就問你心動了沒。
作為網際網路圈人士,你更不可能沒注意到這個爆款在群裡和圈裡的刷屏討論。
特別是看到眾多網際網路圈外的朋友開始談論這個應用的自拍照效果,很明顯妙鴨已經出圈了。
妙鴨相機的主要功能就一個,拍攝上傳20張個人清晰照片,然後後臺基於AI模型生成各種場景下的自拍人像照。
這個想法說白了是簡單, 但扛不住妙鴨相機生成圖的效果足夠好啊,好到讓小姐姐們心花怒放,好到達成了爆發式的朋友圈自發曬圖傳播。
首先要恭喜妙鴨相機團隊,這應該是國內第一個爆款AI應用。
讓作者驚訝的是,原以為這是個創業團隊的產品,後來一看是阿里(優酷)內部創業專案。
所以作者就有了題目裡這個面向所有AI創業者(特別是做AI繪畫模型應用的創業者)的靈魂問題:
為什麼是妙鴨相機做成了妙鴨相機?而不是其他團隊做成妙貓相機或妙狗相機?
這個問題的重點是, 妙鴨相機並沒有任何獨門秘籍,其所用的AI繪畫模型技術都是公開的,甚至是程式碼開源的。
熟悉AI繪畫模型技術的同學基本都可以一眼看出, 妙鴨相機背後的技術,是一種稱之為LoRA模型的微調技術。
01
什麼是LoRA?
LoRA全稱是:Low-Rank Adaptation of Large Language Models,是一種對大型語言模型進行定製化微調的技術,它允許使用很少的資料就可以訓練出具有特定風格或特徵的模型。它只需要訓練一個低秩的引數矩陣,然後將這個矩陣注入到原始模型中(就是矩陣引數線性相加),可以改變原始模型的生成結果。
對於小開發者來說,LoRA是一個非常有用的工具,可以在不修改或重新訓練整個大語言模型的情況下,使用少量樣本定製化語言模型的風格和特徵。
從LoRA的全稱可以看出,這個模型調整技術最早起源於NLP領域, 類似GPT這樣的大語言模型引數太多,重新訓練代價太大,聰明的人們想了這個折中的辦法,低成本而高效的調整模型。
但LoRA模型受到更多關注是在AI繪畫模型領域。
在約半年之前, 熱愛美少女圖的二次元開發者們持續改進基於Stable Diffusion(SD)的AI繪畫模型, LoRA作為一個模型外掛被加入SD生態,SD的LoRA外掛就用來做一個事情,來給人臉定型!
在有LoRA之前,SD出圖具有隨機性, 即便使用素材照片墊圖生成的方式,也很難控制出圖的人臉保持和素材一致。但LoRA一舉解決了這個難題。
有關注AIGC生圖的朋友肯定會發現,近半年來, AI生成的韓日風格美少女圖數量和質量都猛增,在小紅書等平臺上大火,很是收割了一波流量。這背後都是LoRA模型的功勞,熱心的社群開發者用日韓美少女的頭像訓練出了直接可用的LoRA模型分享到了模型社群C站上,直接讓普通使用者生成美少女AI圖的門檻降到了零。
可以說,過去半年,AI繪畫模型領域最大的兩個技術成果之一就是LoRA;而另外一個,正是控制人物身體和手部姿勢的ControlNet。
不過,有趣的是,儘管這在AI繪畫技術社群屬於人人皆知的知識點,但對於圈子外的人們,並沒有很多人瞭解AI繪畫模型的進步,甚至都能精確控制人臉了。
這裡的關鍵是, 精通LoRA和AI繪畫模型能力的大都是些直男們(哈),生成的也是一些直男審美的小姐姐圖,發在影片號和小X書收割一點直男的流量,完全不出圈。
但妙鴨相機應用的妙處在於,它異常精準的找到了一個痛點,用LoRA技術給小姐姐們生成水平非常線上的自拍真人照。
小姐姐們最大的痛苦是什麼?不就是沒有一個會拍照的老公/男朋友嗎?小姐姐們看閨蜜們髮圈好看照片的內心大多是:如果我也有個好攝影師,去這場景裡拍也一定不會比你差!
而現在, 妙鴨相機的9塊9就解決了這個問題,半杯星巴克咖啡的錢,還有什麼好猶豫的呢?充值!出圖!髮圈:)
而這也是妙鴨相機APP讓人眼紅的地方,破圈爆火的同時,就已經完成了商業化的閉環。這和MidJourney的出圈非常像。就是不知道妙鴨是否能走出MidJourney的長線光輝路徑。
迴歸標題,這個事情對於AI創業者的嚴肅拷問是,為什麼是妙鴨先做了這個事情?就使用了一個對AI創業者毫無秘密可言的技術。
SD的LoRA已經出來快半年了,在這半年裡,我們聽了很多所謂AI應用如何能出爆款的討論;現在好了,爆款來了,做AI應用的創者團隊應該閉門好好反思一下,半年過去了,為什麼自己沒有想到這個點?一個這麼顯而易見的痛點。
(這裡補充說明一下,或許妙鴨或者阿里的朋友會來辯論說,可沒說過妙鴨是用開源的SD和LoRA技術,或許是阿里內部自研的呢?作者也沒看過原始碼,純屬含笑猜測)
其實妙鴨相機還有很多不完善的地方,最大的問題是上傳數十張照片後居然要等超過10小時才能看到成片,這門檻簡直不可思議;即使這樣,這個產品都能出圈爆火,大家想想這背後的使用者需求有多大多迫切。
笑到最後的,很多時候都不是技術最頂尖的那個團隊,而是最懂使用者痛點的團隊。妙鴨相機的產品決策者,顯然值得一個巨大的年終獎。
如果妙鴨是小公司做的,現在估值已經很可怕了。當然,這樣的產品完全不需要融資,就像Midjourney,從第一天開始就賺錢,投資人給錢都塞不進去。
其實一切都剛開始,作者絲毫不懷疑這個使用者場景的持續性和使用者的付費意願,但是要觀望一下,妙鴨的護城河有多高。作者的觀點,可能不太高。美圖秀秀的AI團隊吧,他們應該現在就在24×7加班加點,復刻一個妙鴨相機的功能出來。(如果美圖還沒危機感,內部沒動作,那就搞笑了)
不過,也有另外一種可能性。還是以Midjourney為例,開源的AI繪畫模型那麼多,為什麼MJ還發展這麼好,因為MJ模型的出圖效果就是總比開源模型好那麼半個身位,一直被追趕,從沒被超越!
領先多少呢,根據作者這一年的密切使用和觀察,基本是3個月而已。但已經足夠。
所以,如果妙鴨相機團隊已經找到了一些LoRA最佳化的獨門秘籍,讓自己app的出圖效果,不管是人臉效果還是場景融合效果,就是保持比其他後進的app效果好3個月,那麼就真的可以恭喜了。
如果作者是阿里高層決策者,現在就應調撥AI研發資源,全力支援妙鴨相機大模型的後續迭代,把握這個來之不易的先發優勢和產品地位。
02
使用者該顧慮什麼
這裡稍微發散一下, 從產品研發端岔開,談談使用者們需要注意什麼。
首先也可以再猜測一下,為什麼其他團隊沒有用LoRA技術生成使用者自己的AI圖。或許不是沒想過,而是感覺讓使用者上傳幾十張高質量自拍,而且還要經過超長時間等待才見到成品圖,使用者門檻簡直太高了。
我們都低估了大眾對自拍照的剛需。
作者作為業餘攝影師,很少拍自己的照片,最近也有一些公眾活動需要自拍照。
但如果問作者,是否會使用妙鴨相機制作,答案是明確的,不會。
妙鴨相機app在上線之初鬧過一個小風波,在app使用協議裡說明使用者上傳的照片授權平臺任意使用權(大概意思)。
後來這個協議很快修改了,但這或許透露了團隊一個不太好的初心,就是對使用者隱私的關注和保護並不在這個團隊的骨子裡,否則在一個數據敏感的產品裡,不會有這種初版使用者協議。
當然,也許就是個無心之失,我們不要上綱上線,還是要鼓勵創新。
但對作者而言, 之所以不會去用這樣的雲產品的理由是,因為作者知道LoRA的強大,這將意味著平臺真正擁有了一個使用者的人臉肖像模型,基本可以認為平臺可以生成該使用者任意場景的以假亂真的自拍照片,真實程度足以欺騙絕大多數人臉識別,除非有生物識別技術(就是判斷當前識別的人臉是真人即時狀態)。
我們已經把很多資訊交給平臺了,特別是阿里這樣的超級平臺,身份資訊,財務資訊。。。就作者而言,無論如何不會把完整的肖像模型也交給平臺的。
我們可以信任平臺不做什麼出格的事情,但萬一,出現駭客事件呢?
之前出過好幾次大規模的個人資訊洩露,那時洩露的是人名身份證手機號住址,下次,如果再加上你的肖像模型資訊呢?
其實,解決隱私問題的正確做法是應該儘快讓這類產品的LoRA訓練放在個人手機上, 按照作者理解, 手機訓練LoRA這樣的微調模型是完全沒問題的。這樣就能徹底避免使用者相片上傳和後續的個人肖像模型隱私風險。而且,附加一個好處,使用者不需要長時間排隊了。
如果妙鴨相機後續能實現本地訓練本地使用(當然,這需要把應用主體從小程式改為APP),那作者會立刻掏腰包付費使用支援。
不過,在本地實現完整功能或許不是團隊所希望的,因為這意味著主要功能都在本地實現,不再需要雲服務,也就不再有持續收費的強理由。
但作者想,只要做好產品,確保隱私的同時合理收費,比如增加各種VIP場景資料的雲下載,只是保持個人肖像的LoRA模型在本地,商業收益不會是問題。
最後一點, 是關於AI如何改變大眾的生活。
很多人都說,出了妙鴨相機,海馬體就要倒閉了。這個可能性恐怕還真的有,至少生意不再會那麼好了。
打敗一個照相館的,永遠不是另外一個照相館。
降維打擊才是最可怕的。
AI必將深刻改變人類的生活,妙鴨相機就是一個絕佳的例子。

做好準備吧,能親眼目睹這一切來臨,是我們的幸運。

END

相關文章