大家好,今天繼續聊聊科技圈發生的那些事。
一、FollowYourClick
點一下,玩一年,裝備不花一分錢。

這樣一張簡單的小鳥圖片,只需要滑鼠輕輕點一下,我們就可以讓它動起來。

是不是很有意思呢?
FollowYourClick,騰訊開發的動態化影像工具。基於短提示,將圖片轉化為區域性運動的影像動畫。透過簡單的點選,指定要移動的內容,再給出簡短的提示指示如何運動,讓我們看到了動起來的圖片。
基於傳統的影像到影片 (I2V) 模型,作者團隊進行了許多改進:
-
使用第一幀掩蔽策略,顯著提高影片生成質量。 -
提出運動增強模組。傳統的I2V方法需要使用者提供大量的幀內容描述。而FollowYourClick配備短運動提示資料集,只需要給出簡短的提示即可。 -
提出基於流量的運動幅度控制,更加精確的控制動圖的運動速度,使其更加真實。
專案地址:
https://github.com/mayuelala/followyourclick
作者團隊在主頁上展示了很多有意思的演示影片。不僅有點一下就開懷大笑的皮卡丘,還有油畫上發射的火箭等等。效果都還不錯。

這個專案目前還沒有完全開源。大家可以持續關注一下,期待後續的更新。
二、clarity-upscaler
一款開源的寫實超解析度重建工具。
clarity-upscaler就像拿著一把放大鏡對著圖片掃,掃過之處影像更為清晰,解析度更高。

類似Stable Diffusion和Midjourney這些軟體,都是我們比較熟悉的AI繪畫軟體了。這些軟體各有所長,比如Stable Diffusion可控性高,繪畫結果比較精細;Midjourney上手門檻低而且更隨機化,可能會給出意想不到的驚喜。
而藉助clarity-upscaler,我們就可以解決這些繪畫軟體製作出的影像,紋理不夠真實的問題。

同時,作者團隊也有自己的體驗網站。在網站上就可以直接感受到clarity-upscaler的功能了。
網站地址:
https://clarityai.cc/dashboard
上傳圖片,調整引數,就可以拖動檢視效果了。目前可調整的引數主要是以下幾個:
-
控制AI自由度的引數Hallucination,過高會產生“幻覺”,即不真實的效果;過低會使影像沒有什麼變化。 -
控制與原圖相似度的引數Resemblance,使影像不要過於失真。 -
控制細節強度的引數Dynamic,過高會導致畫素化。
還有可供選擇的風格Style、upscaling倍數、控制細節的Fractality幾項。可以在團隊的網址自行體驗。
在專案主頁,作者也給出了本地和雲的cog部署方案。

專案地址:
https://github.com/philz1337x/clarity-upscaler
專案已經開源,有興趣的小夥伴可以自己感受看看。
三、Open-Sora-Plan
北大的OpenSora來了!
看到這個專案前面掛著 PKU,後面掛著 Sora,我想沒有人能忍住不點進來。可以看到專案 Github主頁的 News 和 Todo 上,幾乎每一天都有新的問題被解決。
廢話少說,我們直接來看看模型。
模型的框架主要由三部分組成:
-
Video VQ-VAE -
Denoising Diffusion Transformer 去噪擴散Transformer -
Condition Encoder 條件編碼器

這個框架中的很多東西,在Sora的技術報告中都是有跡可循。
團隊對實現的細節有以下幾點說明。
可變長寬比
參考FiT(Flexible Vision Transformer for Diffusion Model),團隊實施了一種動態掩碼策略,並行批次訓練的同時保持靈活的長寬比。
將高解析度影片在保持長寬比的同時下采樣至最長邊為256畫素, 然後在右側和底部用零填充至一致的256×256解析度。

可變解析度
團隊在固定的256×256解析度上訓練,透過使用位置插值,實現可變解析度的取樣。
我們將可變解析度噪聲潛變數的位置索引從[0, seq_length-1]下調到[0, 255],以使其與預訓練範圍對齊。這種調整使得基於注意力的擴散模型能夠處理更高解析度的序列。
可變時長
透過使用VedioGPT將影片壓縮至潛在空間,從而支援可變時長生成。同時擴充套件空間插值至時空維度,實現對變時長影片的處理。
專案地址:
https://github.com/PKU-YuanGroup/Open-Sora-Plan
模型開源了。而開源的目的更是開發團隊希望透過社群的力量,在有限的資源條件下儘可能的為這個復現專案添磚加瓦。
希望小夥伴們在持續關注咱自家的Open-Sora的同時,有能力的,也獻上一份綿薄之力。
四、955.WLB
一個擁有 33.8k star 數的專案,點進去一看,居然沒有任何程式碼,這個 955.WLB 專案究竟擁有什麼魔力?
955.WLB 中 的 955 指的是工作制度,與我們熟知的 996 類似,955 即早九晚五,每週工作五天;而 WLB 呢?其實是英文 Work Life Balance 的縮寫,也就是工作和生活的平衡。
這是一份由全國各地大小公司的程式設計師們合力貢獻的名單,上面羅列了全國 955 工作制不加班公司的名單。而作者也提示到,並不是所有在榜的公司都是絕對的 955,可能有些許偏差,但基本都不屬 996。而作者本人身處上海,對本地的情況更瞭解,所以在榜的公司,居上海的佔很大一部分。
Afterpay - 上海
Airbnb - 北京
Amazon - 北京/上海
AMD - 上海
Apple - 北京/上海
ArcSoft - 杭州
ARM - 上海
Autodesk - 北京/上海
Booking - 上海
Calix - 南京
Canva - 北京/武漢
Cisco - 北京/上海/杭州/蘇州
Citrix - 南京
Coolapk (酷安) - 北京/深圳
Coupang - 北京/上海
CSTC (花旗金融) - 上海
Dell - 上海
Douban (豆瓣) - 北京
Duolingo - 北京
eBay - 上海
eHealth - 廈門
Electronic Arts - 上海
EMC - 上海
EPAM Systems - 上海/深圳/蘇州/成都
Ericsson - 上海
Flexport - 上海/深圳
FreeWheel - 北京
GE - 上海
Google - 北京/上海
Grab - 北京
Honeywell - 上海
HP - 上海
HSBC - 上海/廣州/西安
Hulu - 北京
IBM (GBS除外) - 北京/上海
iHerb - 上海
Intel - 北京/上海/深圳
LeetCode - 上海
LEGO Group - 上海
Linkedin - 北京
Micro Focus - 上海
Microsoft - 北京/上海/蘇州
MicroStrategy - 杭州
Morgan Stanley (IT) - 上海
National Instruments - 上海
Nike - 上海
Nokia - 上海/南京/杭州
Nomura - 上海
NVIDIA - 北京/上海
Optiver - 上海
Oracle - 上海
PayPal - 上海
Philips - 上海/蘇州
Pivotal - 北京/上海
Qualcomm - 北京/上海
Rakuten - 上海/大連
Red Hat - 北京/上海/深圳/西安/remote
RingCentral - 廈門/杭州/香港
Rippling - 北京/上海
SanDisk - 上海
SAP - 上海
SmartNews - 北京/上海
Snap - 北京/深圳
State Street - 杭州
SUSE - 北京/上海/深圳
The Trade Desk - 上海/深圳
ThoughtWorks - 西安/北京/深圳/成都/武漢/上海/香港
Trend Micro - 南京
Tubi - 北京
TuSimple - 北京/上海
Two Sigma - 上海
Ubisoft - 上海
Unity - 上海
Vipshop (唯品會) - 上海
VMware - 北京/上海
WeWork - 上海
Wish - 上海
Works Applications - 上海
XMind - 深圳
Zhihu (知乎) - 北京
Zoom - 合肥/杭州/蘇州
這只是名單的一部分,不難找到許多熟悉的公司名字。
專案主頁readme上很醒目的一句話:
旨在讓更多的人逃離 996,加入 955 的行列。
或許,這份專案如此高的 star 數,就是程式設計師們試圖逃離 996 工作制,對美好的 955 生活的期盼吧。
專案地址:
https://github.com/formulahendry/955.WLB
好了,今天的內容就是這麼多,我們下期見!

·················END·················