巧妙!一個傳統技術讓國產視覺基礎模型直接上大分

金磊 發自 凹非寺量子位 | 公眾號 QbitAI
咱就是說啊,視覺基礎模型這塊兒,國產AI真就是上了個大分——
Glint-MVT,來自格靈深瞳的最新成果。
先來看下成績——線性探測(LinearProbing):
簡單來說,線性探測是一種測試預訓練模型效果的小技巧,測的就是基本功扎不紮實。它的做法是:
把模型最後一部分換成簡單的線性層,其他部分全部保持原樣不動;然後只訓練這個新加的線性層,透過它的表現來判斷模型之前學到的特徵好不好用。
這個測試是在26個分類測試集中跟CLIP和OpenCLIP做了對比,結果顯示,國產視覺基礎模型平均準確率比OpenCLIP高2.3%,比CLIP高1.1%。
再來看應用效果。
如果說視覺基礎模型是一個底座,那麼它的下游任務,像“影像理解+分割一切”,便是更為直觀的效果展現。
例如下面這張圖片,然後我們可以問一下AI:
你能提供一個分割掩膜給這個影像中觸控籃球的人嗎?
很顯然,這個任務的難點在於拿籃球的人被其他人的手、身體等部位擋住,分割難度也大幅增加。
然而,國產AI是不在怕的,啪的一下,超精細地把要求的人物給摳了出來:
我們再來看下更加複雜的案例:
面對如此繁雜的圖片,不論要求AI分割哪種食物,它都能精準無誤地識別出來。
Glint-MVT中的MVT,全稱叫做Margin-based pretrained Vision Transformer,是團隊自研、設計的視覺預訓練Transformer模型。
它的一大亮點,就是創新性地把原先用於人臉識別的間隔Softmax(Margin Softmax)損失函式引入了進來,再透過構造百萬級虛擬類別訓練模型,顯著降低資料噪聲影響,提升泛化能力。
並且從實測和效能效果上來看,在各種專業下游任務中的表現,要比CLIP等其他ViT模型的結果更好。
在Glint-MVT這個底座之上,團隊針對引用表達分割(RES,Referring Expression Segmentation)和影像理解,還分別訓練出了多模態模型:Glint-RefSeg模型MVT-VLM模型
Glint-RefSeg是無需特別蒐集訓練就可以分割一切,從剛才的例子中也是感受到其實力,並且相比其他RES任務的模型,它取得了當前的SOTA
至於MVT-VLM,它在影像理解的實力,可以用下面的例子來展示:
請分別告訴我圖中運動員的性別以及衣服顏色和號碼。
即使圖片中紅衣服的號碼呈現出刁鑽的角度,它也能輕鬆識別:
那麼Glint-MVT還有哪些效果,我們繼續來看。

影片、具身智慧都用上了

首先在分割這件事上,除了影像之外,Glint-RefSeg也是可以用在影片上的。
例如給定一段Bruno Mars的唱跳影片,效果是這樣的:
可以看到,不論畫面、角度如何切換,任務要求的“穿粉色西裝的男子”,穩穩地被AI鎖定住了。
而且即使Bruno Mars動作幅度再大、變化再快,也絲毫不影響AI分割的效果,尤其是手部等細微之處,可以說是拿捏得相當到位。
而且除了傳統場景之外,像具身智慧這樣的fashion場景,Glint-MVT也是用上了。
例如這樣:
在看完機械臂的操作之後,如果問AI:
把橙子放到白色碗裡,(結果是)合適的嗎?請回答是或否。
AI就會根據當前的場景回答:
是。
從種種的效果來看,不得不說Glint-MVT這個視覺基礎模型,基本功是有夠紮實的。
那麼接下來的一個問題就是:

怎麼做到的?

正如我們剛才提到的,Glint-MVT技術核心亮點,就是把間隔Softmax引入了進來。
具體而言,Glint-MVT採用基於大類別分類的間隔Softmax損失函式進行訓練,透過引入 “類別間隔” 和 “特徵緊湊性” 的雙重約束,解決傳統Softmax在大規模分類中語義區分不足的問題。
在此基礎上,格靈深瞳團隊提出了進一步的最佳化方案。
首先是虛擬類別構造
團隊利用影像文字特徵聚類技術,將大規模資料集(如LAION 400M)劃分為100萬虛擬類別,替代傳統人工標註標籤,可以高效地提升資料規模。
其次是噪聲抑制與計算最佳化
團隊在訓練時僅隨機選取部分負類中心(取樣比例約 10%),如此一來,就可以降低類別間衝突對模型的干擾,同時減少計算量和視訊記憶體佔用
相比CLIP的例項對比學習,間隔Softmax透過顯式建模類別間邊界,能讓模型更聚焦語義結構,在影像檢索、分類等任務上表現更優。
以上就是Glint-MVT效果提升的關鍵,而Glint-RefSeg和MVT-VLM等模型也是基於這個大底座而來。
例如Glint-RefSeg採用MVT v1.1(MLCD)作為核心視覺編碼元件,並融合了大語言模型與SAM解碼器的技術優勢。
這一設計使得模型能夠理解使用者的自然語言描述,並精確識別和分割影像中相應的目標物件,輸出高質量的分割掩膜。
並且從結果來看,已然是處於業界SOTA:
但格靈深瞳團隊在技術上的動作還遠不止於此。
他們已經將技術錨點鎖定到了更復雜的多模態大模型和影片理解方面,而且也即將推出相應的模型:MVT v1.5和MVT v2.0(Video)。

視覺領域的精耕者

除了技術上的創新,格靈深瞳之所以能夠在視覺基礎模型上有如此的突破,團隊的發展,也是關鍵因素之一。
格靈深瞳可以說是國內計算機視覺領域的早期探索者,從2013年起便始終專注於視覺技術的研發與落地。
從早期的安防、金融行業解決方案,到如今聚焦視覺大模型與多模態技術,其技術演進始終圍繞一個核心:讓AI真正解決產業痛點。
這次釋出的Glint-MVT就是對這句話非常好的詮釋。
因為它並非單純追求學術指標,而是透過提升下游任務(如分類、檢測、分割)的能力,為實際應用場景賦能。
由此可見,即便進入大模型時代,格靈深瞳依舊沒有盲目追逐引數規模和噱頭,而是堅持“從業務需求中來到產品落地中去”的研發邏輯。
與此同時,格靈深瞳還是一家主動擁抱開源,但拒絕跟風的企業。
它的開放策略目標非常明確,正如CEO吳一洲強調“回到初心,能貢獻什麼就貢獻什麼”,透過充分的開放和分享,期待能激發更多社群夥伴的創新,從而形成創新互哺的良性迴圈,夥伴越聚越多,技術越玩越強。她在公司裡也鼓勵團隊 “勇敢點”“浪一點”。 她認為當下技術迭代快,但也更加進入了深水區,要更加擁有直面技術和應用本質的勇氣。
再如格靈深瞳演算法研究院院長馮子勇,在2016年博士畢業之後,便加入格靈深瞳。
他帶領的格靈深瞳靈感實驗室,聚焦於視覺及相關模態特徵表達與應用。主要研究方向有視覺基礎大模型、多模態大模型、圖文多模態表徵、大規模分散式訓練等。
馮子勇主導了多項關鍵演算法的技術攻關,特別在“人臉識別與聚類演算法技術”以及“影片解析演算法技術”等專業領域取得了顯著成就。
例如在銀行場景中,實現了倒地檢測在上萬路攝像頭下實際使用,獲得客戶高度認可。相關技術在國際賽事中表現優異,還斬獲了OpenFAD2023人體動作識別競賽和首屆SkatingVerse花樣滑冰動作識別競賽雙料冠軍。
他所帶來的年輕化思維與豐富實踐經驗顯得格外寶貴。
而在格靈深瞳的身上,我們或許還能看到大模型時代發展的一個縮影——
既需要頭部玩家,也離不開格靈深瞳這樣的精耕者。
格靈深瞳堅持從場景中提煉技術、以開源回報生態的路徑,或許正是AI落地“最後一公里”的關鍵解法。
AI技術已從通用探索進入垂直深耕階段,不同企業需要像“打仗”一樣各司其職,找準自己的軍種角色,比盲目擴張更重要;格靈深瞳更像是“特種兵”,透過視覺基礎模型為下游任務提供訓練支援。
這種務實與開放並存的哲學,或許正是格靈深瞳在視覺長跑中持續領跑的密碼。
Glint-MVT體驗地址:https://glint-mvt.com
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
🌟 點亮星標 🌟
科技前沿進展每日見

相關文章