Qwen2.5-VL系列模型正式開源,千問永遠不會讓你失望|附實測結果

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | NLP工作站
你永遠可以相信通義千問,就在今天(春節前最後一天),正式開源Qwen2.5-VL系列模型,讓LLM更清晰的看世界!!!
2025年的第一個月,國內大模型廠商太爭氣了,前有minimax、kimi、deepseek,後有qwen,春節放假期間真是不給我們一點休息時間呀。
不過,我個人真的是樂在其中,難道這就是所謂的幸福的煩惱?
HF: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

Qwen2.5-VL模型

下面說回模型本身。
開源的Qwen2.5-VL模型共包含3個尺寸,3B(更易端側部署)、7B(速度與效果的平衡)以及72B(效果最強)。
在7B基本的模型在多個榜單上都達到了開源Top1,並且72B跟GPT4-o、Claude3.5都有一拼。
Qwen2.5-VL-7B
Qwen2.5-VL-72B
Qwen2.5-VL模型不僅在對話、指令跟隨、數學、程式碼等能力上有所提高,還支援座標、json等返回格式、支援更長(1小時)的影片理解、更細粒度的時間感知、更全面的知識解析能力、具備更強的agent能力來操作手機和電腦。
來自官方-QQ發祝福
Agent和即時影片互動能力,看了官方几個影片,感覺處理相關任務效果還不錯,具體等模型下完之後,體驗再評價。
Qwen2.5-VL模型,在視覺編碼器部分是原生訓練的支援動態解析度的ViT。同時在空間維度引入大量檢測框和點等座標,讓模型理解空間的尺寸;
在時間維度引入動態FPS和絕對時間編碼,使mRoPE的ids與時間快慢進行對齊,讓模型理解時間的流速。

實測

由於模型還在下載,實測源自官方連結:https://chat.qwenlm.ai/
之前大家都應該知道我寫了一篇大模型無法做表格識別的東西,因為Qwen2.5-VL特意提到加強結構化內容輸出,先來測測表格解析效果。
  • 簡單表格:
解析結果完全正確,比較簡單表格。
  • 中等表格:
這個比上一個有一些難度,主要是字多了一點,然後合併單元的不錯有交錯(6、7行的2、4列),之前的多模態大模型們全軍覆沒,Qwen2.5-VL-72B模型依然完全正確。
  • 複雜表格:
這個更難了,之前依舊全軍覆沒,但Qwen2.5-VL-72B模型依然完全正確。
Qwen2.5-VL的表格解析太牛了,之前GPT4-o和Claude、Gemini都沒對的,他竟然全對!!!
下面看看Qwen2.5-VL的數學能力,
  • 2024年年高考全國甲卷數學(文)試題
結果正確,-7/2
  • 2024年高考全國甲卷數學(理)試題
結果正確,C方程為y^2=2x+1;a=3/4
下面看看Qwen2.5-VL的資訊抽取、計算、理解能力,
  • 測試一下單圖片資訊抽取+計算功能
input:請逐步詳細分析,告訴我在中文資料和英文資料分別佔比是多少,並且告訴我總和
結果:正確
  • 測試一下單圖片理解功能
input:請逐步詳細分析,這張圖片裡是有兩隻狗,對嗎
結果:完全正確
  • 測試一下單圖片手寫ORC功能
input:請逐步詳細分析,輸出圖片中的文字內容
結果:錯了一個字,但是這種連筆確實還比較難
  • 再測試一下多圖片資訊抽取+計算功能
input:請逐步詳細分析,兩頓飯我花了多少錢
結果:完全正確
接下來是色盲測試,詳細看開源多模態大模型是紅綠色盲嗎?
圖1結果正確,
圖2結果錯誤,
只能說測試透過一半。
整體測試效果我是十分滿意的,尤其是在表格解析上,讓我大吃一驚,我正在模型下載,準備進一步批次測試表格識別的效果~~~後續有結果,同步給大家。

HF快速使用

但注意程式碼還在主分支上,需要:
pip install git+https://github.com/huggingface/transformer accelerate
程式碼:

from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor

from qwen_vl_utils import process_vision_info
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(

"Qwen/Qwen2.5-VL-7B-Instruct"

, torch_dtype=

"auto"

, device_map=

"auto"

)

processor = AutoProcessor.from_pretrained(

"Qwen/Qwen2.5-VL-7B-Instruct"

)
messages = [

    {

"role"

"user"

,

"content"

: [

            {

"type"

"image"

,

"image"

"https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"

,

            },

            {

"type"

"text"

"text"

"Describe this image."

},

        ],

    }

]
text = processor.apply_chat_template(

    messages, tokenize=False, add_generation_prompt=True

)

image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(

    text=[text],

    images=image_inputs,

    videos=video_inputs,

    padding=True,

    return_tensors=

"pt"

,

)

inputs = inputs.to(

"cuda"

)
generated_ids = model.generate(**inputs, max_new_tokens=128)

generated_ids_trimmed = [

    out_ids[len(in_ids) :] 

for

 in_ids, out_ids 

in

 zip(inputs.input_ids, generated_ids)

]

output_text = processor.batch_decode(

    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False

)

print

(output_text)

寫在最後

我想說Qwen是國內開源Top,當之無愧,期待後續Qwen3、  QwQ、QvQ的更新模型。
最後,在春節串門前,大家可以先把模型下載上,晚上回來,直接開測~~
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章