7B模型搞定AI視訊通話，阿里最新開源炸場，看聽說寫全模態打通，開發者企業免費商用

西風明敏發自凹非寺

量子位 | 公眾號 QbitAI

深夜重磅！阿里釋出並開源首個端到端全模態大模型——

通義千問Qwen2.5-Omni-7B，來了。

僅靠一個一體式模型，就能搞定文字、音訊、影像、影片全模態，並即時生成文字和自然語音。

堪稱7B模型的全能冠軍。

你的iPhone搭載的很可能就是它！

現在開啟Qwen Chat，就能直接和它即時進行影片或語音互動：

話不多說，先來看一波能力展示。

在大街上同它視訊通話，它能正確識別周圍環境，按照你的需求為你推薦餐館：

走進廚房，它又化身“智慧菜譜”，一步步指導你變成大廚：

在多模態任務OmniBench評測中，Qwen2.5-Omni表現重新整理記錄拿下新SOTA，遠超谷歌Gemini-1.5-Pro等同類模型。

在單模態的語音識別、翻譯、音訊理解、影像推理、影片理解、語音生成任務中，Qwen2.5-Omni的全維度表現也都優於類似大小的單模態模型以及閉源模型。

在seed-tts-eval語音生成基準中，Qwen2.5-Omni展現出與人類水平相當的語音合成能力。

這意味著Qwen2.5-Omni-7B能很好地和世界進行即時互動，甚至能輕鬆識別音影片情緒。

再來敲重點：

模型非常輕量，手機等終端都可輕鬆部署執行，且開源用的是寬鬆的Apache2.0協議，開發者、企業現在都可免費在魔搭社群或Hugging Face下載商用。

Qwen2.5-Omni-7B一開源，網友直呼這才是真正的OpenAI（doge）。

網友紛紛表示可以直接拿來裝到智慧眼鏡上了：

這可能是智慧眼鏡的完美模型。

7B模型的新紀錄！

目前，在Qwen Chat上即可體驗該模型支援的AI語音和視訊通話功能。

更多例項，一起來看~

實測效果驚豔

首先，Qwen2.5-Omni-7B能勝任免費的數學家教。

它能像人類老師一樣，看到題目、聽懂問題，並且一步一步耐心講解。

更復雜的論文它也看得懂。

只需共享螢幕，然後將論文從上至下滑動，“給它看一遍”。

它就能通俗解釋論文內容。

比如PPT、網頁資料等，也能找它做講解。

而且它還有一定藝術見解，比如可以陪著你畫畫，然後給出指導建議。

或者聽你演奏的音樂，給出更好的改進建議。

我們還進行了一手實測，在Qwen Chat上每天可使用語音和影片聊天10次。

實測中，模型能很好地理解商品介面和優惠政策。

響應速度也很快，並且會引導人類繼續問下去、很有耐心。

需要注意的是，當前視訊通話還只是Beta測試版，每次通話限時3分鐘。

Hugging Face的產品負責人Jeff Boudier也第一時間上手試玩。

模型的英文能力一樣出眾，而且它不僅回答看到了杯子，還細緻描述了杯子上的笑臉花紋。

首創Thinker-Talker雙核架構

目前官方已放出Qwen2.5-Omni技術Blog和論文。

Qwen2.5-Omni採用通義團隊首創的全新架構——Thinker-Talker雙核架構。

其中，Thinker就像“大腦”，負責處理和理解來自文字、音訊、影片等多模態的輸入資訊，生成高層語義表徵以及對應的文字內容。

Talker則更像“嘴巴”，以流式的方式接收由Thinker即時輸出的語義表徵與文字，並流暢地合成離散語音tokens。

具體來說，Thinker基於Transformer解碼器架構，融合音訊/影像編碼器進行特徵提取。

而Talker採用雙軌自迴歸Transformer解碼器設計，在訓練和推理過程中直接接收來自Thinker的高維表徵，並共享Thinker的全部歷史上下文資訊。因此，整個架構作為一個緊密結合的單一模型執行，支援端到端的訓練和推理。

與此同時，團隊還提出了一種新的位置編碼演算法TMRoPE（Time-aligned Multimodal RoPE）以及Position Embedding （位置嵌入）融合音影片技術。

TMRoPE編碼多模態輸入的三維位置資訊，即多模態旋轉位置嵌入（M-RoPE），並結合絕對時間位置，透過將原始旋轉嵌入分解為時間、高度和寬度三個部分實現。

另外值得一提的是，從技術層面來看，Qwen2.5-Omni和一般的影片/語音理解模型以及其相應的影片/語音對話的AI功能，也有本質性區別。

在傳統語音理解大模型的人機互動場景裡，一般運用 ASR（Automatic Speech Recognition，自動語音識別）技術，把人類語音轉換為文字文字，隨後將其交給大語言模型處理，最終生成的內容藉助 TTS（Text-to-Speech，語音合成）技術轉化為語音反饋給使用者。

而影片理解模型是基於圖片、影片進行大模型理解，並以文字形式輸出反饋。

這兩種模型均屬於相互獨立的單鏈路模型。在一些AI應用中，甚至會串聯多個模型來實現類似功能，如此一來，鏈路變得更長，效率大打折扣。

Qwen2.5-Omni-7B的特點在於，它原生支援影片、圖片、語音、文字等多模態輸入，並能原生生成語音及文字等多模態輸出。

也就是說，一個模型就能透過“看”、“聽”、“閱讀”等多種方式來綜合思考。

所以Qwen2.5-Omni得以在一系列同等規模的單模態模型權威基準測試中，拿下最強全模態效能，在語音理解、圖片理解、影片理解、語音生成等領域的測評分數，均領先於專門的音訊（Audio）或視覺語言（VL）模型。

搶先看到Apple Intelligence？

一個月前，阿里公開確認與蘋果合作，宣佈通義千問將為國行iPhone使用者提供AI功能，此訊息一經披露，便在科技圈引發熱議。

而這次Qwen2.5-Omni開源，就是奔著端側部署來的，7B尺寸使其具備直接嵌入手機的可行性，彷彿提前看到了Apple Intelligence，讓大家看到多模態大模型上手機都能有哪些效果。

不只是蘋果，據量子位瞭解，這種端側部署能力已吸引超90%國產手機品牌接入通義千問，包括OPPO、vivo、榮耀、傳音等，還有眾多汽車品牌、AI硬體產品選擇與之攜手。

為啥都選通義千問？

梳理通義千問的最新發展動態，答案便不難理解。

首先，通義千問Qwen目前已穩居全球最大AI大模型族群。

僅在最近一個月的時間裡，就接連推出了一系列具有競爭力的模型：推理模型Max旗艦版QwQ-Max-Preview、影片生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……

實際上，2023年至今，阿里通義團隊已累計開源200多款模型，涵蓋從0.5B到110B全尺寸範圍，模型型別覆蓋文字生成、視覺理解與生成、語音理解與生成、文生圖及影片模型等全模態領域，應用場景也極為豐富。

在海內外開源社群中，通義千問Qwen衍生模型數量更是一路飆升，現已超過10萬，超越Llama系列。

根據Hugging Face 在2月10日釋出的最新全球開源大模型榜單，排名前十的開源大模型無一例外，全部是基於通義千問Qwen開源模型二創的變體模型。

其次，阿里巴巴透過開源等一系列積極舉措，成功構建起一個豐富且活躍的大模型生態。

阿里不僅將開源進行到底，更向大模型公司提供了全方位的服務支援，其中包括算力資源以及開發工具等，阿里雲已成為中國大模型領域的公共AI算力底座。

截至2025年2月中旬，阿里魔搭社群ModelScope的模型總量已超4萬個，服務超1000萬開發者。

那麼通義千問Qwen團隊下一步要幹啥？

期待聽到您的反饋，並看到您使用Qwen2.5-Omni開發的創新應用。

在不久的將來，將著力增強模型對語音指令的遵循能力，並提升音影片協同理解能力。還將持續拓展多模態能力邊界，發展全面的通用模型。

感興趣的友友不如一起來上手試試吧~

Qwen Chat：https://chat.qwenlm.ai

Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：https://github.com/QwenLM/Qwen2.5-Omni

Demo體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

🌟 點亮星標 🌟

科技前沿進展每日見

dignews.cc

7B模型搞定AI視訊通話，阿里最新開源炸場，看聽說寫全模態打通，開發者企業免費商用

西風明敏發自凹非寺

量子位 | 公眾號 QbitAI

實測效果驚豔

首創Thinker-Talker雙核架構

搶先看到Apple Intelligence？

相關文章

大模型角逐：DeepSeek、通義千問、Google、OpenAI迎來模型更新

最強的全模態理解端模型開源，這個輕巧的小模型不僅多基準登頂，推理速度最高還能領先300％

早鳥報｜微信上線“附近的工作”功能；位元組短劇在日本上線PikoShow；亞馬遜推出新功能“Interests”….

大模型通才來了！百川智慧全模態模型亮相，實力碾壓GPT-4omini

位元組創始人張一鳴登頂中國首富/雷軍：小米克制貪婪，只掙一點點/OpenAI營收目標曝光，深夜再更新

雷軍：小米克制貪婪，只掙一點點/張一鳴登頂中國首富/廣汽回應「收購恒大汽車」傳聞

國產AI超ChatGPT登頂AppStore/雷軍開車直播遭封禁，舉報人回應/微信群「藍包」上線

雷軍開車直播遭封禁，舉報人回應/多地發文宣佈春節期間輕微交通違法不處罰/微信群「藍包」上線

字節跳動AI大將駱怡航加盟生數科技，出任CEO；蔡崇信：AI開源開放將讓中小企業受益丨AIGC日報

AI早知道｜阿里通義千問登頂全球開源模型榜首；首款專為犬類設計的AI文字轉語音模型

西風 明敏 發自 凹非寺 量子位 | 公眾號 QbitAI

實測效果驚豔

首創Thinker-Talker雙核架構

搶先看到Apple Intelligence？

相關文章

西風明敏發自凹非寺

量子位 | 公眾號 QbitAI