MLNLP社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 機器之心

3 月 27 日凌晨，阿里通義千問團隊釋出 Qwen2.5-Omni。

這是 Qwen 系列中全新的旗艦級多模態大模型，專為全面的多模式感知設計，可以無縫處理包括文字、影像、音訊和影片的各種輸入，同時支援流式的文字生成和自然語音合成輸出。

從此以後，你可以像打電話或進行視訊通話一樣與 Qwen 聊天！可以說是「語音聊天 + 影片聊天」都實現了。

體驗地址：https://chat.qwen.ai/

更重要的是，團隊人員將支援這一切的模型 Qwen2.5-Omni-7B 開源了，採用 Apache 2.0 許可證，並且釋出了技術報告，分享所有細節！

現在，開發者和企業可免費下載商用Qwen2.5-Omni，手機等終端智慧硬體也可輕鬆部署執行。

論文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
部落格地址：https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有網友表示，這才是真正的 Open AI。

大家可以透過官方 demo 感受一下 Qwen2.5-Omni 真實表現。

Qwen2.5-Omni 模型架構

Qwen2.5-Omni 具有以下特點：

Omni 和創新架構：團隊提出了 Thinker-Talker 架構，這是一個端到端的多模態模型，旨在感知包括文字、影像、音訊和影片在內的多種模態，同時以流式方式生成文字和自然語音響應。此外，團隊還提出了一種名為 TMRoPE（Time-aligned Multimodal RoPE）的新型位置嵌入，用於同步影片輸入與音訊的時間戳；
即時語音和影片聊天：該架構專為完全即時互動而設計，支援分塊輸入和即時輸出；
自然且穩健的語音生成：在語音生成方面，Qwen2.5-Omni 超越了許多現有的流式和非流式替代方案，展現出卓越的穩健性和自然性；
多模態效能強勁：在與同樣大小的單模態模型進行基準測試時，Qwen2.5-Omni 在所有模態上均展現出卓越的效能。Qwen2.5-Omni 在音訊能力上超越了同樣大小的 Qwen2-Audio，並且達到了與 Qwen2.5-VL-7B 相當的效能；
出色的端到端語音指令遵循能力：Qwen2.5-Omni 在端到端語音指令遵循方面的表現可與文字輸入的有效性相媲美，這一點在 MMLU 和 GSM8K 等基準測試中得到了證明。

前文我們已經提到，Qwen2.5-Omni 採用了 Thinker-Talker 架構。

Thinker 就像大腦一樣，負責處理和理解來自文字、音訊和影片模態的輸入，生成高階表示以及對應的文字。

Talker 則像人類的嘴巴，以流式方式接收 Thinker 產生的高階表示和文字，並流暢地輸出離散的語音 token。

Thinker 是一個 Transformer 解碼器，配備有音訊和影像的編碼器，以便於提取資訊。相比之下，Talker 被設計為一種雙軌自迴歸 Transformer 解碼器架構。

在訓練和推理過程中，Talker 直接接收來自 Thinker 的高維表示，並共享 Thinker 的所有歷史上下文資訊。因此，整個架構作為一個統一的單一模型執行，實現了端到端的訓練和推理。

Qwen2.5-Omni 模型架構

模型效能

團隊人員對 Qwen2.5-Omni 進行了全面評估，結果表明，該模型在所有模態上的表現均優於類似大小的單模態模型以及閉源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要整合多種模態的任務中，如 OmniBench，Qwen2.5-Omni 達到了最先進的水平。

此外，在單模態任務中，Qwen2.5-Omni 在多個領域中表現優異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音訊理解（MMAU）、影像推理（MMMU, MMStar）、影片理解（MVBench）以及語音生成（Seed-tts-eval 和 subjective naturalness）。