LeChat全方面對標ChatGPT,歐洲AI新貴窮追不捨

機器之心報道
機器之心編輯部
Mistral AI只是想做歐洲版的OpenAI?
最近幾個月,由谷歌和 Meta 前研究人員建立的歐洲的 AI 初創公司 Mistral AI 有些躁動不安。
他們接連發布了好些個開源模型,覆蓋不同的領域,包含號稱「世界上最優秀」的 OCR 模型、「對標 Claude」的多模態模型、首個推理大模型 Magistral 以及兩天前釋出的「全球最佳」的開源語音模型 Voxtral。
這樣似乎也很難讓這位歐洲 AI「新貴」感到滿意,他們還想在應用層面好好地捲一捲 OpenAI。
他們將 Le Chat 再一次升級,引入了一些強大的新功能,使其更強大、更直觀,也更有趣,在功能上幾乎全方位對標 ChatGPT。

Le Chat 的新功能
  • 深度研究模式:即使是複雜主題,也能快速生成結構化的研究報告。
  • 語音模:使用我們的新 Voxtral 模型與 Le Chat 對話,而不是用鍵盤輸入。
  • 原生多語言推理:藉助我們的推理模型 ——Magistral,獲取深思熟慮的答案。
  • 專案管理:將您的對話組織到內容豐富的資料夾中。
  • 高階影像編輯,在 Le Chat 中直接進行,與 Black Forest Labs 合作。
Le Chat 新功能宣傳片
研究模式 Le Chat 轉變為一個協調的研究助手,能夠規劃、明確需求、搜尋和綜合資訊。提出一個有深度的問題,它會將其分解,收集可靠的資料,並構建一個結構清晰、有參考文獻支援且易於理解的報告。
它由工具增強型深度研究 Agent 驅動,但設計得簡單、透明且真正有幫助,彷彿與一個組織良好的研究夥伴合作。
Mistral AI 也在官網展示了一些用例。深度研究模式能夠追蹤市場趨勢、撰寫商業策略書、做個人計劃以及最重要的、進行學術研究。

語音模式可以像和人聊天一樣與 Le Chat 交流 —— 無需打字。你可以在散步時頭腦風暴、在處理雜事時快速獲取答案或轉錄會議內容。它由 Mistral 新的語音輸入模型 Voxtral 驅動,專為自然、低延遲的語音識別而構建,能跟上使用者的工作速度。
但目前 Le Chat 僅支援語音轉文字的輸入,該功能並非即時語音對
所以,跟電子助手聊天的功能依舊沒有實現,更別提 Grok 4 Ani 那樣的數字伴侶了。
影像編輯功能方面,可以透過「移除物體」或「將我放置在另一個城市」等簡單提示來建立並編輯影像。模型支援轉換場景,同時保留角色和細節。這有助於保證編輯的一致性:可以保持人物、物體和設計元素在影像之間的不會變得認不出來。
影像編輯這塊,Le Chat 似乎做得出人意料的好。網友在論壇分享了使用體驗,認為 Le Chat 做得比 OpenAI 更好。
OpenAI 的模型在編輯時會改變整個影像,導致無關區域出現細節錯誤。(Le Chat)似乎完美地保留了與查詢無關的影像部分,並選擇性地應用編輯,這令人印象深刻!」

網友上傳了一張家庭辦公室的照片,並提出了以下提示:「修復照片底部略微撕裂的灰色面板,讓它們看起來像全新的」,編輯結果非常令人滿意。

上圖為原始影像,下圖為編輯後圖像
對於這些新功能,我們的讀者想必已經非常熟悉。在這一次的大更新之後,Le Chat 在功能上基本實現了與 ChatGPT 等行業領先的產品保持一致。
最近 Mistral AI 的動作確實讓人看到了歐洲在大模型領域保持追趕的勢頭。對此,網友們表達了對 Mistral 快速追趕的興奮。

值得分享的是,Le Chat 在法語中意為「貓」,而 Mistral AI 的主頁底部就有一隻畫素貓咪,Mistral AI 圖示也形似一隻貓貓頭,非常可愛。

Mistral AI 的語音識別模型
7 月 15 日,Mistral AI 釋出了全新的語音識別模型 Voxtral,號稱是「全球最佳(且開源)」的語音識別模型。

Voxtral 在語音轉寫方面全面超越了 Whisper large-v3,當前領先的開放原始碼語音轉寫模型。它在所有任務中都擊敗了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,並在英語短形式和 Mozilla Common Voice 上取得了最先進的結果,超越了 ElevenLabs Scribe,展示了其強大的多語言能力。

Voxtral 3B 和 Voxtral 24B 模型不僅僅具備語音轉錄功能,還具備以下能力:
  • 長上下文理:支援最長 32k token 的上下文,轉錄最長達 30 分鐘音訊,理解可達 40 分鐘;
  • 內建問答與摘要功能:無需將語音識別與語言模型串聯,即可直接針對音訊內容提問或生成結構化摘要;
  • 原生多語種支:具備自動語言識別功能,在全球主流語言(如英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、義大利語等)中均達到業內領先表現,助力團隊以單一系統服務全球使用者;
  • 從語音直接觸發函式呼叫:可根據使用者的語音意圖直接觸發後端函式、工作流或 API 呼叫,無需中間解析步驟,實現語音到系統指令的無縫轉換;
  • 強大的文字理解能力:延續其語言模型基礎(Mistral Small 3.1)在文字處理方面的高效能表現。

© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章