時隔兩月,MistralAI終於上新Medium3,近期還有「Onemorething」

機器之心報道
編輯:蛋醬、張倩
時隔兩月,Mistral AI 終於又上新了。
「今天,我們欣喜地宣佈推出 Mistral Medium 3,進一步提升語言模型的效率和可用性。」

據官方部落格介紹,Mistral Medium 3 處於一個新的效能層級,介於輕量級和大規模模型之間。該模型在關鍵基準測試中優於 GPT-4o 甚至 Claude 3.7 Sonnet。
只是 Mistral Medium 3 並未開源,目前可透過 Mistral 的官網和 API 或其合作伙伴的 API 使用。Mistral Medium 3 將於週三上線亞馬遜雲科技的 Sagemaker 平臺,後續也會登陸其他主機平臺,包括微軟的 Azure AI Foundry 和谷歌的 Vertex AI 平臺。
該模型專為企業使用而設計,其效能在基準測試中達到了 Claude 3.7 Sonnet 的 90% 以上,但成本僅為後者的 1/8 —— 輸入每百萬 token 僅需 0.4 美元,輸出每百萬 token 僅需 2 美元。相比之下,Sonnet 的輸入 / 輸出價格分別為 3 美元和 15 美元。
另外,Mistral AI 還預告了「One more thing」:
隨著三月份 Mistral Small 和今天 Mistral Medium 的釋出,我們在接下來的幾周內正在籌備一款「大型」產品,這早已不是什麼秘密了。即使是我們的中型型號,其效能也遠超 Llama 4 Maverick 等旗艦開源型號,我們非常期待「揭開」未來的神秘面紗 🙂 
會是什麼重磅釋出?值得我們期待一下。
優於 GPT-4o 和 Claude 3.7 Sonnet 的效能
基準測試表明,Mistral Medium 3 在軟體開發任務中表現出色。在 HumanEval 和 MultiPL-E 等程式設計測試中,它的表現與 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 模型不相上下,甚至更勝一籌。

除了學術基準測試外,團隊還報告了更能代表實際用例的第三方人工評測。
根據第三方的人類評估,在 82% 的程式設計場景中,它優於 Llama 4 Maverick,並且在近 70% 的案例中超過了 Command-A。

該模型在不同語言和模態上也具有很強的競爭力。與 Llama 4 Maverick 相比,它在英語(67%)、法語(71%)、西班牙語(73%)和阿拉伯語(65%)中的勝率更高,並且在多模態效能方面表現出色,在 DocVQA(0.953)、AI2D(0.937)和 ChartQA(0.826)等任務中取得了領先的分數。

Mistral Medium 3 針對企業整合進行了最佳化。它支援混合部署和本地部署,提供定製化後訓練,並且能夠輕鬆連線到業務系統。據 Mistral 稱,它已經在金融服務、能源和醫療保健等行業的組織中進行測試,用於支援特定領域的業務流程和麵向客戶的解決方案。
企業級「ChatGPT」:Le Chat Enterprise
與此同時,Mistral 還推出了 Le Chat Enterprise。
這是一款面向企業的聊天機器人服務,今年早些時候就推出了私人預覽版,但今天正式全面上市。
用法如下:
Le Chat Enterprise 可透過網路和移動應用程式使用,它就像 ChatGPT 的競爭對手,但它是專為企業及其員工打造的。考慮到了使用者可能會跨不同的應用程式和資料來源工作,它將人工智慧功能整合到一個單一的、隱私優先的環境中,實現深度定製、跨職能工作流和快速部署。
Le Chat Enterprise 提供了 AI「智慧體」構建器等工具,並將 Mistral 的模型與 Gmail、Google Drive 和 SharePoint 等第三方服務整合。
此外,Le Chat Enterprise 即將支援 MCP——Anthropic 為連線 AI 助手和資料所在系統及軟體而制定的標準。包括谷歌和 OpenAI 在內的主要 AI 模型提供商,都已經在今年早些時候宣佈將採用 MCP。
更多資訊,可參考官方部落格。
參考連結:
https://mistral.ai/news/mistral-medium-3
https://mistral.ai/news/le-chat-enterprise
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章