時隔兩月，MistralAI終於上新Medium3，近期還有「Onemorething」

機器之心報道

編輯：蛋醬、張倩

時隔兩月，Mistral AI 終於又上新了。

「今天，我們欣喜地宣佈推出 Mistral Medium 3，進一步提升語言模型的效率和可用性。」

據官方部落格介紹，Mistral Medium 3 處於一個新的效能層級，介於輕量級和大規模模型之間。該模型在關鍵基準測試中優於 GPT-4o 甚至 Claude 3.7 Sonnet。

只是 Mistral Medium 3 並未開源，目前可透過 Mistral 的官網和 API 或其合作伙伴的 API 使用。Mistral Medium 3 將於週三上線亞馬遜雲科技的 Sagemaker 平臺，後續也會登陸其他主機平臺，包括微軟的 Azure AI Foundry 和谷歌的 Vertex AI 平臺。

該模型專為企業使用而設計，其效能在基準測試中達到了 Claude 3.7 Sonnet 的 90% 以上，但成本僅為後者的 1/8 —— 輸入每百萬 token 僅需 0.4 美元，輸出每百萬 token 僅需 2 美元。相比之下，Sonnet 的輸入 / 輸出價格分別為 3 美元和 15 美元。

另外，Mistral AI 還預告了「One more thing」：

隨著三月份 Mistral Small 和今天 Mistral Medium 的釋出，我們在接下來的幾周內正在籌備一款「大型」產品，這早已不是什麼秘密了。即使是我們的中型型號，其效能也遠超 Llama 4 Maverick 等旗艦開源型號，我們非常期待「揭開」未來的神秘面紗 🙂

會是什麼重磅釋出？值得我們期待一下。

優於 GPT-4o 和 Claude 3.7 Sonnet 的效能

基準測試表明，Mistral Medium 3 在軟體開發任務中表現出色。在 HumanEval 和 MultiPL-E 等程式設計測試中，它的表現與 Claude 3.7 Sonnet 和 OpenAI 的 GPT-4o 模型不相上下，甚至更勝一籌。

除了學術基準測試外，團隊還報告了更能代表實際用例的第三方人工評測。

根據第三方的人類評估，在 82% 的程式設計場景中，它優於 Llama 4 Maverick，並且在近 70% 的案例中超過了 Command-A。

該模型在不同語言和模態上也具有很強的競爭力。與 Llama 4 Maverick 相比，它在英語（67%）、法語（71%）、西班牙語（73%）和阿拉伯語（65%）中的勝率更高，並且在多模態效能方面表現出色，在 DocVQA（0.953）、AI2D（0.937）和 ChartQA（0.826）等任務中取得了領先的分數。