千頁只需7塊錢,Mistral釋出世界最強檔案掃描API,實測仍有缺陷

機器之心報道
編輯:杜偉
法國大模型獨角獸 Mistral AI 進軍 OCR(光學字元識別)領域了。
一齣手就是號稱「世界上最好的 OCR 模型」!

新產品 Mistral OCR 是一種光學字元識別 API,它為文件理解樹立了新標準。與其他模型不同,Mistral OCR 能夠以前所未有的準確度和認知能力理解文件的每個元素(媒體、文字、表格、公式)。它以影像和 PDF 作為輸入,並從有序交錯的文字和影像中提取內容。
因此,Mistral OCR 稱得上一種理想的模型,可以與以多模式文件(如幻燈片或複雜 PDF)作為輸入的 RAG 系統結合使用。
從現在開始,Mistral OCR 功能可以在 Le Chat 上免費試用。Mistral AI 已經將它作為 le Chat 上數百萬使用者的預設文件理解模型,並以 1000 頁 / 美元的價格釋出了 API「mistral-ocr-latest」。目前,該 API 已經在開發者套件 la Plateforme 上提供,並將很快提供給 Mistral AI 的雲和推理合作伙伴,同時可以有選擇地本地部署。
對複雜文件實現 SOTA 理解
Mistral OCR 擅長理解複雜的文件元素,包括交錯影像、數學表示式、表格和高階佈局(如 LaTeX 格式)。該模型可以更深入地理解豐富的文件,尤其是包含圖表、圖形、公式和數字的科學論文。
比如 Alphafold 3 的 OCR 識別效果,從給定 PDF 中將文字、影像提取到 markdown 文件。
下面將 PDF 和對應的 OCR 輸出結果進行了並排比較。
比如數學公式:


比如阿拉伯文字:

基準測試成績全方位第一
Mistral OCR 在嚴格的基準測試中始終優於其他領先的 OCR 模型,其在文件分析的多個方面都表現出色。Mistral AI 從文字文件中提取嵌入影像和文字,不過進行比較的其他 LLM 不具備此功能。
因此,為了公平比較,Mistral AI 在包含各種發表論文的內部「僅文字」測試集以及網路 PDF 上進行了效能測試。

支援原生多語言
自成立以來,Mistral AI 一直渴望用自己的模型服務全世界,因此努力在產品中實現多語言功能。
Mistral OCR 將這一目標提升到了一個新水平,能夠解析、理解和轉錄各大洲的數千種指令碼、字型和語言。對於需要處理來自不同語言背景的文件的全球組織以及服務小眾市場的超本地化企業而言,這種通用性至關重要。
在「Fuzzy Match in Generation」(生成模糊匹配)指標比較中,Mistral OCR 獲得了第一。

在各種語言的比較中,Mistral OCR 同樣超越了 Azure OCR 和 Google Doc AI。

同類產品中速度最快
Mistral OCR 比同類產品中的大多數都更輕量,速度也明顯快於它們,並且在單個節點上每分鐘可以處理 2000 多頁。這一快速處理文件的能力確保即使在高吞吐量環境中也能持續學習和改進。
文件即提示、結構化輸出
Mistral OCR 還引入了使用文件作為提示的功能,從而實現了更強大、更精確的指令遵循。此功能允許使用者從文件中提取特定資訊並將其格式化為結構化輸出,例如 JSON。使用者還可以將提取的輸出連結到下游函式呼叫和構建智慧體中。
自行託管
最後,對於具有嚴格資料隱私要求的組織,Mistral OCR 提供了自行託管選項。這可確保敏感或機密資訊在組織內部的基礎設施內保持安全,從而符合監管和安全標準。
實測:Mistral OCR 很好,但也有侷限
面對 Mistral AI 號稱的「全球最好 OCR 模型」,Pulse AI 團隊進行了一番測試,結論是:確實很好,但尚未完全為企業使用做好準備。
Mistral OCR 絕對超越了一些前沿 LLM,但在真實商業文件中出現了一些限制。

圖源:https://x.com/ritvikpandey21/status/1897800421357588546
對於財務文件:Mistral OCR 難以處理複雜的表格,出現了 17% 的列錯位、±1.5% 的精度偏差以及丟失了表示負值的關鍵括號。

對於法律文件:複選框檢測基本不存在,部分層次結構丟失,多行表格單元格合併或切斷。

正如 Mistral AI 部落格中所說,他們正在收集使用者的反饋,並希望未來幾周 Mistral OCR 繼續變得更好。
部落格地址:https://mistral.ai/fr/news/mistral-ocr
參考連結:https://www.runpulse.com/blog/beyond-the-hype-real-world-tests-of-mistrals-ocr
© THE END 
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]


相關文章