olmOCR:比傳統OCR精度更高、比GPT-4o省錢30倍

在數字時代,高質量文字資料的獲取對於推動語言模型的發展至關重要。
現代人工智慧系統依賴於萬億級別的標記資料集來提高其準確性和效率。儘管大量資料來源於網際網路,但其中相當一部分以PDF等格式存在,給內容提取帶來了獨特的挑戰。
與易於解析的網頁不同,PDF更注重視覺佈局而非邏輯文字流程,這使得提取連貫的文字表示變得複雜。傳統的光學字元識別(OCR)工具雖嘗試解決這些問題,但其侷限性阻礙了其在語言模型訓練中的大規模應用。
PDF處理的主要問題在於,這些文件儲存資訊是為了視覺呈現而非邏輯閱讀順序。許多PDF在字元級別編碼文字,記錄每個字母的位置和字型屬性,而沒有保留句子結構。
這使得在多欄佈局或包含嵌入式表格、影像和公式的文件中重建連貫的敘事變得困難。
此外,掃描的PDF引入了額外的挑戰,因為它們包含的是影像格式的文字而非機器可讀字元。從這類文件中提取結構化和有意義的內容需要專門的工具來理解文字和視覺元素。
為了解決從PDF中提取文字的問題,研究人員已經開發出多種方法。
早期的OCR技術如Tesseract提供了基本的字元識別,但在處理複雜佈局方面存在困難。更近的方法包括基於管道的系統,這些系統將提取分為多個機器學習任務,如段落分割和表格識別。其中包括Grobid和VILA等工具,它們專為科學論文設計。
另一方面,端到端模型如Nougat和GOT Theory 2.0試圖使用深度學習將整個PDF頁面轉換為可讀文字。然而,許多系統成本高昂、不可靠或效率低下,不適合大規模應用。
艾倫人工智慧研究所的研究人員推出了olmOCR,這是一個開源的Python工具包,旨在高效地將PDF檔案轉換為結構化純文字,同時保留邏輯閱讀順序。
此工具包整合了文字資訊和視覺資訊,與傳統的OCR方法相比,能夠實現更高的提取精度。該系統基於一個70億引數的視覺語言模型(VLM),該模型在從超過10萬份獨特文件中收集的260,000頁PDF資料集上進行了微調。
與將PDF視為普通影像的傳統OCR方法不同,olmOCR利用嵌入的文字及其空間位置來生成高保真的結構化內容。該系統針對大規模批次處理進行了最佳化,能夠以成本效益的方式轉換大量的文件庫。其最顯著的優勢之一是,它只需190美元就能處理一百萬頁PDF,而同樣的任務在GPT-4o上需要6,200美元,便宜了32倍。
olmOCR背後的核心創新是文件錨定技術,這是一種將文字元資料與基於影像的分析相結合的技術。與僅依賴於光柵化影像的端到端OCR模型不同,這種方法直接從PDF嵌入的資料中提取文字元素,並將它們與相應的視覺表示對齊。
這增強了模型識別複雜文件結構的能力,減少了錯誤並提高了整體的可讀性。提取的內容使用Markdown格式化,保留了結構化元素,如標題、列表、表格和方程式。
此外,該系統採用微調技術來提高提取精度,利用專門為各種文件佈局定製的資料集。模型訓練過程涉及10,000次最佳化步驟,使用4個批次大小和1e-6的自適應學習率。olmOCR已被設計為可以無縫與推理框架如vLLM和SGLang一起執行。
該系統與其教師模型實現了0.875的對齊得分,超過了GPT-4o Mini等小型模型。在與其他OCR工具的直接比較中,olmOCR在準確性和效率上始終優於競爭對手。在人工評估中,該系統在領先的PDF提取方法中獲得了最高的ELO評分。
此外,當使用olmOCR提取的文字對OLMo-2-1124-7B語言模型進行中期訓練時,它在多個AI基準任務中平均提高了1.3個百分點的準確率。在ARC Challenge和DROP等資料集中觀察到具體的效能提升,其中基於olmOCR的訓練資料對語言模型理解能力的提升貢獻顯著。
olmOCR研究的主要收穫包括:
  1. olmOCR基於一個70億引數的視覺語言模型構建,並在10萬個PDF文件的260,000頁上進行微調,確保了跨不同文件型別的強大提取能力。
  2. 利用文件錨定技術將文字元資料與基於影像的資訊相結合,顯著提高了結構化內容的提取精度。
  3. 處理一百萬頁PDF僅需190美元,而使用GPT-4o則需要6,200美元,這使得它在大規模應用中成本效率提高了32倍。
  4. 實現了對齊分數0.875,超過了小型模型,並在重建邏輯閱讀順序方面展現了更高的準確性。
  5. 在結構化資料識別和大規模處理方面優於傳統OCR工具,並在人工評估中獲得了最高的ELO分數。
  6. 透過在AI基準資料集如ARC Challenge和DROP上提高1.3個百分點的準確性,改進語言模型訓練。
  7. 與vLLM和SGLang等推理引擎相容,允許在各種硬體配置上靈活部署。
倉庫地址 https://github.com/allenai/olmocr

相關文章