olmOCR：比傳統OCR精度更高、比GPT-4o省錢30倍

在數字時代，高質量文字資料的獲取對於推動語言模型的發展至關重要。

現代人工智慧系統依賴於萬億級別的標記資料集來提高其準確性和效率。儘管大量資料來源於網際網路，但其中相當一部分以PDF等格式存在，給內容提取帶來了獨特的挑戰。

與易於解析的網頁不同，PDF更注重視覺佈局而非邏輯文字流程，這使得提取連貫的文字表示變得複雜。傳統的光學字元識別（OCR）工具雖嘗試解決這些問題，但其侷限性阻礙了其在語言模型訓練中的大規模應用。

PDF處理的主要問題在於，這些文件儲存資訊是為了視覺呈現而非邏輯閱讀順序。許多PDF在字元級別編碼文字，記錄每個字母的位置和字型屬性，而沒有保留句子結構。

這使得在多欄佈局或包含嵌入式表格、影像和公式的文件中重建連貫的敘事變得困難。

此外，掃描的PDF引入了額外的挑戰，因為它們包含的是影像格式的文字而非機器可讀字元。從這類文件中提取結構化和有意義的內容需要專門的工具來理解文字和視覺元素。

為了解決從PDF中提取文字的問題，研究人員已經開發出多種方法。

早期的OCR技術如Tesseract提供了基本的字元識別，但在處理複雜佈局方面存在困難。更近的方法包括基於管道的系統，這些系統將提取分為多個機器學習任務，如段落分割和表格識別。其中包括Grobid和VILA等工具，它們專為科學論文設計。

另一方面，端到端模型如Nougat和GOT Theory 2.0試圖使用深度學習將整個PDF頁面轉換為可讀文字。然而，許多系統成本高昂、不可靠或效率低下，不適合大規模應用。

艾倫人工智慧研究所的研究人員推出了olmOCR，這是一個開源的Python工具包，旨在高效地將PDF檔案轉換為結構化純文字，同時保留邏輯閱讀順序。

此工具包整合了文字資訊和視覺資訊，與傳統的OCR方法相比，能夠實現更高的提取精度。該系統基於一個70億引數的視覺語言模型（VLM），該模型在從超過10萬份獨特文件中收集的260,000頁PDF資料集上進行了微調。

與將PDF視為普通影像的傳統OCR方法不同，olmOCR利用嵌入的文字及其空間位置來生成高保真的結構化內容。該系統針對大規模批次處理進行了最佳化，能夠以成本效益的方式轉換大量的文件庫。其最顯著的優勢之一是，它只需190美元就能處理一百萬頁PDF，而同樣的任務在GPT-4o上需要6,200美元，便宜了32倍。