搭建個人知識庫,支援Word、PDF、txt等,一般電腦也能玩…

你好,我是郭震
本地部署大模型,再構建個人知識庫,跑自己的文件、資料等,有很多好處。
比如,隱私的財務資料可以借力AI大模型做總結,股票資料即時接入到大模型做資料分析,個人word文件批次讀取做總結等。
本篇教程繼續系列上一篇教程:自己電腦搭建個人知識庫,一般電腦也能玩(支援通義千問、GPT等)。在此基礎上,擴充套件支援PDF和txt檔案的讀取。
錯過上篇教程的,我簡單再在這裡和大家回顧一下。我提出的方案基於LLM大模型+文件檢索方法,具有的優勢:

充分釋放大模型能力,因為使用的是文件檢索,而不是語義向量所以檢索會更加高效,大大提升了回覆效率;同時對電腦的效能要求直接降到最低,一般電腦也能玩起來了。

你需要做的前期準備
1. 準備一臺8G以上記憶體的電腦,無顯示卡也問題不大;

2. 再會一點Python安裝包的技能,基本就是一條命令:pip install 安裝包的名字


總結來說,使用本地大模型(qwen:7b)+ 文件搜尋工具(whoosh),這個方案不花一分錢,一般電腦又能玩。

整體介面和使用demo如下所示,支援多個檔案載入,包括PDF,docx等word文件和txt格式,每個檔案最大支援到200M:

實現上面功能的程式碼,我已經完整放在公眾號裡,大家下面回覆:知識庫

,即可領取完整程式碼檔案:

這是第一步,透過介面載入不同型別的本地文件和資料,如下讀取了:財務資料1.docx:

再次拖動小明收支賬本.pdf到介面,載入後自動顯示已處理,因為是在本地進行,並且使用了whoosh檢索工具,載入速度非常快:

PDF讀取在此使用比較常用的PyPDF2,大家只需要pip install PyPDF2安裝即可使用,開源免費。

只需要下面幾行程式碼,我們就可以讀取PDF內容。
然後再把文件加入到whoose的索引庫,程式碼如下所示,為後續本地檢索提供基礎檔案資料,這就是我們的個人知識庫:
等輸入「小明收支賬本」關鍵詞時,很快就能從本地知識庫檢索到,如下所示。此處程式碼使用了模糊查詢,所以命中機率會大幅提升:
可以看到命中檔案為PDF型別,並且顯示查詢到的內容:
緊接著會自動呼叫大模型做文件總結分析,這裡使用通義千問大模型,因為它是開源的,關於詳細的部署教程,大家可以參考之前教程,連結在這裡:自己電腦搭建AI大模型詳細教程,支援通義千問、Llama3、介面呼叫等。

這是搭建個人知識庫最有價值的地方,當自動檢索出文檔後,會自動輸到大模型中,然後自動做總結分析,比較方便。同時,利用大模型的總結能力,總結還是比較全面的:

最後總結一下
目前程式碼支援的功能,包括:
1 支援多種檔案:你可以載入 PDF、Word(.docx)、TXT 等格式,檔案最大支援到 200M。
2 載入速度快:因為使用的是 Whoosh 檢索工具,拖動檔案到介面,直接秒處理。
3 大模型輔助分析:比如搜尋“小明收支賬本”,系統會自動檢索相關內容,還能用大模型給出智慧總結,堪稱你的私人助理。

後面會擴充套件更多實用功能,歡迎關注。

以上全文2308字,8張圖。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見!


相關文章