你好,我是郭震
今天這篇教程關於:在自己電腦如何使用大模型,搭建“輕量飛速”個人知識庫。

1 功能演示
之前文章已有介紹為什麼要在本地搭建個人知識庫,在此不再展開,簡單來說,本地搭建知識庫能做到更加安全地管理個人文件、或企業不方便外傳的文件等。
這週末開發的桌面軟體,咱們先看看介面功能:包括檔案上傳,知識庫管理,關鍵詞查詢及結果顯示,然後大模型深度思考分析(部分截圖):

2 輕量極速免費
以上個人知識庫軟體,滿足以下要求:
1) 輕量。無需向量資料庫,對電腦效能要求降到最低;
2) 極速。在保證查詢效能、AI回答效果前提下,做到儘可能的快。
3) 免費。方案包括的所有工具全部開源,不用花一分錢。
3 設計方案和效果展示
基於以上三個要求,設計方案如下:
-
查詢選型whoosh。之前文章也有介紹,最大特點輕量、開源、效能夠好。
-
大模型配置靈活,選擇DeepSeek-r1:1.5b,最新發布的推理模型,選擇1.5b尺寸,回覆極速,回答效果夠好。效果下面會有證明。
總結來說:whoosh(本地查詢快) + DeepSeek-r1:1.5b(回答極速、效果還有保證)
whoosh(本地查詢快) ,快到什麼程度,20頁的PDF,按關鍵詞查詢能在ms級;
DeepSeek-r1:1.5b(回答極速、效果還有保證),極速到什麼程度,我的電腦是m1,會話第一次拿到回覆秒(s)級。
下面是GIF動畫,受限公眾號GIF幀數限制,只能錄製有限幀,整個動畫無任何加速,全部原始速度,大家重點看下回復延時,是否在秒級以內:

當輸入關鍵詞,並點選搜尋後,會先從自己的知識庫中搜索匹配檔案,然後打包命中處的上下文,自動傳送到Deepseek-r1:1.5b.
下圖是回覆完成後的部分截圖,deepseek-r1:1.5b的回覆效果很不錯,回覆包括兩部分:思考過程+正式回答,如下兩個紅色文字框所示:

這兩天我主要對之前已實現程式碼,做了如下改進:
1)whoosh查詢邏輯最佳化升級,對中文查詢輸入更加友好;
2) 調整為DeepSeek-r1:1.5b模型及實現邏輯;
3)調整PDF讀取方案及對應邏輯;
4) 調整為純本地執行的桌面軟體
下一步軟體開發功能包括:
1) 支援任意網頁抓取到本地+自動大模型分析
2)whoosh查詢邏輯之分詞組合配置查詢
目前此軟體全部開源,在下面公眾號回覆:
知識庫
,獲取軟體程式碼:
再介紹下最近DeepSeek-r1模型,得分上看300多b的r1模型推理已超越o1,推理代表大模型的聰明程度,所以在社群內引起廣泛關注:

它是怎麼做到的?有哪些創新?主要三點:
1)冷啟動資料與多階段訓練。使用冷啟動資料(設計良好的長鏈式思維資料)對基礎模型進行初步微調,為後續的強化學習(RL)奠定更穩定的基礎。
2)強化學習驅動的推理最佳化。應用以目標為導向的 RL(如語言一致性獎勵)增強推理能力,透過規則化獎勵機制避免獎勵黑箱問題,提升任務準確率和使用者體驗 。
3)蒸餾技術擴充套件能力。將大型模型的推理能力高效蒸餾到小型稠密模型上,實現高效能與計算效率的平衡。
最後總結
本地搭建個人知識庫方案基於 Whoosh(本地查詢極速)和 DeepSeek-r1:1.5b(回答迅速效果好),實現輕量、極速、免費。具體以下三點:
1)輕量高效:基於 Whoosh 實現毫秒級關鍵詞查詢,無需向量資料庫,適合本地執行。
2)極速響應:結合 DeepSeek-r1:1.5b 大模型,實現秒級 AI 回覆,兼顧速度與效果。
3)免費開源:所有工具均為開源軟體,無需額外費用,適合個人和企業本地知識管理。
以上全文1588字,4張圖。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見。