你好,我是郭震
今天跟大家彙報下DeepSeekMine軟體最新進展,同時釋出最新版V6.1軟體安裝包。
對於第一次看到 DeepSeekMine 的朋友,簡單介紹一下,這是我們一直在開發的個人知識庫工具,它集成了外部知識檢索與大模型生成能力。
如下圖所示,左側是軟體載入的個人本地知識檔案列表,右側使用者輸入提問,若提問命中了檔案列表的某些檔案的某些文字片段,則自動整合這些片段,這些技術一般簡稱稱為RAG(檢索增強),然後注入到大模型回答使用者問題:

再強的大模型如果沒有機會學習個人本地檔案知識,也無法更好回答此部分問題,但是本地知識庫軟體能有機會吸收個人檔案知識,因此回答問題質量會更好。
1 軟體特點
DeepSeekMine軟體主要三個特點:純離線,速度快,夠精準。
關閉網線,DeepSeekMine軟體一樣執行,如下圖所示精準檢索Excel檔案的資料:

目前很多知識庫類軟體要求必須線上,比如比較優秀的知識庫類軟體騰訊的ima,奈米AI,必須要把文件上傳到他們的伺服器,才可以執行檢索或生成任務,如下圖所示,斷網後奈米知識庫無法回答問題:

雲端伺服器資源充沛,實現檢索快、精度高,更容易一些。做純離線的知識庫軟體,因為本地環境計算資源有限,還想速度快、精度高,挑戰就會更大一些。
在過去兩個月多,我們在思考如何設計既快又準的本地RAG方案和演算法,到目前V6.1最佳化後,無論上傳檔案,檢索檔案,回覆提問,都做到秒級回覆。
為了證明這點,我分別上傳三個GIF圖來證明,因為公眾號上傳GIF幀數有限制,只能上傳前面幾幀。1)上傳檔案演示,如下GIF圖無任何加速,全部保持原始速度:

2)V6.1新增對資料夾的託管支援,如下GIF圖演示了資料夾內10個檔案的批次上傳速度:

3)回答速度如下GIF圖所示,測試電腦是mac pro m1,GIF錄製全部保持原始速度,此時我的電腦執行記憶體已經所剩很少,否則比下面速度還會快:

2 軟體升級
V6到V6.1我們主要做了下面這些升級,這些需求大部分都來自關注我的讀者,根據所提需求人數,切合度等優先順序逐步升級。
1)無法啟動問題。V6部分使用者出現無法啟動,或第一次啟動慢的問題,這是這次升級最高優先順序的,重點優化了這個問題,根據內測反饋,V6.1將會基本徹底解決這些問題。群內兩位使用者反饋結果,如下圖所示:

2)新增支援資料夾託管上傳。如上面GIF演示所示,同時對資料夾託管頁面做了最佳化,顯示檔案上傳狀態(成功,失敗,失敗的話原因是什麼更方便大家跟我們反饋問題):

3)檔案圖示最佳化。最佳化為大家最熟知,並且軟體內部全部做了統一,如下圖所示,方便大家辨別:

4)RAG精度問題。提升精度作為DeepSeekMine軟體一直最佳化的事項,這次升級重點優化了對Excel檔案的檢索精度,如下提問光明企業薪資表員工收入最高的是誰?工資是多少?如下所示左側顯示命中的文字片段,右側為大模型的回答:

為了驗證精確度,我們對錶格的資料做排序檢索,和上面大模型的回答比對:

得出結論,DeepSeekMine軟體準確檢索到了本地個人知識庫檔案,精準的回答了使用者提問。
5)RAG多輪迴復精度。相比於提升單輪迴復精度,多輪迴復精度提升更有挑戰,使用者連續提問下,如何利用檢索增強避免出現語義偏移,也是一個比較難的問題,如下所示DeepSeekMine最新版本增強了多輪迴復精度,即便提問不夠準確,也能利用歷史會話自動增強:

6)Chat會話增加停止會話功能,支援隨時停止回覆,如下所示:

7)右側命中文字片段面板,做了格式最佳化,最佳化後如下圖所示:

8)筆記面板支援隱藏,如下圖所示未隱藏檢視,點選箭頭所示的隱藏圖示:

隱藏後如下圖所示:

以上就是本次最佳化的主要事項,其他細節由於篇幅問題,不再展示,大家感興趣的想獲取的,可以在下面我的公眾號回覆:知識庫
3 下一步計劃
1)繼續最佳化RAG精度。調研目前最先進的RAG方法,找到最適合本地部署,既快又更準的演算法方案:

2)RAG回答精度與大模型能力也息息相關,如下圖所示,1.5b回答會出現幻覺:

7B就會好很多,回答更加精準:

對於更加複雜的任務,更有必要使用雲端更強大模型,如下使用雲端滿血DeepSeek-r1的回答質量;

基於此,後面新版本會考慮接入更多強大的大模型API,供大家方便實用。
3)軟體詳細使用文件,常見問題及解決措施。團隊小夥伴已經準備好,等下一版本我們徹底整合到軟體裡後,儘快給大家發出來。
4)更多介面顯示最佳化,大家留言區反饋問題收集和迭代事項等。
總結一下
DeepSeekMine 是一款整合 RAG 與大模型的個人本地知識庫工具,支援純離線執行。
基於測試的機器mac m1, win10,最新版 V6.1 實現上傳、檢索、回答全流程秒級響應。關於機器配置,最好記憶體8G以上,四核及以上CPU,無GPU也能執行。
新增資料夾託管、圖示統一、多輪問答增強等關鍵功能。重點最佳化 Excel 檢索精度與啟動穩定性,解決多項使用者反饋問題。後續將持續最佳化 RAG 精度,並探索更強模型接入與介面升級。
以上全文2698字,20張圖。製作軟體不易,如果覺得這個軟體對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見。