大模型時代資料庫技術創新

演講嘉賓 | 朱潔 百度資料庫產品總架構師
本文整理自 2024 年 6 月 ArchSummit(深圳站) Data4AI 和 AI4Data 方面的探索和實踐案例專題的同名主題分享。
大家好,我今天講的內容總共分為三部分,先是資料庫和大模型的演變歷程,尤其是兩者的結合的過程。然後在分別介紹向量資料庫,以及大模型在資料庫運維應用結合的實踐經驗。
資料庫與大模型
首先是第一部分,資料庫和大模型的演變歷程。
講這些之前,先簡單回顧資料庫的發展歷史。在 IT 行業,資料庫有超過 70 年的歷史了,對於快速發展的 IT 行業來說,一個超過 70 年曆史的技術,感覺像恐龍一樣。
但是我們會看到在過去的 70 年裡面,從最早的大型機再演變到後面的小型機,PC 伺服器,資料中心 + 網際網路,雲,以及現在的 AI 時代。資料庫在不停地演變和革新,每隔一段時間,新的硬體,新的應用就會催生新的資料庫技術。
所以每個時代都會有不同的當紅資料庫。像 PC 時代的 Oracle,網際網路時代的 MySQL,雲時代的雲資料庫。
到 AI 時代硬體演變成了 GPU + CPU,應用變成了 AI 原生應用,像微軟的各種 Copilot,創業公司 Midjourney 等等。在大模型時代,資料庫這個領域當前最紅的就是向量資料庫,以及透過大模型加持的各種智慧運維能力,比如百度智慧雲的 DBSC。DBSC 是資料庫智慧駕駛艙的英文縮寫,我們取名叫資料庫智慧駕駛艙,寓意就是像給資料庫也和電車一樣有一個智慧駕駛艙的能力,實現一定程度的自動化,改善體驗,降低門檻。
其實 AI 和資料庫結合是老生常談。那為什麼現在工業界比以往要更興奮?主要原因還是大模型今天表現出理解、生成、推理、記憶四大能力。
這和以往 AI 還是有本質的提升,大模型和資料庫的結合相比以前的 AI 技術,讓場景更通用、能力更實用。所以說大模型二次激發了資料庫和 AI 結合的浪潮。
討論這個之前,我們先來看下大模型技術棧。
IaaS 這一層發生了很大的變更,從原來的以 CPU 為中心,演變成現在 CPU + GPU 的模式。
PaaS 這一層有大模型,以及配套的工具鏈 Model Builder。為了應用實現的更簡單,還有 Agent Builder 和 App Builder 等等。
向量資料庫在 PaaS 這一層,通常向量資料庫廠家還會帶一個 RAG Flow,方便使用者快速構建 RAG 應用。
而剛才提的資料庫智慧駕駛艙,屬於 SaaS,是大模型和資料庫結合的一種應用形式。其他的 SaaS 還有很多原生的 Agent、私有知識庫,以及被大模型改造過的傳統應用等等。
DB4AI:向量資料庫
接下來我們分別講講這兩大塊,首先是向量資料庫。
向量資料庫不是一個新技術,2015 年的時候 Facebook 就在開發相似度檢索庫 Faiss,這個也是目前很多向量資料庫最早演變的基礎。綜合下來,向量資料庫主要有三個場景:
首先是相似度檢索,這個場景以向量檢索能力為主。主要應用在多模態檢索,推薦系統,分類系統裡面。這些內容,熟悉的同學肯定立馬反應過來在互聯網裡面電商等,政企裡面公安等場景廣泛有應用。
第二個是語義檢索,這個應用到文字和向量的混合檢索,需要用到多路召回的能力,有語義排序模型一起。主要是企業內部搜尋場景。
第三個是現在比較火的 RAG 場景,RAG 是檢索增強生成技術,利用到向量加持大模型,讓大模型給出的結果更準確,主要應用各類知識庫,客服,大模型記憶問答場景。
大模型效果讓人驚豔,但是還是存在知識更新不及時,容易幻覺,沒有內部知識的原因,所以帶火了 RAG 技術,根據現在調查,目前超過 80% 的落地應用基本都是 RAG。RAG 是檢索增強生成(Retrieval-augmented Generation)。利用向量相似度檢索技術搜尋文件,然後組合成 prompt 餵給大模型,大模型再生成最終的答案。這就規避了剛才講到的大模型幾個典型問題。RAG 是一個非常實用的技術。
但是要做好 RAG 要經過資料提取、資料索引、檢索、生成四個階段,每個階段都有不少難點。我這裡簡單提一下給大家做參考:
首先是資料提取。核心是要把各種結構化,非結構化資料能提取出來,用於後面的處理。這裡的複雜度主要是:
  • 檔案格式複雜,以 pdf 為例子,不光有文字,還夾雜有圖表,圖片裡面又有文字。
  • 檔案有上下文,要把上文相關的元資訊提取出來,後面就更容易處理。如果不提取元資訊,那下一步資料分塊,就容易切分錯誤。
其次資料索引。這一步做好文件的切分, embedding 模型,把檔案 embedding 成向量,才可以把向量存到向量資料庫裡面去。這裡的難點又有兩個:
  • 資料切分,過大,過小都會有問題。所以一般是按照 300~400 個位元組切分。還有處理更精細的,是按意圖切分。
  • 另外就是 embedding 模型,文字類的有 BGE,openAI 的 text-embedding-3;文圖關聯的只有 CLIP。現在這塊的多模態模型是下一步重點。
然後就是檢索。檢索主要分 query 預處理,召回兩個步驟
  • query 預處理主要的步驟是意圖識別,同義詞生成,專有名詞生成等。
  • 召回主要就是向量資料庫的工作,要支援向量檢索,文字檢索,多路召回能力,召回之後重排技術。
最後是生成階段。檢索出來的結果在給大模型之前,還要 prompt 最佳化,包括 promot  加上 step by step ,針對場景的加上相應的提示詞等。最後的結果依賴大模型的理解,生成,邏輯推理能力。大模型能力的強弱也直接決定 RAG 的效果。
所以大家會看到要把 RAG 作為大模型應用目前主要落地場景,但還是有非常多改進的空間的,這方面的創業公司也很多,技術發展也很快,機會很多。
RAG 技術從業務邏輯上來講,是對大模型最新的知識的補充,所以 RAG 未來的空間,核心是企業私有化知識到底多不多,有沒有用於業務價值的地方。這並不取決於大模型本身能力發展到什麼程度,大模型變得多智慧。因為大模型再智慧也無法獲取私有的資料。
但是給大模型補充知識的方法有好幾種,大模型精調,利用大模型長文字能力把資料全部 prompt 進去,以及 RAG。
最近國內外大模型廠商都捲起了長文字技術,國內國外的大模型都有很大的提升,長文字都支援到了 1M 甚至更多。把資料全部餵給大模型,這個好處是充分利用模型的推理能力,能實現更強的推理效果。但是 RAG 技術有以下幾個顯著的優勢:
  • 成本更低,VectorDB 運算用的資源是 CPU,大模型是用 GPU 的,兩者價效比差很遠。
  • 效能好,尤其是響應的時延更好,這也是機制決定的,用過大模型的就是知道,大模型響應時延瓶頸還是比較大。
  • 問答穩定,資料庫召回的每次結果都是穩定的,大模型回答存在隨機性,還有幻覺問題。
  • 複雜問題解決的更好,比如安全問題涉及到複雜過濾,在 RAG 裡面都可以有很好的解決方案,而大模型會比較難解決。
  • 定位問題方便,大模型還是黑盒,而 RAG 方案,整個過程都是可以追溯和分析的,可以更好的改進 corner case。
因此綜合來說,RAG 在通用性,價效比上佔據明顯的優勢。
前面講到 RAG 核心是解決大模型最新知識的補充問題,所以 RAG 裡面最典型的場景就是私域知識庫。
在這個場景裡面,每家企業自己的私有資料透過 embedding 存在向量資料庫裡面,去做各種業務,比如智慧問答,客服等等。
每家企業的資料是不一樣的,部署的要求是不一樣的。因此對向量資料庫也有很多要求,需要能支援全生命週期的資料管理能力。技術上有很多關鍵的點要支援,比如
  • 各種版本管理,全量更新能力;
  • 複雜的查詢,包括標量,向量的混合查詢;
  • 公有云,私有化的部署,尤其是私有化上一般會有小型化的訴求。
我們還看到很多企業規劃統一的知識庫,這就要求向量資料庫能有很強的擴充套件性,價效比,在私有化上有多租戶的能力等等。
當然除了知識庫場景, RAG 還能做大模型記憶庫等其他場景。
實現向量有很多種方案,到底是傳統資料庫上支援向量外掛,還是在需要一個專業的向量資料庫。我們現在實踐下來的答案是需要一個專業的向量資料庫。
相比專業的向量資料庫,傳統向量資料庫在系統架構,索引,儲存方案上都不是為向量專項設計的,所以最佳化起來會比較複雜。包括架構上,索引,儲存方案都不是給向量準備的,從而導致寫入效能,查詢時延,併發效率都比較低。是很難滿足大模型時代的要求,也是缺乏競爭力的。
我們在實踐中看到這些問題,因此我們全新自研了百度智慧雲 AI 原生向量資料庫 VectorDB。主要的特點有四個方面
  • 首先是分散式架構,這是向量資料庫的基礎,分散式架構設計的好壞直接決定向量資料庫的天花板,百度智慧雲向量資料庫 VectorDB,支援百億級的海量的儲存,超過 4096 高維向量等等。
  • 第二個是高效能訪問,這就需要深度的索引演算法最佳化,目前我們支援比較全的種類開源演算法以及我們自研的 puck 演算法。效能上不管是時延,還是 QPS 等都相比開源綜合下來要高 3~7.5 倍。
  • 第三個是,全棧的能力,E2E 方案。客戶需要實現的是一個業務,所以不止向量資料庫,是否全套的能力和方案很重要。目前我們支援主流的各種開源框架,還結合百度內部的 embedding 庫等,實現更好的實體,短語的識別等等。
  • 最後是企業級能力上,尤其是彈性,高可用能力上。
綜合來說,百度智慧雲向量資料庫是一個成熟,功能齊全,效能卓越,簡單易用的產品。
接下來,我就深度解析下,百度智慧雲向量資料庫 VectorDB 幾個核心技術。
先用一張圖來看下整體技術體系,VectorDB 是一個典型的全棧資料庫體系,從接入服務、查詢索引、資料引擎、分散式能力、向量索引,底層多種儲存適配全棧能力,還有配套的生態整合、叢集管理、平臺管理能力。熟悉資料庫的體系的同學就能知道,只有一個成熟的資料庫,全棧的能力,才可以各方面都最佳化的很好,實現一個綜合的效果。
VectorDB 有三大核心能力和特點:
首先是成熟的分散式架構。向量還是一個偏 NoSQL 的場景,企業內部的資料可大,可小。所以我們利用原來多年積累的儲存,資料庫分散式經驗,在系統的每一層都是可以擴充套件的:
  • 代理節點,這個是無狀態對等的,同時支援自動的負載均衡。
  • 管理節點,透過 raft 協議做高可用,負責叢集的拓撲,資源管理等。
  • 資料節點,複雜資料的增刪改,查詢和索引。支援自動的 failover 和彈性的伸縮能力。
成熟的分散式架構可以說是向量資料庫的一切的基石,只有成熟的架構才能很好的支援高可靠,高可用,強擴充套件,大規模的能力。
第二個是高效能資料引擎。
右邊的圖是 VectorDB 的資料引擎邏輯圖。最核心的幾個能力包括:
  • 支援強 schema 模型,同時支援標量和向量資料儲存。
  • 支援二級索引,支援向量和標量的混合檢索能力。
  • 支援行存,列存,行列混存多種模式。
  • 支援資料壓縮能力。
  • 具備快照,多版本的恢復能力。
  • 能夠硬體上充分利用晶片的指令集,編譯器的能力,獲得很好的效能。
我們透過從底到上,從晶片到架構的深度的最佳化實現了一個高效能的資料引擎。
第三個就是向量和標量的混合檢索。
在實踐中,經常需要融合文字檢索和向量檢索的能力,向量解決近似查詢,標量解決複雜條件過濾。
要很好的實現這點就要有多種的過濾機制:
  • 檢索預過濾。
  • 檢索時過濾。
  • 檢索後過濾。
  • 按統計資訊對索引進行不同的過濾機制。
前面講的核心機制,現在看看 VectorDB 和開源的對比。我們在相同的召回率條件下,整個 QPS 或者吞吐超越開源 3~7.5 倍。關於這個測試報告,大家可以在我們的 VectorDB 產品官網幫助中找到測試的規格、資料、測試程式碼,整個測試是可以復現。
最後來簡單總結下 VectorDB 核心優勢,包括:
  • 遠高於競品的 QPS,以及降低超過 90% 的記憶體開銷。
  • 全棧的能力。
  • 事務資料庫級別的高可用能力。
  • 海量資料庫儲存檢索。
  • 程式碼自研,相容各種平臺。
綜合來說,百度智慧雲向量資料庫 VectorDB 是一個成熟高效,綜合能力領先的向量資料庫。
AI4DB:資料庫運維應用
前面一起討論了 RAG、向量資料庫,接下來看資料庫和大模型結合的另外一個方向 AI4DB,大模型賦能資料庫運維應用,透過大模型改進資料庫運維能力。
我們的產品叫 DBSC,中文是資料庫智慧駕駛艙。先用一張圖來看下我們的資料庫智慧駕駛艙的能力全景。
整個服務包括資料庫運維的方方面面,包括請求分析、智慧運維、智慧壓測、資料庫 devops 等。另外我們用大模型整體改造了產品的實現,讓這些能力都能結合上大模型的能力,有更好的使用體驗。
大家可能會問,百度智慧雲這個產品和業界競品的優勢是什麼。其實技術上不是這個產品的核心能力,這個產品和業界拉開差距的核心原因是要有積累大量的知識,其次才是將知識轉化成產品能力。
百度和百度智慧雲在過去的 18 年的資料庫使用和開發經驗,服務了大量的客戶,沉澱了多年的經驗。現在我們將這些能力和經驗沉澱在 DBSC 這個服務裡面,免費開放給內外部客戶。
這樣 DBSC 就在支援內外部客戶不停地開發、運維、和智慧最佳化的過程中,又持續的將更多知識和能力沉澱下來,持續最佳化。這就形成了一個數據飛輪。使用者越多,使用就越多,飛輪就會轉的越來越快,服務的能力也就會進一步提升。
智慧領航員技術上簡單說一下,就是用的 RAG 技術,embedding 模型用的文心千帆的 text 模型,向量資料庫用的 VectorDB。用 VectorDB 儲存積累的大量專業知識,所以使用者使用下來,效果非常不錯,根據我們的測試滿意度 80% 以上。
今天我分享的主要內容就是這些,最後我們簡單暢享一下未來。大模型和資料庫會持續結合,我們也看到了很多新的趨勢,從底層的 IaaS,模型會從雲端擴充套件到端;PaaS 會從現在純文字模型擴充套件到多模態,上層應用會從當前主流的 Copilot 擴充套件到 Agent,更充分利用大模型的自主決策能力。謝謝大家!
內容推薦
在人工智慧的浪潮之下,AI Agent 正逐漸成為技術前沿探索與實踐的焦點,不僅推動著各行各業的革新,也在企業生產、辦公自動化、零售連鎖等多個領域展現出巨大的潛力和價值。我們精選了2024年InfoQ技術大會上關於AI Agent的精彩演講內容,帶你瞭解華為、微軟等大廠的探索方向和實踐經驗。關注「AI前線」,回覆關鍵詞「Agent」免費獲取PPT資料。

活動推薦
AICon 全球人工智慧開發與應用大會,為資深工程師、產品經理、資料分析師等專業人群搭建深度交流平臺。聚焦大模型訓練與推理、AI Agent、RAG 技術、多模態等前沿議題,匯聚 AI 和大模型超全落地場景與最佳實踐,期望幫助與會者在大模型時代把握先機,實現技術與業務的雙重飛躍。
在主題演講環節,我們已經邀請到了「蔚來創始人 李斌」,分享基於蔚來汽車 10 年來創新創業過程中的思考和實踐,聚焦 SmartEV 和 AI 結合的關鍵問題和解決之道。大會火熱報名中,7 月 31 日前可以享受 9 折優惠,單張門票節省 480 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
你也「在看」嗎?👇

相關文章