今年的GenAI發展是否需要重回“打好地基再蓋房”?

OSCHINA
↑點選藍字 關注我們
要論當前流行的開源搜尋引擎,Elasticsearch 必然榜上有名,不僅在金融、電商、醫療、法律等領域,幫助 GenAI 模型生成更符合專業要求的內容,同時賦能企業構建智慧知識管理系統。
Elasticsearch 開源於 2021 年,作為世界上最流行的大資料搜尋引擎,其客戶包括微軟、甲骨文、Adobe 、蘋果、沃爾瑪、騰訊、阿里、滴滴、抖音等,我們常用到的 linkedin 、Wikipedia 等上面的搜尋也都是使用 Elasticsearch 來完成。
日前 Elastic 8.17 正式釋出,聚焦快速跟蹤關鍵功能上,其功能將帶來儲存節省和搜尋效能等一系列優勢。這些功能包括:
  • Elasticsearch logsdb 索引模式正式釋出
  • Elastic Rerank 模型的技術預覽
  • Elasticsearch 查詢語言(ES|QL)全文搜尋的技術預覽
……
隨著 Elasticsearch 的不斷演進,在並行化,硬體加速,資料標量量化等方面做了深入的效能最佳化,為超大規模的向量搜尋提供了商用化的基礎。同時,Elastic 也構建了廣泛的 AI 生態圈,結合大模型,加速 GenAI 生成式的應用開發。
在 GenAI 發展如日中天之際,開源中國 110 期 – 源創會邀請到了 Elastic 中國首席佈道師-劉曉國《運用 Elasticsearch 進行向量搜尋及 GenAI 智慧應用開發》為題,為廣大開發者詳細描述 RAG 基本原理,Elastic 在向量搜尋上的最新進展,以及如何結合 Elasticsearch 消除 GenAI 所產生的幻覺。
演講嘉賓:劉曉國 Elastic 中國社群首席佈道師
主講議題:《運用 Elasticsearch 進行向量搜尋及 GenAI 智慧應用開發》
議題簡介:Elasticsearch 是全球領先的大資料資料搜尋及分析引擎,也是全球下載量最多的向量資料庫。Elastic 作為 Search AI 公司,在向量搜尋方面提供了無如倫比的效能。Elasticsearch 除了提供傳統的詞彙搜尋,也提供和向量(密集向量,稀疏向量)搜尋的混合搜尋,實現多路召回,並提高搜尋精度。隨著 Elasticsearch 的不斷演進,在並行化,硬體加速,資料標量量化等方面做了深入的效能最佳化,為超大規模的向量搜尋提供了商用化的基礎。Elastic 也構建了廣泛的 AI 生態圈,結合大模型,加速 GenAI 生成式的應用開發。本次議題將詳細描述 RAG 基本原理,Elastic 在向量搜尋上的最新進展,如何結合 Elasticsearch 消除 GenAI 所產生的幻覺。
Elastic 官方中文部落格https://my.oschina.net/u/3343882
報名連結https://www.oschina.net/event/2407669

前情放送

OSCHINA:Elastic 最新的技術動態有哪些?
劉曉國:
首先,在 8.17 版本的 logsdb 索引模式中我們引入了 Elastic Rerank ,這是 Elastic 的新語義重新排名模型。重新排名可以用作現有搜尋方式之上的第二階段,無論是詞法搜尋、ELSER 還是密集嵌入,主要透過召回率改進實現顯著的語義相關效能提升。這對於 RAG 應用程式是非常重要的,因為開發者希望將最相關的資訊傳送到 LLM 以生成可能的響應。
其次,我們還發布了(ES|QL)全文搜尋功能的技術預覽。這一全新的(ES|QL)全文搜尋功能旨在進一步拓展 Elasticsearch 的搜尋邊界,為使用者帶來更為強大、便捷的搜尋體驗。它融合了傳統 SQL 的結構化查詢優勢與 Elasticsearch 本身卓越的全文搜尋能力,讓使用者能夠在同一查詢語句中靈活運用兩種正規化。
OSCHINA:未來,GenAI 還有哪些突破口?
劉曉國:
在我們看來,我們企業的業務資料或者私有資料在不斷地生成,而大模型在生產時,它的知識已經固定。如果我們直接把我們問題提交給大模型時,大模型不具備在它生成之後的知識。為了能夠讓大模型生成我們想要的答案,一種方式就是先把業務資料寫入到資料庫 / 向量資料庫中,然後我們針對資料進行搜尋。我們可以把搜素到前面的幾個結果作為上下文提交給大模型,那麼大模型最終生成的結果就是和我們問題相關的結果。這樣搜尋的結果可以避免產生幻覺。Elasticsearch 除了傳統的詞彙搜尋,也同時提供密集向量搜尋,稀疏向量搜尋,並且我們還提供這幾種搜尋的混合搜尋,從而達到更為精確的搜尋結果。密集向量和稀疏向量搜尋都是基於人工智慧發展而來,它可以幫助我們進行語義搜尋。
當然說,很大一部分的模型幻覺被解決,隨著 GenAI 的發展,我們現在所討論的,更多的是算力成本和複雜任務的自動化
前者很好理解,無論是大資料的運算還是訓練模型,我們以往所消耗的資源都是巨大的,往往一次模型訓練,花費上百萬甚至是上千萬美金,Elasticsearch 在 GenAI 裡面扮演了一個非常重要的角色,它可以做向量搜尋,把任何一個數據(文字,影像,語音及影片)轉換為一個向量。我們可以針對文字進行語義搜尋,也可以針對影像、語音及影片進行相似性比較,從而得到最為相近的搜尋結果。
而後者,更像是 GenAI 的 2.0 時代,我們要在一些複雜領域,如法律、金融、醫藥等專業領域做最佳化,這就非常考驗專業資料的輸入能力,當然,首先還得構建專業資料的庫以及索引能力,ElasticSearch 下一步也會朝著這一方面發展。
OSCHINA:本次源創會,您將帶來哪些前沿思索?
劉曉國:
肯定是 ElasticSearch 在向量搜尋的一些最新成果,實際上,Elastic 的發展從 8.0 就開始支援向量搜尋了,本次源創會也是對行業夥伴和使用我們產品的開發者做一個彙報,我們的目標,是把 ElasticSearch 建設成全世界最好的向量搜尋引擎
其次,GenAI 的發展在未來一定是一個重塑多行業格局和人類生活方式的強大引擎,從根本上改變企業的運營模式、產品與服務的設計理念以及決策的定製流程。所以,我也想談談未來的搜尋引擎在一些專業領域,如教育、金融、醫療、法律等,能起到如何關鍵的作用。
END
熱門文章
效果媲美Cursor的開源替代:Roo-Cline
作業系統能知道自己是在虛擬機器中執行的嗎?
Deepseek團隊核心成員揭秘——清北應屆生撐起一片天
用Rust重寫近6萬行C++程式碼是怎樣的體驗?
2024年系統程式語言調查報告:Rust穩居榜首、Zig緊隨其後
分享在看點贊~Orz

相關文章