RAG市場的2024:隨需而變,從狂熱到理性

OSCHINA
↑點選藍字 關注我們
最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》
報告聚焦 AI 大模型領域,對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。
在第二章《TOP 101-2024 大模型觀點》中,杭州萌嘉網路科技 CEO盧向東分享了其作為大模型應用創業者,所感知到的 2024 年 RAG 市場環境的變化。
全文如下:

RAG 市場的 2024:隨需而變,從狂熱到理性

文 / 盧向東
轉眼到了 2024 年尾,和小夥伴一起創立 TorchV 也接近一年。雖然這一年做了很多事情,但從技術層面上來說,RAG 肯定是不得不提的,所以今天分享一下作為大模型應用創業者所感知的這一年,RAG 市場環境的變化。

RAG vs Fine-tune

2024 這一年,RAG 技術對應的市場需求變化也是挺大的。在講變化之前,我覺得有必要分享一下為什麼 RAG 是目前市場上不可或缺的一種大模型應用的技術實現方式,它的優點是什麼?以及它和主要競爭技術之間的現狀是怎麼樣的?
RAG 最開始被大家熱推,更多是因為以下三個原因:可以避開大模型的上下文視窗長度的限制;可以更好地管理和利用客戶專有的本地資料檔案;可以更好地控制幻覺。
這三點到現在來看依然還是成立的,但上下文視窗這個優勢已經慢慢淡化了,因為各大模型的上下文視窗都在暴漲,如 Baichuan2 的 192K,doubao、GLM-4 的 128K,過 10 萬 tokens 的上下文視窗長度已經屢見不鮮,更別說一些特長的模型版本,以及月之暗面這樣用長文字佔據使用者心智的模型。雖然這些模型是否內建了 RAG 技術不好說,但是 RAG 解決上下文視窗長度限制的特點已經不太能站得住腳。
但是第二點管理和利用專屬知識檔案,以及第三點控制幻覺,現在反而是我認為 RAG 最大的殺手鐧。
(一)專屬知識檔案管理
因為 RAG 這種外掛檔案的形式,我們便可以構建一個知識檔案管理的系統來維護系統內的知識,包括生效和失效時間,知識的協作,以及便捷地為知識更新內容等。RAG 在知識維護上,既不需要像傳統 NLP 那樣由人工先理解再抽取問答對,也不需要像微調(fine-tune)那樣需要非常專業的技術能力,以及微調之後的繁瑣對齊(alignment)最佳化。所以如果客戶的知識內容更新比較頻繁(假設每天需要追加、替換大量即時資訊內容),特別是金融證券、企業情報等場景,RAG 知識更新便捷的特性真的非常合適。
(二)RAG 的幻覺控制
RAG 的幻覺控制是一個有爭議的話題,我之前寫過類似觀點,也有同學斬釘截鐵地認為 RAG 和幻覺控制八竿子打不著,但我現在依然堅持 RAG 可以有效控制幻覺這個觀點。
首先我們可以來看看 LLM 幻覺產生的主要原因:
(1) 對於使用者的提問輸入,LLM 內部完全沒有相應的知識來做應對。比如你問大模型,上週三我在思考一件事,但是現在想不起來,你幫我想想是什麼。例子雖然誇張,但顯而易見,LLM 也不知道,但是它會一本正經給你一些建議,當然肯定不是你想要的;
(2) 當我們給 LLM 原始問題,以及多個模稜兩可或互相影響的參考材料,那麼 LLM 給出的最終答案也會出錯。
好,那麼針對以上問題,是否我們解決好對原始問題的 “理解 – 檢索 – 召回”,送到 LLM 的 context 足夠清晰(指的是沒有歧義內容、檢索相關度高),結果就會非常準確?根據我們的實踐結果,答案是明確的:今年 9 月份我們對一些專案進行了槽位填充(消除模糊問答)和元資料輔助之後,問答準確率可達到 98% 以上。比直接把大文字扔進同一個 LLM 測試的問答準確率幾乎高出 14 個百分點。
有同學會說,LLM 幻覺的深層原因是 temperature 或者說機率引起的。就我純個人觀點來看,現當下的 LLM 引數足夠大、知識量足夠多,temperature 引起的偏差對於最終結果的正確性影響已經微乎其微了。
(三)市場表現
你應該看出來了,在 RAG 和微調之間,我明顯站隊了,而且從一年前就開始站隊了,我們創業的技術方向也是如此。從今天來看,我覺得 RAG 在 2024 年的表現確實要強於微調。
圖:Menlo Ventures 在 2024 年 11 月 20 日釋出的市場調研報告。
來源:https://menlovc.com/2024-the-state-of-generative-ai-in-the-enterprise/
根據 Menlo Ventures 釋出的市場調研報告顯示,RAG 以 51% 的市場份額在企業市場份額中佔據絕對優勢,Fine-tune 和 Prompting 工程均下降兩倍多。Agent 今年屬於純增長,目前情況還不錯,但在企業應用領域,多 Agents 的編排依然存在理解能力不足和生成幻覺等問題有待提高。
如果去預測明年的企業級市場趨勢,我覺得應用(Application)可能會是最大的關鍵詞,甚至會超過 Agent 的熱度。其實今年下半年已經能明顯的看出來,越來越多傳統大企業開始將大模型技術引入到業務中,而且他們的特點是要求高、需求剛、付費爽。而一旦大家開始在大模型的應用側競賽,RAG 在整個業務流程中白盒流程多、易控等特點愈發會受到企業客戶和開發者的熱捧,優勢進一步拉大。

企業 AI 應用市場在 2024 年的變化

(一)上半年:AI 無所不能,大而全
2024 年的上半年,AI 市場充斥著激情,那種熱情似乎走在街上都會撲面而來,個人感覺最主要的推動者是自媒體和模型廠商。模型廠商的出發點很容易理解,快速開啟市場嘛,但考慮到他們是要最終交付的,所以相對還是比較理性。但自媒體就不一樣了,整個上半年看過太多的文章,大家也都是把最好的一面呈現給了大眾,所以很多人會覺得我才幾個月沒關注,AI 已經發展到我不認識的地步了,AI 已經無所不能了。所以,在 2024 年上半年,我們接觸到的企業需求中,佔主流的是那種大而全的需求,要用 AI 替代他們業務的全流程或基本流程,氣味中充滿了使用者的野望。
但實際情況並不理想,AI 或者大模型還真沒到這個程度,而且最關鍵的是正規化轉換也還需時間。什麼是正規化轉換?最簡單的例子就是以前人們用笨重的蒸汽機推動主軸承轉動,帶動整車間的機器工作。但是換了電動機之後呢,工作方式變了,動力可是變得非常分散,比如你拿在手上吹頭髮的吹風機。帶著微型電動機的吹風機和傳統的蒸汽機在工作正規化上就完全不同,採用 AI 大模型之後,企業的業務流程也存在正規化改造的過程,並非一朝一夕可以完成的。
所以,上半年我遇到的、參與的或者聽說的那些大而全的 AI 專案,一半是在可行性推演中沒有被驗證,一半是交付之後效果很不理想,成功者寥寥。
(二)下半年:迴歸理性,小而難
在今年 7 月份開始,陸續有一些傳統大企業找上門來,包括非常知名的企業,以及世界 500 強和多家中國 500 強。如果從時間上來說,他們屬於 AI 投入相對較晚的了,但他們的優勢是需求非常明確,要求也極高。比如有些企業僅僅就是解決一個諮詢服務的需求,在產品範圍上就是一個 AI 問答,但要求準確率接近 100%,就像我們 CTO 在《AIGC 時代的淘金者,TorchV 這一年的心路歷程》說到社保諮詢一樣。
小而難的好處很明顯,我能看到的是下面幾點:
  1. 對企業現有業務流程改造相對較小,內部推動的阻力相對較小,企業客戶配合度高;
  2. 切口小,需求明確,建設成果的考核清晰可量化;
  3. 使用功能較小但可用性較高的 AI 產品,可以讓企業內部員工快速接受 AI,做進一步業務流程改造的前期預熱;
  4. 樂於承接大而全需求的合作廠商多半是外包性質的(這個觀點有點傷人,但確實是我看到的現狀),而專業的、交付成功率更高的廠商往往更喜歡需求清晰且有難度的任務。
(三)關於 2025 年的預測
我在上文中已經有提到,2025 年會有更多企業需求方採用 AI 技術,但企業永遠不會為你的技術買單,他們只會為他們自己的使用價值買單。比如可以幫助他們提升銷售額、業務流轉效率更高,或者和競爭對手的競爭中獲得優勢,還有就是降低成本等等。所以,大模型應用端多端不夠,還需要生長出藤蔓圍繞著企業流程開花結果,這個任務最終會落在應用(Application)—— 內化了企業流程、藉助了大模型能力的、帶有可互動介面的程式。2025 年會成為大模型應用或 AI 應用之爭。
另外還有一個趨勢也很明顯,就是知識管理和協作。我們都說這波 AI 浪潮把原來 “沒用” 的非結構化資料給激活了,所以我們馬上會看到那些原來堆在角落裡面的 “冷” 檔案和知識(類似 wiki)會被大量啟用,“熱” 檔案和知識會爆炸性增長,知識的協作和管理會成為新的問題 —— 就像你有再多的先進坦克和戰車,卻因為無序的交通都堵在阿登森林了。

AI 從業者觀察

因為我看到的不代表真相,所以這一章節會很短,僅僅分享兩個發現。
(一)AI 技術的下坡
有兩個感受(非證據)可以說明這一點。
(1) 關於 AI 大模型的自媒體數量在減少,從搜尋引擎趨勢,加上我和幾個業內朋友的 blog、公眾號以及 X 的閱讀量下降趨勢也可以佐證這一點,下半年雖然市場理性迴歸,但整體熱度是在下降的。OpenAI 不再持續放大招可能也是重要原因之一。
(2) 我前期接觸了很多因為 AI 熱潮而在企業內部抽調精幹力量組成的 AI 小組、AI 研究組和 AI 創新組等團隊的成員,但下半年有不少類似團隊已經解散,人員迴歸到原有崗位。
還有一點就是上半年加我微信好友的很多獨立開發者或在職的個人,多半也已經在尋覓了半年機會之後放棄了繼續探索,這一點在和他們交流,以及他們朋友圈的內容變化中可以明顯感知。
圖:技術採用生命週期。現階段的 AI 大模型市場似乎正處於過高期望之後的下坡過程中
但是這並不是壞事,上圖已經告訴我們,這是必然規律。
(二)價值開始顯現
目前還奔跑在 AI 大模型應用賽道的公司,很多已經開始創造出客戶價值,有了自己的優勢。
包括在海外風生水起的 Dify,在內容提取端的合合,以及肯定會成為國內 AI 巨無霸的火山引擎。當然我們還看到了一些深耕垂直行業的優秀團隊,特別是在法律、醫藥、教育等行業。我們也在今年 6 月份開始做了產品轉身,現在已經不再煩惱人家問我們 “你們和 dify、fastgpt、ragflow 有什麼區別”,因為賽道已經開始慢慢不一樣了,而且這個不一樣依然是產品層面的,和服務什麼行業無關。

作者簡介
盧向東
國內最早的 RAG 實踐者之一,杭州萌嘉網路科技 CEO,公司主要研發 TorchV 品牌的大模型應用和知識庫產品。公眾號:土猛的員外。
閱讀完整報告https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

🔗《2024 中國開源開發者報告》正式釋出
分享在看點贊~Orz

相關文章