AI開發者中介軟體工具生態2024年總結

OSCHINA

↑點選藍字關注我們

最近，開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》。

報告聚焦 AI 大模型領域，對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。

在第二章《TOP 101-2024 大模型觀點》中，生成式 AI 開發者莫爾索總結了 2024 年 AI 開發者中介軟體工具生態。

全文如下：

AI 開發者中介軟體工具生態 2024 年總結

文 / 莫爾索

AI 應用開發者工具自下而上涵蓋了模型託管與推理服務、代理工作流編排、大型模型應用的監控與追蹤、模型輸出的可控性以及安全工具等多個層面。模型是 AI 應用的核心組成部分，其服務需依賴推理引擎實現。開發者接入模型的方式大致可分為四類：

首先是以模型初創企業為代表，提供先進的商業閉源模型，如 OpenAI、Anthropic、智譜及 MiniMax 等。

其次是由 TogetherAI、Groq、Fireworks、Replicate、矽基流動等組成的 GPU 推理叢集服務提供商，它們處理擴充套件與縮減等技術難題，並在基本計算費用基礎上收取額外費用，從而讓應用公司無需承擔構建和管理 GPU 推理叢集的高昂成本，而是可以直接利用抽象化的 AI 基礎設施服務。

第三類是傳統的雲計算平臺，例如亞馬遜的 Amazon Bedrock、阿里雲百鍊平臺、微軟的 Azure AI、谷歌 Vertex AI 等，允許應用開發者輕鬆部署和使用標準化或定製化的 AI 模型，並透過 API 介面呼叫這些模型。

最後一類是本地推理，SGLang、vLLM、TensorRT-LLM 在生產級 GPU 服務負載中表現出色，受到許多有本地託管模型需求的應用開發者的歡迎，此外，Ollama 和 LM Studio 也是在個人計算機上執行模型的優選方案。

除模型層面外，應用層面的工具同樣在快速發展，工具的進步緊密跟隨 AI 應用的發展趨勢。自 ChatGPT 釋出以來，應用構建方式大致經歷了三個階段。

首先是基於單一提示詞模板的聊天助手類應用，此階段重點關注模型和提示詞的安全性以及模型輸出的可控性。例如，garak 可用於檢測模型幻覺、資料洩露和生成毒性內容等問題；rebuff 則針對提示詞注入進行檢測；DSPy 框架提供了系統高效的程式設計方法，幫助解決應用開發中的提示編寫問題；而 LMFormat Enforcer、Guidance 及 Outlines 等專案旨在幫助開發者控制模型輸出的結構，以獲得高質量的輸出。

第二個階段涉及透過組合一系列提示詞和第三方工具或 API 來編排複雜的工作流，這是目前成熟的 AI 應用構建思路之一。值得注意的是，RAG 技術的出現，得益於大語言模型天然適合處理知識密集型任務，RAG 透過從外部記憶源檢索相關資訊，不僅提高了模型生成的精確性和相關性，還解決了大語言模型在資料隱私保護、即時資料處理和減少幻覺問題等方面的侷限。RAG 技術在資料預處理和索引構建方面的努力，直接影響最終應用的效果。

尤其是在本地資料預處理方面，PDF 內容處理成為一大難點，眾多開源專案應運而生，如基於傳統 OCR 技術和版面分析的 Unstructured 和 Marker 庫，以及結合了多模態大模型識別能力的 ZeroX 和 GPTPDF 庫。

此外，還有融合了 OCR 和多模態大模型方案的 PDF-Extract-API 庫。在公開線上資料處理方面，Jina Reader、Crawl4AI 和 Markdowner 等開源專案，能夠將網頁內容轉換成適合大模型處理的上下文，從而利用最新資訊提升問題回答的質量。這些專案的共同目標是將原始資料轉化為有價值的資產，助力企業大規模部署 AI。

對於結構化資料，如對話歷史記錄和其他資料來源的儲存管理同樣重要。向量資料庫如 Chrom、Weaviate、Pinecone、Milvus 等，提供了語義檢索和向量儲存功能，使得 AI 應用能夠利用超出模型上下文限制的資料來源。傳統資料庫 PostgreSQL 現在也支援透過 pgvector 擴充套件進行向量搜尋，基於 PostgreSQL 的公司如 Neon 和 Supabase 為 AI 應用提供了基於嵌入的搜尋和儲存解決方案。

為了有效管理 AI 應用的複雜工作流程，市場上湧現了 Dify、Wordware、釦子等低程式碼平臺，它們集成了多種大模型，支援外部資料接入、知識庫管理和豐富的外掛庫，透過拖拽式配置幫助初學者快速構建 AI 應用。

同時，在開源生態系統中，LangChain、Haystack、Semantic Kernel 等編排框架的出現，使開發者能夠構建、定製和測試 Pipeline，確保這些 Pipeline 的組合能夠達到特定應用場景的最佳生成效果。

對於 RAG 應用，這是一種由多個環節構成的工作流應用，出現了許多端到端的開源解決方案，如 LlamaIndex 框架，它集成了資料預處理、索引構建、多樣化檢索方法等功能，專為大語言模型設計；RAGFlow 是一個基於深度文件理解的開源 RAG 引擎，提供高質量的問答能力，適用於處理大規模的複雜格式資料；Verba 是向量資料庫廠商 Weaviate 開源的一個模組化 RAG 框架，允許開發者根據不同的應用場景靈活定製 RAG 應用的不同環節。

第三個階段，一些產品團隊正探索開發完全由大模型驅動的代理應用。這類代理應用具備從歷史記憶中反思、自主規劃和使用工具執行特定動作的能力。大語言模型負責選擇要呼叫的工具及其引數，而具體的執行動作則在沙箱環境中進行，以確保安全。

E2B、Modal 等服務提供商正是為了滿足這一需求而誕生。代理透過 OpenAI 定義的 JSON 模式呼叫工具，這使得代理和工具能夠在不同的框架中相容，促進了代理工具生態系統的增長。例如，Composio 是一個支援授權管理的通用工具庫，Exa 則提供了一個專門用於網路搜尋的工具。隨著更多代理應用的構建，工具生態系統將持續擴充套件，提供更多新功能，如認證和訪問控制。

在代理應用中，記憶管理同樣關鍵。開源專案 Mem0 將記憶分為短期記憶和長期記憶，後者進一步細分為事件記憶、語義記憶和程式記憶，並基於此抽象出一套記憶管理 SDK。Zep 透過時態知識圖譜管理和更新使用者資訊，跟蹤事實變化並提供最新資料線索。MemGPT 借鑑了計算機作業系統記憶體管理機制，模擬虛擬記憶體工作原理，構建了一套記憶管理系統。這些專案使 AI 應用能夠記住對話歷史，提供更個性化、上下文感知的互動體驗，極大地增強了使用者的滿意度。

此外，代理應用的另一個探索方向是多個代理之間的協同工作。開源社群中出現了許多解決方案，如 CrewAI 和 AutoGen 具備原生的多代理通訊抽象，而 LangGraph 和 Letta 中的代理可以互相呼叫，良好的多代理系統設計使得跨代理協作變得更加容易實現。

鑑於生成模型本質上是一個機率黑盒，AI 應用作為一個複雜的系統，其在生產環境中的質量評估與監控尤為重要。實際應用中最大的挑戰之一就是輸出結果的不確定性。

面對這些挑戰，需要採用科學的評估方法。LangSmith、Arise、Langfuse、Ragas 和 DeepEval 等專案提供了評估和監控所需的各種指標和工具，幫助開發者量化測量、監控和除錯他們的 AI 應用系統。

展望未來，o1 模型的釋出標誌著大模型研究進入了新的時代。o1 模型的推理能力提升對 AI 基礎設施提出了更高的要求，例如平行計算部分思維鏈路、減少不必要的思維過程等。研究的重點重新回到了演算法層面，而非簡單的算力堆砌，這對於中小型模型開發公司和學術界而言是一大利好。o1 模型的更強推理能力推動了越來越多真正的 autopilot 類產品進入⽇常生活，預示著 AI 技術將更加深入地融入人類社會的方方面面。

作者簡介