終於有人說清楚AI開發的全流程了！

阿里妹導讀

本文將深入解析AI需求開發流程，全面覆蓋從需求分析、開發、測試到釋出及後續的監控和反饋收集等各個階段。

引言

繼上篇文章《掌握Prompt寫作技巧：寫出完美Prompt的秘籍》對Prompt寫作技巧的探討，本篇將深入解析AI需求開發流程，全面覆蓋從需求分析、開發、測試到釋出及後續的監控和反饋收集等各個階段。在AI應用中，提示詞工程並不僅限於提示詞寫作技巧，而是貫穿於整體的AI需求開發流程中，助力業務與技術團隊緊密協作，實現高效的開發與最佳化。

在需求分析階段，明確的業務目標與模型效能的深刻理解是專案的基石，本文特別強調透過 AI OPS促進產品和業務團隊的自主參與 AI需求調研，這不僅有助於保證技術實現與實際業務需求的高度契合，還能增強跨團隊協作的效率。

開發階段則注重AI模型的選擇和最佳化，本文詳細討論了在效能與成本之間尋求最佳平衡的策略，包括對響應時間、Token數量，以及API呼叫成本的全面考量。此外，透過AI OPS工具的應用，使得提示詞設計更為靈活高效，優化了整個開發流程。

測試階段採用多維度評估的方式，確保模型在多種場景下的應用效果。而在釋出後，藉助即時監控和使用者反饋收集，系統得以持續最佳化與改進。本文強調，提示詞上線僅是實現目標的開始，透過多輪迭代和改進，我們能逐步提升生成效果，使其更加貼合實際業務需求，保障高效AI應用和使用者滿意度的提升。

一. 需求分析&調研

AI需求通常源自缺乏開發背景的產品和業務團隊，這使得在需求調研階段通常需要依賴開發人員的協助。然而，利用AI OPS（如DIFY等）提供的簡便互動模式，產品和業務團隊能夠在無需開發人員介入的情況下，自主進行需求調研和初步驗證。這不僅提高了團隊的獨立性，透過減少對開發資源的依賴，最佳化產品開發流程，顯著降低了整體需求的迭代週期。

1.1 傳統AI需求開發流程

1. 需求分析：

問題定義：與各利益相關者溝通，明確業務需求和最終目標。
使用者需求調研：透過調查問卷和訪談確定使用者需求如摘要長度和準確性。
確定專案範圍：定義專案的必要功能和優先順序。
制定效能指標：設定系統性能和質量標準。
撰寫需求文件：整理全部需求成文件供團隊參考。

2. 技術調研：

競品分析：分析市場現有的類似產品，明確其優勢與不足。
原型驗證：透過小規模實驗驗證所選技術路線的可行性。

這種開發流程雖然能細緻入微地滿足專案需求，但在多個方面面臨挑戰，例如對技術人員的依賴、長時間的調研和驗證過程，以及有限的靈活性。

1.2 AI OPS引入的革新

AI OPS的出現解決了傳統流程中許多固有的痛點。它大大降低了技術門檻，使得不懂程式碼的業務人員和產品經理能夠更直接地參與到AI需求的開發和調研中，它集成了圖形化介面和自動化功能，簡化流程、加快迭代速度、最佳化資源管理，並提高團隊協作效率。

1.3 業務和產品人員的角色轉變

AI OPS新流程和傳統流程的最大差異在於，對需求調研和初步可行性分析的執行者角色發生了根本性變化。傳統的開發模式中，這一階段通常需要技術開發人員深度介入，因為涉及複雜的技術評估和驗證。

在AI OPS模式中，不懂程式碼的業務人員和產品經理能夠直接進行初步的可行性調研和分析。透過操作簡便的AI OPS工具，業務和產品人員可以完成以下任務：

快速配置和測試模型：利用直觀的配置介面設定和測試不同的AI模型，評估其可行性和效果。
即時反饋和調整：根據實驗結果即時調整需求和引數，而無需大量的技術投入。
自主撰寫需求文件：基於直接的實驗資料，撰寫更加貼近實際應用的需求文件。

這種變化不僅提高了專案的啟動速度，也使得需求更貼合實際業務應用。同時，技術人員可以將更多精力放在高價值的最佳化和創新上，從而提升團隊的整體效率。

二、開發階段

2.1 LLM 選型

在選擇和最佳化LLM時，需要全面考慮多個因素，以在效能和成本之間達到最佳平衡。這包括響應時間（RT）、Token數、API呼叫量、模型呼叫成本以及最終產出的效果。這些因素的綜合考量可以幫助使用者進行更明智的決策，確保模型在實際應用中的高效執行。

2.1.1 模型大小

響應時間（RT）：從請求發出到收到響應的時間。隨著模型規模的增大，其計算資源需求更高，往往導致更長的RT。這可能影響即時應用中的響應速度。
效果：大規模模型通常具有更高的準確性和更好的輸出效果，尤其在複雜任務中能夠展現出色的表現。
成本：模型使用時產生的經濟成本，呼叫模型規模越大所需的費用較高，因此需綜合考慮預算和效益。

2.1.2 綜合考慮的因素

為了在響應速度、效果和成本之間達到合理的平衡，以下幾個方面值得特別關注：

API呼叫量限制：任何併發情況下，都必須注意API呼叫量的限制（包括每分鐘查詢數QPM和每分鐘Token數TPM），以避免因頻繁訪問而導致被限流。這要求合理的請求頻率設定和選擇支援較高呼叫量的模型。
Token長度：Token限制影響模型處理長文字的能力。選擇支援較高Token限度的模型，以確保對於複雜或長文字任務模型可以充分處理。

2.1.3 綜合策略

1.任務複雜性與模型選擇

對於簡單任務，應使用小規模模型來降低RT和成本。這適合預算有限且不需要高度精確輸出的應用場景。
複雜任務則需選擇大規模模型，確保能從模型的高階能力中獲益，獲得更精確的結果。

2.最佳化API呼叫和Token使用

合理規劃請求頻率，充分利用API支援的最大呼叫能力，以避免限流影響。
在輸入文字上進行最佳化，保持在Token限制內同時保證資訊有效性，提升模型處理效率。

在模型選擇過程中，全面考量模型大小、響應時間、效果、成本以及API呼叫量和Token限制，能夠更好地為具體應用找到最佳解決方案。透過合理的模型選擇和策略最佳化，不僅可以提升效能，還能在預算內實現更高的經濟效益。這種多角度的綜合考慮是有效使用AI模型的重要策略。

舉個🌰：

在選擇合適的通義2.5系列模型時，需要綜合考慮響應時間（RT）、API呼叫量、Token限制（Token）、每分鐘查詢數（QPM）、呼叫成本以及模型產出的效果。以下是一個基於通義2.5系列的模型選型指南，幫助您在效能和成本之間找到最佳平衡。

1. qwen2.5-0.5b-instruct/qwen2.5-1.5b-instruct

適合任務：基礎問答、簡單情感分析、簡短文字處理。

最佳化因素：

RT：低，適合即時響應。
呼叫成本：限時免費。
使用建議：此模型非常適合需要快速響應且預算有限的簡單應用場景。

2. qwen2.5-7b-instruct

適合任務：中等複雜度文字生成、詳細情感分析、複雜文字摘要。

最佳化因素：

RT：中。
呼叫成本：較低。
使用建議：在需要生成複雜內容並要求高精度的應用中表現優異。

3. qwen2.5-72b-instruct

適合任務：複雜任務處理、深入文字分析、大規模內容生成。

最佳化因素：

RT：中高。
呼叫成本：較高的預算需求。
使用建議：此模型適合預算不敏感且需要高效能處理的高階應用場景。

2.2 提示詞設計和最佳化

2.2.1 初始提示詞設計

基於需求和技術調研結果，設計初始的提示詞。關於提示詞撰寫本文不再贅述，請參考我的另一篇文章：《掌握Prompt寫作技巧：寫出完美Prompt的秘籍》

2.2.2 提示詞實驗

利用AI OPS 等工具比較不同LLM在相似提示詞下的執行效果，我們可以設計一個實驗，該實驗透過評估各種模型在特定任務或上下文中的表現，協助選擇最合適的模型。這一過程包括對多個LLM應用相同或類似的提示詞（prompts），然後比較各模型生成的輸出。透過這種方式，我們能夠深入瞭解不同模型在生成質量、響應準確性、風格一致性和適應性等方面的優劣勢。此實驗將為我們選擇最佳模型提供依據，幫助最佳化AI應用的效率和效果。

多模型對比功能在模型選型中的幫助主要體現在以下幾個方面：

1.細緻的效能評估

透過比較多個模型的輸出，團隊可以從準確性、生成流暢度、語義一致性等多個維度進行評估。這種細緻的比較能夠幫助快速識別出在特定任務上表現最佳的模型。

2.針對性分析

不同模型在不同任務上的表現可能差異顯著。多模型對比允許團隊在實際應用場景中測試模型，分析哪些模型更擅長處理特定型別的輸入，例如情感分析、問答系統或文字生成，確保選型符合任務需求。

3.識別特定場景下的優劣

使用多模型對比功能可以針對具體的應用場景進行調查。例如，在使用者支援場景中，表現更好的模型可能更加善於理解上下文和生成準確的回答，從而更好地滿足使用者需求。

4.成本效益分析

透過評估不同模型的效能，團隊可以在保持一定輸出質量的前提下，選擇計算成本更低的模型，從而提升資源使用效率，減少運營成本。

2.3 鏈路分析

在應對複雜的AI需求，尤其是多LLM協作的場景中，鏈路分析發揮著至關重要的作用。透過對各個處理環節的視覺化和追蹤，鏈路分析幫助開發者深入理解鏈路中各節點的行為和效能。具體而言，鏈路分析鏈路分析的作用體現在以下幾個方面：

2.3.1 耗時分析

透過監測不同處理步驟的耗時，鏈路分析能夠識別出瓶頸環節。這一資訊有助於團隊快速最佳化，提升系統的整體響應速度和使用者體驗。例如，若某個模型在生成響應時耗時過長，團隊可以針對性地進行最佳化或部署更高效的演算法。

2.3.2 Token 消耗

對於基於Token計費的模型，鏈路分析允許團隊即時追蹤每個環節消耗的Token數量。這對於資源預算和成本控制至關重要，團隊可以根據Token消耗的資料，評估模型的使用效率，並在必要時進行策略調整，以降低運營成本。

2.3.3 輸入輸出結果檢測

鏈路分析能夠對LLM的輸入與輸出進行詳細的記錄和分析，幫助團隊評估模型的準確性和一致性。這一監測提高了大模型在特定任務下的可靠性，確保輸出結果符合預期，降低了錯誤發生的風險。

2.3.4 異常檢測與診斷

透過監測每個處理環節的正常執行狀態，鏈路分析能及時捕捉到任何異常情況，例如模型輸出的異常值或處理邏輯的故障。這些資訊使團隊能夠迅速反應和修復問題，從而降低對使用者體驗的負面影響，確保應用的穩定性和可靠性。

2.3.5 鏈路分析最佳化

基於鏈路分析的結果，開發者可以對各節點進行針對性的最佳化，從而提升整體系統的效能和效率，具體措施包括：

1. 效能最佳化：透過監測不同處理步驟的耗時，鏈路分析能夠有效識別出系統中的瓶頸環節。這些資訊有助於開發者迅速採取針對性措施，加快系統響應速度並提升使用者體驗。

2. PROMPT表現最佳化：針對不同模型在相同或相似提示詞（prompts）下的生成質量進行評估，調整提示詞的結構和內容，提高模型的響應準確性和一致性。透過定期測試和反饋，最佳化提示詞的設計策略，使其更符合預期的輸出標準。

3. TOKEN消耗最佳化：利用分析結果監測各模型的TOKEN消耗情況，識別高消耗節點。透過調整處理邏輯或者改進演算法，實現TOKEN的高效利用，減少不必要的資源浪費和成本開銷。比如，簡化提示詞或最佳化模型的輸入輸出策略，以降低整體TOKEN消耗量。

結合這些具體的最佳化措施，團隊可以顯著提升各節點的執行效率，減少資源浪費，提高系統的響應速度和輸出質量，確保多模型協作在複雜AI需求中的高效執行。

2.4 RT 最佳化小技巧

在上文中，我們零星提到了一些關於即時（RT）最佳化的技巧，以下是對這些技巧的彙總：

2.4.1 使用適當規模的模型

根據具體任務的需求和計算資源的限制，選擇適合的模型規模至關重要。模型並非越大越好，而是要選用與任務匹配的模型來獲得最佳效果。較小的模型常在資源高效性和速度上具有優勢，適用於簡單任務；而較大模型則能在更復雜的場景中提供高度的準確性。因此，關鍵是理解不同模型的特性和適用範圍，以便在確保任務效果的同時，合理利用計算資源。

舉個🌰：

在文字分類任務中，對大量使用者評論進行快速處理時，qwen2.5-7b-instruct這樣的較小模型通常更為合適，因為它能以足夠的準確度完成任務並且更為高效。雖然qwen-max等大型模型具備強大的處理能力，但在這種無需極高精度的任務中，反而可能顯得資源使用過度。因此，透過深入瞭解各個模型的引數、特徵和實際表現，不要一味追求“大而全”，而應根據具體需求選擇最適合的模型，做到資源和效能的最佳平衡。

2.4.2 精簡PROMPT

透過精簡Prompt的Token數量，可以顯著最佳化大型語言模型（LLM）的響應時間（RT）。這種最佳化方法的核心在於去除多餘資訊並使用簡潔明確的語言，從而幫助模型快速高效地理解和執行任務。精簡Prompt不僅能夠加速處理速度，還可以減少計算資源的消耗。然而，在精簡過程中必須謹慎，確保必要的上下文資訊不被遺漏，以避免影響模型輸出的準確性。透過這種平衡的最佳化策略，使用者可以在提升系統執行效率的同時保持高質量的結果輸出。

舉個🌰：

原始Prompt：

"請為我提供一份描述公司新產品的簡要資訊。我們公司的新產品是一款智慧手機，這款手機擁有最新的處理器技術、高畫質顯示屏、高畫素攝像頭，並且支援快速充電。我們的目標是透過這款手機滿足消費者對於高效能裝置的需求。此外，這款手機還具備長電池壽命和時尚的設計。請確保在您提供的描述中包含所有這些資訊。"

精簡後的Prompt：

"請簡要描述我公司新推出的智慧手機，強調其處理器技術、顯示屏、攝像頭、快速充電、長電池壽命和設計。"

2.4.3 複雜任務拆解

當面對複雜問題時，過於依賴單AGENT 或者將一個PROMPT寫得極其複雜，無異於建立一個幾千行程式碼的方法，大量冗長的指令和緊耦合邏輯使得整個系統變得臃腫和反應遲緩。這種方式不僅增加了理解和除錯的難度，還嚴重影響了系統的響應速度，易於產生瓶頸。

相比之下，Multi-Agent 以其高度的靈活性，透過將任務分解為多個專注的小任務，交由不同智慧代理並行處理，顯著減少整體處理時間。每個代理各司其職，無需頻繁等待其他任務完成，從而提高了系統的整體效率和響應速度。在高負載場景中，Multi-Agent架構也展現出更強的容錯能力和適應性，能動態調整任務和資源分配，確保系統穩定執行。

透過多代理系統的模組化設計，功能擴充套件和維護變得更加簡便，允許系統隨時應對新的任務需求和環境變化。這種設計不僅優化了資源利用，還促成了智慧協作與決策，使得系統在動態環境中始終保持高效、可靠的效能。透過減少對單一複雜PROMPT的依賴，多代理系統提供了一種更高效、易維護的解決方案，真正提升了使用者體驗和系統效率。

2.4.4 並行執行任務

透過採用multi-agent 將一個複雜任務拆解成多個單一職責的Agent後，可以並行執行這些拆解後的Agent，提升任務執行效率和響應速度。在這一架構下，多個智慧代理被設計成處理彼此之間無直接依賴關係的子任務，使得系統能夠同時完成多項任務，充分利用計算資源。

舉個🌰：

一個公司希望從面試記錄中提煉候選人的以下特質：務實、陽光、聰明、自驅。系統可以透過以下方式運作：

1. 務實分析Agent:專注掃描面試對話，識別候選人在回答中使用的具體細節、事實陳述及實際案例，評估其務實性。

2. 陽光分析Agent:評估候選人語言中的積極詞彙、語氣，以及解決問題時所表現出的樂觀態度，判斷其是否陽光向上。

4. 自驅分析Agent:識別候選人在面試中體現出的自我激勵和主動承擔責任的例項，分析其自我驅動的特質。

在前四個代理並行完成其任務後，綜合分析代理使用大語言模型彙總並整合這些資訊，生成對候選人全方位的特質總結和建議。

這種多代理系統的應用，使得分析過程不再需要冗長的線性等待，減少了處理時間，增強了評估的效率和準確性，從而幫助招聘團隊在競爭激烈的市場中迅速做出更明智的選擇。

2.4.5 任務預處理

在最佳化大型語言模型（LLM）執行效率的方案中，提前進行預處理工作的前提是識別並區分出哪些資料處理任務可以在模型執行前獨立完成。這些預處理步驟可以在使用者觸發模型執行之前完成，從而減少即時計算的負擔，提升整體響應速度。下面是一個基於這一前提的描述：

透過提前完成預處理工作，可以有效地最佳化LLM的執行效率。預處理的關鍵在於識別可以脫離即時輸入而提前執行的任務，例如資料清洗、格式轉換和特徵提取等。透過將這些步驟放在LLM執行之前，我們可以在使用者觸發模型執行時僅處理最相關的計算任務，從而大大縮短響應時間。預處理還可以降低系統負載，減少計算資源的即時消耗。

舉個🌰：

原始任務描述：

"在處理使用者生成的線上評論時，我們需要即時進行情感分析。這個過程通常包括從原始文字中解析有用的資訊，移除噪聲，執行文字標準化，然後進行情感判斷。"

最佳化前的預處理步驟：

"預先解析和清理線上評論，移除無關資訊，並標準化文字。確保在使用者請求情感分析時，直接進行情感判斷。"

透過在LLM執行之前完成這些預處理步驟，可以有效減少執行時的計算需求，並提升系統的響應效率，同時確保分析的準確性和一致性。

2.4.6 快取中間結果

透過快取中間結果，可以顯著最佳化大型語言模型（LLM）的執行效率。在處理過程中，某些中間結果是可重複使用的，透過快取技術，我們可以避免不必要的重複計算。這一策略的核心在於識別出哪些結果可以快取，併合理管理快取，以便在多次執行時快速訪問這些資料。快取不僅能夠加速處理速度，還能顯著減少計算資源的消耗，從而提高系統的整體效能。採用快取策略時，需要確保快取的一致性和有效性，以維護輸出結果的準確性。

舉個🌰：

原始任務描述：

"在對海量使用者資料進行個性化推薦時，每次需要重新計算每個使用者的特徵向量、相似度矩陣，並生成推薦列表。這些計算過程在使用者特徵變化不大的情況下是相似的。"

最佳化後的快取策略：

"快取使用者特徵向量和相似度矩陣，減少重複計算。保證推薦列表的即時更新時充分利用快取資料。"

透過快取這些可重複使用的中間結果，我們可以顯著降低每次計算的時間和資源需求，從而提升模型的響應速度和系統的整體效率。

三、測試階段

LLM 評估測試是開發和部署語言模型（LLM）應用程式的重要環節。評估不僅包括確保模型在開發過程中的效能，也涉及到使用後對其效果的持續檢測和最佳化。團隊通常會根據特定的用例、行業標準和開發階段，選用多種評估方法來衡量其 AI 應用程式的表現。AI 平臺通常提供靈活的評分系統，能夠將所有評估結果整合到一箇中心化的位置，便於分析、操作和後續迭代。

3.1 人工評估

人工評測旨在透過專業測試的協作，為使用者提供準確和高效的工作流及工作流PROMPT節點的評估服務。在人工評測過程中，測試人員將對系統輸出的結果進行深入的審查和分析，以確保其質量和可靠性。這一過程不僅考慮到模型給出的資料結果，還結合了人為的主觀判斷和行業專業知識，從而更全面地識別潛在問題和改進空間。透過這種評測方式，使用者可以獲得更具參考價值的反饋，進而推動產品最佳化和效能提升。

3.1.1 人工評估指標

以下為我們部門定義的通用人工評估指標，僅供參考：

1.生成質量（Generation Quality）

語法正確性（Grammaticality）：語言生成是否符合語法規則。
流暢性（Fluency）：語言生成是否自然和流暢。
一致性（Coherence）：內容的前後連貫程度。
資訊完整性（Completeness）：回答或內容是否提供了全面的資訊。
相關性（Relevance）：生成內容是否與給定的上下文或問題相關。

2.事實性（Factual Accuracy）

準確性（Accuracy）：生成內容中所提供事實的正確程度。
可信度（Credibility）：資訊來源和內容的可信度。

3. 創造性（Creativity）

創新性（Novelty）：生成內容的新穎和原創程度。
多樣性（Diversity）：生成內容的多樣性和豐富性。

4. 倫理和安全（Ethics and Safety）

無害性（Harmlessness）：生成內容是否避免導致傷害或負面影響。
公平性（Fairness）：是否存在偏見或不公正的描述。
隱私保護（Privacy）：是否遵守使用者隱私保護原則。

5. 任務完成度（Task Success）

目標達成（Goal Achievement）：在特定任務中語言模型是否達成預期目標。
問題解決（Problem Solving）：對複雜問題的解決能力。

6. 響應速度（Response Time）

指使用者輸入後的系統響應時間。

3.1.2 操作示例

1.測試手動評分

評測平臺提供人工打分的指標，透過這些指標，測試團隊可以對輸出結果進行系統的評分，並詳細描述評分的原因。這一過程不僅能夠提高評測的準確性，還能為研發團隊提供深入的反饋。

2.檢視評分結果

研發團隊可以透過平臺即時檢視測試反饋的具體結果，包括每項指標的得分、測試人員對輸出結果的評價以及相關的改進建議。這種透明的資訊流動使研發人員能夠快速識別問題所在，並進行有針對性的最佳化和調整。

此外，評測平臺還支援歷史資料的對比分析，幫助研發團隊瞭解進展和不足，從而更有效地進行產品改進和升級。整體而言，該評測平臺為提高產品質量和研發效率提供了強有力的支援。

3.2 資料集測試

資料集評測能夠對的提示詞進行嚴格的測試，以確保對其相關資料集的影響得到充分評估。每次提示詞調整後，系統可自動執行資料集評測，分析其對結果準確性和模型表現的影響。此過程涉及對比修改前後的資料輸出，檢測任何模式變化或結果偏差。資料集評測為使用者提供了詳盡的分析報告，幫助他們理解提示詞修改帶來的實際效應，併為後續最佳化提供清晰的指導方向。透過此功能，使用者可以更加自信和精準地進行提示詞的迭代，確保每一次修改都能推動工作流的進一步最佳化。

透過設立資料集並在每次變更PROMPT後對其進行批次測試，可以有效解決評估過程中面臨的多個問題。這一方法具有以下幾個優點：

1.提供基準和標準化評估

建立基線：設立固定的資料集作為基準，使得每次變更後的結果都可以與原始資料集的輸出進行對比，確保評估過程的標準化與一致性。
量化效果：透過定量分析不同版本的輸出指標（如準確性、流暢性等），可以較為清晰地判斷變更是否帶來改進。

2.覆蓋多樣性與複雜性

測試多場景：設定的資料集可以包含多種輸入情況，保證覆蓋不同使用者需求和場景，以全面評估模型的適應性和魯棒性。
檢測異常情況：透過多樣化的資料樣本，能夠在不同情境下發現可能的輸出問題，如幻覺現象等。

3.系統化的多維度評估

多維度打分：使用多種評估指標對LLM輸出進行打分，幫助開發者系統化地理解模型在準確性、流暢性、語義一致性等方面的表現。
使用者體驗模擬：透過基於資料集的評估，可以更接近實際使用者體驗，預測新輸入對使用者滿意度和互動質量的影響。

4.快速迭代與反饋

自動化測試流程：透過自動化指令碼執行批次測試，有助於快速獲取評估結果，降低人工干預的時間成本和誤差。
閉環反饋機制：評估資料可以為後續的PROMPT調整提供科學依據，形成持續最佳化的閉環。

3.2.1 資料集評估的型別

1.基於模型的評估（LLM-as-a-Judge）

基於模型的評估是一項強大的工具，它可以自動評估與 AI 平臺整合的 LLM 應用程式。在這種方法中，模型會根據多個因素，如準確性、是否包含負面或有害內容、以及幻覺的出現等，對 AI 平臺中的特定會話、追蹤或 LLM 呼叫進行評分。

2.確定性結果的評估

將 AGENT 生成的輸出與資料集中的預期輸出進行比對。判斷生成的結果與預期結果在內容上的完全一致，即這兩個結果在字面上出現相同的文字。

3.2.2 操作示例

1.設立資料集：選擇或構建一個包含不同場景和型別的代表性資料集。

2.資料集批次測試：使用模型對設定資料集進行處理，收集生成的輸出。

3.多維度評估：使用標準評估指標對模型輸出進行打分，並進行對比分析。

4.結果分析：總結評估結果，判斷變更效果是否達標，是否需要進一步調整。

四. 上線和迭代

4.1 正式上線

將系統部署到生產環境，開放給使用者使用，確保系統的穩定執行。上線後，持續監控系統執行狀態，確保平穩過渡。

4.2 監控和日誌

設定即時監控和日誌系統，追蹤系統執行狀態，發現潛在問題。

4.2.1 即時預警

實現對異常日誌的即時監控和及時預警。這一整合將捕獲AI應用中的各種異常情況，包括呼叫模型的異常和節點執行異常，以及其他錯誤資訊、效能瓶頸和資源使用情況。一旦監測到異常，系統將立即觸發預警，通知相關技術團隊，以便快速響應和處理。

快速問題定位

1.透過鷹眼TRACE定位日誌

鷹眼trace查詢日誌（圖1）

2.trace快速定位 workflow_id

透過workflow_id分析鏈路具體參考：2.3 鏈路分析

4.2.2 節點平均耗時統計

在multiagent的模式下，透過分析一定週期內每個節點的執行耗時情況，可以針對性地對節點的響應時間（RT）進行最佳化。以下是一些具體的補充和完善建議：

1. 實現即時監控系統，記錄每個節點的執行耗時、處理任務的數量和頻率，以及其在整個系統中的角色。例如，透過使用分散式追蹤工具來跟蹤請求的路徑和時間戳。

2. 透過分析確定哪些節點成為系統瓶頸。例如，使用瓶頸分析圖表或關鍵路徑法找出最耗時的環節。

3. 審視高耗時節點中的實現方案，看看是否存在最佳化空間。可能涉及更改演算法本身、使用更高效的資料結構，或減少不必要的計算步驟。

透過以上措施，可以有效最佳化每個節點的響應時間，從而提升整個multiagent節點的效率和效能。

4.3 使用者反饋收集

透過問卷、評論等方式收集使用者反饋，瞭解使用者的使用體驗和需求。建立使用者反饋渠道，如郵件、社交媒體和使用者社群，鼓勵使用者提供反饋和意見。

4.3.1 顯示反饋

顯式反饋是使用者明確表達的評價，通常包括：

點贊/點踩：這種雙向選擇機制簡單直觀，可以快速反映出使用者對模型輸出的滿意度。
1-5星評分：這種分級評分系統提供了更細膩的反饋，讓使用者能夠表達對內容的具體滿意度。分析這些評分可以幫助識別高質量內容與需要改進的領域。
評論與建議：允許使用者留下自由文字的反饋，不僅可以獲得更具體的使用者意見，還能理解使用者如何使用生成的內容以及他們的期望。

收集顯式反饋

元件設計：前端將設計直觀易用的使用者介面，允許使用者方便地對AGENT的表現進行點贊、點踩或打分（1-5星）。這些元件將嵌入自然的使用者互動流程中，減少使用者反饋的阻礙。
評論系統：引入評論框，以便使用者能夠詳細描述他們的體驗和建議，產生的自由文字反饋將對後續的深度分析有重要價值。

4.3.2 隱示反饋

隱式反饋則是透過使用者的行為進行評估，常見的指標包括：

停留時間：使用者在特定生成內容上的停留時間可以反映內容的吸引力。如果使用者在某個結果上停留時間較長，通常意味著該內容更符合使用者需求。
點選率：觀察使用者點選不同生成輸出的頻率，可以幫助識別哪些內容更具吸引力，並進一步分析點選後的行為，例如是否進行了進一步的互動。
接受/拒絕模型生成的輸出：記錄使用者是否接受AI生成的內容或選擇其它選項可以作為一種反饋。若使用者頻繁拒絕生成的結果，則提示該模型在某些方面存在缺陷。
人機協作情況：監測使用者與AI的互動頻率，如何使用AI生成內容，以及在什麼情況下選擇介入或修改生成的輸出，可以提供有關有效協作的見解。

收集隱式反饋

使用者行為監測：前端元件將整合對使用者行為的監測功能，包括停留時間、點選率、以及對生成輸出的接受與拒絕情況。這些資料將以匿名方式收集，確保使用者隱私。
互動資料：分析使用者在使用AGENT時的互動方式，包括他們如何修改、使用或離開生成的內容。這可以幫助我們瞭解使用者的真實需求和習慣。

4.3.3 定期評估與最佳化

計劃定期審查收集到的反饋資料，為產品迭代和改進奠定基礎。透過持續的使用者反饋迴圈，確保AGENT模型能夠不斷提升其服務質量。

分析顯式反饋

統計分析：計算平均評分、點贊/點踩比例等指標來了解整體使用者滿意度。
情感分析：對評論進行情感分析，提取使用者反饋中的積極和消極情緒。
關鍵詞提取：使用自然語言處理工具識別評論中的高頻關鍵詞，以確定主要關注點。

分析隱式反饋

行為路徑分析：繪製使用者在使用過程中可能的行為路徑，以找出常見的使用模式和問題。
接受率統計：計算不同內容選項的接受與拒絕率，發現使用者偏好的生成內容特徵。
決策樹模型：建立使用者行為模型，以識別何種特定的內容組合可能導致更高的使用者滿意度。

4.5 線上質量檢測

在上線後的AGENT 中，質量跟蹤是確保其輸出符合使用者期望的關鍵環節不僅是管理和評估AGENT 輸出的重要工具，也是實現使用者滿意、增強品牌價值和促進持續發展的重要策略。

1.彌補反饋不足

許多使用者在使用產品時並不會主動提供反饋，這可能導致開發團隊對模型輸出的真實效果瞭解不夠。透過質量跟蹤，可以主動監測和評估輸出結果，以識別潛在問題並進行必要調整。

2.理解使用者需求

使用者的期望往往是主觀且多樣的。質量跟蹤透過定量和定性的分析，幫助開發者更好地理解使用者需求和行為，從而實現更精準的最佳化。

3.增強產品可信度

定期監控輸出質量能夠降低錯誤和不一致的發生率，從而提升產品的可靠性。這種主動的質量管理能夠增強使用者信任，促進品牌形象的提升。

4.支援持續改進

質量跟蹤為產品迭代提供了科學依據，團隊可以基於資料分析進行系統性的改進，確保輸出質量的穩步提升，進而推動企業的發展與創新。

4.5.1 人工抽樣檢查

在線上執行的大語言模型（LLM）的過程中，我們透過人工定期抽樣分析的方法來評估其執行結果。這一過程包括從模型的輸出中隨機抽取樣本，並由專家團隊進行詳細審查和評估，以識別模型在生成內容中的不足之處。

這些不足可能表現為理解偏差、上下文不連貫或創意欠佳等問題。透過這種人工審查機制，我們能夠收集到具體且有針對性的反饋，以此為基礎，我們對模型的提示詞（PROMPT）進行持續最佳化和改進。這種迭代最佳化過程不僅提高了模型的整體表現和輸出質量，還增強了系統對複雜任務的處理能力，最終為使用者提供更為精確和貼心的互動體驗。

具體參考 3.1 人工評估部分內容

4.5.2 LLM 自動檢測

透過實現即時對線上AI工程執行結果的自動化取樣、分析及評估，並及時提供預警，保障系統的穩定性和可靠性。

1. 評估標準

準確性：評估模型輸出與預期結果的匹配程度。準確性高的輸出不僅符合使用者預期，還在邏輯結構和事實陳述上保持高度一致。這樣的評估可識別和糾正潛在的偏差或誤分類問題。
有害內容檢測：針對輸出內容中的負面或有害資訊進行自動檢測，包括但不限於歧視性言論、誤導性資訊或仇恨言辭。透過設定明確的閾值，系統能夠有效遮蔽不當內容，從而維持安全和健康的使用者體驗。
幻覺檢測：識別模型輸出中的不準確或虛假資訊。透過分析文字的一致性與邏輯性，藉助上下文和歷史資料對比，識別並標記潛在的誤導性資訊，以減少對使用者的誤導和資訊偏差。

2. 評估流程

資料輸入：全面記錄AI平臺的執行任務鏈路，按需即時或定時取樣。取樣方案可以基於不同的維度，如員工、時間段和使用案例等。
多因素評分體系：基於預定義標準，模型將對每個維度進行詳盡評分，包括準確性、有害內容及幻覺因素。採用先進的機器學習演算法，為各項指標賦予適當權重，以計算出綜合得分，從而形成全域性評價。
動態報告生成：評估完成後，系統會自動生成詳盡的分析報告。報告中包括每次互動的詳細得分、問題彙總和趨勢分析。此功能可幫助開發者快速識別問題所在，並進行及時調整和最佳化。

3. 低分預警機制

系統持續監控並評估各項得分，當檢測到任何指標低於預設的安全閾值時，將自動在釘釘群中發出即時預警。此機制旨在促使相關團隊迅速響應和處理潛在問題，確保AI系統的穩定、高效執行。

4.6 PROMPT最佳化

在AI工程中，最佳化模型輸出質量是持續提升使用者體驗的關鍵步驟。透過上述文章中表達的綜合運用使用者反饋、人工取樣分析以及AI即時取樣分析，我們能深入瞭解當前系統的表現，並找到改進的切入點。進行多輪提示詞最佳化和實驗，逐步提升生成效果，不斷試驗和調整，直到達到預期效果。

但是在處理PROMPT最佳化時，由於其黑盒特性，僅僅幾個詞的變動可能會導致輸出結果出現顯著差異，甚至完全不符合預期，因此我們必須格外謹慎。

4.6.1 PROMPT最佳化檢測的難點

在變更LLM 或PROMPT後，輸出的結果可能會顯著不同。對於開發者而言，這些變更帶來的影響並不直觀且難以評估。具體來說，開發者可能面臨以下挑戰：

1.難以量化輸出效果

即使在修改PROMPT後，輸出的質量變化（如準確性、流暢性等）往往難以用簡單的指標來量化，從而使得評估過程缺乏客觀依據。

2.不確定的效能收益

在修改了提示詞後，開發者可能很難明確定義變更所帶來的收益或改進。這可能包括輸出的改善程度、模型處理效率的提升等。

3.潛在的模型幻覺

更改PROMPT可能導致新的幻覺現象，即模型生成不準確或虛假的資訊，這給開發者帶來了更大的評估挑戰。

4.反饋延遲

由於使用者反饋通常是來自實際應用中的逐步積累，開發者在短期內難以看到變更的全部效果，導致評估過程變得複雜和緩慢。

根據使用者反饋和日誌資料，迭代最佳化提示詞，並修復系統中的問題，確保系統的持續改進。持續進行A/B測試和使用者實驗，收集更多資料來最佳化提示詞和系統功能。

4.6.2 使用資料集驗證

為了更好地追蹤PROMPT調整後的質量變化，我們採用資料集檢測的方法。具體而言，這包括構建一個多樣化且具有代表性的資料集，用於在每次PROMPT修改後進行全面測試。這個資料集不僅涵蓋了常見的使用者查詢，還需要涵蓋一些極端和邊緣情況，以確保在各種場景下，模型都能保持穩定的表現。

在資料集檢測過程中，我們將評估以下幾個方面：

1. 準確性：衡量AI在理解和生成符合使用者意圖的輸出方面的準確性。

2. 一致性：評估AI在相似情況下給出一致結果的能力。

3. 魯棒性：檢測在遇到非典型輸入時，AI仍能提供合理輸出的能力。

具體參考 3.2 資料集測試

此外，我們還會引入自動化測試管道，即時監控每次PROMPT調整後的輸出情況，自動記錄表現不佳的案例，以便進行更深入的分析和調優。結合使用者的直接反饋和人工分析結果，我們可以更快速地識別哪些調整帶來了正向改善，哪些可能導致了意想不到的問題。

透過這種系統化和可重複的檢測方法，我們可以精確追蹤PROMPT變更對輸出質量的影響，確保每一次最佳化都能穩定地提升AI系統的整體表現。最終，隨著不斷的迭代和改進，我們的AI將能夠在更廣泛的場景下滿足使用者需求，同時保持高質量和可靠性。

4.6.3 版本管理

管理不同版本的提示詞和系統程式碼，確保可追溯性和回滾能力，提高系統的可靠性。使用版本控制系統（如Git）進行程式碼管理，確保每個版本的變化記錄清晰可追溯。

基於AI Ops 開發有助於提高AI應用的管理和運營效率。透過AI Ops，可以實現對AI應用的版本管理、回溯和回滾。

4.6.4 AB TEST

透過AB測試分析最佳化後的AI工程或Prompt與原先版本之間的表現差異是一種行之有效的方法。以下步驟可以幫助您實施這一過程：

1. 定義測試指標：

首先明確測試的主要指標，如模型的準確性、使用者滿意度、響應時間、轉化率等。這些指標將用於衡量新舊版本的表現差異。

2. 設定測試組和對照組：

將使用者或請求隨機分為兩個群組。A組作為對照組，使用原先的AI工程或Prompt；B組作為實驗組，使用最佳化後的版本。
確保樣本的隨機化和足夠大的樣本量，以便結果具有統計顯著性。

3. 資料收集與監測：

收集每組的相關資料，根據預定義的指標收集使用者互動資料、AI輸出結果等。
使用日誌系統和分析工具進行即時監測和資料收集。

4. 統計分析：

使用統計學方法分析兩組之間的差異。常用的方法包括t檢驗、方差分析、以及非引數檢驗等，以度量各個指標的變化情況。

5. 結果解讀與決策：

綜合分析結果，檢視最佳化後的AI工程或Prompt在各個指標上的表現是提升還是下降。
如果新版本的某些方面表現更優，可以考慮進行全量推廣；如果表現沒有顯著改善或產生負面影響，則需要進一步分析原因，進行迭代和最佳化。

6. 使用者反饋與進一步最佳化：

除了定量資料的分析，還要關注定性反饋。使用者反饋有助於發現隱藏的問題和改進機會。
根據測試結果和使用者反饋進行最佳化，繼續改進AI工程的各個方面。

透過這樣系統化的AB測試流程，可以細緻地比較和分析原先與最佳化後的AI系統表現，確保改進措施能帶來實際價值提升。

結語

從0到1開發一個 AI 工程並不是一個簡單的過程，涉及多個環節和細節的把控。透過系統化和規範化的流程，我們可以有效地管理和推動專案進展。希望本篇文章能為你的提示詞專案開發提供參考和指導，助你順利實現智慧化應用。無論是在哪個階段，保持持續最佳化和改進的態度將幫助你不斷提升產品的質量和使用者體驗。

參考文件：

1.Large Language Model based Multi-Agents: A Survey of Progress and Challenges：

https://arxiv.org/pdf/2402.01680

2.掌握Prompt寫作技巧：寫出完美Prompt的秘籍

使用Elasticsearch的向量檢索能力進行個性化推薦

在電商領域，個性化推薦系統是提高使用者滿意度與銷售轉化率的關鍵工具。本文將探討如何利用Elasticsearch的向量檢索能力，實現商品個性化推薦，助力電商平臺提升使用者體驗和業務增長。

點選閱讀原文檢視詳情。

2.1.1 模型大小

2.1.2 綜合考慮的因素

2.1.3 綜合策略

2.2.1 初始提示詞設計

2.2.2 提示詞實驗

2.3.1 耗時分析

2.3.2 Token 消耗

2.3.3 輸入輸出結果檢測

2.3.4 異常檢測與診斷

2.3.5 鏈路分析最佳化

2.4.1 使用適當規模的模型

2.4.2 精簡PROMPT

2.4.3 複雜任務拆解

2.4.4 並行執行任務

2.4.5 任務預處理

2.4.6 快取中間結果

3.1.1 人工評估指標

3.1.2 操作示例

3.2.1 資料集評估的型別

3.2.2 操作示例

4.2.1 即時預警

4.2.2 節點平均耗時統計

4.3.1 顯示反饋

4.3.2 隱示反饋

4.3.3 定期評估與最佳化

4.5.1 人工抽樣檢查

4.5.2 LLM 自動檢測

4.6.1 PROMPT最佳化檢測的難點

4.6.2 使用資料集驗證

4.6.3 版本管理

4.6.4 AB TEST

參考文件：

相關文章