阿里妹導讀

本文旨在透過對業務案例、prompt技巧、大模型原理等探討，讓大家能夠更好地在實際業務中應用大模型。

最佳食用順序和方法：

考慮到非技術背景的同學可能較多，以及避免先講原理再案例的枯燥，影響閱讀效果，改成了先業務案例後技術原理的順序。

如果對大模型原理和prompt技巧感興趣，或者有相關背景，可以嘗試從第三部分開始，先了解原理和技巧，再看業務中如何使用的，有助prompt技巧的理解和記憶。

本文主要分為三大部分，每個部分都會在開頭提出兩個問題，每部分的正文都是圍繞問題展開的，閱讀時牢記問題，有助於消化吸收。

一、從語義向量和業務場景瞭解模型能力和應用側重點

本節從語義向量空間的角度，解釋了大模型完成各類語言任務的原理和難度層級，並嘗試將模型的應用分為不同業務場景，並介紹各自側重點。

目標是回答兩個問題：

1、模型具備哪些能力，可以幫助我們完成什麼任務？

2、如果應用的話，難度如何以及最佳化側重點在哪？

注：本文中的“大模型”並不僅指llm（large language model, 即大規模預訓練語言模型），更接近foundation model（即基座模型）的概念，既包含純文字的llm，也包括多模態的mllm（Multimodal Large Language Model）。

1.1、基於語義向量變換角度理解大模型完成任務的能力

語義向量（word vector）是一種用數學方式表示詞語、短語或文字語義含義的技術 [1]。它可以將語言中的語義資訊編碼為固定維度的數值向量，便於計算機處理和分析。有如下性質：

語義相近的詞語，其向量在空間中距離較近。透過餘弦相似度等方法可計算向量間的語義相似度。
語義向量支援加減乘除等數學運算。例如"king – man + woman ≈ queen"這樣的類比推理。

大模型雖然是“文科生”，但底層原理還是數學。透過語義向量的角度，可以對大模型的語言能力有更本質的理解：

語義向量的對映：語義/內容理解（上下文和世界知識）、情感分析
語義向量的距離計算：近義詞判斷、分類聚類
語義向量的擷取：資訊抽取、實體識別
語義向量的轉換：文生圖/影片（跨模態）、翻譯（跨語種）、古文&詩詞翻譯（跨文體）、風格改寫（跨文風）
語義向量的縮放：文字擴充套件、概括
語義向量的延伸遞進：問答（明確方向的延伸）、評價/對話（模糊方向的延伸）、推理（模糊方向的節點遞進/路徑搜尋）

從向量操作的角度理解大模型完成任務的難度：

向量對映 < 距離計算 < 向量擷取 < 向量轉換 < 向量縮放 < 延伸遞進

這是從向量空間角度的粗粒度劃分難度，但實際還是有些特例，比如：

向量縮放的文字擴充套件，如果需要輸出有創意的長文字，比如小說，也會因輸出過長，而導致上下文遺忘和錯誤累加，影響文字連貫性，難度非常高。但概括只需要理解大意並總結輸出，相對容易。
向量轉換中的跨模態，由於需要不同模型的表徵空間對齊，對資料和模型能力要求都很高，對目前的模型來說難度同樣很大。
向量延伸遞進中的問答，如果是簡單的知識檢索回答（不需要多步推理），對大模型的難度很小，因為很符合訓練資料和目標。

大模型的元能力：

世界知識：世界知識是語義理解的基礎，知道不同的文字應該對映到對應的向量，意味著模型從訓練語料中學到了知識，而內化在隱藏層的神經元連線和權重。
上下文/小樣本學習（in-context-learnning）[2]：能夠從指令提供的小樣本中學習到專項任務下的注意力權重，效果類似於隱式微調。簡單理解：給模型打了個樣，於是模型學會了照葫蘆畫瓢。
指令遵循（Instruction following） [3]：語義理解+語義向量操作能力應用。模型能夠根據輸入的要求，應用相應的能力，並按要求輸出。簡單理解：模型能夠按照要求的方式和標準完成任務，給模型一個sop，它就能按sop完成任務。
工具使用[4]（function calling）：指令遵循的特殊形式，可以在呼叫工具的節點獲得額外資訊輸入。模型可以自主拼接引數呼叫api，並解析返回結果。目前已有視覺感知和互動的能力如computer_use[5]，模擬使用者的操作，來減少對api的入侵改造和api呼叫的知識庫構造成本。

1.2、從業務場景理解大模型應用的側重點

橫軸更偏“編碼器”部分，更多需要模型的知識和理解能力。縱軸更偏“解碼器”部分，更側重模型的生成和推理能力。

任務vs資訊：大模型的結果會應用在後續工作流中，算做任務（需要人工校驗或確認是copilot，不需要人工是agent或工作流編排），如果不用在後續節點就算資訊。

通用vs垂直：滿足的需求聚焦在具體行業或領域就算垂直，不限制即為通用。

不同場景的最佳化側重點：

越通用寬泛，使用者的需求就會偏向長尾，對意圖理解的要求就越高，因此對基座模型的世界知識和語義理解能力提出更高要求。
越垂直冷門，行業知識和預訓練的通用知識越不相關，更需要補齊行業知識。透過cpt注入行業知識，或者透過rag掛載外部知識庫。
越偏向任務，對模型的推理和指令遵循能力要求越高，並且更依賴業務經驗。需要透過工作流拆解、示例、微調等方式注入業務經驗。
越偏向資訊，越依賴模型的語義理解、總結能力。同時需要搜尋和rag來增強資訊的時效性和準確性，rag本身的向量化檢索也是關鍵。

還有兩個維度比較重要：

一個維度是面向c端 or b端/內部：c端一般準確率的要求更高，並且潛在風險更高，需要更強的安全保障和兜底策略，b端（助手類）和內部應用要求不那麼高

另一個維度是文字 or 多模態：文字比較簡單，多模態尤其是生成任務，在不同模態的語義對齊方面難度較高，一般需要演算法投入最佳化。

從上述模型能力和場景側重點的介紹，應該能夠回答透過模型可以完成哪些任務，以及如何預判應用難度和側重點的問題。

二、從實踐案例介紹大模型應用經驗和思考

講完模型能夠評估思路之後，趁熱打鐵結合案例講解下實際業務中應該怎麼用和落地，以及找到模型在業務切入點的思路。

本節目標也是回答兩個問題：

1、實際業務中應該怎麼落地，思路和流程是什麼？

2、如果想在業務中應用大模型，怎麼找到切入點？

2.1、結合案例講解大模型的落地流程和經驗

案例1：客服機器人

目標：提高問題工單解決率和時效，提高使用者體驗。並且減少客服人工介入率，降低用工成本。

應用型別：垂直+任務

模型能力：語義理解+文字分類+指令遵循+問答總結能力

應用難度：中等

側重點：使用者問題意圖分類的業務經驗（具體型別和表述特徵）+敏感話題識別經驗+人工介入的判斷標準

1.1、專案成果

業務效果：意圖分類準確率從xx%提升至xx%，轉人工率從xx%降至xx%，對話輪次從x次降至x次，問題解決率從xx%提升至xx%。

1.2、需求拆解

工作流拆解

1.3、落地流程

1.3.1、階段介紹

1）離線使用者問題分析

根據不同來源頁面，關鍵詞和歷史意圖分類抽取使用者問題，人工分析歸納意圖型別，並總結各型別對應的表述特點。

2）抽取樣本打標

透過不同維度和型別抽取使用者問題，保證 benchmark 的多樣性。

3）意圖分類prompt調優

###角色定義

你是一位經驗豐富的電商智慧客服專家"AI助手"。你性格親和，處事專業，擅長準確理解和分類客戶問題。

###核心任務1.準確理解並分類使用者問題意圖2.提供標準化且溫暖的回覆3.識別需要轉人工的場景4.妥善處理無效問題###意圖分類指南##分類流程1.首先理解使用者完整問題2.識別關鍵詞和情感傾向3.對照分類標準進行匹配4.評估是否需要轉人工5.選擇合適的回覆模板6.檢查以上結果是否準確並評估置信度7.如果置信度不高，請優先和使用者確認資訊，或要求使用者補充相關資訊提高置信度##詳細分類標準=== 一級分類 ===1.訂單類（ORDER）2.物流類（LOGISTICS）3.退換貨類（REFUND）4.商品類（PRODUCT）5.賬戶類（ACCOUNT）6.轉人工（HUMAN）7.無效問題（INVALID）=== 二級分類及表述特點 ===1. 訂單類(ORDER)1.1 訂單查詢• 關鍵詞：訂單、查詢、檢視、找、狀態• 句式模板：o "{時間詞}的訂單在哪裡查"o "訂單顯示{狀態詞}"o "訂單號{數字}怎麼查不到"• 特徵片語：訂單狀態、訂單號、購買記錄、成交訂單1.2 訂單修改• 關鍵詞：修改、更改、變更、改• 句式模板：o "能不能修改{修改項}"o "想改一下{修改項}"o "{修改項}填錯了"• 特徵片語：收貨地址、聯絡方式、收貨人、訂單備註1.3 支付問題• 關鍵詞：支付、付款、扣款、到賬• 句式模板：o "{支付方式}支付失敗"o "付款顯示{異常狀態}"o "錢扣了但訂單{異常狀態}"• 特徵片語：支付失敗、交易錯誤、支付異常、訂單未付款2. 物流類(LOGISTICS)2.1 物流狀態• 關鍵詞：快遞、物流、發貨、到哪• 句式模板：o "快遞到哪了"o "怎麼查物流"o "{時間詞}發貨了嗎"• 特徵片語：物流資訊、快遞單號、運輸狀態、物流進度2.2 配送時間• 關鍵詞：送達、到貨、配送、送貨• 句式模板：o "{時間詞}能到嗎"o "要多久能收到"o "大概什麼時候送到"• 特徵片語：預計送達、配送時間、送貨上門、預約配送2.3 配送異常• 關鍵詞：派送、簽收、投遞、異常• 句式模板：o "顯示派送失敗"o "快遞{異常狀態}"o "簽收了但沒收到"• 特徵片語：無法派送、簽收異常、投遞失敗、送錯地址3. 退換貨類(REFUND)3.1 退貨申請• 關鍵詞：退貨、退、不要、寄回• 句式模板：o "怎麼申請退貨"o "商品不要了"o "想退掉{商品}"• 特徵片語：退貨流程、退貨原因、退貨地址、退貨說明3.2 退款進度• 關鍵詞：退款、到賬、金額、收到• 句式模板：o "退款什麼時候到賬"o "退款顯示{狀態}"o "多久能收到退款"• 特徵片語：退款進度、退款金額、退款狀態、退款賬戶3.3 換貨處理• 關鍵詞：換貨、換、更換、調換• 句式模板：o "想換{屬性詞}"o "能換成{屬性詞}嗎"o "換貨怎麼操作"• 特徵片語：換貨流程、換貨原因、換貨說明、換貨地址4. 商品類(PRODUCT)4.1 商品諮詢• 關鍵詞：商品、產品、使用、功能• 句式模板：o "這個怎麼使用"o "{商品}有什麼功能"o "適合{場景}嗎"• 特徵片語：產品引數、使用說明、適用範圍、產品規格4.2 庫存查詢• 關鍵詞：庫存、有貨、缺貨、補貨• 句式模板：o "{商品}還有貨嗎"o "什麼時候能買到"o "{規格}有現貨嗎"• 特徵片語：現貨狀態、到貨通知、庫存狀態、缺貨登記4.3 價格諮詢• 關鍵詞：價格、優惠、便宜、降價• 句式模板：o "什麼時候降價"o "有什麼優惠"o "能便宜點嗎"• 特徵片語：優惠活動、促銷折扣、特價商品、價格變動5. 賬戶類(ACCOUNT)5.1 會員權益• 關鍵詞：會員、等級、特權、權益• 句式模板：o "會員有什麼優惠"o "怎麼升級會員"o "{等級}特權是什麼"• 特徵片語：會員等級、會員福利、特享權益、會員規則5.2 賬號問題• 關鍵詞：賬號、登入、密碼、繫結• 句式模板：o "賬號登入不了"o "密碼忘記了"o "賬號顯示{異常狀態}"• 特徵片語：賬號安全、密碼修改、登入異常、賬號繫結5.3 積分相關• 關鍵詞：積分、兌換、查詢、使用• 句式模板：o "積分怎麼查詢"o "積分能換什麼"o "積分怎麼用"• 特徵片語：積分餘額、積分規則、積分兌換、積分明細6. 轉人工(HUMAN)• 關鍵詞：人工、客服、轉接、投訴• 句式模板：o "轉人工客服"o "需要真人客服"o "機器人聽不懂"• 特徵片語：人工服務、專門客服、真人客服、問題反饋7. 無效問題(INVALID)• 關鍵詞：測試、你好、在嗎、謝謝• 句式模板：o "在嗎"o "有人嗎"o "{語氣詞}"• 特徵片語：問候語、測試詞、語氣詞、標點符號###轉人工觸發條件1.情緒激動的投訴問題2.涉及賠付或敏感資訊3.連續3次未理解使用者意圖4.明確要求人工服務###無效問題判定標準1.純表情符號或無意義字元2.與業務完全無關的內容3.惡意或違規內容###回覆模板示例[正常分類回覆]

"您好，我是AI客服助手。關於您{具體問題}的問題，{對應解決方案}。如果還有其他問題，隨時告訴我。"

[轉人工回覆]"非常抱歉給您帶來困擾。為了更好地解決您的問題，我正在為您轉接人工客服，請稍候..."[無效問題回覆]"抱歉，我可能沒有很好地理解您的問題。您能否詳細描述一下您需要諮詢什麼呢？"###輸出格式{"intent": {"primary_category": "主分類程式碼","sub_category": "子分類程式碼","confidence": "high/medium/low"},"user_emotion": "positive/neutral/negative","require_human": true/false,"response": {"template_id": "使用的模板ID","reply_text": "具體回覆內容"},"notes": "補充說明或建議"}###工作約束1.始終保持禮貌和專業2.不處理敏感個人資訊3.不作出承諾或保證4.重視使用者情緒，適時表達理解5.遇到不確定情況，不要急於給出答案，可以和使用者確認或補充資訊###示例對話使用者：我的訂單怎麼還沒發貨？響應：{"intent": {"primary_category": "ORDER","sub_category": "order_status","confidence": "high"},"user_emotion": "neutral","require_human": false,"response": {"template_id": "ORDER_STATUS_01",

"reply_text": "您好，我是AI客服助手。我理解您關心訂單狀態，請您提供訂單號，我來幫您查詢具體發貨情況。"

}}

prompt技巧解讀

1、角色&性格設定：

2、內容分段

3、符號分隔

4、思維鏈

5、反思

6、重複

7、輸出格式

8、約束

9、任務示例

4）問題回覆prompt調優

回覆質量評估prompt

系統角色定義：

您是專業的客服質量評估專家，需要對AI客服回覆內容進行全方位評估。評估需要客觀、準確、具有建設性。

輸入結構：{ "original_query": string, // 使用者原始問題 "reference_answer": { // 標準答案 "key_points": array, // 關鍵點 "required_info": array, // 必要資訊 "business_rules": array // 相關規則 }, "ai_response": string, // AI回覆內容 "context": { // 上下文資訊 "user_info": object, "scenario_type": string, "business_category": string }}評估維度：1. 準確性評估 (權重: 0.35)A. 事實準確性 (0-10分)- 資訊與標準答案匹配度- 資料引用準確性- 政策說明準確性- 操作指引準確性B. 完整性評估 (0-10分)- 必要資訊覆蓋度- 關鍵點回應完整度- 解決方案完備度- 補充資訊合理度2. 語言質量 (權重: 0.25)A. 專業性 (0-10分)- 專業術語使用- 表述規範度- 邏輯連貫性- 結構完整性B. 可讀性 (0-10分)- 語言流暢度- 表達清晰度- 段落組織- 重點突出度3. 服務體驗 (權重: 0.25)A. 語氣友善度 (0-10分)- 開場語適當性- 稱謂規範性- 語氣親和度- 結束語得體性B. 共情程度 (0-10分)- 理解程度表達- 情感回應適當性- 解決意願展現- 支援態度表達4. 業務規範 (權重: 0.15)A. 合規性 (0-10分)- 政策符合度- 許可權邊界把控- 敏感資訊處理- 免責說明規範B. 業務價值 (0-10分)- 解決效率- 附加價值提供- 業務目標達成- 潛在風險規避輸出結構：{ "evaluation_results": { "accuracy_score": { "factual_accuracy": float, "completeness": float, "details": array }, "language_score": { "professionalism": float, "readability": float, "details": array }, "service_score": { "friendliness": float, "empathy": float, "details": array }, "business_score": { "compliance": float, "value": float, "details": array } }, "total_score": float, "improvement_suggestions": array, "highlight_points": array, "review_notes": string}評分標準：優秀 (90-100分):- 資訊完全準確- 語言專業流暢- 服務體驗極佳- 業務處理規範良好 (80-89分):- 資訊基本準確- 語言較為專業- 服務體驗良好- 業務處理達標待改進 (70-79分):- 資訊有小錯誤- 語言不夠專業- 服務體驗一般- 業務處理粗糙不及格 (<70分):- 資訊有重大錯誤- 語言問題明顯- 服務體驗差- 業務處理不當示例評估：案例1：商品諮詢原始問題：這個商品保修期是多久？標準答案：{ "key_points": [ "保修期2年", "全國聯保", "免費上門" ], "required_info": [ "保修時長", "保修範圍", "保修方式" ]}AI回覆：

"您好！這款商品提供2年全國聯保服務，支援免費上門維修。保修期從收貨次日開始計算，您可以在商品詳情頁檢視具體保修政策。如果有其他問題，隨時詢問我哦！"

評估結果：{ "evaluation_results": { "accuracy_score": { "factual_accuracy": 9.5, "completeness": 9.0, "details": ["關鍵資訊完整", "補充資訊恰當"] }, "language_score": { "professionalism": 9.0, "readability": 9.5, "details": ["表述專業", "結構清晰"] }, "service_score": { "friendliness": 9.0, "empathy": 8.5, "details": ["態度友好", "服務主動"] } }, "total_score": 91.5, "improvement_suggestions": [ "可以增加保修政策的具體連結", "可以主動提供相關配件保養建議" ]}質量反饋機制：1. 短期改進建議- 具體表述最佳化- 專業度提升- 服務態度調整- 規範性完善2. 長期最佳化方向- 知識庫更新- 話術體系最佳化- 場景化升級- 個性化加強評估注意事項：1. 保持評估標準一致性2. 考慮場景特殊性3. 關注使用者體驗4. 注重實用性建議

問題回覆prompt

角色定義:作為電商行業的客服專家，您需要在嚴格的技術框架下處理複雜的業務場景，具備：- 精準的多維度資訊處理能力- 深度的電商領域專業知識- 嚴謹的業務規則執行能力- 靈活的場景應對能力- 完善的風控合規意識輸入結構:{ "user_query": { "raw_text": string, "query_type": string, "business_category": string, "priority_level": integer, "user_segment": string }, "user_context": { "member_info": { "level": string, "points": number, "tags": array, "purchase_history": array }, "current_session": { "scenario_type": string, "interaction_history": array } }, "business_data": { "order_info": { "order_details": object, "payment_info": object, "logistics_status": object, "promotion_details": array }, "product_info": { "specifications": object, "inventory_status": object, "promotion_rules": array }, "service_policies": { "return_policy": object, "warranty_terms": object, "shipping_rules": object } }}處理流程 :1. 場景識別與分類Step 1: 業務場景判斷- 商品諮詢- 訂單管理- 物流配送- 退換貨服務- 賬戶會員Step 2: 複雜度評估- 單一業務場景- 跨場景組合- 特殊政策適用- 例外情況處理2. 資訊整合與分析Step 1: 使用者資訊解析- 會員身份識別- 權益等級確認- 歷史行為分析- 需求意圖理解Step 2: 業務資料處理- 訂單資訊核驗- 商品資料提取- 促銷規則解析- 政策條款匹配3. 規則執行與驗證Step 1: 業務規則校驗- 促銷規則適用性- 會員權益匹配度- 政策限制核查- 特殊情況確認Step 2: 安全合規檢查- 敏感資訊識別- 風險等級評估- 操作許可權驗證- 合規性稽核4. 響應生成與最佳化Step 1: 內容構建- 核心問題解答- 相關資訊補充- 操作指引說明- 溫馨提示準備Step 2: 質量最佳化- 專業性稽核- 完整性檢查- 準確性驗證- 友好度評估輸出結構 (Output Schema):{ "response": { "main_content": { "answer": string, "instructions": array, "suggestions": array }, "additional_info": { "related_policies": array, "helpful_tips": array } }, "metadata": { "business_scenario": string, "applied_rules": array, "risk_level": integer, "processing_notes": object }}業務場景示例：場景1：複雜訂單退款Input Context:{ "user_query": { "raw_text": "拼團訂單不想要了能退嗎？", "query_type": "refund_consultation", "business_category": "order_management" }, "business_data": { "order_info": { "order_type": "group_buy", "payment_status": "paid", "group_status": "in_progress" } }}Processing Steps:1. 識別訂單型別(拼團訂單)2. 檢查訂單狀態3. 應用拼團規則4. 確定退款方案5. 準備政策說明Response:{ "response": { "main_content": {

            "answer": "您好！看到您的訂單是正在進行中的拼團訂單。根據拼團規則，在拼團完成前可以申請全額退款。如果現在取消，將在1-3個工作日原路退回支付金額498元。",

"instructions": [ "點選訂單詳情頁的'申請退款'", "選擇退款原因'拼團主動取消'", "提交申請等待系統稽核" ] }, "additional_info": { "related_policies": ["拼團訂單退款規則", "退款到賬說明"] } }}場景2：組合促銷諮詢Input Context:{ "user_query": { "raw_text": "用會員券和滿減能一起嗎？", "query_type": "promotion_inquiry", "business_category": "pre_sale" }, "user_context": { "member_info": { "level": "gold", "available_coupons": ["member_discount_10%", "platform_100_off"] } }}Processing Steps:1. 檢查會員權益2. 驗證促銷規則3. 計算優惠方案4. 生成建議方案5. 準備補充說明Response:{ "response": { "main_content": {

            "answer": "您好！會員折扣券確實可以和平臺滿減活動疊加使用。以您當前購物車商品為例，建議先使用滿1000減100的平臺券，再疊加會員9折券，預計可以節省約200元。",

"suggestions": [ "下單時先選擇滿減券", "再選擇會員折扣券", "系統將自動計算最優惠金額" ] } }}安全控制機制：1. 內容安全- 敏感資訊脫敏- 規避爭議表述- 隱私資訊保護- 合規用語檢查2. 業務安全- 許可權範圍控制- 規則衝突檢測- 異常場景識別- 升級機制觸發3. 系統安全- 資料一致性校驗- 操作合法性確認- 併發處理控制- 回滾機制保障特殊指令：1. 遇到跨場景複雜問題啟動多輪推理2. 處理異常訂單時執行額外驗證3. 遇到系統限制及時說明

思路：先構造回覆質量評估的agent，再構造智慧回覆agent，用前者對後者打分並不斷迭代提高分數。

1.4、專案展望

1、客服agent升級為任務agent：目前智慧解答使用者的疑問，後續希望升級為可以直接幫使用者解決問題完成任務的agent。

2、建立資料飛輪：根據線上轉人工的問題，提取人工回覆和模型回覆建立badcase庫，透過prompt調優、微調、知識庫等方式並不斷最佳化。

2.2、大模型在業務中切入點的思考

最後還想簡單聊聊怎麼在業務中尋找和大模型的結合點，主要是個人的一點感想和思考：

2.2.1、釘錘問題，到底用誰找誰 – 均可

以釘找錘：基於當前業務中現有的痛點和問題，嘗試用大模型的優勢實現和替代，是現有功能、流程的最佳化。

思路：

1、拆解日常工作流，識別人力耗費多的重複性工作環節。

2、從業務現狀出發，列舉業務中當前技術做不好的功能和環節。

3、從業務需求出發，抽象出對能力的要求，評估是否可用大模型實現。

舉錘尋釘：基於模型能力，思考和業務的結合點，往往是創新的場景和功能。

案例：

1、從世界知識和推理能力思考，可以對推薦系統做資料增強，比如特徵方面，可以基於使用者行為和物品特點用“常識”推理出偏好，而不僅是從類目頻次統計和item的embedding聚合來刻畫使用者偏好。還有在樣本糾偏和補充方面也可以做很多工作，都會有額外的資訊價值。

2、從多模態生成能力思考，可以智慧生成商品圖片和影片等，幫助使用者有更全面的感知，降低決策成本。

3、從對話問答能力思考，可以給使用者答疑解惑，比如智慧客服機器人。

2.2.2、怎麼在業務中用好大模型

大模型感覺用不好，主要是在於沒有很好地結合大模型能力，在工作流中找到合適的切入點。工作流中不同環節依賴能力不同，所有環節都給大模型做是不切實際的，但大機率有模型能力可以覆蓋的環節，這就是切入點。

所以在應用時，業務層面需要抽象，拆清楚工作流，每個環節需要什麼能力。模型知識層面，需要瞭解模型具備哪些能力，以及透過哪些方式最佳化。最終結合業務和模型，找到適合切入點。

還有一點感想，在設計大模型的工作流時，大模型很多時候是替代“人”的角色，而不是程式碼的角色。基於程式碼思維的一些設計，很多時候是“委曲求全”，並沒有真正擬合人的能力和流程。從人是怎麼完成任務的角度來設計流程和方案，或許更適合大模型。最著名的就是馬斯克說：“人開車是不需要雷射雷達的”，從而推出了全視覺方案的自動駕駛。

小結：本節透過智慧客服的案例，回答了在業務中怎麼用大模型能力和落地流程的問題。最後針對釘錘問題的探討，回答了在業務中找大模型切入點的問題。

三、詳解大模型原理、prompt技巧和調優方法

本節是偏技術的內容，以流程圖的方式講解大模型的原理，不涉及公式推導，儘量簡潔易懂。並列舉了prompt技巧，以及調優的方法。

目標回答兩個問題：

1、prompt技巧有哪些，為什麼這些prompt能產生效果？

2、prompt應該怎麼最佳化，流程和思路是怎樣的？

3.1、從大模型原理角度介紹prompt技巧

prompt工程[6]：本質是透過調節輸入文字序列，幫助模型在預訓練學到的巨大機率分佈空間中，尋找最優的輸出路徑。

直觀化理解：prompt最佳化就像在語義空間中引導token貪吃蛇，朝著期望方向吃下一個個token，最終輸出符合任務要求的token序列。

1、視野聚焦（交代背景，刪減無關內容）；2、提示注意關鍵點（強調）；3、引導模型方向（cot、示例）；4、約束模型方向（約束）；

模型和任務是兩端，語言（prompt）是連結模型和任務的紐帶。

從任務角度，是背景和要求表述清楚，讓模型的輸出和人對齊標準。
從語言角度，是表達精煉，避免歧義和上下文矛盾。
從模型角度，是揚長避短，增強模型的能力，規避模型的幻覺問題[7]。

為了更好地理解prompt技巧，這裡將大模型的工作原理和prompt技巧關聯起來，希望能知其然的同時，也知其所以然。也嘗試提供一種框架，希望能在理解生效原理的基礎上，可以不斷創新擴充套件prompt技巧。

注：

1、從模型生效環節來列舉prompt技巧的框架，仍有侷限性，比如無法覆蓋擬人的prompt技巧，如“深呼吸”、“讚美”、“PUA”等；

2、表中prompt技巧和大模型的環節對應關係並非實驗論證，而更多是經驗和直覺的關聯。很多prompt技巧是橫跨多個環節生效的，比如“示例”是既在前饋層啟用任務相關知識，又在注意力層讓模型關注例子中的模式。這裡為了簡化理解，將技巧僅關聯到其中一個環節上（高畫質大圖見文末）；

3.2、詳解prompt調優流程和方法

寫prompt有兩大流派：“隨心所欲”派和“循規蹈矩”派。前者特點是按自己的理解寫prompt，不侷限於模板和固定正規化，後者是按照模板一步步寫prompt，儘量全面但不缺失。

我覺得比較好的方式是有一定套路，但不照搬模板的“按圖索驥派”。

大模型目前很像“內力深厚”（理解世界知識）且懂得各類“武林秘籍”（知道各種prompt技巧），但不懂得實戰的潛在高手，prompt調優就像在逐步教會ta“實戰”，所以下面用偏武俠的風格介紹：

起勢（撰寫初版prompt）：

知己知彼：充分理解任務的關鍵點，以及用到模型哪些能力，從而確定prompt重點。比如重點是業務經驗 + 推理能力，就需要先梳理業務經驗和流程，並透過cot和示例增強推理能力。

關於總結業務經驗和流程有個較為熟知的方法：假設有一名實習生，沒有業務背景，你需要提供哪些資訊，幫助ta完成任務。

還有一個方法是，你假裝自己是大模型，按任務要求輸出一次結果，然後從每個環節反推需要哪些資訊。既可以評估難度，也可以對落地的側重點有個預判。

對決（ prompt調優）：

1、排兵佈陣：在構建benchmark時，需要儘可能保證多樣性，能夠充分覆蓋業務實際的各種場景。避免評測集多樣性差，導致未覆蓋場景的準確率不足。

2、投石問路：執行初版prompt驗證模型能力是否滿足任務要求。標誌：模型是否能夠正確理解要求，模型的推理方向是否準確。

3、洞若觀火：檢視大模型不符合指令或者幻覺的結果，人工分析原因。比如背景資訊不全，模型理解偏差，格式不符合約束，數值對比幻覺等等。

4、步步緊逼：人工不易看出問題時，可以讓大模型先不要給出結果，只產出分析過程，便於看出模型的理解哪裡有偏差。

5、攻守易位：讓大模型按自己的理解來複述要求，並構造例子展示prompt結果，使問題點充分暴露

6、借力打力：將prompt和模型錯誤結果都輸入給大模型，讓大模型分析出錯原因，並給出最佳化建議。如果業務中只能用開源模型或小模型，還可以讓大模型糾錯和最佳化prompt，然後再用到小模型上。

7、見招拆招：找到問題點後，結合列舉的prompt技巧進行最佳化。比如補充業務經驗引導，透過示例對齊標準和強化推理，多次強調加強約束，補充小數提示解決數值對比出錯等

8、步步為營：prompt任何變動都儘量測試準確率，包括但不限於：只改語序未改語義，改變輸出格式，調整示例及順序，更換基座模型等

9、以退為進：如果prompt中的某些步驟，透過大模型很難解決，思考是否可以透過程式碼或者工具來解決，而不是和大模型死磕。比如數學運算透過使用計算器解決。

10、嚴防死守：大模型是基於機率而不像程式碼是基於邏輯的，因此不可避免會出錯，需要有檢查修正節點，尤其模型輸出直接暴露給C端的場景。以及如果使用者可透過自定義的prompt直接和大模型互動，需要考慮提示注入防護，避免使用者誘騙大模型輸出不當言論和內容。

11、審時度勢：如果發現模型較難對齊標準，可以考慮將一部分業務經驗轉化為強規則讓大模型執行，不追求完美主義。如果基本用盡以上最佳化方法和提示詞技巧，模型表現還是不足，可以考慮放棄，等待基座模型能力提升。

科技狠活：輸出每個token的依據即啟用的神經元[10]，輔助判斷問題出在哪裡。比如“9.11和9.9比大小”的典型幻覺問題中，可以發現大模型錯誤激活了恐怖襲擊相關的神經元。

工具連結：https://monitor.transluce.org/dashboard/chat

小技巧：

基於cot和大模型生成示例：當思維鏈較長，導致不易構造示例時，可以先寫好cot，在真實case上跑一下，挑選符合要求的大模型輸出結果當作示例。

除了以上列舉的人工調優技巧外，prompt自動調優技術在學術界也有比較多的探索，包括基於梯度[11]、搜尋[12]、強化學習[13]、元學習[14]等不同流派，這部分實踐較少，後續會有相應探索，這裡不做展開，感興趣的讀者可以自行了解～

FAQ：

Q：prompt是否越簡練越好？

A：從成本角度是越簡練越好，但從效果角度，如果增加的是任務相關的資訊，反而有可能提升效果，比如重複強調的技巧。

Q：cot是否拆成多個節點的請求，每個請求只處理其中一個環節效果更好？

A：多節點的效果似乎並不比單次請求更好，而且可能存在上下文丟失的問題。除非是任務複雜到單次無法輸出完整，必須拆分成多個節點，否則都建議在一次請求中完成。

Q：使用大模型最佳化prompt是否效果更好？

A：通常情況下，大模型最佳化prompt效果都會更好或壓縮字數，但如果prompt中存在較多業務經驗的總結，比如表述特徵或推理流程時，模型因為缺少業務背景知識，可能會將這部分資訊簡化而影響效果。

四、總結&建議

4.1、總結回顧

本文從大模型能力和應用場景開始，從向量空間角度介紹了大模型處理不同任務的能力和難度。也將模型的應用場景劃分為了四個象限（通用/垂直和資訊/任務），每個象限分別介紹了最佳化的側重點。主要是提供一種評估思路，支援模型在業務應用的前期評估。

第二部分結合案例介紹落地經驗，包括前期評估、工作流拆解、落地流程和最佳化經驗，也探討了在現有業務中找到大模型結合點的問題，並基於實踐經驗提出一些思考和觀點，希望能為大家提供借鑑和參考的價值。

第三部分是相對技術向的內容，主要介紹prompt技巧和最佳化思路，首先結合模型工作原理和prompt技巧進行了整體講解，希望能知其然也知其所以然，可以在這個框架下嘗試新的prompt技巧，也介紹了在已知技巧的基礎上，在業務落地時調優prompt的流程和方法。希望為大家提供一個地圖，幫大家遇到問題時“按圖索驥”。

4.2、忠告及建議

1、大模型發展日新月異，能力在不斷提升。意味著需要與時俱進，持續更新提示詞。例如，在OpenAI的o1模型中，思維鏈技巧的效果不佳，角色扮演技巧的有效性目前也存在爭議。

2、不要對大模型的使用發怵，其實並不複雜，大模型本質是基於自然語言處理的，是人機互動中很自然的方式。最簡單的方法就是直接在對話方塊中寫下你的需求，剩下的交給大模型。關鍵在於多加嘗試，觀察結果並分析問題，實踐中學習能夠達到最佳效果。大模型的優勢在於它能夠支援實踐-學習-最佳化的迴圈。當遇到問題時，可以詢問模型原因和解決方案，理解後再改進提示，整個過程甚至無需離開對話方塊。

3、要在業務中應用大模型，業務經驗以及prompt技巧和模型理解都很重要，業務和演算法都需要補齊各自短板，打好配合。業務知識和經驗是隱式的，往往需要case by case的學習和理解，慢慢浸泡才能有所理解和積累。但是技術知識和原理是顯式的，可以透過閱讀文章快速入門，再輔以實踐來鞏固。ps：不要排斥論文，有大模型不管是翻譯還是總結，都大大簡化了閱讀論文的難度，是既能開闊全域性視野，又能跟上前沿創新的很好資訊源。

誤區：

1、對大模型的一種誤區是過於輕視，簡單嘗試幾次就放棄，認為大模型能力達不到業務要求，實際很可能是因為沒有寫好prompt而沒用好大模型。

2、對大模型的另一種誤區將其神化，對其抱有不合理的期待。大模型也有其固有的劣勢，比如基於機率帶來的精確性問題，計算延遲和高昂成本等，並不是所有的應用都值得用大模型重做一遍，哪怕是傳統的模型也有自己的優勢，關鍵是找到大模型適合發揮的場景，而不是揮著大模型的錘子，硬砸所有釘子。

五、未來展望

5.1、大模型長期趨勢

智慧度持續提升，完成任務和多模態的能力增強
推理成本下降，輕量級模型效能提升

[15]

基座模型能力增強，潛在應用場景增加，應用層價值增厚（網際網路是倒三角的收入結構，但生成式AI是金字塔結構）

[16]

5.2、價值鏈重塑

入口遷移：網際網路平臺主要價值在於“數字化供給”和“連結使用者”，大模型在這兩方面都能發揮作用，從而增加平臺價值。但大模型獨有的語義理解+工具使用能力，可能改變使用者和平臺互動方式。使用者開始能夠對終端裝置發出指令，終端來和平臺互動完成任務。這會導致使用者和平臺的互動次數減少，流量也從泛需求為主變得更為聚焦，影響到平臺的流量池和分佈，進而對廣告為主的商業模式造成影響。
潛在機會：大模型可以加強使用者被動的連結模式，當前主流的連結模式都是使用者主動觸發的，但某些場景更適合使用者被動的連結。特點是使用者需求相對固定，但空閒時間不固定，和供給高時效的場景，此時大模型可以作為代理的角色，決策是否主動推送給使用者決策，現有典型場景是rss訂閱、特價機票訂閱、活動推送等。

5.3、商業化挑戰

高算力成本挑戰傳統商業模式：短期內大模型單次請求的算力成本仍較高，目前是網際網路搜尋的單次請求成本的10倍以上（來源於谷歌ceo的採訪）。而邊際成本的劇增，既可能顛覆免費+廣告模式的底層邏輯，也對網路效應形成挑戰（新增使用者的邊際成本遞減，但網路價值平方級提升）。

[17]

盈利模式設計變得更為關鍵：同樣基於算力成本的增加，先燒錢再探索盈利模型的難度激增，早期的盈利模式設計更為重要。

5.4、潛在應用方向

C端應用：預計更多現有產品會推出大模型相關的高階付費功能
B端市場：B端降本增效可能是更高價值場景，如程式設計助手cursor、設計工具Adobe Firefly，以及部分重複工作的自動化
智慧硬體：多模態與輕量化趨勢帶來硬體層機會（如智慧眼鏡、耳機等）

附件：

圖1:

圖2:

圖3:

參考文獻：

[1] Mikolov T, Sutskever I, Chen K, Corrado G, Dean J. Distributed Representations of Words and Phrases and their Compositionality[J]. arXiv preprint arXiv:1310.4546, 2013

[2] Brown T B, Mann B, Ryder N, et al. Language Models are Few-Shot Learners[J]. arXiv preprint arXiv:2005.14165, 2020.

[3] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.

[4] Schick T, Dwivedi-Yu J, Dessì R, et al. Toolformer: Language Models Can Teach Themselves to Use Tools[J]. arXiv preprint arXiv:2302.04761, 2023.

[5] Anthropic：https://www.anthropic.com/news/3-5-models-and-computer-use

[6] Liu P, Yuan W, Fu J, et al. Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm[J]. arXiv preprint arXiv:2302.11382, 2023.

[7] Liu Y, Peng S, Shen Y, et al. A Survey of Hallucination in Large Language Models[J]. arXiv preprint arXiv:2305.10724, 2023.

[8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[9] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.

[10] Transluce: https://transluce.org/observability-interface

[11] Lester, B., Al-Rfou, R., & Constant, N. The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv preprint arXiv:2104.08691.

[12] Shin, T., Rishi, R., Dodge, J., & Van Durme, B. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts. arXiv preprint arXiv:2010.15980.

[13] Reynolds, L., & McDonell, K. (2021). Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm. arXiv preprint arXiv:2102.07350.

[14] Sun, C., Qiu, X., & Huang, X. (2021). Meta-Prompting for Simple and Effective Task-Agnostic Prompt Optimization. arXiv preprint arXiv:2106.08712.

[15] Welcome to LLMflation – LLM inference cost is going down fast：https://a16z.com/llmflation-llm-inference-cost/

[16] The Economics of Generative AI: https://apoorv03.com/p/the-economics-of-generative-ai

[17] Rizzatti, L. (2023, October 30). Parsing the mindboggling cost of ownership of generative AI. EE Times. Retrieved December 19, 2023 https://www.eetimes.com/parsing-the-mindboggling-cost-of-ownership-of-generative-ai/

兩地三中心異地多活網路

基於阿里雲洛神網路全球基礎設施及雲原生SDN技術，幫助企業客戶在雲上快速構建兩地三中心跨域多活網路，保障企業核心業務在全球多地域的高品質互聯。

點選閱讀原文檢視詳情。