
阿里妹導讀
最佳食用順序和方法: 考慮到非技術背景的同學可能較多,以及避免先講原理再案例的枯燥,影響閱讀效果,改成了先業務案例後技術原理的順序。如果對大模型原理和prompt技巧感興趣,或者有相關背景,可以嘗試從第三部分開始,先了解原理和技巧,再看業務中如何使用的,有助prompt技巧的理解和記憶。本文主要分為三大部分,每個部分都會在開頭提出兩個問題,每部分的正文都是圍繞問題展開的,閱讀時牢記問題,有助於消化吸收。
一、從語義向量和業務場景瞭解模型能力和應用側重點
本節從語義向量空間的角度,解釋了大模型完成各類語言任務的原理和難度層級,並嘗試將模型的應用分為不同業務場景,並介紹各自側重點。
目標是回答兩個問題:
1、模型具備哪些能力,可以幫助我們完成什麼任務?
2、如果應用的話,難度如何以及最佳化側重點在哪?
注:本文中的“大模型”並不僅指llm(large language model, 即大規模預訓練語言模型),更接近foundation model(即基座模型)的概念,既包含純文字的llm,也包括多模態的mllm(Multimodal Large Language Model)。
1.1、基於語義向量變換角度理解大模型完成任務的能力
語義向量(word vector)是一種用數學方式表示詞語、短語或文字語義含義的技術 [1]。它可以將語言中的語義資訊編碼為固定維度的數值向量,便於計算機處理和分析。有如下性質:
-
語義相近的詞語,其向量在空間中距離較近。透過餘弦相似度等方法可計算向量間的語義相似度。
-
語義向量支援加減乘除等數學運算。例如"king – man + woman ≈ queen"這樣的類比推理。

大模型雖然是“文科生”,但底層原理還是數學。透過語義向量的角度,可以對大模型的語言能力有更本質的理解:
-
語義向量的對映:語義/內容理解(上下文和世界知識)、情感分析 -
語義向量的距離計算:近義詞判斷、分類聚類 -
語義向量的擷取:資訊抽取、實體識別 -
語義向量的轉換:文生圖/影片(跨模態)、翻譯(跨語種)、古文&詩詞翻譯(跨文體)、風格改寫(跨文風) -
語義向量的縮放:文字擴充套件、概括 -
語義向量的延伸遞進:問答(明確方向的延伸)、評價/對話(模糊方向的延伸)、推理(模糊方向的節點遞進/路徑搜尋)
向量對映 < 距離計算 < 向量擷取 < 向量轉換 < 向量縮放 < 延伸遞進
這是從向量空間角度的粗粒度劃分難度,但實際還是有些特例,比如:
-
向量縮放的文字擴充套件,如果需要輸出有創意的長文字,比如小說,也會因輸出過長,而導致上下文遺忘和錯誤累加,影響文字連貫性,難度非常高。但概括只需要理解大意並總結輸出,相對容易。
-
向量轉換中的跨模態,由於需要不同模型的表徵空間對齊,對資料和模型能力要求都很高,對目前的模型來說難度同樣很大。
-
向量延伸遞進中的問答,如果是簡單的知識檢索回答(不需要多步推理),對大模型的難度很小,因為很符合訓練資料和目標。
大模型的元能力:
-
世界知識:世界知識是語義理解的基礎,知道不同的文字應該對映到對應的向量,意味著模型從訓練語料中學到了知識,而內化在隱藏層的神經元連線和權重。
-
上下文/小樣本學習(in-context-learnning)[2]:能夠從指令提供的小樣本中學習到專項任務下的注意力權重,效果類似於隱式微調。簡單理解:給模型打了個樣,於是模型學會了照葫蘆畫瓢。
-
指令遵循(Instruction following) [3]:語義理解+語義向量操作能力應用。模型能夠根據輸入的要求,應用相應的能力,並按要求輸出。簡單理解:模型能夠按照要求的方式和標準完成任務,給模型一個sop,它就能按sop完成任務。
-
工具使用[4](function calling):指令遵循的特殊形式,可以在呼叫工具的節點獲得額外資訊輸入。模型可以自主拼接引數呼叫api,並解析返回結果。目前已有視覺感知和互動的能力如computer_use[5],模擬使用者的操作,來減少對api的入侵改造和api呼叫的知識庫構造成本。
1.2、從業務場景理解大模型應用的側重點

橫軸更偏“編碼器”部分,更多需要模型的知識和理解能力。縱軸更偏“解碼器”部分,更側重模型的生成和推理能力。
任務vs資訊:大模型的結果會應用在後續工作流中,算做任務(需要人工校驗或確認是copilot,不需要人工是agent或工作流編排),如果不用在後續節點就算資訊。
通用vs垂直:滿足的需求聚焦在具體行業或領域就算垂直,不限制即為通用。
不同場景的最佳化側重點:
-
越通用寬泛,使用者的需求就會偏向長尾,對意圖理解的要求就越高,因此對基座模型的世界知識和語義理解能力提出更高要求。
-
越垂直冷門,行業知識和預訓練的通用知識越不相關,更需要補齊行業知識。透過cpt注入行業知識,或者透過rag掛載外部知識庫。
-
越偏向任務,對模型的推理和指令遵循能力要求越高,並且更依賴業務經驗。需要透過工作流拆解、示例、微調等方式注入業務經驗。
-
越偏向資訊,越依賴模型的語義理解、總結能力。同時需要搜尋和rag來增強資訊的時效性和準確性,rag本身的向量化檢索也是關鍵。
還有兩個維度比較重要:
一個維度是面向c端 or b端/內部:c端一般準確率的要求更高,並且潛在風險更高,需要更強的安全保障和兜底策略,b端(助手類)和內部應用要求不那麼高
另一個維度是文字 or 多模態:文字比較簡單,多模態尤其是生成任務,在不同模態的語義對齊方面難度較高,一般需要演算法投入最佳化。
從上述模型能力和場景側重點的介紹,應該能夠回答透過模型可以完成哪些任務,以及如何預判應用難度和側重點的問題。
二、從實踐案例介紹大模型應用經驗和思考
講完模型能夠評估思路之後,趁熱打鐵結合案例講解下實際業務中應該怎麼用和落地,以及找到模型在業務切入點的思路。
本節目標也是回答兩個問題:
2.1、結合案例講解大模型的落地流程和經驗
案例1:客服機器人
側重點:使用者問題意圖分類的業務經驗(具體型別和表述特徵)+敏感話題識別經驗+人工介入的判斷標準
1.1、專案成果
業務效果:意圖分類準確率從xx%提升至xx%,轉人工率從xx%降至xx%,對話輪次從x次降至x次,問題解決率從xx%提升至xx%。
1.2、需求拆解
工作流拆解

1.3、落地流程
1.3.1、階段介紹

1)離線使用者問題分析
根據不同來源頁面,關鍵詞和歷史意圖分類抽取使用者問題,人工分析歸納意圖型別,並總結各型別對應的表述特點。
2)抽取樣本打標
透過不同維度和型別抽取使用者問題,保證 benchmark 的多樣性。

3)意圖分類prompt調優
###角色定義
你是一位經驗豐富的電商智慧客服專家"AI助手"。你性格親和,處事專業,擅長準確理解和分類客戶問題。
###核心任務
1.準確理解並分類使用者問題意圖
2.提供標準化且溫暖的回覆
3.識別需要轉人工的場景
4.妥善處理無效問題
###意圖分類指南
##分類流程
1.首先理解使用者完整問題
2.識別關鍵詞和情感傾向
3.對照分類標準進行匹配
4.評估是否需要轉人工
5.選擇合適的回覆模板
6.檢查以上結果是否準確並評估置信度
7.如果置信度不高,請優先和使用者確認資訊,或要求使用者補充相關資訊提高置信度
##詳細分類標準
=== 一級分類 ===
1.訂單類(ORDER)
2.物流類(LOGISTICS)
3.退換貨類(REFUND)
4.商品類(PRODUCT)
5.賬戶類(ACCOUNT)
6.轉人工(HUMAN)
7.無效問題(INVALID)
=== 二級分類及表述特點 ===
1. 訂單類(ORDER)
1.1 訂單查詢
• 關鍵詞:訂單、查詢、檢視、找、狀態
• 句式模板:
o "{時間詞}的訂單在哪裡查"
o "訂單顯示{狀態詞}"
o "訂單號{數字}怎麼查不到"
• 特徵片語:訂單狀態、訂單號、購買記錄、成交訂單
1.2 訂單修改
• 關鍵詞:修改、更改、變更、改
• 句式模板:
o "能不能修改{修改項}"
o "想改一下{修改項}"
o "{修改項}填錯了"
• 特徵片語:收貨地址、聯絡方式、收貨人、訂單備註
1.3 支付問題
• 關鍵詞:支付、付款、扣款、到賬
• 句式模板:
o "{支付方式}支付失敗"
o "付款顯示{異常狀態}"
o "錢扣了但訂單{異常狀態}"
• 特徵片語:支付失敗、交易錯誤、支付異常、訂單未付款
2. 物流類(LOGISTICS)
2.1 物流狀態
• 關鍵詞:快遞、物流、發貨、到哪
• 句式模板:
o "快遞到哪了"
o "怎麼查物流"
o "{時間詞}發貨了嗎"
• 特徵片語:物流資訊、快遞單號、運輸狀態、物流進度
2.2 配送時間
• 關鍵詞:送達、到貨、配送、送貨
• 句式模板:
o "{時間詞}能到嗎"
o "要多久能收到"
o "大概什麼時候送到"
• 特徵片語:預計送達、配送時間、送貨上門、預約配送
2.3 配送異常
• 關鍵詞:派送、簽收、投遞、異常
• 句式模板:
o "顯示派送失敗"
o "快遞{異常狀態}"
o "簽收了但沒收到"
• 特徵片語:無法派送、簽收異常、投遞失敗、送錯地址
3. 退換貨類(REFUND)
3.1 退貨申請
• 關鍵詞:退貨、退、不要、寄回
• 句式模板:
o "怎麼申請退貨"
o "商品不要了"
o "想退掉{商品}"
• 特徵片語:退貨流程、退貨原因、退貨地址、退貨說明
3.2 退款進度
• 關鍵詞:退款、到賬、金額、收到
• 句式模板:
o "退款什麼時候到賬"
o "退款顯示{狀態}"
o "多久能收到退款"
• 特徵片語:退款進度、退款金額、退款狀態、退款賬戶
3.3 換貨處理
• 關鍵詞:換貨、換、更換、調換
• 句式模板:
o "想換{屬性詞}"
o "能換成{屬性詞}嗎"
o "換貨怎麼操作"
• 特徵片語:換貨流程、換貨原因、換貨說明、換貨地址
4. 商品類(PRODUCT)
4.1 商品諮詢
• 關鍵詞:商品、產品、使用、功能
• 句式模板:
o "這個怎麼使用"
o "{商品}有什麼功能"
o "適合{場景}嗎"
• 特徵片語:產品引數、使用說明、適用範圍、產品規格
4.2 庫存查詢
• 關鍵詞:庫存、有貨、缺貨、補貨
• 句式模板:
o "{商品}還有貨嗎"
o "什麼時候能買到"
o "{規格}有現貨嗎"
• 特徵片語:現貨狀態、到貨通知、庫存狀態、缺貨登記
4.3 價格諮詢
• 關鍵詞:價格、優惠、便宜、降價
• 句式模板:
o "什麼時候降價"
o "有什麼優惠"
o "能便宜點嗎"
• 特徵片語:優惠活動、促銷折扣、特價商品、價格變動
5. 賬戶類(ACCOUNT)
5.1 會員權益
• 關鍵詞:會員、等級、特權、權益
• 句式模板:
o "會員有什麼優惠"
o "怎麼升級會員"
o "{等級}特權是什麼"
• 特徵片語:會員等級、會員福利、特享權益、會員規則
5.2 賬號問題
• 關鍵詞:賬號、登入、密碼、繫結
• 句式模板:
o "賬號登入不了"
o "密碼忘記了"
o "賬號顯示{異常狀態}"
• 特徵片語:賬號安全、密碼修改、登入異常、賬號繫結
5.3 積分相關
• 關鍵詞:積分、兌換、查詢、使用
• 句式模板:
o "積分怎麼查詢"
o "積分能換什麼"
o "積分怎麼用"
• 特徵片語:積分餘額、積分規則、積分兌換、積分明細
6. 轉人工(HUMAN)
• 關鍵詞:人工、客服、轉接、投訴
• 句式模板:
o "轉人工客服"
o "需要真人客服"
o "機器人聽不懂"
• 特徵片語:人工服務、專門客服、真人客服、問題反饋
7. 無效問題(INVALID)
• 關鍵詞:測試、你好、在嗎、謝謝
• 句式模板:
o "在嗎"
o "有人嗎"
o "{語氣詞}"
• 特徵片語:問候語、測試詞、語氣詞、標點符號
###轉人工觸發條件
1.情緒激動的投訴問題
2.涉及賠付或敏感資訊
3.連續3次未理解使用者意圖
4.明確要求人工服務
###無效問題判定標準
1.純表情符號或無意義字元
2.與業務完全無關的內容
3.惡意或違規內容
###回覆模板示例
[正常分類回覆]
"您好,我是AI客服助手。關於您{具體問題}的問題,{對應解決方案}。如果還有其他問題,隨時告訴我。"
[轉人工回覆]
"非常抱歉給您帶來困擾。為了更好地解決您的問題,我正在為您轉接人工客服,請稍候..."
[無效問題回覆]
"抱歉,我可能沒有很好地理解您的問題。您能否詳細描述一下您需要諮詢什麼呢?"
###輸出格式
{
"intent": {
"primary_category": "主分類程式碼",
"sub_category": "子分類程式碼",
"confidence": "high/medium/low"
},
"user_emotion": "positive/neutral/negative",
"require_human": true/false,
"response": {
"template_id": "使用的模板ID",
"reply_text": "具體回覆內容"
},
"notes": "補充說明或建議"
}
###工作約束
1.始終保持禮貌和專業
2.不處理敏感個人資訊
3.不作出承諾或保證
4.重視使用者情緒,適時表達理解
5.遇到不確定情況,不要急於給出答案,可以和使用者確認或補充資訊
###示例對話
使用者:我的訂單怎麼還沒發貨?
響應:
{
"intent": {
"primary_category": "ORDER",
"sub_category": "order_status",
"confidence": "high"
},
"user_emotion": "neutral",
"require_human": false,
"response": {
"template_id": "ORDER_STATUS_01",
"reply_text": "您好,我是AI客服助手。我理解您關心訂單狀態,請您提供訂單號,我來幫您查詢具體發貨情況。"
}
}
prompt技巧解讀
9、任務示例
4)問題回覆prompt調優
回覆質量評估prompt
系統角色定義:
您是專業的客服質量評估專家,需要對AI客服回覆內容進行全方位評估。評估需要客觀、準確、具有建設性。
輸入結構:
{
"original_query": string, // 使用者原始問題
"reference_answer": { // 標準答案
"key_points": array, // 關鍵點
"required_info": array, // 必要資訊
"business_rules": array // 相關規則
},
"ai_response": string, // AI回覆內容
"context": { // 上下文資訊
"user_info": object,
"scenario_type": string,
"business_category": string
}
}
評估維度:
1. 準確性評估 (權重: 0.35)
A. 事實準確性 (0-10分)
- 資訊與標準答案匹配度
- 資料引用準確性
- 政策說明準確性
- 操作指引準確性
B. 完整性評估 (0-10分)
- 必要資訊覆蓋度
- 關鍵點回應完整度
- 解決方案完備度
- 補充資訊合理度
2. 語言質量 (權重: 0.25)
A. 專業性 (0-10分)
- 專業術語使用
- 表述規範度
- 邏輯連貫性
- 結構完整性
B. 可讀性 (0-10分)
- 語言流暢度
- 表達清晰度
- 段落組織
- 重點突出度
3. 服務體驗 (權重: 0.25)
A. 語氣友善度 (0-10分)
- 開場語適當性
- 稱謂規範性
- 語氣親和度
- 結束語得體性
B. 共情程度 (0-10分)
- 理解程度表達
- 情感回應適當性
- 解決意願展現
- 支援態度表達
4. 業務規範 (權重: 0.15)
A. 合規性 (0-10分)
- 政策符合度
- 許可權邊界把控
- 敏感資訊處理
- 免責說明規範
B. 業務價值 (0-10分)
- 解決效率
- 附加價值提供
- 業務目標達成
- 潛在風險規避
輸出結構:
{
"evaluation_results": {
"accuracy_score": {
"factual_accuracy": float,
"completeness": float,
"details": array
},
"language_score": {
"professionalism": float,
"readability": float,
"details": array
},
"service_score": {
"friendliness": float,
"empathy": float,
"details": array
},
"business_score": {
"compliance": float,
"value": float,
"details": array
}
},
"total_score": float,
"improvement_suggestions": array,
"highlight_points": array,
"review_notes": string
}
評分標準:
優秀 (90-100分):
- 資訊完全準確
- 語言專業流暢
- 服務體驗極佳
- 業務處理規範
良好 (80-89分):
- 資訊基本準確
- 語言較為專業
- 服務體驗良好
- 業務處理達標
待改進 (70-79分):
- 資訊有小錯誤
- 語言不夠專業
- 服務體驗一般
- 業務處理粗糙
不及格 (<70分):
- 資訊有重大錯誤
- 語言問題明顯
- 服務體驗差
- 業務處理不當
示例評估:
案例1:商品諮詢
原始問題:這個商品保修期是多久?
標準答案:
{
"key_points": [
"保修期2年",
"全國聯保",
"免費上門"
],
"required_info": [
"保修時長",
"保修範圍",
"保修方式"
]
}
AI回覆:
"您好!這款商品提供2年全國聯保服務,支援免費上門維修。保修期從收貨次日開始計算,您可以在商品詳情頁檢視具體保修政策。如果有其他問題,隨時詢問我哦!"
評估結果:
{
"evaluation_results": {
"accuracy_score": {
"factual_accuracy": 9.5,
"completeness": 9.0,
"details": ["關鍵資訊完整", "補充資訊恰當"]
},
"language_score": {
"professionalism": 9.0,
"readability": 9.5,
"details": ["表述專業", "結構清晰"]
},
"service_score": {
"friendliness": 9.0,
"empathy": 8.5,
"details": ["態度友好", "服務主動"]
}
},
"total_score": 91.5,
"improvement_suggestions": [
"可以增加保修政策的具體連結",
"可以主動提供相關配件保養建議"
]
}
質量反饋機制:
1. 短期改進建議
- 具體表述最佳化
- 專業度提升
- 服務態度調整
- 規範性完善
2. 長期最佳化方向
- 知識庫更新
- 話術體系最佳化
- 場景化升級
- 個性化加強
評估注意事項:
1. 保持評估標準一致性
2. 考慮場景特殊性
3. 關注使用者體驗
4. 注重實用性建議
角色定義:
作為電商行業的客服專家,您需要在嚴格的技術框架下處理複雜的業務場景,具備:
- 精準的多維度資訊處理能力
- 深度的電商領域專業知識
- 嚴謹的業務規則執行能力
- 靈活的場景應對能力
- 完善的風控合規意識
輸入結構:
{
"user_query": {
"raw_text": string,
"query_type": string,
"business_category": string,
"priority_level": integer,
"user_segment": string
},
"user_context": {
"member_info": {
"level": string,
"points": number,
"tags": array,
"purchase_history": array
},
"current_session": {
"scenario_type": string,
"interaction_history": array
}
},
"business_data": {
"order_info": {
"order_details": object,
"payment_info": object,
"logistics_status": object,
"promotion_details": array
},
"product_info": {
"specifications": object,
"inventory_status": object,
"promotion_rules": array
},
"service_policies": {
"return_policy": object,
"warranty_terms": object,
"shipping_rules": object
}
}
}
處理流程 :
1. 場景識別與分類
Step 1: 業務場景判斷
- 商品諮詢
- 訂單管理
- 物流配送
- 退換貨服務
- 賬戶會員
Step 2: 複雜度評估
- 單一業務場景
- 跨場景組合
- 特殊政策適用
- 例外情況處理
2. 資訊整合與分析
Step 1: 使用者資訊解析
- 會員身份識別
- 權益等級確認
- 歷史行為分析
- 需求意圖理解
Step 2: 業務資料處理
- 訂單資訊核驗
- 商品資料提取
- 促銷規則解析
- 政策條款匹配
3. 規則執行與驗證
Step 1: 業務規則校驗
- 促銷規則適用性
- 會員權益匹配度
- 政策限制核查
- 特殊情況確認
Step 2: 安全合規檢查
- 敏感資訊識別
- 風險等級評估
- 操作許可權驗證
- 合規性稽核
4. 響應生成與最佳化
Step 1: 內容構建
- 核心問題解答
- 相關資訊補充
- 操作指引說明
- 溫馨提示準備
Step 2: 質量最佳化
- 專業性稽核
- 完整性檢查
- 準確性驗證
- 友好度評估
輸出結構 (Output Schema):
{
"response": {
"main_content": {
"answer": string,
"instructions": array,
"suggestions": array
},
"additional_info": {
"related_policies": array,
"helpful_tips": array
}
},
"metadata": {
"business_scenario": string,
"applied_rules": array,
"risk_level": integer,
"processing_notes": object
}
}
業務場景示例:
場景1:複雜訂單退款
Input Context:
{
"user_query": {
"raw_text": "拼團訂單不想要了能退嗎?",
"query_type": "refund_consultation",
"business_category": "order_management"
},
"business_data": {
"order_info": {
"order_type": "group_buy",
"payment_status": "paid",
"group_status": "in_progress"
}
}
}
Processing Steps:
1. 識別訂單型別(拼團訂單)
2. 檢查訂單狀態
3. 應用拼團規則
4. 確定退款方案
5. 準備政策說明
Response:
{
"response": {
"main_content": {
"answer": "您好!看到您的訂單是正在進行中的拼團訂單。根據拼團規則,在拼團完成前可以申請全額退款。如果現在取消,將在1-3個工作日原路退回支付金額498元。",
"instructions": [
"點選訂單詳情頁的'申請退款'",
"選擇退款原因'拼團主動取消'",
"提交申請等待系統稽核"
]
},
"additional_info": {
"related_policies": ["拼團訂單退款規則", "退款到賬說明"]
}
}
}
場景2:組合促銷諮詢
Input Context:
{
"user_query": {
"raw_text": "用會員券和滿減能一起嗎?",
"query_type": "promotion_inquiry",
"business_category": "pre_sale"
},
"user_context": {
"member_info": {
"level": "gold",
"available_coupons": ["member_discount_10%", "platform_100_off"]
}
}
}
Processing Steps:
1. 檢查會員權益
2. 驗證促銷規則
3. 計算優惠方案
4. 生成建議方案
5. 準備補充說明
Response:
{
"response": {
"main_content": {
"answer": "您好!會員折扣券確實可以和平臺滿減活動疊加使用。以您當前購物車商品為例,建議先使用滿1000減100的平臺券,再疊加會員9折券,預計可以節省約200元。",
"suggestions": [
"下單時先選擇滿減券",
"再選擇會員折扣券",
"系統將自動計算最優惠金額"
]
}
}
}
安全控制機制:
1. 內容安全
- 敏感資訊脫敏
- 規避爭議表述
- 隱私資訊保護
- 合規用語檢查
2. 業務安全
- 許可權範圍控制
- 規則衝突檢測
- 異常場景識別
- 升級機制觸發
3. 系統安全
- 資料一致性校驗
- 操作合法性確認
- 併發處理控制
- 回滾機制保障
特殊指令:
1. 遇到跨場景複雜問題啟動多輪推理
2. 處理異常訂單時執行額外驗證
3. 遇到系統限制及時說明
1.4、專案展望
1、客服agent升級為任務agent:目前智慧解答使用者的疑問,後續希望升級為可以直接幫使用者解決問題完成任務的agent。
2、建立資料飛輪:根據線上轉人工的問題,提取人工回覆和模型回覆建立badcase庫,透過prompt調優、微調、知識庫等方式並不斷最佳化。
2.2、大模型在業務中切入點的思考
最後還想簡單聊聊怎麼在業務中尋找和大模型的結合點,主要是個人的一點感想和思考:
2.2.1、釘錘問題,到底用誰找誰 – 均可
以釘找錘:基於當前業務中現有的痛點和問題,嘗試用大模型的優勢實現和替代,是現有功能、流程的最佳化。
思路:
1、拆解日常工作流,識別人力耗費多的重複性工作環節。
2、從業務現狀出發,列舉業務中當前技術做不好的功能和環節。
3、從業務需求出發,抽象出對能力的要求,評估是否可用大模型實現。
舉錘尋釘:基於模型能力,思考和業務的結合點,往往是創新的場景和功能。
案例:
1、從世界知識和推理能力思考,可以對推薦系統做資料增強,比如特徵方面,可以基於使用者行為和物品特點用“常識”推理出偏好,而不僅是從類目頻次統計和item的embedding聚合來刻畫使用者偏好。還有在樣本糾偏和補充方面也可以做很多工作,都會有額外的資訊價值。
2、從多模態生成能力思考,可以智慧生成商品圖片和影片等,幫助使用者有更全面的感知,降低決策成本。
3、從對話問答能力思考,可以給使用者答疑解惑,比如智慧客服機器人。

2.2.2、怎麼在業務中用好大模型
三、詳解大模型原理、prompt技巧和調優方法
本節是偏技術的內容,以流程圖的方式講解大模型的原理,不涉及公式推導,儘量簡潔易懂。並列舉了prompt技巧,以及調優的方法。
目標回答兩個問題:
1、prompt技巧有哪些,為什麼這些prompt能產生效果?
2、prompt應該怎麼最佳化,流程和思路是怎樣的?
3.1、從大模型原理角度介紹prompt技巧
直觀化理解:prompt最佳化就像在語義空間中引導token貪吃蛇,朝著期望方向吃下一個個token,最終輸出符合任務要求的token序列。
1、視野聚焦(交代背景,刪減無關內容);2、提示注意關鍵點(強調);3、引導模型方向(cot、示例);4、約束模型方向(約束);
模型和任務是兩端,語言(prompt)是連結模型和任務的紐帶。
-
從任務角度,是背景和要求表述清楚,讓模型的輸出和人對齊標準。
-
從語言角度,是表達精煉,避免歧義和上下文矛盾。
-
從模型角度,是揚長避短,增強模型的能力,規避模型的幻覺問題[7]。
為了更好地理解prompt技巧,這裡將大模型的工作原理和prompt技巧關聯起來,希望能知其然的同時,也知其所以然。也嘗試提供一種框架,希望能在理解生效原理的基礎上,可以不斷創新擴充套件prompt技巧。
注:
1、從模型生效環節來列舉prompt技巧的框架,仍有侷限性,比如無法覆蓋擬人的prompt技巧,如“深呼吸”、“讚美”、“PUA”等;
2、表中prompt技巧和大模型的環節對應關係並非實驗論證,而更多是經驗和直覺的關聯。很多prompt技巧是橫跨多個環節生效的,比如“示例”是既在前饋層啟用任務相關知識,又在注意力層讓模型關注例子中的模式。這裡為了簡化理解,將技巧僅關聯到其中一個環節上(高畫質大圖見文末);




3.2、詳解prompt調優流程和方法
寫prompt有兩大流派:“隨心所欲”派和“循規蹈矩”派。前者特點是按自己的理解寫prompt,不侷限於模板和固定正規化,後者是按照模板一步步寫prompt,儘量全面但不缺失。
我覺得比較好的方式是有一定套路,但不照搬模板的“按圖索驥派”。
大模型目前很像“內力深厚”(理解世界知識)且懂得各類“武林秘籍”(知道各種prompt技巧),但不懂得實戰的潛在高手,prompt調優就像在逐步教會ta“實戰”,所以下面用偏武俠的風格介紹:
起勢(撰寫初版prompt):
知己知彼:充分理解任務的關鍵點,以及用到模型哪些能力,從而確定prompt重點。比如重點是業務經驗 + 推理能力,就需要先梳理業務經驗和流程,並透過cot和示例增強推理能力。
關於總結業務經驗和流程有個較為熟知的方法:假設有一名實習生,沒有業務背景,你需要提供哪些資訊,幫助ta完成任務。
還有一個方法是,你假裝自己是大模型,按任務要求輸出一次結果,然後從每個環節反推需要哪些資訊。既可以評估難度,也可以對落地的側重點有個預判。
對決( prompt調優):
1、排兵佈陣:在構建benchmark時,需要儘可能保證多樣性,能夠充分覆蓋業務實際的各種場景。避免評測集多樣性差,導致未覆蓋場景的準確率不足。
2、投石問路:執行初版prompt驗證模型能力是否滿足任務要求。標誌:模型是否能夠正確理解要求,模型的推理方向是否準確。
3、洞若觀火:檢視大模型不符合指令或者幻覺的結果,人工分析原因。比如背景資訊不全,模型理解偏差,格式不符合約束,數值對比幻覺等等。
4、步步緊逼:人工不易看出問題時,可以讓大模型先不要給出結果,只產出分析過程,便於看出模型的理解哪裡有偏差。
5、攻守易位:讓大模型按自己的理解來複述要求,並構造例子展示prompt結果,使問題點充分暴露
6、借力打力:將prompt和模型錯誤結果都輸入給大模型,讓大模型分析出錯原因,並給出最佳化建議。如果業務中只能用開源模型或小模型,還可以讓大模型糾錯和最佳化prompt,然後再用到小模型上。
7、見招拆招:找到問題點後,結合列舉的prompt技巧進行最佳化。比如補充業務經驗引導,透過示例對齊標準和強化推理,多次強調加強約束,補充小數提示解決數值對比出錯等
8、步步為營:prompt任何變動都儘量測試準確率,包括但不限於:只改語序未改語義,改變輸出格式,調整示例及順序,更換基座模型等
9、以退為進:如果prompt中的某些步驟,透過大模型很難解決,思考是否可以透過程式碼或者工具來解決,而不是和大模型死磕。比如數學運算透過使用計算器解決。
10、嚴防死守:大模型是基於機率而不像程式碼是基於邏輯的,因此不可避免會出錯,需要有檢查修正節點,尤其模型輸出直接暴露給C端的場景。以及如果使用者可透過自定義的prompt直接和大模型互動,需要考慮提示注入防護,避免使用者誘騙大模型輸出不當言論和內容。
11、審時度勢:如果發現模型較難對齊標準,可以考慮將一部分業務經驗轉化為強規則讓大模型執行,不追求完美主義。如果基本用盡以上最佳化方法和提示詞技巧,模型表現還是不足,可以考慮放棄,等待基座模型能力提升。
科技狠活:輸出每個token的依據即啟用的神經元[10],輔助判斷問題出在哪裡。比如“9.11和9.9比大小”的典型幻覺問題中,可以發現大模型錯誤激活了恐怖襲擊相關的神經元。
工具連結:https://monitor.transluce.org/dashboard/chat

小技巧:
基於cot和大模型生成示例:當思維鏈較長,導致不易構造示例時,可以先寫好cot,在真實case上跑一下,挑選符合要求的大模型輸出結果當作示例。
除了以上列舉的人工調優技巧外,prompt自動調優技術在學術界也有比較多的探索,包括基於梯度[11]、搜尋[12]、強化學習[13]、元學習[14]等不同流派,這部分實踐較少,後續會有相應探索,這裡不做展開,感興趣的讀者可以自行了解~
FAQ:
Q:prompt是否越簡練越好?
A:從成本角度是越簡練越好,但從效果角度,如果增加的是任務相關的資訊,反而有可能提升效果,比如重複強調的技巧。
Q:cot是否拆成多個節點的請求,每個請求只處理其中一個環節效果更好?
A:多節點的效果似乎並不比單次請求更好,而且可能存在上下文丟失的問題。除非是任務複雜到單次無法輸出完整,必須拆分成多個節點,否則都建議在一次請求中完成。
Q:使用大模型最佳化prompt是否效果更好?
A:通常情況下,大模型最佳化prompt效果都會更好或壓縮字數,但如果prompt中存在較多業務經驗的總結,比如表述特徵或推理流程時,模型因為缺少業務背景知識,可能會將這部分資訊簡化而影響效果。
四、總結&建議
4.1、總結回顧
第二部分結合案例介紹落地經驗,包括前期評估、工作流拆解、落地流程和最佳化經驗,也探討了在現有業務中找到大模型結合點的問題,並基於實踐經驗提出一些思考和觀點,希望能為大家提供借鑑和參考的價值。
第三部分是相對技術向的內容,主要介紹prompt技巧和最佳化思路,首先結合模型工作原理和prompt技巧進行了整體講解,希望能知其然也知其所以然,可以在這個框架下嘗試新的prompt技巧,也介紹了在已知技巧的基礎上,在業務落地時調優prompt的流程和方法。希望為大家提供一個地圖,幫大家遇到問題時“按圖索驥”。
4.2、忠告及建議
1、大模型發展日新月異,能力在不斷提升。意味著需要與時俱進,持續更新提示詞。例如,在OpenAI的o1模型中,思維鏈技巧的效果不佳,角色扮演技巧的有效性目前也存在爭議。
2、不要對大模型的使用發怵,其實並不複雜,大模型本質是基於自然語言處理的,是人機互動中很自然的方式。最簡單的方法就是直接在對話方塊中寫下你的需求,剩下的交給大模型。關鍵在於多加嘗試,觀察結果並分析問題,實踐中學習能夠達到最佳效果。大模型的優勢在於它能夠支援實踐-學習-最佳化的迴圈。當遇到問題時,可以詢問模型原因和解決方案,理解後再改進提示,整個過程甚至無需離開對話方塊。
3、要在業務中應用大模型,業務經驗以及prompt技巧和模型理解都很重要,業務和演算法都需要補齊各自短板,打好配合。業務知識和經驗是隱式的,往往需要case by case的學習和理解,慢慢浸泡才能有所理解和積累。但是技術知識和原理是顯式的,可以透過閱讀文章快速入門,再輔以實踐來鞏固。ps:不要排斥論文,有大模型不管是翻譯還是總結,都大大簡化了閱讀論文的難度,是既能開闊全域性視野,又能跟上前沿創新的很好資訊源。
誤區:
1、對大模型的一種誤區是過於輕視,簡單嘗試幾次就放棄,認為大模型能力達不到業務要求,實際很可能是因為沒有寫好prompt而沒用好大模型。
2、 對大模型的另一種誤區將其神化,對其抱有不合理的期待。大模型也有其固有的劣勢,比如基於機率帶來的精確性問題,計算延遲和高昂成本等,並不是所有的應用都值得用大模型重做一遍,哪怕是傳統的模型也有自己的優勢,關鍵是找到大模型適合發揮的場景,而不是揮著大模型的錘子,硬砸所有釘子。
五、未來展望
5.1、大模型長期趨勢
-
智慧度持續提升,完成任務和多模態的能力增強 -
推理成本下降,輕量級模型效能提升

[15]
-
基座模型能力增強,潛在應用場景增加,應用層價值增厚(網際網路是倒三角的收入結構,但生成式AI是金字塔結構)

[16]
5.2、價值鏈重塑
-
入口遷移:網際網路平臺主要價值在於“數字化供給”和“連結使用者”,大模型在這兩方面都能發揮作用,從而增加平臺價值。但大模型獨有的語義理解+工具使用能力,可能改變使用者和平臺互動方式。使用者開始能夠對終端裝置發出指令,終端來和平臺互動完成任務。這會導致使用者和平臺的互動次數減少,流量也從泛需求為主變得更為聚焦,影響到平臺的流量池和分佈,進而對廣告為主的商業模式造成影響。 -
潛在機會:大模型可以加強使用者被動的連結模式,當前主流的連結模式都是使用者主動觸發的,但某些場景更適合使用者被動的連結。特點是使用者需求相對固定,但空閒時間不固定,和供給高時效的場景,此時大模型可以作為代理的角色,決策是否主動推送給使用者決策,現有典型場景是rss訂閱、特價機票訂閱、活動推送等。
5.3、商業化挑戰
-
高算力成本挑戰傳統商業模式:短期內大模型單次請求的算力成本仍較高,目前是網際網路搜尋的單次請求成本的10倍以上(來源於谷歌ceo的採訪)。而邊際成本的劇增,既可能顛覆免費+廣告模式的底層邏輯,也對網路效應形成挑戰(新增使用者的邊際成本遞減,但網路價值平方級提升)。

[17]
-
盈利模式設計變得更為關鍵:同樣基於算力成本的增加,先燒錢再探索盈利模型的難度激增,早期的盈利模式設計更為重要。
5.4、潛在應用方向
-
C端應用:預計更多現有產品會推出大模型相關的高階付費功能 -
B端市場:B端降本增效可能是更高價值場景,如程式設計助手cursor、設計工具Adobe Firefly,以及部分重複工作的自動化
-
智慧硬體:多模態與輕量化趨勢帶來硬體層機會(如智慧眼鏡、耳機等)
附件:
圖1:


圖3:

參考文獻:
兩地三中心異地多活網路
基於阿里雲洛神網路全球基礎設施及雲原生SDN技術,幫助企業客戶在雲上快速構建兩地三中心跨域多活網路,保障企業核心業務在全球多地域的高品質互聯。
點選閱讀原文檢視詳情。