大模型isallyouneed?

阿里妹導讀
本文旨在透過對業務案例、prompt技巧、大模型原理等探討,讓大家能夠更好地在實際業務中應用大模型。
最佳食用順序和方法:
考慮到非技術背景的同學可能較多,以及避免先講原理再案例的枯燥,影響閱讀效果,改成了先業務案例後技術原理的順序。
如果對大模型原理和prompt技巧感興趣,或者有相關背景,可以嘗試從第三部分開始,先了解原理和技巧,再看業務中如何使用的,有助prompt技巧的理解和記憶。
本文主要分為三大部分,每個部分都會在開頭提出兩個問題,每部分的正文都是圍繞問題展開的,閱讀時牢記問題,有助於消化吸收。
一、從語義向量和業務場景瞭解模型能力和應用側重點
本節從語義向量空間的角度,解釋了大模型完成各類語言任務的原理和難度層級,並嘗試將模型的應用分為不同業務場景,並介紹各自側重點。
目標是回答兩個問題:
1、模型具備哪些能力,可以幫助我們完成什麼任務?
2、如果應用的話,難度如何以及最佳化側重點在哪?
注:本文中的“大模型”並不僅指llm(large language model, 即大規模預訓練語言模型),更接近foundation model(即基座模型)的概念,既包含純文字的llm,也包括多模態的mllm(Multimodal Large Language Model)。
1.1、基於語義向量變換角度理解大模型完成任務的能力
語義向量(word vector)是一種用數學方式表示詞語、短語或文字語義含義的技術 [1]。它可以將語言中的語義資訊編碼為固定維度的數值向量,便於計算機處理和分析。有如下性質:
  • 語義相近的詞語,其向量在空間中距離較近。透過餘弦相似度等方法可計算向量間的語義相似度。
  • 語義向量支援加減乘除等數學運算。例如"king – man + woman ≈ queen"這樣的類比推理。
大模型雖然是“文科生”,但底層原理還是數學。透過語義向量的角度,可以對大模型的語言能力有更本質的理解:
  1. 語義向量的對映:語義/內容理解(上下文和世界知識)、情感分析
  2. 語義向量的距離計算:近義詞判斷、分類聚類
  3. 語義向量的擷取:資訊抽取、實體識別
  4. 語義向量的轉換:文生圖/影片(跨模態)、翻譯(跨語種)、古文&詩詞翻譯(跨文體)、風格改寫(跨文風)
  5. 語義向量的縮放:文字擴充套件、概括
  6. 語義向量的延伸遞進:問答(明確方向的延伸)、評價/對話(模糊方向的延伸)、推理(模糊方向的節點遞進/路徑搜尋)
從向量操作的角度理解大模型完成任務的難度:
向量對映 < 距離計算 < 向量擷取 < 向量轉換 < 向量縮放 < 延伸遞進
這是從向量空間角度的粗粒度劃分難度,但實際還是有些特例,比如:
  • 向量縮放的文字擴充套件,如果需要輸出有創意的長文字,比如小說,也會因輸出過長,而導致上下文遺忘和錯誤累加,影響文字連貫性,難度非常高。但概括只需要理解大意並總結輸出,相對容易。
  • 向量轉換中的跨模態,由於需要不同模型的表徵空間對齊,對資料和模型能力要求都很高,對目前的模型來說難度同樣很大。
  • 向量延伸遞進中的問答,如果是簡單的知識檢索回答(不需要多步推理),對大模型的難度很小,因為很符合訓練資料和目標。
大模型的元能力:
  • 世界知識:世界知識是語義理解的基礎,知道不同的文字應該對映到對應的向量,意味著模型從訓練語料中學到了知識,而內化在隱藏層的神經元連線和權重。
  • 上下文/小樣本學習(in-context-learnning)[2]:能夠從指令提供的小樣本中學習到專項任務下的注意力權重,效果類似於隱式微調。簡單理解:給模型打了個樣,於是模型學會了照葫蘆畫瓢。
  • 指令遵循(Instruction following) [3]:語義理解+語義向量操作能力應用。模型能夠根據輸入的要求,應用相應的能力,並按要求輸出。簡單理解:模型能夠按照要求的方式和標準完成任務,給模型一個sop,它就能按sop完成任務。
  • 工具使用[4](function calling):指令遵循的特殊形式,可以在呼叫工具的節點獲得額外資訊輸入。模型可以自主拼接引數呼叫api,並解析返回結果。目前已有視覺感知和互動的能力如computer_use[5],模擬使用者的操作,來減少對api的入侵改造和api呼叫的知識庫構造成本。
1.2、從業務場景理解大模型應用的側重點
橫軸更偏“編碼器”部分,更多需要模型的知識和理解能力。縱軸更偏“解碼器”部分,更側重模型的生成和推理能力。
任務vs資訊:大模型的結果會應用在後續工作流中,算做任務(需要人工校驗或確認是copilot,不需要人工是agent或工作流編排),如果不用在後續節點就算資訊。
通用vs垂直:滿足的需求聚焦在具體行業或領域就算垂直,不限制即為通用。
不同場景的最佳化側重點:
  • 通用寬泛,使用者的需求就會偏向長尾,對意圖理解的要求就越高,因此對基座模型的世界知識語義理解能力提出更高要求。
  • 垂直冷門,行業知識和預訓練的通用知識越不相關,更需要補齊行業知識。透過cpt注入行業知識,或者透過rag掛載外部知識庫。
  • 偏向任務,對模型的推理和指令遵循能力要求越高,並且更依賴業務經驗。需要透過工作流拆解、示例、微調等方式注入業務經驗。
  • 偏向資訊,越依賴模型的語義理解、總結能力。同時需要搜尋和rag來增強資訊的時效性和準確性,rag本身的向量化檢索也是關鍵。
還有兩個維度比較重要:
一個維度是面向c端 or b端/內部:c端一般準確率的要求更高,並且潛在風險更高,需要更強的安全保障和兜底策略,b端(助手類)和內部應用要求不那麼高
另一個維度是文字 or 多模態:文字比較簡單,多模態尤其是生成任務,在不同模態的語義對齊方面難度較高,一般需要演算法投入最佳化。
從上述模型能力和場景側重點的介紹,應該能夠回答透過模型可以完成哪些任務,以及如何預判應用難度和側重點的問題。
二、從實踐案例介紹大模型應用經驗和思考
講完模型能夠評估思路之後,趁熱打鐵結合案例講解下實際業務中應該怎麼用和落地,以及找到模型在業務切入點的思路。
本節目標也是回答兩個問題:
1、實際業務中應該怎麼落地,思路和流程是什麼?
2、如果想在業務中應用大模型,怎麼找到切入點?
2.1、結合案例講解大模型的落地流程和經驗

案例1:客服機器人

目標:提高問題工單解決率和時效,提高使用者體驗。並且減少客服人工介入率,降低用工成本。
應用型別:垂直+任務
模型能力:語義理解+文字分類+指令遵循+問答總結能力
應用難度:中等
側重點:使用者問題意圖分類的業務經驗(具體型別和表述特徵)+敏感話題識別經驗+人工介入的判斷標準

1.1、專案成果

業務效果:意圖分類準確率從xx%提升至xx%,轉人工率從xx%降至xx%,對話輪次從x次降至x次,問題解決率從xx%提升至xx%。

1.2、需求拆解

工作流拆解

1.3、落地流程

1.3.1、階段介紹
1)離線使用者問題分析
根據不同來源頁面,關鍵詞和歷史意圖分類抽取使用者問題,人工分析歸納意圖型別,並總結各型別對應的表述特點。
2)抽取樣本打標
透過不同維度和型別抽取使用者問題,保證 benchmark 的多樣性。
3)意圖分類prompt調優
###角色定義你是一位經驗豐富的電商智慧客服專家"AI助手"。你性格親和,處事專業,擅長準確理解和分類客戶問題。###核心任務1.準確理解並分類使用者問題意圖2.提供標準化且溫暖的回覆3.識別需要轉人工的場景4.妥善處理無效問題###意圖分類指南##分類流程1.首先理解使用者完整問題2.識別關鍵詞和情感傾向3.對照分類標準進行匹配4.評估是否需要轉人工5.選擇合適的回覆模板6.檢查以上結果是否準確並評估置信度7.如果置信度不高,請優先和使用者確認資訊,或要求使用者補充相關資訊提高置信度##詳細分類標準=== 一級分類 ===1.訂單類(ORDER)2.物流類(LOGISTICS)3.退換貨類(REFUND)4.商品類(PRODUCT)5.賬戶類(ACCOUNT)6.轉人工(HUMAN)7.無效問題(INVALID)=== 二級分類及表述特點 ===1. 訂單類(ORDER)1.1 訂單查詢•  關鍵詞:訂單、查詢、檢視、找、狀態•  句式模板:o  "{時間詞}的訂單在哪裡查"o  "訂單顯示{狀態詞}"o  "訂單號{數字}怎麼查不到"•  特徵片語:訂單狀態、訂單號、購買記錄、成交訂單1.2 訂單修改•  關鍵詞:修改、更改、變更、改•  句式模板:o  "能不能修改{修改項}"o  "想改一下{修改項}"o  "{修改項}填錯了"•  特徵片語:收貨地址、聯絡方式、收貨人、訂單備註1.3 支付問題•  關鍵詞:支付、付款、扣款、到賬•  句式模板:o  "{支付方式}支付失敗"o  "付款顯示{異常狀態}"o  "錢扣了但訂單{異常狀態}"•  特徵片語:支付失敗、交易錯誤、支付異常、訂單未付款2. 物流類(LOGISTICS)2.1 物流狀態•  關鍵詞:快遞、物流、發貨、到哪•  句式模板:o  "快遞到哪了"o  "怎麼查物流"o  "{時間詞}發貨了嗎"•  特徵片語:物流資訊、快遞單號、運輸狀態、物流進度2.2 配送時間•  關鍵詞:送達、到貨、配送、送貨•  句式模板:o  "{時間詞}能到嗎"o  "要多久能收到"o  "大概什麼時候送到"•  特徵片語:預計送達、配送時間、送貨上門、預約配送2.3 配送異常•  關鍵詞:派送、簽收、投遞、異常•  句式模板:o  "顯示派送失敗"o  "快遞{異常狀態}"o  "簽收了但沒收到"•  特徵片語:無法派送、簽收異常、投遞失敗、送錯地址3. 退換貨類(REFUND)3.1 退貨申請•  關鍵詞:退貨、退、不要、寄回•  句式模板:o  "怎麼申請退貨"o  "商品不要了"o  "想退掉{商品}"•  特徵片語:退貨流程、退貨原因、退貨地址、退貨說明3.2 退款進度•  關鍵詞:退款、到賬、金額、收到•  句式模板:o  "退款什麼時候到賬"o  "退款顯示{狀態}"o  "多久能收到退款"•  特徵片語:退款進度、退款金額、退款狀態、退款賬戶3.3 換貨處理•  關鍵詞:換貨、換、更換、調換•  句式模板:o  "想換{屬性詞}"o  "能換成{屬性詞}嗎"o  "換貨怎麼操作"•  特徵片語:換貨流程、換貨原因、換貨說明、換貨地址4. 商品類(PRODUCT)4.1 商品諮詢•  關鍵詞:商品、產品、使用、功能•  句式模板:o  "這個怎麼使用"o  "{商品}有什麼功能"o  "適合{場景}嗎"•  特徵片語:產品引數、使用說明、適用範圍、產品規格4.2 庫存查詢•  關鍵詞:庫存、有貨、缺貨、補貨•  句式模板:o  "{商品}還有貨嗎"o  "什麼時候能買到"o  "{規格}有現貨嗎"•  特徵片語:現貨狀態、到貨通知、庫存狀態、缺貨登記4.3 價格諮詢•  關鍵詞:價格、優惠、便宜、降價•  句式模板:o  "什麼時候降價"o  "有什麼優惠"o  "能便宜點嗎"•  特徵片語:優惠活動、促銷折扣、特價商品、價格變動5. 賬戶類(ACCOUNT)5.1 會員權益•  關鍵詞:會員、等級、特權、權益•  句式模板:o  "會員有什麼優惠"o  "怎麼升級會員"o  "{等級}特權是什麼"•  特徵片語:會員等級、會員福利、特享權益、會員規則5.2 賬號問題•  關鍵詞:賬號、登入、密碼、繫結•  句式模板:o  "賬號登入不了"o  "密碼忘記了"o  "賬號顯示{異常狀態}"•  特徵片語:賬號安全、密碼修改、登入異常、賬號繫結5.3 積分相關•  關鍵詞:積分、兌換、查詢、使用•  句式模板:o  "積分怎麼查詢"o  "積分能換什麼"o  "積分怎麼用"•  特徵片語:積分餘額、積分規則、積分兌換、積分明細6. 轉人工(HUMAN)•  關鍵詞:人工、客服、轉接、投訴•  句式模板:o  "轉人工客服"o  "需要真人客服"o  "機器人聽不懂"•  特徵片語:人工服務、專門客服、真人客服、問題反饋7. 無效問題(INVALID)•  關鍵詞:測試、你好、在嗎、謝謝•  句式模板:o  "在嗎"o  "有人嗎"o  "{語氣詞}"•  特徵片語:問候語、測試詞、語氣詞、標點符號###轉人工觸發條件1.情緒激動的投訴問題2.涉及賠付或敏感資訊3.連續3次未理解使用者意圖4.明確要求人工服務###無效問題判定標準1.純表情符號或無意義字元2.與業務完全無關的內容3.惡意或違規內容###回覆模板示例[正常分類回覆]"您好,我是AI客服助手。關於您{具體問題}的問題,{對應解決方案}。如果還有其他問題,隨時告訴我。"[轉人工回覆]"非常抱歉給您帶來困擾。為了更好地解決您的問題,我正在為您轉接人工客服,請稍候..."[無效問題回覆]"抱歉,我可能沒有很好地理解您的問題。您能否詳細描述一下您需要諮詢什麼呢?"###輸出格式{"intent": {"primary_category": "主分類程式碼","sub_category": "子分類程式碼","confidence": "high/medium/low"},"user_emotion": "positive/neutral/negative","require_human": true/false,"response": {"template_id": "使用的模板ID","reply_text": "具體回覆內容"},"notes": "補充說明或建議"}###工作約束1.始終保持禮貌和專業2.不處理敏感個人資訊3.不作出承諾或保證4.重視使用者情緒,適時表達理解5.遇到不確定情況,不要急於給出答案,可以和使用者確認或補充資訊###示例對話使用者:我的訂單怎麼還沒發貨?響應:{"intent": {"primary_category": "ORDER","sub_category": "order_status","confidence": "high"},"user_emotion": "neutral","require_human": false,"response": {"template_id": "ORDER_STATUS_01","reply_text": "您好,我是AI客服助手。我理解您關心訂單狀態,請您提供訂單號,我來幫您查詢具體發貨情況。"}}
prompt技巧解讀
1、角色&性格設定:
2、內容分段
3、符號分隔
4、思維鏈
5、反思
6、重複
7、輸出格式
8、約束
9、任務示例
4)問題回覆prompt調優
回覆質量評估prompt
系統角色定義:您是專業的客服質量評估專家,需要對AI客服回覆內容進行全方位評估。評估需要客觀、準確、具有建設性。輸入結構:{ "original_query": string, // 使用者原始問題 "reference_answer": { // 標準答案 "key_points": array, // 關鍵點 "required_info": array, // 必要資訊 "business_rules": array // 相關規則 }, "ai_response": string, // AI回覆內容 "context": { // 上下文資訊 "user_info": object, "scenario_type": string, "business_category": string }}評估維度:1. 準確性評估 (權重: 0.35)A. 事實準確性 (0-10分)- 資訊與標準答案匹配度- 資料引用準確性- 政策說明準確性- 操作指引準確性B. 完整性評估 (0-10分)- 必要資訊覆蓋度- 關鍵點回應完整度- 解決方案完備度- 補充資訊合理度2. 語言質量 (權重: 0.25)A. 專業性 (0-10分)- 專業術語使用- 表述規範度- 邏輯連貫性- 結構完整性B. 可讀性 (0-10分)- 語言流暢度- 表達清晰度- 段落組織- 重點突出度3. 服務體驗 (權重: 0.25)A. 語氣友善度 (0-10分)- 開場語適當性- 稱謂規範性- 語氣親和度- 結束語得體性B. 共情程度 (0-10分)- 理解程度表達- 情感回應適當性- 解決意願展現- 支援態度表達4. 業務規範 (權重: 0.15)A. 合規性 (0-10分)- 政策符合度- 許可權邊界把控- 敏感資訊處理- 免責說明規範B. 業務價值 (0-10分)- 解決效率- 附加價值提供- 業務目標達成- 潛在風險規避輸出結構:{ "evaluation_results": { "accuracy_score": { "factual_accuracy": float, "completeness": float, "details": array }, "language_score": { "professionalism": float, "readability": float, "details": array }, "service_score": { "friendliness": float, "empathy": float, "details": array }, "business_score": { "compliance": float, "value": float, "details": array } }, "total_score": float, "improvement_suggestions": array, "highlight_points": array, "review_notes": string}評分標準:優秀 (90-100分):- 資訊完全準確- 語言專業流暢- 服務體驗極佳- 業務處理規範良好 (80-89分):- 資訊基本準確- 語言較為專業- 服務體驗良好- 業務處理達標待改進 (70-79分):- 資訊有小錯誤- 語言不夠專業- 服務體驗一般- 業務處理粗糙不及格 (<70分):- 資訊有重大錯誤- 語言問題明顯- 服務體驗差- 業務處理不當示例評估:案例1:商品諮詢原始問題:這個商品保修期是多久?標準答案:{ "key_points": [ "保修期2年", "全國聯保", "免費上門" ], "required_info": [ "保修時長", "保修範圍", "保修方式" ]}AI回覆:"您好!這款商品提供2年全國聯保服務,支援免費上門維修。保修期從收貨次日開始計算,您可以在商品詳情頁檢視具體保修政策。如果有其他問題,隨時詢問我哦!"評估結果:{ "evaluation_results": { "accuracy_score": { "factual_accuracy": 9.5, "completeness": 9.0, "details": ["關鍵資訊完整", "補充資訊恰當"] }, "language_score": { "professionalism": 9.0, "readability": 9.5, "details": ["表述專業", "結構清晰"] }, "service_score": { "friendliness": 9.0, "empathy": 8.5, "details": ["態度友好", "服務主動"] } }, "total_score": 91.5, "improvement_suggestions": [ "可以增加保修政策的具體連結", "可以主動提供相關配件保養建議" ]}質量反饋機制:1. 短期改進建議- 具體表述最佳化- 專業度提升- 服務態度調整- 規範性完善2. 長期最佳化方向- 知識庫更新- 話術體系最佳化- 場景化升級- 個性化加強評估注意事項:1. 保持評估標準一致性2. 考慮場景特殊性3. 關注使用者體驗4. 注重實用性建議
問題回覆prompt
角色定義:作為電商行業的客服專家,您需要在嚴格的技術框架下處理複雜的業務場景,具備:- 精準的多維度資訊處理能力- 深度的電商領域專業知識- 嚴謹的業務規則執行能力- 靈活的場景應對能力- 完善的風控合規意識輸入結構:{    "user_query": {        "raw_text": string,        "query_type": string,        "business_category": string,        "priority_level": integer,        "user_segment": string    },    "user_context": {        "member_info": {            "level": string,            "points": number,            "tags": array,            "purchase_history": array        },        "current_session": {            "scenario_type": string,            "interaction_history": array        }    },    "business_data": {        "order_info": {            "order_details": object,            "payment_info": object,            "logistics_status": object,            "promotion_details": array        },        "product_info": {            "specifications": object,            "inventory_status": object,            "promotion_rules": array        },        "service_policies": {            "return_policy": object,            "warranty_terms": object,            "shipping_rules": object        }    }}處理流程 :1. 場景識別與分類Step 1: 業務場景判斷- 商品諮詢- 訂單管理- 物流配送- 退換貨服務- 賬戶會員Step 2: 複雜度評估- 單一業務場景- 跨場景組合- 特殊政策適用- 例外情況處理2. 資訊整合與分析Step 1: 使用者資訊解析- 會員身份識別- 權益等級確認- 歷史行為分析- 需求意圖理解Step 2: 業務資料處理- 訂單資訊核驗- 商品資料提取- 促銷規則解析- 政策條款匹配3. 規則執行與驗證Step 1: 業務規則校驗- 促銷規則適用性- 會員權益匹配度- 政策限制核查- 特殊情況確認Step 2: 安全合規檢查- 敏感資訊識別- 風險等級評估- 操作許可權驗證- 合規性稽核4. 響應生成與最佳化Step 1: 內容構建- 核心問題解答- 相關資訊補充- 操作指引說明- 溫馨提示準備Step 2: 質量最佳化- 專業性稽核- 完整性檢查- 準確性驗證- 友好度評估輸出結構 (Output Schema):{    "response": {        "main_content": {            "answer": string,            "instructions": array,            "suggestions": array        },        "additional_info": {            "related_policies": array,            "helpful_tips": array        }    },    "metadata": {        "business_scenario": string,        "applied_rules": array,        "risk_level": integer,        "processing_notes": object    }}業務場景示例:場景1:複雜訂單退款Input Context:{    "user_query": {        "raw_text": "拼團訂單不想要了能退嗎?",        "query_type": "refund_consultation",        "business_category": "order_management"    },    "business_data": {        "order_info": {            "order_type": "group_buy",            "payment_status": "paid",            "group_status": "in_progress"        }    }}Processing Steps:1. 識別訂單型別(拼團訂單)2. 檢查訂單狀態3. 應用拼團規則4. 確定退款方案5. 準備政策說明Response:{    "response": {        "main_content": {            "answer": "您好!看到您的訂單是正在進行中的拼團訂單。根據拼團規則,在拼團完成前可以申請全額退款。如果現在取消,將在1-3個工作日原路退回支付金額498元。",            "instructions": [                "點選訂單詳情頁的'申請退款'",                "選擇退款原因'拼團主動取消'",                "提交申請等待系統稽核"            ]        },        "additional_info": {            "related_policies": ["拼團訂單退款規則", "退款到賬說明"]        }    }}場景2:組合促銷諮詢Input Context:{    "user_query": {        "raw_text": "用會員券和滿減能一起嗎?",        "query_type": "promotion_inquiry",        "business_category": "pre_sale"    },    "user_context": {        "member_info": {            "level": "gold",            "available_coupons": ["member_discount_10%", "platform_100_off"]        }    }}Processing Steps:1. 檢查會員權益2. 驗證促銷規則3. 計算優惠方案4. 生成建議方案5. 準備補充說明Response:{    "response": {        "main_content": {            "answer": "您好!會員折扣券確實可以和平臺滿減活動疊加使用。以您當前購物車商品為例,建議先使用滿1000減100的平臺券,再疊加會員9折券,預計可以節省約200元。",            "suggestions": [                "下單時先選擇滿減券",                "再選擇會員折扣券",                "系統將自動計算最優惠金額"            ]        }    }}安全控制機制:1. 內容安全- 敏感資訊脫敏- 規避爭議表述- 隱私資訊保護- 合規用語檢查2. 業務安全- 許可權範圍控制- 規則衝突檢測- 異常場景識別- 升級機制觸發3. 系統安全- 資料一致性校驗- 操作合法性確認- 併發處理控制- 回滾機制保障特殊指令:1. 遇到跨場景複雜問題啟動多輪推理2. 處理異常訂單時執行額外驗證3. 遇到系統限制及時說明
思路:先構造回覆質量評估的agent,再構造智慧回覆agent,用前者對後者打分並不斷迭代提高分數。

1.4、專案展望

1、客服agent升級為任務agent:目前智慧解答使用者的疑問,後續希望升級為可以直接幫使用者解決問題完成任務的agent。
2、建立資料飛輪:根據線上轉人工的問題,提取人工回覆和模型回覆建立badcase庫,透過prompt調優、微調、知識庫等方式並不斷最佳化。
2.2、大模型在業務中切入點的思考
最後還想簡單聊聊怎麼在業務中尋找和大模型的結合點,主要是個人的一點感想和思考:

2.2.1、釘錘問題,到底用誰找誰 – 均可

以釘找錘:基於當前業務中現有的痛點和問題,嘗試用大模型的優勢實現和替代,是現有功能、流程的最佳化。
思路:
1、拆解日常工作流,識別人力耗費多的重複性工作環節。
2、從業務現狀出發,列舉業務中當前技術做不好的功能和環節。
3、從業務需求出發,抽象出對能力的要求,評估是否可用大模型實現。
舉錘尋釘:基於模型能力,思考和業務的結合點,往往是創新的場景和功能。
案例:
1、從世界知識和推理能力思考,可以對推薦系統做資料增強,比如特徵方面,可以基於使用者行為和物品特點用“常識”推理出偏好,而不僅是從類目頻次統計和item的embedding聚合來刻畫使用者偏好。還有在樣本糾偏和補充方面也可以做很多工作,都會有額外的資訊價值。
2、從多模態生成能力思考,可以智慧生成商品圖片和影片等,幫助使用者有更全面的感知,降低決策成本。
3、從對話問答能力思考,可以給使用者答疑解惑,比如智慧客服機器人。

2.2.2、怎麼在業務中用好大模型

大模型感覺用不好,主要是在於沒有很好地結合大模型能力,在工作流中找到合適的切入點。工作流中不同環節依賴能力不同,所有環節都給大模型做是不切實際的,但大機率有模型能力可以覆蓋的環節,這就是切入點。
所以在應用時,業務層面需要抽象拆清楚工作流,每個環節需要什麼能力。模型知識層面,需要瞭解模型具備哪些能力,以及透過哪些方式最佳化。最終結合業務和模型,找到適合切入點。
還有一點感想,在設計大模型的工作流時,大模型很多時候是替代“人”的角色,而不是程式碼的角色。基於程式碼思維的一些設計,很多時候是“委曲求全”,並沒有真正擬合人的能力和流程。從人是怎麼完成任務的角度來設計流程和方案,或許更適合大模型。最著名的就是馬斯克說:“人開車是不需要雷射雷達的”,從而推出了全視覺方案的自動駕駛。
小結:本節透過智慧客服的案例,回答了在業務中怎麼用大模型能力和落地流程的問題。最後針對釘錘問題的探討,回答了在業務中找大模型切入點的問題。
三、詳解大模型原理、prompt技巧和調優方法
本節是偏技術的內容,以流程圖的方式講解大模型的原理,不涉及公式推導,儘量簡潔易懂。並列舉了prompt技巧,以及調優的方法。
目標回答兩個問題:
1、prompt技巧有哪些,為什麼這些prompt能產生效果?
2、prompt應該怎麼最佳化,流程和思路是怎樣的?
3.1、從大模型原理角度介紹prompt技巧
prompt工程[6]:本質是透過調節輸入文字序列幫助模型在預訓練學到的巨大機率分佈空間中,尋找最優的輸出路徑
直觀化理解:prompt最佳化就像在語義空間中引導token貪吃蛇,朝著期望方向吃下一個個token,最終輸出符合任務要求的token序列。
1、視野聚焦(交代背景,刪減無關內容);2、提示注意關鍵點(強調);3、引導模型方向(cot、示例);4、約束模型方向(約束);
模型和任務是兩端,語言(prompt)是連結模型和任務的紐帶。
  • 任務角度,是背景和要求表述清楚,讓模型的輸出和人對齊標準
  • 語言角度,是表達精煉避免歧義和上下文矛盾。
  • 模型角度,是揚長避短,增強模型的能力,規避模型的幻覺問題[7]。
為了更好地理解prompt技巧,這裡將大模型的工作原理和prompt技巧關聯起來,希望能知其然的同時,也知其所以然。也嘗試提供一種框架,希望能在理解生效原理的基礎上,可以不斷創新擴充套件prompt技巧。
注:
1、從模型生效環節來列舉prompt技巧的框架,仍有侷限性,比如無法覆蓋擬人的prompt技巧,如“深呼吸”、“讚美”、“PUA”等;
2、表中prompt技巧和大模型的環節對應關係並非實驗論證,而更多是經驗和直覺的關聯。很多prompt技巧是橫跨多個環節生效的,比如“示例”是既在前饋層啟用任務相關知識,又在注意力層讓模型關注例子中的模式。這裡為了簡化理解,將技巧僅關聯到其中一個環節上(高畫質大圖見文末)
3.2、詳解prompt調優流程和方法
寫prompt有兩大流派:“隨心所欲”派和“循規蹈矩”派。前者特點是按自己的理解寫prompt,不侷限於模板和固定正規化,後者是按照模板一步步寫prompt,儘量全面但不缺失。
我覺得比較好的方式是有一定套路,但不照搬模板的“按圖索驥派”。
大模型目前很像“內力深厚”(理解世界知識)且懂得各類“武林秘籍”(知道各種prompt技巧),但不懂得實戰的潛在高手,prompt調優就像在逐步教會ta“實戰”,所以下面用偏武俠的風格介紹:
起勢(撰寫初版prompt):
知己知彼:充分理解任務的關鍵點,以及用到模型哪些能力,從而確定prompt重點。比如重點是業務經驗 + 推理能力,就需要先梳理業務經驗和流程,並透過cot和示例增強推理能力。
關於總結業務經驗和流程有個較為熟知的方法:假設有一名實習生,沒有業務背景,你需要提供哪些資訊,幫助ta完成任務。
還有一個方法是,你假裝自己是大模型,按任務要求輸出一次結果,然後從每個環節反推需要哪些資訊。既可以評估難度,也可以對落地的側重點有個預判。
對決( prompt調優):
1、排兵佈陣:在構建benchmark時,需要儘可能保證多樣性,能夠充分覆蓋業務實際的各種場景。避免評測集多樣性差,導致未覆蓋場景的準確率不足。
2、投石問路:執行初版prompt驗證模型能力是否滿足任務要求。標誌:模型是否能夠正確理解要求,模型的推理方向是否準確。
3、洞若觀火:檢視大模型不符合指令或者幻覺的結果,人工分析原因。比如背景資訊不全,模型理解偏差,格式不符合約束,數值對比幻覺等等。
4、步步緊逼:人工不易看出問題時,可以讓大模型先不要給出結果,只產出分析過程,便於看出模型的理解哪裡有偏差。
5、攻守易位:讓大模型按自己的理解來複述要求,並構造例子展示prompt結果,使問題點充分暴露
6、借力打力:將prompt和模型錯誤結果都輸入給大模型,讓大模型分析出錯原因,並給出最佳化建議。如果業務中只能用開源模型或小模型,還可以讓大模型糾錯和最佳化prompt,然後再用到小模型上。
7、見招拆招:找到問題點後,結合列舉的prompt技巧進行最佳化。比如補充業務經驗引導,透過示例對齊標準和強化推理,多次強調加強約束,補充小數提示解決數值對比出錯等
8、步步為營:prompt任何變動都儘量測試準確率,包括但不限於:只改語序未改語義,改變輸出格式,調整示例及順序,更換基座模型等
9、以退為進:如果prompt中的某些步驟,透過大模型很難解決,思考是否可以透過程式碼或者工具來解決,而不是和大模型死磕。比如數學運算透過使用計算器解決。
10、嚴防死守:大模型是基於機率而不像程式碼是基於邏輯的,因此不可避免會出錯,需要有檢查修正節點,尤其模型輸出直接暴露給C端的場景。以及如果使用者可透過自定義的prompt直接和大模型互動,需要考慮提示注入防護,避免使用者誘騙大模型輸出不當言論和內容。
11、審時度勢:如果發現模型較難對齊標準,可以考慮將一部分業務經驗轉化為強規則讓大模型執行,不追求完美主義。如果基本用盡以上最佳化方法和提示詞技巧,模型表現還是不足,可以考慮放棄,等待基座模型能力提升。
科技狠活:輸出每個token的依據即啟用的神經元[10],輔助判斷問題出在哪裡。比如“9.11和9.9比大小”的典型幻覺問題中,可以發現大模型錯誤激活了恐怖襲擊相關的神經元。
工具連結:https://monitor.transluce.org/dashboard/chat
小技巧:
基於cot和大模型生成示例:當思維鏈較長,導致不易構造示例時,可以先寫好cot,在真實case上跑一下,挑選符合要求的大模型輸出結果當作示例。
除了以上列舉的人工調優技巧外,prompt自動調優技術在學術界也有比較多的探索,包括基於梯度[11]、搜尋[12]、強化學習[13]、元學習[14]等不同流派,這部分實踐較少,後續會有相應探索,這裡不做展開,感興趣的讀者可以自行了解~
FAQ:
Q:prompt是否越簡練越好?
A:從成本角度是越簡練越好,但從效果角度,如果增加的是任務相關的資訊,反而有可能提升效果,比如重複強調的技巧。
Q:cot是否拆成多個節點的請求,每個請求只處理其中一個環節效果更好?
A:多節點的效果似乎並不比單次請求更好,而且可能存在上下文丟失的問題。除非是任務複雜到單次無法輸出完整,必須拆分成多個節點,否則都建議在一次請求中完成。
Q:使用大模型最佳化prompt是否效果更好?
A:通常情況下,大模型最佳化prompt效果都會更好或壓縮字數,但如果prompt中存在較多業務經驗的總結,比如表述特徵或推理流程時,模型因為缺少業務背景知識,可能會將這部分資訊簡化而影響效果。
四、總結&建議
4.1、總結回顧
本文從大模型能力和應用場景開始,從向量空間角度介紹了大模型處理不同任務的能力和難度。也將模型的應用場景劃分為了四個象限(通用/垂直和資訊/任務),每個象限分別介紹了最佳化的側重點。主要是提供一種評估思路,支援模型在業務應用的前期評估
第二部分結合案例介紹落地經驗,包括前期評估、工作流拆解、落地流程和最佳化經驗,也探討了在現有業務中找到大模型結合點的問題,並基於實踐經驗提出一些思考和觀點,希望能為大家提供借鑑和參考的價值。
第三部分是相對技術向的內容,主要介紹prompt技巧和最佳化思路,首先結合模型工作原理和prompt技巧進行了整體講解,希望能知其然也知其所以然,可以在這個框架下嘗試新的prompt技巧,也介紹了在已知技巧的基礎上,在業務落地時調優prompt的流程和方法。希望為大家提供一個地圖,幫大家遇到問題時“按圖索驥”
4.2、忠告及建議
1、大模型發展日新月異,能力在不斷提升。意味著需要與時俱進,持續更新提示詞。例如,在OpenAI的o1模型中,思維鏈技巧的效果不佳,角色扮演技巧的有效性目前也存在爭議。
2、不要對大模型的使用發怵,其實並不複雜,大模型本質是基於自然語言處理的,是人機互動中很自然的方式。最簡單的方法就是直接在對話方塊中寫下你的需求,剩下的交給大模型。關鍵在於多加嘗試,觀察結果並分析問題,實踐中學習能夠達到最佳效果。大模型的優勢在於它能夠支援實踐-學習-最佳化的迴圈。當遇到問題時,可以詢問模型原因和解決方案,理解後再改進提示,整個過程甚至無需離開對話方塊。
3、要在業務中應用大模型,業務經驗以及prompt技巧和模型理解都很重要,業務和演算法都需要補齊各自短板,打好配合。業務知識和經驗是隱式的,往往需要case by case的學習和理解,慢慢浸泡才能有所理解和積累。但是技術知識和原理是顯式的,可以透過閱讀文章快速入門,再輔以實踐來鞏固。ps:不要排斥論文,有大模型不管是翻譯還是總結,都大大簡化了閱讀論文的難度,是既能開闊全域性視野,又能跟上前沿創新的很好資訊源。
誤區:
1、對大模型的一種誤區是過於輕視,簡單嘗試幾次就放棄,認為大模型能力達不到業務要求,實際很可能是因為沒有寫好prompt而沒用好大模型。
2、 對大模型的另一種誤區將其神化,對其抱有不合理的期待。大模型也有其固有的劣勢,比如基於機率帶來的精確性問題,計算延遲和高昂成本等,並不是所有的應用都值得用大模型重做一遍,哪怕是傳統的模型也有自己的優勢,關鍵是找到大模型適合發揮的場景,而不是揮著大模型的錘子,硬砸所有釘子。
五、未來展望
5.1、大模型長期趨勢
  1. 智慧度持續提升,完成任務和多模態的能力增強
  2. 推理成本下降,輕量級模型效能提升

[15]

  1. 基座模型能力增強,潛在應用場景增加,應用層價值增厚(網際網路是倒三角的收入結構,但生成式AI是金字塔結構)

[16]

5.2、價值鏈重塑
  1. 入口遷移:網際網路平臺主要價值在於“數字化供給”和“連結使用者”,大模型在這兩方面都能發揮作用,從而增加平臺價值。但大模型獨有的語義理解+工具使用能力,可能改變使用者和平臺互動方式。使用者開始能夠對終端裝置發出指令,終端來和平臺互動完成任務。這會導致使用者和平臺的互動次數減少流量也從泛需求為主變得更為聚焦,影響到平臺的流量池和分佈,進而對廣告為主的商業模式造成影響
  2. 潛在機會:大模型可以加強使用者被動的連結模式,當前主流的連結模式都是使用者主動觸發的,但某些場景更適合使用者被動的連結。特點是使用者需求相對固定,但空閒時間不固定,和供給高時效的場景,此時大模型可以作為代理的角色,決策是否主動推送給使用者決策,現有典型場景是rss訂閱、特價機票訂閱、活動推送等。
5.3、商業化挑戰
  1. 高算力成本挑戰傳統商業模式:短期內大模型單次請求的算力成本仍較高,目前是網際網路搜尋的單次請求成本的10倍以上(來源於谷歌ceo的採訪)。而邊際成本的劇增,既可能顛覆免費+廣告模式的底層邏輯,也對網路效應形成挑戰(新增使用者的邊際成本遞減,但網路價值平方級提升)。

[17]

  1. 盈利模式設計變得更為關鍵:同樣基於算力成本的增加,先燒錢再探索盈利模型的難度激增,早期的盈利模式設計更為重要
5.4、潛在應用方向
  1. C端應用:預計更多現有產品會推出大模型相關的高階付費功能
  2. B端市場:B端降本增效可能是更高價值場景,如程式設計助手cursor、設計工具Adobe Firefly,以及部分重複工作的自動化
  3. 智慧硬體:多模態與輕量化趨勢帶來硬體層機會(如智慧眼鏡、耳機等)
附件:
圖1:
圖2:

圖3:

參考文獻

[1] Mikolov T, Sutskever I, Chen K, Corrado G, Dean J. Distributed Representations of Words and Phrases and their Compositionality[J]. arXiv preprint arXiv:1310.4546, 2013
[2] Brown T B, Mann B, Ryder N, et al. Language Models are Few-Shot Learners[J]. arXiv preprint arXiv:2005.14165, 2020.
[3] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.
[4] Schick T, Dwivedi-Yu J, Dessì R, et al. Toolformer: Language Models Can Teach Themselves to Use Tools[J]. arXiv preprint arXiv:2302.04761, 2023.
[5] Anthropic:https://www.anthropic.com/news/3-5-models-and-computer-use
[6] Liu P, Yuan W, Fu J, et al. Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm[J]. arXiv preprint arXiv:2302.11382, 2023.
[7] Liu Y, Peng S, Shen Y, et al. A Survey of Hallucination in Large Language Models[J]. arXiv preprint arXiv:2305.10724, 2023.
[8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[9] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
[10] Transluce: https://transluce.org/observability-interface
[11] Lester, B., Al-Rfou, R., & Constant, N. The Power of Scale for Parameter-Efficient Prompt Tuning. arXiv preprint arXiv:2104.08691.
[12] Shin, T., Rishi, R., Dodge, J., & Van Durme, B. AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts. arXiv preprint arXiv:2010.15980.
[13] Reynolds, L., & McDonell, K. (2021). Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm. arXiv preprint arXiv:2102.07350.
[14] Sun, C., Qiu, X., & Huang, X. (2021). Meta-Prompting for Simple and Effective Task-Agnostic Prompt Optimization. arXiv preprint arXiv:2106.08712.
[15] Welcome to LLMflation – LLM inference cost is going down fast:https://a16z.com/llmflation-llm-inference-cost/
[16] The Economics of Generative AI: https://apoorv03.com/p/the-economics-of-generative-ai
[17] Rizzatti, L. (2023, October 30). Parsing the mindboggling cost of ownership of generative AI. EE Times. Retrieved December 19, 2023 https://www.eetimes.com/parsing-the-mindboggling-cost-of-ownership-of-generative-ai/
兩地三中心異地多活網路
基於阿里雲洛神網路全球基礎設施及雲原生SDN技術,幫助企業客戶在雲上快速構建兩地三中心跨域多活網路,保障企業核心業務在全球多地域的高品質互聯。   
點選閱讀原文檢視詳情。

相關文章