揭秘大模型評測:如何用“說明書”式方法實現業務場景下的精準評估

阿里妹導讀
本文旨在系統性地介紹如何在實際業務場景中開展大模型評測工作,幫助讀者理解並掌握從需求分析、評測集設計與生成、評測維度設定、評測任務執行到評測報告輸出的完整流程。
概述
背景
首先介紹下為什麼要寫這篇文章。雖然網上有非常多的大模型評測相關的文章,但是就像看成功人士傳記一樣,看到別人的成功案例並不意味著自己也知道應該如何一步步地實現目標。市面上有非常多的評測平臺,但是每個平臺都不會告訴我們“上傳評測集”、“新增評測維度”所涉及的評測集和評測維度是怎麼生成的。所以我想透過這篇文件,讓大家可以透過按“使用說明書”的方法執行就可以實現自己業務場景下的大模型評測。
本文內容力求嚴謹,但也可能存在主觀判斷、不完整甚至錯誤的問題。
定義
我們也約定下大模型評測的範圍。大模型評測的目標是透過設計合理的測試任務和資料集來對大模型的能力進行全面、量化的評估。本文主要聚焦對大模型業務效果方面的評測,不包含大模型的效能測試。效能測試透過壓測實現。
區別於基礎模型的Benchmark(基準測試),本文更加聚焦在針對具體業務場景下大模型的效果。在基礎模型釋出時,模型廠商提供的測試報告無法覆蓋使用者實際業務場景。使用者需要透過針對自己業務場景設計的評測來評估大模型的實際表現。同時大模型評測除了針對模型本身,也可以面向整個模型應用進行評測,覆蓋RAG、MCP、工作流等構成的統一整體進行端到端的測試。
場景
大模型評測在模型應用中的作用,類似於功能測試在業務應用中的作用——兩者均是確保系統或大模型在實際部署前達到預期效能與可靠性的關鍵驗證環節。以下是幾種典型的評測場景:
  • 大模型上線在大模型應用上線前,透過評測瞭解大模型的能力,判斷大模型應用是否具備上線條件。
  • 大模型升級切換因為需要切換模型廠商、更換模型尺寸、模型微調或模型版本升級等原因,使用者需要透過評測對新舊模型的效果進行比對,從而決策是否進行切換。
  • 大模型最佳化透過評測發現的bad case,持續提升大模型效果。透過分析bad case的原因,可以進行諸如最佳化知識庫、最佳化提示詞、最佳化工作流、引入或最佳化MCP以及對模型進行微調等方式最佳化效果。
挑戰

大模型評測相關工具平臺隨著各大模型平臺商的持續投入以及開源社群的火爆,相關功能也在持續完善,目前已經不是主要的困難點。目前的主要困難更多聚焦在如何結合自己的業務場景開展大模型評測。

  • 評測維度評測維度如何設計才能更好的衡量大模型效果,並推動大模型最佳化?
  • 評測集如何設計評測集才能更好地模擬實際的線上場景。如何平衡不同場景的比例失衡的問題,確保不同場景的覆蓋?
  • 標註標註人員質量參差不齊,不同人對標準的理解不一致。同一個人不同時間標註,也會導致結果不同,最終導致標註準確性穩定性差。除了標註效果外,人工標註非常耗時且需要投入額外的人工成本,導致無法開展大規模評測。
  • 業務變化隨著技術方案和業務場景的變化,大模型本身也在持續迭代演進。不同大模型特點不同,評測標準和評測集的構成也各不相同。
大模型評測方法
評測流程
大模型評測流程,整體可以分為4個階段共9個動作。前7個為模型評測本身的動作,以輸出評測報告為目標。後續2個動作為透過持續最佳化模型與模型評測本身,以達到最後的模型上線切換等目標。

需求分析
透過需求分析瞭解關鍵資訊,作為後續設計的依據。以下是一些典型的問題。
業務場景
  • 大模型被使用在什麼業務裡?
  • 這個業務都有哪些業務流程,大模型在其中哪個流程中,起到什麼樣的作用?
  • 在這個業務場景裡,大模型的使用者是誰。是否包含C端使用者。
  • 使用者使用大模型需要解決什麼問題。使用者會提供什麼資訊,並期望大模型輸出什麼?
  • 目前大模型是否已經投產了?還是處於測試階段?
評測物件
  • 我們要評測的物件是模型(基礎模型/微調模型),還是大模型應用。
  • 物件=基礎模型:具體的模型名稱,是否是經過微調。
  • 物件=模型應用:請提供大模型的技術架構。
  • 如果是基於百鍊呼叫,請提供測試賬號方便了解技術細節。
  • 是需要對單一大模型物件進行評測,還是需要和其他的大模型進行比較評測結果。如果是需要比較的話,對比物件是什麼?
評測集
  • 使用者最常見的使用大模型都會分哪幾種場景,這些場景的呼叫量分佈是怎麼樣的?
  • 每個場景裡大模型的輸入輸出是怎麼樣的,請分別提供一些示例。
  • 本次評測的目標是什麼?是希望評估模型對實際場景的業務效果,還是需要評測特定子場景的效果,或是希望能對歷史bad case做迴歸?
評價維度
  • 如何判斷大模型效果好不好?業務人員會關注哪些維度?
  • 針對其中的每個維度,是如何評估的,是定性的對錯,還是有打分的機制。如果是打分,分別打幾分。每個檔次之間的評分標準是什麼。
  • 對於多維度的評價,是否可以透過一個公式(比如透過加權)將結果量化成一個數字,還是必須每個維度分別分析?
模型效果
  • 前大模型的實際效果表現如何?這些效果評估是來自哪裡?是感性的反饋還是有數字支撐。
  • 當前系統如何收集使用者的bad case,是否有日誌可以分析?
  • 當前都有哪些原因可能導致bad case,都是什麼樣的原因?
  • 是否分析過bad case,都是哪些原因導致結果不滿意,分佈如何。
技術實現
  • 企業內部是否有評測平臺,還是計劃使用百鍊進行評測?
  • 是否有人工評測團隊,還是希望透過“AI評測器”(指透過大模型進行評測)或“自動化指標”自動完成評分(自動化指標僅適用於文字分類等客觀性任務)?
  • 自動評測:自動對於推理完成的時效性是否有要求,是否可以接受離線的推理方式?使用這種方式的模型不執行線上推理,因此可以顯著降低推理成本。
評測集設計與生成

基於評測目標確認資料來源

大模型的評測集根據評測目的最常見的有以下三種:
  • 端到端評測集:
    • 實際場景效果:為了實現實際場景效果評估的目標,需要選擇評測集儘量接近選擇實際線上資料。這裡典型的有兩種方法。一種是選擇歷史某天的歷史記錄。另外一種是選擇接入線上流量進行“雙跑”,僅僅是結果只做記錄分析但是不輸出給線上環境。區別在於接入歷史資料更方便做分析統計,“雙跑”方案方便後續做灰度以及切換。
    • 特定子場景效果:為了實現特定子場景的評估目標,需要定義特定場景並設計對應的評測集。比如讓大模型做小學生數學題,五年級的題目、奧數題、壓軸題就是其中的一個子場景。從具體的需求出發,選擇整體的評測集中的子集。
  • 分層評測集
    • bad case迴歸:使用線上問題中的使用者的負面反饋,或者在測試、質檢等環節形成的案例,經過標註形成Bad Case作為評測集。目的是為了驗證最佳化工作對bad case的最佳化效果。
    • 功能模組評測比如評測模型應用中的意圖識別模組的準確率、知識庫部分的召回準確率等。透過評測識別各功能的效果方便後續進一步最佳化。這種情況下可以針對評測物件的各種功能針對性設計評測集。
  • 安全評測集:專注於科技倫理、資料安全和內容安全的各項指標,確保模型滿足安全合規要求。建議由安全或風控團隊提供。

確認評測集場景範圍

確認評測集場景範圍的原因主要是為了保證測試內容的完整性,避免測試內容遺漏。評測集場景的梳理方式主要有以下方式結合分析:
  • 結合業務場景分析從業務場景出發來設計評測場景是最基本的做法。大模型在不同場景下可能有不同的表現,模型評測需要覆蓋不同業務以獲得完整的評測結果。假設阿里雲售後支援大模型可以在提供雲產品異常問題診斷的能力的同時,也提供協助售後支援小二回答服務流程規範、服務排班的問題。實際評測的時候就不能遺漏對應的功能。而且應用服務異常診斷也需要針對不同雲產品的故障診斷能力準備評測集。
  • 結合技術架構分析不同的業務場景下可能在技術實現上會有不同。比如透過意圖識別針對不同的情況走不同的技術鏈路的,可能是不同的場景。或者使用了不同的元件、MCP或知識庫,或者有不同的工作流的,很可能是不同的場景。

確認評測集數量

對於來自線上請求“雙跑”的線上資料集和離線資料集,採用不同的數量規劃方式:
  • 線上評測集需要考慮“雙跑”持續的時間。雙跑的時間取決於業務人員覺得多久足夠證明業務效果。一方面考慮評測集樣本數量;另外一方面考慮是否覆蓋業務週期(比如是否覆蓋常態和大促態、覆蓋工作日和週末等)。一般建議可以評測3-7天。為了更準確評估,可以提前統計單日的呼叫量。
  • 離線評測集離線資料集的數量主要考慮場景覆蓋度樣本數量足夠以及與成本效能的均衡。場景覆蓋度需要不存在某個場景沒有評測集樣本的情況。樣本數量足夠包括總體樣本數量足夠,也包括各評測場景的樣本也需要有足夠的樣本數量。成本效能的均衡主要考慮樣本數量不能太大,以免評測需要消耗過多的時間、人力和算力成本。為了更準確評估,可以提前統計單日的總呼叫量及分場景的數量。
這裡有個難點:如何解決各場景樣本數量分佈不均衡的問題比如假設某質檢場景裡差評投訴的案例只佔全部案例的1%,那如果完全按照實際請求生成評測集,可能導致差評佔比偏少。而如果提升差評樣本數量又會導致整體樣本失真。
一般的解決方法有:
  • 增加樣本數量透過提升樣本數量(即增加時間範圍)來獲得更多負樣本。
    • 適用場景:評測目標是為了實現“以XX日到XX日實際案例評測結果”,評測集需要儘可能接近真實資料。
    • 注意事項:無法實際規避樣本分佈不均衡的問題,只是透過提升總體樣本數量來確保小場景有最低數量的樣本。而且過度的增加樣本會導致大場景的樣本過多浪費資源。此外需要關注某段時間範圍是否已覆蓋所有場景(比如要考慮業務場景下工作日和週末是否存在不同),而不是單純只考慮數量。這不是一個特別好的方法,只是在特定場景下約束下的選擇。
  • 調整權重比例比如每個場景按需要生成足夠數量的樣本進行評測,分場景計算平均分,分析各個場景的模型表現。
    • 適用場景:需要用數字量化總體效果,但是又存在樣本分佈不均勻的情況。
  • 調整損失函式引入諸如召回率、F1分數等指標,選擇更加符合業務需求的指標。
    • 適用場景:在樣本分佈不均衡時關注小場景的效果。另外小樣本數量過小時資料也可能失真。

評測集初稿生成

線上評測集只需要接入線上資料接入,生成方式主要指離線資料集。生成方式主要有
  • 歷史請求透過解析一段時間內的歷史訪問日誌等方式,獲得歷史訪問請求。
    • 優點接近真實資料,樣本數量充足。
    • 缺點資料可能同質化嚴重。特定日期/業務場景等無法控制。不支援冷啟動。
  • bad case日誌需要模型輸出給使用者使用時,收集使用者的反饋。比較典型的做法是在模型輸出時讓使用者反饋。如果使用者點踩,可以進行分析後納入bad case案例庫。
    • 優點在有埋點時獲取難度接近歷史請求。
    • 缺點主要適用於問題迴歸場景,需要對使用者反饋做埋點。不支援冷啟動。

  • 人工生成:人工生成評測集在有專家經驗輸入的情況下可能可以獲得比較好的效果,但是缺點在於成本過高,一般無法獲得特別多的評測集樣本。
    • 優點資料質量高,可以考慮到多種異常場景。支援無使用者使用下的冷啟動。
    • 缺點耗費人力,對人員的要求高。無法進行高頻率更新。
  • 歷史請求+人工調整:透過對特定問題進行調整,比如減少簡單問題的比例甚至直接過濾,針對bad case做重點補充等。
    • 優點:重點問題突出。
    • 缺點:破壞了線上的比例,無法透過評測集的測試效果驗證推出線上效果。
  • 大模型自動生成在冷啟動場景裡,可能無法足夠的線上真實案例作為評測集,除了人工去造之外,透過大模型自動生成評測集也是比較好的做法。
    • 優點樣本數量充足。在沒有線上實際使用時冷啟動方便。
    • 缺點效果最差,需要人工篩選,並且需要基於效果不好的部分最佳化生成提示詞。
  • 人工生成+大模型自動生成在實際的冷啟動場景裡,為了能同時保障評測集的質量和數量,一般的做法是由人工生成一部分評測集後,以few-shot的方式作為prompt的一部分,進行大模型自動生成。

評測集最佳化

當完成評測集後,可以根據需要進行一些最佳化。這裡列出主幾個常見的方面:
  • 資料安全脫敏針對評測集裡有涉及資料安全資訊時,根據需要進行脫敏。如使用者的個人身份敏感資訊,公司內部諸如金鑰資訊等內部資料,都需要根據公司的要求進行處理。
  • 資料集分佈不合理比如生成的評測集正負樣本比例、各場景樣本分佈等不符合評測集的預定設計,則需要透過刪除過多的樣本或補充缺少場景的樣本的方式進行調整。
  • 持續迭代最佳化評測集需要結合實際的業務場景持續最佳化迭代的。基於過程中的bad case持續最佳化評測集,透過刪除過程中發現的低質量的評測集樣本,補充優質樣本,或對業務的新增場景以及評測集數量比較少的小場景補充樣本等方式,持續完善評測集。需要注意的是,如果是透過大模型自動生成的評測集,則不只是最佳化評測集,也需要根據不合理的部分最佳化提示詞,以生成更高質量的評測集。

案例參考

螞蟻集團:螞蟻金服 FinEva金融評測集
螞蟻集團、上海財經大學聯合推出金融評測集Fin-Eva Version 1.0。根據對金融業務大模型的使用場景的拆分,分金融認知、金融知識、金融邏輯、內容生成以及安全合規五大類場景33個子場景共設計了上萬個評測用例。
詳細可以參考Github:https://github.com/alipay/financial_evaluation_dataset/tree/main

評測集生成:集團某業務使用人工造數結合大模型生成高質量評測集
該業務透過使用大模型去託管電銷BD做自動回覆和流程流轉,實現讓商家報名活動流程的自動化,提升活動的覆蓋度。在該場景中,大模型先進行意圖識別,驅動北極星任務的流轉。針對回答不相關、要求轉人工、同意開通、有意向/不明確等不同的情況,使用不同的策略進行推進。
由於商家和BD的聊天內容多種多樣,場景無法窮舉,意圖識別的準確率和回覆商家的話術,又直接影響到銷售的效果。從質量的角度,如何全面地評測“AI銷售模型”的能力水位,如何評測AI銷售的準確率和話術體驗,如何透過評測去挖掘異常場景和能力缺失點,從而反哺演算法提升,都有一定的挑戰。因此需要一個能“看得見”、“看得清”、“可持續”的評測方式,對AI銷售進行持續全面的評估。
採用人工造數+大模型生成的方式,不僅實現了評測集的冷啟動,同時又保障了評測集數量和質量的雙重要求:
1. 人工造數。透過產運技提供了若干條資料,覆蓋所有意圖;
2. 大模型生成,使用LLM+Few-shot做補充,每個意圖寫單獨的prompt,準確率更高。
評測維度設計

設計方法

評測維度用於評價模型輸出的效果,涉及三個設計點:
  • 模型是否有統一的評價維度,還是需要從多個維度去判斷模型的能力。
  • 對於具體的某個維度,分幾檔(量級)。
  • 每個量級的定義,以及區分不同量級的標準。
具體的評測維度是根據業務人員對模型期望達到的效果來設計的。
  • 對於選擇題或判斷題,業務人員的期望就是“選得準”。那一般可以設計維度數量=1,評測量級=2,分別為正確和錯誤。
  • 對於生成類場景,由於沒有標準答案,需要業務人員根據場景設計評測維度。比如翻譯場景,“信、達、雅”是最經典的三個標準。
最後要提到的是,業務人員可能也無法一次性給出最準確的評測維度,可能需要結合實際的bad case去最佳化。對於某些業務人員或使用者覺得生成效果不好的案例,如果根據現有的評測維度給出的評價是正向的,那就需要尋找原因調整評價維度。舉個例子,比如在“AI試衣”場景裡,我們預先定義了“清晰度與解析度”、“色彩準確性”、“人體與服飾的自然融合”、“姿勢與角度匹配”、“光影與背景一致性”共5個評測維度。但是實際消費者使用時反饋部分場景的bad case在評測時給出好的評價。瞭解分析後發現消費者表示“我的體型穿這種衣服根本不是這個效果”。那基於消費者的這個反饋,我們就需要增加評測維度“人體比例與體型適配”。

模型效果量化

在完成分維度的設計後有一個最終的問題是,如何將各個維度的效果彙總成模型的整體效果的度量,從而評估模型是變好還是變壞,是否達到了上線等後續動作的標準。不同維度的優先順序是不同的,安全類、客戶投訴類一般都高於其他的業務指標。
透過權重調整各個維度的重要性,最終透過加權後的得分來量化模型的最終效果,是一種相對比較簡單的實現方案。對於總分,透過加權

計算總體效果。其中n表示場景數量,

表示某個場景的平均分,

表示該場景樣本的權重,可以設定為該場景樣本的佔比,也可以都是1,或者業務人員根據業務需求設定。

評測任務設計與執行

評測配置設計

對於模型評測,在開始具體的評測動作前,還有一些評測設定需要確定:
  • 評測方式
    • 人工評測透過人員手工評測的方式進行評測。一般用於評測集數量較少或評測準確性要求較高或者不具備自動評測條件的場景。
    • 自動評測自動評測分AI評測和自動化評測,可以極大提升評測效率。其中AI評測為使用大模型進行評測的方式。自動化評測適用於文字分類等客觀性任務,透過自動計算BLEU、Rouge、F1等自動化指標評估模型效果。
    • 基線評測針對基礎模型的評測,使用基線評測集進行測試。
  • 評測型別單個評測VS對比評測。評測物件只有1個模型還是多個模型。

AI評測

針對模型評測,可以使用大模型進行評測以提升效率。這裡以百鍊為例介紹如何進行AI評測。其他產品原理也是一致。AI評測的關鍵點在於評測Prompt的編寫。
為了獲得比較好的評測效果,百鍊固定了Prompt框架,讓使用者按框架補充場景定義評測維度(評分標準、評分檔位、最大得分)
完整的百鍊的Pormpt如下
你的任務是對AI智慧助手回覆進行質量評分。你非常清晰地認識到當用戶提出一個關於【${scene}】場景的指令時(該場景的定義為:${scene_desc}),一個AI智慧助手的回覆應當符合以下標準(按標準重要性程度從高到低依次給出):[標準開始]${metric}[標準結束]評分採取${max_score}檔制(1-${max_score}),各分數檔位含義如下:[檔位含義開始]${score_desc}[檔位含義結束]針對使用者指令,我們蒐集到一個AI智慧助手的如下回復。請根據你所知的當前場景下智慧助手的回覆標準,綜合評估該回復並提供評價。以下是使用者指令和助手回覆資料:[資料開始] ***[使用者指令]: ${question}***[回覆]: ${answer}***[參考答案]: ${ref_answer}***[資料結束]你需要按照以下流程評估以上回復:${steps}仔細思考一會,然後給出你的結論。你返回的模版如下,注意輸出需保留模版中的'[['']]'***我認為該回復的綜合評分為[[一個1-${max_score}之間的評分]],理由如下。當前回覆的優點:1.(請依次列舉你認為當前回覆做得好的點,每個點同時給出[[一個1-${max_score}之間的評分]]...)當前回覆的不足:1.(請依次列舉你認為當前回覆欠缺的點,每個點同時給出[[一個1-${max_score}之間的評分]]...)***

案例參考

集團某業務自動化評測
該業務在每個月/每次重要實驗後需要從搜尋曝光日誌中抽取數萬條記錄進行評測,日誌包含曝光的品、店以及對應的query,評測規則較為簡單,眾包對query和品店評分0、1、2,代表相關程度,2分(完全相關)、1分(部分相關、可以接受)、0分(不相關),透過對比實驗桶和測試桶評測結果統計相關性效果。
階段一:使用通用模型,使用few-shot的方式讓prompt理解
你現在的角色是XX領域的相關性打分模型,主要功能是判斷使用者搜尋的關鍵詞和商戶名稱或商品名稱之間是否具有相關性,我會給你任務和要求,請按要求返回結果。任務: 第一步:XXX第二步:XXX要求:1.按照以下格式輸出回答,不要回答其他內容,輸出格式: XXX2.一共只有三個得分選項即2分、1分、0分,不要給出其他的得分。3.我會給出具體的打分規則並給出對應的例子,給出的規則順序不代表最終得分的權重,請參考完所有例子並仔細理解後給出答案,打分規則和示例如下:(1)對於商品名或商戶名和關鍵詞完全一致且意圖也完全一致的,得2分例如:XXXX(2)對於商品名或商戶名包含部分關鍵詞,但意圖完全一致的,得2分例如:XXXX
階段二:基於微調後的模型進行自動評測
基於Qwen大模型模型,透過使用歷史人工評測資料不斷的微調後,新模型在搜尋相關性評測領域的理解能力已經超過通用模型。
你現在的角色是XX領域的query-shop相關性打分模型。query:XXshop_name:XX店打分規則:0分:query與shop_name不相關。1分:query與shop_name弱相關。2分:query與shop_name強相關。……query和shop之間的相關性分數是少?
評測報告

評測資料分析

百鍊等評測平臺會提供基礎的評測結果展示的功能。為了提供通用能力,評測平臺一般無法滿足業務人員對於評測報告的要求,透過柱狀圖、表格等方式提供評測結果的展示和分析。

評測報告編寫

評測報告是評測人員輸出,便於後續決策(如判斷是否具備上線切換條件等)使用的報告,所以需要根據閱讀人員的習慣按格式輸出。以下是一些案例:
集團某業務qwen-max評測
評測環境
1. 目前Qwen-max在xx環境中進行灰度測試,灰度比例15%。
2. xx環境目前主要是xx和xx業務使用。
評測結果
具體評測維度和分數如下表所示:

結論
1. Qwen-max整體評分超過XX模型,但在NL2SQL、程式碼編寫、上下文理解和數學計算方面還是有差距。
2. 對比老版本Qwen-max,整體評分有較大提升。
  • 增強項:NL2Frame、NL2SQL、上下文理解、摘要總結、CoT、謎題解惑、數學和工具
  • 減弱項:程式碼編寫
後續動作
輸出評測報告後,評測的部分已經完成了。基於評測報告的結果以及評測過程中發現的問題,後續的動作有:
  • 評測方案最佳化
    • 持續最佳化評測集
    • 最佳化評測維度
    • 最佳化AI評測Prompt
  • bad case最佳化
  • 決策模型上線或者切換
向量檢索與通義千問搭建專屬問答服務
本方案介紹如何使用向量檢索服務(DashVector)結合通義千問大模型來打造基於垂直領域專屬知識等問答服務。    
點選閱讀原文檢視詳情。

相關文章