VIS2024最佳論文|VisEval：推動自然語言生成視覺化的全新評估框架

（本文閱讀時間：8分鐘）

編者按：隨著人工智慧技術的快速發展，資料視覺化日漸高效、智慧。但自動化生成的圖表是否可靠，成為了亟待解決的問題。微軟亞洲研究院提出了 VisEval 評估框架，為這一挑戰提供瞭解決方案，並因此榮獲全球視覺化領域頂尖的學術會議 IEEE VIS 2024 的最佳論文獎。透過高質量的資料集和可靠的自動化評估方法，VisEval 為資料視覺化的未來發展提供了堅實的基礎，助力資料視覺化技術向更智慧、更便捷的方向發展。

在如今這個資料驅動的時代，資料視覺化已成為展示資料內在資訊的重要工具之一。想象一下，若只需一句簡單的指令，複雜的資料便能“化繁為簡”，呈現為直觀、易於理解的圖表，那麼既可以減輕分析資料的壓力，也讓資料的交流與傳遞變得更為輕鬆有趣。近期，得益於大語言模型（LLMs）的突破性進展，自動化資料視覺化生成的夢想逐步實現。然而，潛在的問題也隨之而來：由 LLMs 生成的視覺化圖表，真的可靠嗎？它們是否能遵循資料視覺化的最佳實踐？

為了有效應對這些挑戰，微軟亞洲研究院推出了一套全新的評估框架——VisEval，為資料視覺化生成提供了更全面、更科學的評估機制。VisEval 不僅構建了一個高質量、覆蓋廣泛的視覺化資料集，還透過多維度的評估機制，從生成程式碼的有效性到圖表的契合性、可讀性進行了全面審查。相關論文已被全球視覺化領域頂尖的學術會議 IEEE VIS 2024 評選為最佳論文。

論文連結：

https://arxiv.org/abs/2407.00981

GitHub 連結：

https://github.com/microsoft/VisEval

資料視覺化的智慧邊界

用大模型生成視覺化的過程通常包括：將使用者的查詢（query）和資料整合到提示詞（prompt）中，然後使用諸如 Matplotlib 或 Seaborn 等視覺化庫生成程式碼，最終在沙盒環境中執行這些程式碼以生成圖表。雖然這個過程聽起來簡單，但實際上，現有的大語言模型在生成視覺化時會面臨諸多問題。

如圖1所示，當大模型根據船舶資料生成堆疊條形圖時，不同模型的表現各異：有的生成的程式碼無法執行，有的對映資料出錯，還有的未能正確排序或圖例擺放混亂。這些問題可以歸納為三大類：有效性、契合性和可讀性。具體而言：

有效性指圖表能否成功生成並準確呈現資料；
契合性是指圖表是否滿足使用者的實際需求，例如軸、圖例、資料欄位等是否符合要求；
可讀性則考慮圖表是否易於理解，例如顏色搭配和佈局設計是否合理。

圖1：大模型在生成視覺化時遇到的問題

可靠、全面的自動化評估框架的缺乏，阻礙了人們對大模型在生成視覺化時不足之處的認識。目前，視覺化評估資料集普遍存在一些侷限性，限制了全面深入的評估：缺少文字查詢或原始資料、缺乏明確的標準答案，以及過於專注於狹窄領域且規模有限。

此外，現有的評估方法也存在不足。人工評估雖然被視為“黃金標準”，但其耗時費力，難以大規模推廣；基於規則的評估能夠檢查資料的匹配情況，但常常忽視視覺化的可讀性問題；而利用大語言模型評估生成程式碼的方式尚未經過充分驗證，其可靠性存疑。

VisEval：高質量資料集與自動化評估框架

VisEval 的提出不僅提供了一個高質量的大規模資料集，還引入了可靠且多維度的自動化評估框架，從而確保對生成的視覺化可以進行全面的評估。

在資料集的構建過程中，研究員們專注於挑選無歧義、合理且無重複的查詢，併為每個查詢提供了準確的標準答案，來保證資料的可靠性和有效性。為了增強資料集的魯棒性，研究員們在資料集中涵蓋了多個領域和圖表型別，同時排除了過於簡單的查詢，以確保生成的視覺化具有一定的複雜性。基於 nvBench 資料集，研究員們結合大語言模型和人工專家的篩選，精心挑選出了高質量的查詢。這一過程不僅兼顧了資料的質量，還有效減少了人力工作負擔。此外，研究員們透過元資訊（meta information）為每個查詢註釋了所有可接受的標準答案，並進行了資料集的重新平衡。這一系列措施都確保了 VisEval 資料集的全面性和實用性，使其在自動化資料視覺化的評估中可以發揮更大的作用。最終，VisEval 的資料集中包含了7種圖表型別，超過1,000個視覺化圖表。

圖2：資料集示例

資料集構建完成後，研究員們又開發了一個自動化評估框架。該框架如圖3所示，分為三個模組，分別對生成程式碼的有效性（validity）、契合性（legality）和可讀性（readability）進行評估。為了保證評估框架的可靠性，研究員們進行了細緻的審查，重點關注資料集和評估框架的各個方面。此外，研究員們透過設計測試用例和進行定量評估，來驗證評估的質量。透過這些步驟，研究員們能夠確保評估框架可以準確、全面地對生成的視覺化進行有效評估。

圖3：自動化評估框架概覽

自動化評估框架具體如下：

有效性檢查

程式碼生成後，框架會執行程式碼，並檢查是否成功生成了視覺化，以確保程式碼的有效性。

契合性檢查

一旦程式碼通過了有效性檢查，契合性檢查模組會提取圖表型別、資料等資訊，並根據資料集中註釋的元資訊評估圖表的契合性。這一步是為了確保生成的圖表能夠符合使用者查詢的要求，並且資料對映合理。

可讀性檢查

可讀性評估是框架中最具挑戰性的部分。評估可讀性需要考慮多方面因素，例如佈局、比例和顏色等。為此，研究員們藉助了 GPT-4V(ISION) 的強大能力，並將可讀性評估任務分解為多個更可控的子問題。先分別對佈局、比例尺和刻度進行細化評估，再將評估結果彙總，整體給出可讀性的打分。研究員們的定量實驗表明，VisEval 的可讀性評估結果與人類偏好高度一致。

實驗結果

基於 VisEval 框架，研究員們對多種模型的視覺化生成能力進行了系統評估。

第一項實驗測試了不同模型在使用 Matplotlib 和 Seaborn 庫時的表現。如表1所示，VisEval 揭示了不同模型在生成視覺化方面的顯著差異。以 GPT-4 為例，在使用 Matplotlib 庫生成視覺化時，其質量得分為2.89（滿分為5），雖然表現尚可，但依然有改進的空間。相對而言，在使用 Seaborn 庫時，儘管其程式碼通常比 Matplotlib 更為簡潔，但所有模型的得分均較低，這一結果令人意外。

表1：自動化評估框架概覽

透過深入分析，研究員們發現大語言模型在視覺化生成的多個階段都容易出現錯誤，如圖4所示。這些階段包括程式碼編寫、資料轉換、視覺化轉換以及排序等方面。除了準確性之外，模型生成的圖表在可讀性方面也頻繁出現問題，而這一點在以往的研究中常常被忽視。

圖4：大模型在生成視覺化時的常見錯誤

在第二項實驗中，研究員們探討了不同提示詞設計對模型效能的影響。其中特別分析了三種基於大語言模型的視覺化生成方法：LIDA、Chat2VIS 和研究團隊提出的 CoML4VIS。實驗結果表明，提示詞設計對模型的表現具有顯著影響。由於注意到這三種方法採用了不同的表格格式，所以研究員們還進行了額外的實驗。實驗中研究員們保持 CoML4VIS 中其他條件不變，僅更改表格格式。如圖5所示，不同的大語言模型展現出了對不同表格格式的偏好。這一發現提示研究員們，可能需要針對不同模型設計不同的提示詞，以最佳化其表現。