
(本文閱讀時間:8分鐘)
在如今這個資料驅動的時代,資料視覺化已成為展示資料內在資訊的重要工具之一。想象一下,若只需一句簡單的指令,複雜的資料便能“化繁為簡”,呈現為直觀、易於理解的圖表,那麼既可以減輕分析資料的壓力,也讓資料的交流與傳遞變得更為輕鬆有趣。近期,得益於大語言模型(LLMs)的突破性進展,自動化資料視覺化生成的夢想逐步實現。然而,潛在的問題也隨之而來:由 LLMs 生成的視覺化圖表,真的可靠嗎?它們是否能遵循資料視覺化的最佳實踐?
為了有效應對這些挑戰,微軟亞洲研究院推出了一套全新的評估框架——VisEval,為資料視覺化生成提供了更全面、更科學的評估機制。VisEval 不僅構建了一個高質量、覆蓋廣泛的視覺化資料集,還透過多維度的評估機制,從生成程式碼的有效性到圖表的契合性、可讀性進行了全面審查。相關論文已被全球視覺化領域頂尖的學術會議 IEEE VIS 2024 評選為最佳論文。

論文連結:
https://arxiv.org/abs/2407.00981
GitHub 連結:
https://github.com/microsoft/VisEval

用大模型生成視覺化的過程通常包括:將使用者的查詢(query)和資料整合到提示詞(prompt)中,然後使用諸如 Matplotlib 或 Seaborn 等視覺化庫生成程式碼,最終在沙盒環境中執行這些程式碼以生成圖表。雖然這個過程聽起來簡單,但實際上,現有的大語言模型在生成視覺化時會面臨諸多問題。
如圖1所示,當大模型根據船舶資料生成堆疊條形圖時,不同模型的表現各異:有的生成的程式碼無法執行,有的對映資料出錯,還有的未能正確排序或圖例擺放混亂。這些問題可以歸納為三大類:有效性、契合性和可讀性。具體而言:
-
有效性指圖表能否成功生成並準確呈現資料;
-
契合性是指圖表是否滿足使用者的實際需求,例如軸、圖例、資料欄位等是否符合要求;
-
可讀性則考慮圖表是否易於理解,例如顏色搭配和佈局設計是否合理。

圖1:大模型在生成視覺化時遇到的問題
可靠、全面的自動化評估框架的缺乏,阻礙了人們對大模型在生成視覺化時不足之處的認識。目前,視覺化評估資料集普遍存在一些侷限性,限制了全面深入的評估:缺少文字查詢或原始資料、缺乏明確的標準答案,以及過於專注於狹窄領域且規模有限。
此外,現有的評估方法也存在不足。人工評估雖然被視為“黃金標準”,但其耗時費力,難以大規模推廣;基於規則的評估能夠檢查資料的匹配情況,但常常忽視視覺化的可讀性問題;而利用大語言模型評估生成程式碼的方式尚未經過充分驗證,其可靠性存疑。

VisEval 的提出不僅提供了一個高質量的大規模資料集,還引入了可靠且多維度的自動化評估框架,從而確保對生成的視覺化可以進行全面的評估。
在資料集的構建過程中,研究員們專注於挑選無歧義、合理且無重複的查詢,併為每個查詢提供了準確的標準答案,來保證資料的可靠性和有效性。為了增強資料集的魯棒性,研究員們在資料集中涵蓋了多個領域和圖表型別,同時排除了過於簡單的查詢,以確保生成的視覺化具有一定的複雜性。基於 nvBench 資料集,研究員們結合大語言模型和人工專家的篩選,精心挑選出了高質量的查詢。這一過程不僅兼顧了資料的質量,還有效減少了人力工作負擔。此外,研究員們透過元資訊(meta information)為每個查詢註釋了所有可接受的標準答案,並進行了資料集的重新平衡。這一系列措施都確保了 VisEval 資料集的全面性和實用性,使其在自動化資料視覺化的評估中可以發揮更大的作用。最終,VisEval 的資料集中包含了7種圖表型別,超過1,000個視覺化圖表。

圖2:資料集示例
資料集構建完成後,研究員們又開發了一個自動化評估框架。該框架如圖3所示,分為三個模組,分別對生成程式碼的有效性(validity)、契合性(legality)和可讀性(readability)進行評估。為了保證評估框架的可靠性,研究員們進行了細緻的審查,重點關注資料集和評估框架的各個方面。此外,研究員們透過設計測試用例和進行定量評估,來驗證評估的質量。透過這些步驟,研究員們能夠確保評估框架可以準確、全面地對生成的視覺化進行有效評估。

圖3:自動化評估框架概覽
自動化評估框架具體如下:
-
有效性檢查
程式碼生成後,框架會執行程式碼,並檢查是否成功生成了視覺化,以確保程式碼的有效性。
-
契合性檢查
一旦程式碼通過了有效性檢查,契合性檢查模組會提取圖表型別、資料等資訊,並根據資料集中註釋的元資訊評估圖表的契合性。這一步是為了確保生成的圖表能夠符合使用者查詢的要求,並且資料對映合理。
-
可讀性檢查
可讀性評估是框架中最具挑戰性的部分。評估可讀性需要考慮多方面因素,例如佈局、比例和顏色等。為此,研究員們藉助了 GPT-4V(ISION) 的強大能力,並將可讀性評估任務分解為多個更可控的子問題。先分別對佈局、比例尺和刻度進行細化評估,再將評估結果彙總,整體給出可讀性的打分。研究員們的定量實驗表明,VisEval 的可讀性評估結果與人類偏好高度一致。

基於 VisEval 框架,研究員們對多種模型的視覺化生成能力進行了系統評估。
第一項實驗測試了不同模型在使用 Matplotlib 和 Seaborn 庫時的表現。如表1所示,VisEval 揭示了不同模型在生成視覺化方面的顯著差異。以 GPT-4 為例,在使用 Matplotlib 庫生成視覺化時,其質量得分為2.89(滿分為5),雖然表現尚可,但依然有改進的空間。相對而言,在使用 Seaborn 庫時,儘管其程式碼通常比 Matplotlib 更為簡潔,但所有模型的得分均較低,這一結果令人意外。

表1:自動化評估框架概覽
透過深入分析,研究員們發現大語言模型在視覺化生成的多個階段都容易出現錯誤,如圖4所示。這些階段包括程式碼編寫、資料轉換、視覺化轉換以及排序等方面。除了準確性之外,模型生成的圖表在可讀性方面也頻繁出現問題,而這一點在以往的研究中常常被忽視。

圖4:大模型在生成視覺化時的常見錯誤
在第二項實驗中,研究員們探討了不同提示詞設計對模型效能的影響。其中特別分析了三種基於大語言模型的視覺化生成方法:LIDA、Chat2VIS 和研究團隊提出的 CoML4VIS。實驗結果表明,提示詞設計對模型的表現具有顯著影響。由於注意到這三種方法採用了不同的表格格式,所以研究員們還進行了額外的實驗。實驗中研究員們保持 CoML4VIS 中其他條件不變,僅更改表格格式。如圖5所示,不同的大語言模型展現出了對不同表格格式的偏好。這一發現提示研究員們,可能需要針對不同模型設計不同的提示詞,以最佳化其表現。

圖5:不同的模型有不同的表格格式偏好
在第三項實驗中,研究員們測試了無用資料表對生成視覺化效能的影響。如表2所示,當給大模型的提示詞中包含兩張無用的資料表時,所有模型的效能均顯著下降。這一結果表明,模型在處理複雜輸入時容易受到干擾,強調了在選擇資料時確保其相關性的重要作用。

表2:存在無用表格時對模型效能的影響
作為一種全新的視覺化生成評估框架,VisEval 透過高質量的資料集和可靠的自動化評估方法,填補了現有評估體系的空白,為未來的視覺化生成研究提供了重要的參考標準。微軟亞洲研究院的研究員們期待,隨著資料視覺化技術變得更加智慧和便捷,各行各業的資料驅動決策將得到更有力的支援。
你也許還想看:
