
(本文閱讀時間:12分鐘)
地質圖作為地質科學的核心工具,不僅揭示了地球地下及地表結構的關鍵資訊,還在災害預警、礦產資源勘探、工程建設以及環境保護等多個領域有著廣泛的應用。例如,在災害預警中,地質圖有助於預測和防範如地震、滑坡等地質災害;在礦產資源勘探中,礦產地質圖可以分析研究礦床形成的地質背景、成礦條件、礦床型別和分佈規律;在工程建設時,工程地質圖對於判斷區域穩定性至關重要,能夠保障建築物的安全性;而在環境保護方面,水文地質圖則有助於分析水文條件和汙染源分佈。
地質圖的理解具有極高的門檻。地質圖中包含大量的空間資訊和複雜的地質現象,這就要求解讀者具備深厚的專業知識和豐富的實踐經驗。此外,地質資料複雜且涉及大量的外部知識,即便是經驗豐富的地質學家也可能需要耗費大量時間和人力來全面關聯地質、地理和地震等相關資料。而且人工分析還可能出現遺漏或錯誤,主觀偏差也可能會影響判斷的準確性。
儘管現有的多模態大語言模型(MLLMs)在通用影像識別任務上表現出色,但在特定領域的應用如地質圖的理解上,則遇到了諸如圖片解析度過高、依賴專業領域知識、區域繁多且相互關聯等挑戰,導致它們的表現遠未達到專業標準。
為了幫助地質學領域更好地解讀地質圖,微軟亞洲研究院推出了首個用於評估多模態大語言模型在地質圖理解方面的基準集 GeoMap-Bench。同時,研究員們還藉助微軟 Azure OpenAI 服務中的多模態大模型技術,設計並開發了一個專門的智慧體 GeoMap-Agent,以提高地質圖理解的準確率和效率。透過使用 MLLMs 增強對地質圖整體理解(empowering geologic map holistic understanding,PEACE)的能力,研究員們為人工智慧在地質學領域的應用打開了一扇新的大門。目前兩項成果均已在 GitHub 上開源。相關論文已被 CVPR 2025 接收。
PEACE 論文地址:
https://arxiv.org/pdf/2501.06184
GeoMap-Bench 資料地址:
https://huggingface.co/datasets/microsoft/PEACE
GeoMap-Agent 程式碼地址:
https://github.com/microsoft/PEACE

在地質學領域,人工智慧的應用研究尚處於起步階段。為了使人工智慧更好地服務於地質圖的解讀,首先需要明確定義地質圖理解的問題。為此,微軟亞洲研究院的研究員們與中國地質科學院和武漢大學遙感資訊工程學院地理資訊工程系的領域專家進行了深入交流,基於專家的經驗,確立了地質圖理解所需的五大關鍵能力:提取、定位、指代、推理和分析。
-
提取:評估模型從地質圖中準確獲取基本資訊的能力,如標題、比例尺和地理座標。
-
定位:衡量模型根據元件名稱或意圖,精確定位地圖上特定元素的能力。
-
指代:評估模型將名稱與其對應屬性關聯起來的技能。
-
推理:評估執行需要跨元件連線資訊或融合外部知識的高階邏輯任務的能力。
-
分析:評估模型對地質圖上給定主題進行全面理解,並能從不同角度提供詳細且有意義見解的能力。
透過一系列討論,研究員們基於中國地質調查局(CGS)的1,000多幅地圖,以及美國地質勘探局(USGS)的6,000多幅地圖,定義了五個關鍵能力下的25種不同任務,並挑選了100餘張有代表性的地質圖,建立了3,000多個帶有標準答案的問題的基準集 GeoMap-Bench。

圖1:GeoMap-Bench 中25種任務型別的問題分佈圖
GeoMap-Bench 為地質學領域的人工智慧應用研究提供了一個起點,有助於推動該領域更深入的研究和發展。武漢大學遙感資訊工程學院地理資訊工程系主任桂志鵬表示:“如果人工智慧模型能夠實現更精準的地質圖解讀,將對測繪地理資訊、地圖學、導航位置服務乃至無人駕駛領域產生重大影響。這意味著,那些過去只有專業人士才能解讀的圖表將不再是專業人員特有的技能。同時,這還將有助於提升地質學領域的自動化和智慧化水平,從而更好地儲存大量紙質和電子地圖中的地質資訊,促進它們的整合應用,例如知識發現,甚至激發新時代的地理大發現。”

研究員們在 GeoMap-Bench 基準集上測試了現有主流的多模態大模型,進一步明確了這些模型在地質圖理解與分析中的侷限性:
-
高解析度需求:地質圖通常具有很高的解析度,有的甚至達到10,000×10,000畫素,影像中還包含大量細節資訊,部分區域性資訊需要放大解讀。因此,要從全域性來解讀地質圖,對模型的效能提出了更高的要求。
-
領域知識密集:地質圖由複雜且符號化的地質體物件構成,眾多元素和元件相互關聯,理解它們需要豐富的專業知識。例如,要讀懂一幅地質圖,首先要理解其圖例,知道每種顏色、每種紋理所代表的具體含義。
-
多樣化視覺表現:地質圖不僅包含文字資訊,還涉及多樣化的視覺元素,如不同型別的圖形符號。這要求人工智慧具備一系列能力,包括但不限於檢測、分類、分割、光學字元識別(OCR)、理解和推理等。
“地質學家們迫切需要的是數字化地質圖,這是一個側重於產品開發的目標,技術實現相對容易。但我們希望更進一步,讓大模型不僅能解析地質圖上的已有地質資訊,還能對與地質圖相關的下游應用問題進行分析,例如評估特定地質區域的地震災害風險等。為了提供綜合、全面且準確的問題解答,我們需要將地質圖作為媒介,聯絡並整合不同的知識領域。”微軟亞洲研究院高階研發工程師黃楊昱說。
為此,研究員們設計了 GeoMap-Agent,這是首個專門用於地質圖理解和分析的智慧體。GeoMap-Agent 不僅滿足了地質學家對於地質圖數字化的需求,還在處理高解析度影像、複雜關聯元件以及領域知識方面做出了顯著改進,從而能夠高效全面地分析大量地質圖。

圖2:GeoMap-Agent 框架圖
GeoMap-Agent 的主要架構如圖2所示,由三個核心模組組成:層級資訊提取(HIE)、領域知識注入(DKI)和增強提示問答(PEOA)。
-
層級資訊提取(Hierarchical Information Extraction, HIE):為了充分理解地質圖上的語義資訊並將其數字化,層級資訊提取模組採用了“分而治之”的策略。具體來說,HIE 模組將整個地質圖按照層次結構劃分為多個子影像,然後應用基礎模型逐個處理這些子影像,從中提取區域性資訊並整合為全域性數字化資訊。
-
領域知識注入(Domain Knowledge Injection, DKI):DKI 模組負責為 GeoMap-Agent 注入外部關聯的知識,特別是地質學家的經驗知識,這對於需要推理和分析的問題尤為關鍵。該過程分為兩步:首先,對於給定的問題,基礎模型會與專家組中的每位 AI 專家確定是否需要特定型別的領域知識;一旦確定了所需的知識型別,基礎模型會查詢並連線工具池中的 AI 工具來獲取相關知識。此外,另一些知識會透過 HIE 模組中提取的經緯度範圍進行關聯。
-
增強提示問答(Prompt Enhanced Question Answering, PEOA):除了上述兩個模組提供的文字知識外,地質圖還包含大量視覺層面的資訊。PEOA 模組會融合文字與視覺資訊作為提示,以提升大模型對問題的理解。這是一個動態選擇的過程,它允許 GeoMap-Agent 針對不同問題選擇地質圖中特定部分的文字和視覺資訊作為提示,從而有針對性地生成答案。

表1:不同方法在 GeoMap-Bench 上的評估結果
表1展示了 GeoMap-Agent 在 GeoMap-Bench 上的評估結果,相較於其它多模態大模型(MLLMs),GeoMap-Agent 的得分更高,其在地質圖理解上的表現更為出色。以地震風險分析為例,GeoMap-Agent 會基於給定地質圖提取與地震風險相關的資訊,結合不同型別專家的知識(如地質學家、地理專家、地震學專家等),並在視覺上選擇與問題相關的特定區域,將三者融合形成增強的提示來推理、解答問題。在這個過程中,GeoMap-Agent 不需要理解全部地質圖資訊,只需關注主圖和圖例,以及巖性表這一外部知識,而無需地震相關的知識,展現了智慧代理動態分析的能力。

圖3:GeoMap-Agent(右)和 GPT-4o(中)對地震風險分析(左)分別給出的答案。相比之下,GeoMap-Agent 的回答更清晰、全面。
“GeoMap-Agent 透過自動化讀取、分析和解讀地質圖,大幅提高了解讀效率和準確性,給地質領域相關人員帶來了巨大便利。藉助 GeoMap-Agent,地質學家將可以快速識別地質圖中的關鍵地質單元,如岩層、巖性、斷層等,並提供相應的資料支援;礦產勘探人員將能夠迅速提取礦藏分佈資訊,降低人工判斷的誤差,提升勘探效率和準確性;工程師將可以更高效地評估地質風險,支援決策者更好地理解地質條件,確保工程建設的安全性。人工智慧工具大大縮短了人工分析的時間,減少了人為誤差,可以更全面地分析問題,使地質圖的應用變得更加高效、準確和綜合。”中國地質科學院高階工程師宋洋表示。

專題地圖如地質圖、氣象圖、降雨分佈圖等,是地理事件、現象及規律的圖形化、抽象化表達,符號化、綜合化與尺度相關是這類圖共有的特性。GeoMap-Agent 解決地質圖解讀核心問題的成功經驗,可以推廣到其他類似的專題地圖中,有助於加速地理和地球系統科學的知識發現,深化對自然與人類社會、城市系統執行機制的理解,從而更好地解決城市建設與可持續發展中遇到的各類問題。
人工智慧技術在地質學領域的深入應用離不開跨學科的合作。地質問題往往具有強烈的地方性特徵,某些細微的地質特徵需要基於經驗才能識別,僅靠人工智慧難以捕捉到這些細節。因此,要確保人工智慧技術的有效應用,必須有地理領域專家、計算機科學家、資料分析師等多方的密切配合。
微軟亞洲研究院希望與地質學領域的專家持續合作,擴充套件 GeoMap-Bench 的任務型別,並提升 GeoMap-Agent 的效能,使之成為解讀各類專題地圖的通用正規化。GeoMap-Bench 和 GeoMap-Agent 已分別在 HuggingFace 和 GitHub 上開源,歡迎全球科研人員、開發者和愛好者共同推動人工智慧在地質學領域的應用。若對本專案感興趣,歡迎郵件至 [email protected],進行深入交流。
相關連結:
PEACE 論文地址:
https://arxiv.org/pdf/2501.06184
GeoMap-Bench 資料地址:
https://huggingface.co/datasets/microsoft/PEACE
GeoMap-Agent 程式碼地址:
https://github.com/microsoft/PEACE
你也許還想看:
