開源工具RD-Agent：讓研究與開發過程更智慧

（本文閱讀時間：9分鐘）

編者按：研究與開發（R&D）是推動社會進步、經濟增長和技術創新的核心動力。在人工智慧時代，如何充分激發大語言模型的潛力，透過自動化手段提升研究與開發效率，實現跨領域知識遷移與創新，已成為 R&D 智慧化轉型的關鍵。為應對這一挑戰，微軟亞洲研究院推出了自動化研究與開發工具 RD-Agent，依託大語言模型的強大能力，開創了以人工智慧驅動 R&D 流程自動化的新模式。RD-Agent 不僅提高了研發效率，還利用智慧化的決策和反饋機制，為未來的跨領域創新與知識遷移提供了無限可能，賦能 R&D 邁向全新高度。

在現代工業中，研究與開發（R&D）是推動數字化轉型和提升生產力與生產效率的關鍵。然而，隨著人工智慧技術的快速發展，傳統 R&D 自動化方法的侷限性逐漸顯露。尤其是在提供高效、精準的自動化解決方案時，這些方法缺乏足夠的智慧，難以滿足創新型研究和複雜開發任務的需求，遠未能達到“像人類專家那樣創造顯著產業價值”的水平。相比之下，經驗豐富的人類專家能夠基於深厚的知識提出新想法、驗證假設，並透過反覆試驗不斷最佳化流程。

大語言模型（LLMs）的出現，為這些問題帶來了全新的解決方案，並將為資料驅動的 R&D 場景的自動化產生巨大的推動作用。透過在各個領域的海量資料中進行訓練，大語言模型積累了豐富的知識，能夠提供傳統方法所缺乏的智慧性。憑藉從資料中提取邏輯推理的能力，大語言模型可以支援複雜的決策過程，幫助自主執行任務，並在多種工作流程中作為智慧代理（AI agent）發揮作用。

大語言模型為R&D注入新智慧

微軟亞洲研究院的研究員們認為，大語言模型在推動創新性研究方面具有巨大的潛力和價值，其廣泛的知識覆蓋面不僅有助於提出全新的想法和假設，還能夠透過強大的推理能力為研究設計新的實驗路徑和方法，進而促進持續創新。在開發環節，大語言模型在資料處理和分析方面表現出色，能夠高效提煉資訊、總結規律。此外，憑藉對代理工具（agentic tools）的靈活運用或建立能力，大語言模型可以自動處理重複且複雜的任務，從而顯著加快開發程序。

為此，研究員們設計了一個基於大語言模型能力的自動化研究與開發工具 RD-Agent。透過整合資料驅動的 R&D 系統，RD-Agent 可以藉助強大的人工智慧能力驅動創新與開發的自動化。

RD-Agent 的核心是一個自主代理（autonomous agent）框架，由研究（R）和開發（D）兩個關鍵模組構成。研究模組負責提出新想法，積極探索新的可能性；開發模組則專注於實現這些想法。兩者相輔相成，在實際應用中透過反饋迴圈不斷最佳化。隨著時間推移，這些模組的能力將逐步提升，以應對日益複雜的研發需求。

圖1：用 AI 驅動 AI

在實際應用中，RD-Agent 可以發揮眾多作用，它既可以作為高效的研發助手，遵循指示完成日常繁瑣的研發工作，也可以作為具有高度自主性的智慧代理，主動提出創新性想法並自動進行探索研究。

以下是 RD-Agent 可支援的部分場景演示，包括了從通用研究助理到輔助特定專業領域的資料智慧研發：

作為通用科研助理，自動閱讀研究論文或報告，並實現模型結構。

場景1：RD-Agent 助力通用資料驅動的研發場景

自動探索和實現模型結構，挖掘資料規律：如金融、醫療等領域。

場景2：RD-Agent 提高特定行業關鍵問題的研發效率

作為自動化 Quant 工廠，在複雜的真實系統中，自動化完成大量耗時的特徵工程工作。

場景3：RD-Agent 與現有研發框架結合，助力解決生產流程中的研發問題

目前，RD-Agent 工具已在 GitHub 上開源，微軟亞洲研究院的研究員們正不斷更新和擴充套件 RD-Agent 的功能，以適應更多的方法和場景，進一步最佳化研發過程，提高生產率。

RD-Agent GitHub 連結：

https://github.com/microsoft/rd-agent

RD-Agent的關鍵挑戰與技術創新

在資料驅動的 R&D 自動化領域，大語言模型的應用帶來了革命性的創新機遇。然而，實現這一願景的關鍵挑戰在於如何獲取並持續進化專業知識。

具體來說，現有的大語言模型在完成初始訓練後，其能力很難持續增長。因為大語言模型的訓練過程更側重於通用知識學習，所以對於高度專業化知識的理解並不透徹，而這些專業知識需要從行業內的深度實踐中獲得，這成為了解決領域內複雜研發問題的一大難題。

微軟亞洲研究院的研究員們認識到，只有深入探索研發階段，並持續獲得深度領域知識，才可能讓大語言模型的研發能力不斷增長。因此，研究員們從研究、開發、測試基準三個層面展開了研究，進而設計了 RD-Agent 工具，實現了在真實世界的實踐和反饋中的動態學習。

研究層面：探索新的想法並透過反饋對其最佳化。在 R&D 過程中，提出和驗證新想法是研究的核心環節。資料探勘專家會首先提出假設，例如迴圈神經網路 RNN 能夠捕捉時間序列資料中的模式；然後設計實驗，如在包含時間序列的金融資料場景中驗證該假設；隨後將實驗想法轉化為程式碼，例如 PyTorch 模型結構；最後執行程式碼以獲取反饋，諸如指標、損失曲線等。專家們會從反饋中學習，並在下一次迭代中改進。

受這些理念的啟發，研究員們建立了一個基本的方法框架，支援自動提出和驗證假設，並從實踐反饋中積累知識。RD-Agent 是首個將科學研究自動化和實踐驗證相連線的框架，並融入了知識管理機制，使其在探索中能夠像人類專家一樣不斷地驗證和積累知識。隨著 agent 對場景的理解逐步加深，它還能提出更優的解決方案。

圖2：研究層面的基本方法

開發層面：高效實現並執行想法。開發過程的關鍵在於高效實現研究成果，同時透過合理的任務優先順序排程來最大化效益。研究員們在 RD-Agent 框架中提出了面向資料中心任務開發的解決方案 Co-STEER。這一方法旨在處理從簡單任務入手，透過學習不斷提高的開發策略，並利用持續反饋最佳化整體開發效率。

圖3：基於 LLM-Agent 自動化以資料為中心的開發

Co-STEER agent 透過不斷進化的策略，積累特定領域的開發經驗，不僅提高了任務排程的效率，還加速了開發能力的提升。Agent 開發水平不斷增強，其反饋質量也隨之提升，從而進一步最佳化排程演算法，實現開發與排程的協同進化。

圖4：Co-STEER 設計細節

Co-STEER 論文：

Collaborative Evolving Strategy for Automatic Data-Centric Development

https://arxiv.org/abs/2407.18690

基準測試（Benchmark）層面：構建新的基準測試體系，評測 agent 的 R&D 能力。研究員們還開發了一個全新的基準測試集：RD2Bench。該基準測試涵蓋了從資料構建到模型設計的一系列任務，用於評估大語言模型代理（LLM-Agent）在資料和模型研發方面的能力。

在評估模型開發能力時，研究員們從專注於模型結構設計的論文中抽取關鍵資訊，並將實現細節透過數學公式和文字描述結合的方式提供給agent。在資料開發能力的評估中，研究員們選擇了金融特徵（因子）作為典型的高知識密集型場景，從公開的研究報告中抽取因子的實現公式和描述，用於研發agent的輸入。針對所有任務，研究員們都實現了對應的正確版本，以此作為評估模型和資料構建結果的基礎。

圖5：R&D 流程示意圖

RD2Bench 論文：

Towards Data-Centric Automatic R&D

https://arxiv.org/abs/2404.11276

大語言模型的創新潛力有待進一步激發

展望未來，如何更高效地開展自動化資料科學研究仍是一個開放性問題，而如何充分激發大語言模型的創新潛力，實現跨領域乃至跨學科的知識遷移、融合與創新，更是當前面臨的重要挑戰。在開發過程中，如何自動化地理解反饋資訊，並將其與現有的開發水平緊密結合，同時智慧地排程任務、擇優執行，以提升基礎模型作為 agent 的能力，都是極具挑戰且具有深遠意義的研究方向。

要解決這些挑戰，關鍵在於透過實踐反饋促進研究與開發能力的同步提升，實現二者的協同進化。這種有機結合的方法將極大地提升大語言模型的創新能力，推動跨領域和跨學科的知識轉移與創新，從而進一步提升研發效率與質量，真正實現自動化研究與開發的飛躍。

RD-Agent 體驗連結：

https://aka.ms/RD-Agent

RD-Agent 影片 demo：

https://rdagent.azurewebsites.net/model_loop

https://rdagent.azurewebsites.net/factor_loop

https://rdagent.azurewebsites.net/report_factor

https://rdagent.azurewebsites.net/report_model

https://rdagent.azurewebsites.net/dmm

你也許還想看：