NEO釋出第一位自主機器學習工程師,MLE-bench秒殺了OpenAIo1

夕小瑤科技說 原創

作者 | 海野

今天剛刷到一家初創AI公司——NEO AI,一齣手就是王炸!
他們是這樣介紹第一個專案的:首個自主機器學習AI工程師。
官方還曬出一波跑分:NEO在MLE基準測試上進行了全面評估。在50場Kaggle比賽的測試中,NEO在26%的比賽中贏得了獎牌,超過了搭配AIDE框架的OpenAI o1(16.9%)。
MLE-bench是OpenAI推出的新測試基準,由75個Kaggle機器學習工程任務構成,包括自然語言處理、計算機視覺、訊號處理等一系列機器學習工程師日常使用的核心技能測試。獲得獎牌的要求是:在所有參賽隊伍中,得分佔前10%。
作為一個機器學習工程師,工作主要包括幾個環節:
  • 資料獲取、清洗、處理加工
  • 模型選擇、訓練、驗證
  • 部署監控
但純人工解決起來費時費力費資源,而這就是NEO希望能解決的問題。
怎麼解決?
NEO用多個智慧體同時驅動多個專門模型,並且每個微調模型專門用於機器學習生命週期的不同部分。
這樣一來,複雜的問題就可以分解為可管理的元件,現在只需要給定一個具體目標,NEO就能啟動一個全面的工作流程來實現這個目標。
這個流程涉及規劃、編碼、執行和除錯的連續迴圈——確保每個階段的徹底細化。
  • 只需要和它chat,完成ML任務。完全用自然語言互動。

  • 規劃能力:複雜任務拆解成多個子任務

  • 自動模型最佳化,Neo理解任務後會執行多個實驗,自動評估它們相對於目標的效能,並選擇最佳模型。

隨著流程進展,NEO會不斷進行調整和迭代,直到實現最佳結果。一旦開發人員批准NEO的輸出,就能幾秒鐘內完成工作流程的部署。
也就是說,有了NEO之後,上述所有複雜環節全部實現了自動化。
如此,每一位ML工程師都可以藉助AI讓工作效率直接一飛沖天,可以更多著眼於創新的事情了,髒活累活都由AI來做。
NEO還貼上了兩例實戰demo:
  • 使用協同過濾構建一個書籍推薦模型:
這位大哥想用Goodreads ratings dataset來訓練一個模型,給出指令後,NEO自動完成資料集的準備工作,並對資料預處理進行結構性最佳化。
在整個工作流中,不同的工作內容對應一個單獨的智慧體(圖中的planner、analyzer等),不同的智慧體驅動不同的模型進行各項工作內容同時進行。
  • 第二個demo同理,讓NEO執行端到端模型構建和問題解決,提出一個構建信用卡欺詐檢測系統的解決方案。
在此之前,專為ML設計的agent還有,比如專為Kaggle機器學習競賽構建的框架AIDE。
AIDE是Weco AI公司專門為Kaggle競賽設計的開源Agent框架,捨棄了一部分通用性,在ML方面進行了最佳化。在十月份OpenAI釋出MLE-bench之後,這個競賽專用的Agent框架也跟著火了一把。
OpenAI測試人員用GPT-4o模型分別在AIDE、MLAB、OpenHands框架上進行了MLE-bench測試,並對每個框架進行了微調。
其中GPT-4o+AIDE的組合表現最佳(8.7%的比賽獲得了獎牌),遠遠超過了MLAB(0.8%)和OpenHands(4.4%)的成績。而改用OpenAI o1-preview模型配合AIDE框架,則得出了16.9%的遙遙領先的成績。
AIDE的出現,代表了一種新的嘗試,結合程式碼邏輯和神經網路,專門針對ML進行最佳化,更適合處理專項專用的問題。在ML特化的Agent框架的基礎上,基於前沿LLM的能力,讓AI訓練AI從設想變成了可能。
在AI公司競相研究前沿LLM的現在,機器學習過程的自動化,或許能給整個AI市場帶來一場重塑。
真的是ML模型在創造ML模型了!
不過NEO目前還在內測階段,現在想使用得向官方發申請。
附上申請網址:https://heyneo.so/waitlist
拿到名額的小夥伴可以分享一下,用起來是不是真的這麼SOTA~

參考資料

https://x.com/withneo/status/1857448521617592631?prefetchTimestamp=1731739972421

https://www.weco.ai/blog/technical-report 


相關文章