

作者丨楊婧雪
編輯丨劉恆濤
圖源丨midjourney
《中商產業研究院》的一份報告預測,2025年,中國自動駕駛市場規模將接近4500億元,自動駕駛技術的發展,需要海量、高質量的資料支撐,這些資料經過清洗和標註,才能成為機器可識別的訓練資料。資料標註行業,無疑是AI時代的新基建行業。
感知、決策、執行,是自動駕駛的核心技術體系,其中,資料標註在車身感知、環境感知都扮演了重要角色。IDC預計,2025年,中國人工智慧資料採集、標註服務市場規模將達到123.4億元,自動駕駛是需求巨大且增長迅速的一個領域。
進入2025年,自動駕駛標註市場迎來變革的契機。
一是AI技術發展帶來的自動化升級,可能會讓這個勞動密集型的行業升級換代,另外,主機廠激增的複雜需求,也讓那些優秀公司更容易實現身位的領先。
2025年,創業邦首次啟動自動駕駛資料標註的榜單評選,旨在挖掘這一新興行業在這一輪變革中的創新力量。


行業需要效率變革,AI被給予厚望
2022年,是AI爆發的元年,也是自動駕駛爆發的元年。以人工標註為主的資料標註市場,將迎來一次大變革。

推動自動駕駛資料標註變革的最直接原因,是車載雷射雷達在智慧汽車的廣泛應用。作為自動駕駛“眼睛”的雷射雷達感測器精度更高,產生的資料更大、更復雜。比如雷射雷達生成的是三維點雲資料,相比二維影像,點雲資料更復雜,標註時需要處理空間中的點集。此外,雷射雷達的資料是連續性的,需要跨幀標註,種種原因,使得自動駕駛場景資料標註的需求量呈幾何倍增長。
與此同時,自動駕駛的端到端技術革命正在掀起。無論是蔚小理等造車新勢力,還是大眾等傳統車企,亦或是華為,都在逐步引進端到端技術,將自動駕駛的規則導向徹底轉變成了資料導向。
以特斯拉FSD 為例,特斯拉 FSD每天從車隊中收集的資料量高達 PB 級(1PB = 1024TB)。資料處理成為自動駕駛流程中的重中之重。特斯拉前AI高階總監Andrej Karpathy 曾表示,特斯拉自動駕駛部門將3/4的精力用在採集、清洗、分類、標註高質量的資料上面,只有1/4的用於演算法探索和模型建立。
特斯拉在2023年將 FSD 程式碼量削減99%,讓大模型更加依賴大資料“餵養”。但大模型本身存在難以解釋的“黑盒效應”。因此,只能投餵更多的高質量資料,來儘可能修正錯誤與幻覺。
這對資料集的量級和感測模態都提出擴充需求。大量資料的需求,成為了資料標註行業變革的催化劑,原先“人海戰術”式的資料標註難以應對這樣的規模。
AI預標註的介入,成為資料標註企業的新質生產力。資料標註企業開始形成人機協同的智慧化標註平臺,行業內也開始進行自動化標註的探索。
儘管行業內對自動標註概念的意見不一,但在自動駕駛爆發元年的2022年,各家資料標註企業開始發力智慧平臺的佈局。
以曼孚科技為例,曼孚科技推出的第三代 MindFlow SEED(下稱“ SEED 平臺”)透過引入駕駛資料建立RLHF(人類反饋強化學習)。在RLHF的幫助下,AI能快速掌握了人類經驗。基於深度學習與計算機視覺構建大模型,曼孚科技可實現複雜場景下資料的高效處理與全自動化標註。

基於積累的海量資料與標註經驗,曼孚科技綜合運用業界領先的模型結構,形成一套從資料預處理、演算法推斷到結果精修的完整演算法鏈路,匹配不同應用場景。其中,典型場景效率可提升10倍以上,精準度達到99.99%以上。

強者恆強,飛輪效應加劇格局調整
當前,汽車市場競爭激烈,主機廠大力推動智慧駕駛技術的普及應用,讓更多消費者能以更低的成本享受到智慧駕駛功能。因此,自動駕駛業務有幾大特點。
一個體量大, 一些大廠在大力推動自動駕駛的普及化,因此需求體量很大;第二,主機廠競爭激烈,要求在極短的週期交付;另外,主機廠多短平快的專案越來越多。這對資料標註企業的交付能力提出更高的需求,交付時間甚至達到小時級別。
需求端的變化,也推動自動標註市場格局進入快速調整期。
為了滿足主機廠的需求,除了AI賦能生產工具的基礎之外,資料標註企業在各個維度上都努力嘗試最佳化和設計,進一步提升效率。
比如曼孚科技,公司強化了 RPA(機器人流程自動化)在 AI 落地中的作用。在配備 RPA 技術後,SEED 平臺可以根據預設的指令碼與使用者系統互動,接管那些原本需要人工完成的任務,從而實現部分流程的自動化,提高效率。

RPA透過讀取標註員操作日誌,讓 AI 能夠找出其重複人工環節,讓RPA取代人工標註。同時,曼孚科技的RPA+AI技術,可以根據人類標註員的具體能力,自動匹配相適應的標註任務,改變了傳統的生產關係,讓業務邊界不受限制,大大提高了交付時間。
在自動駕駛這個高度垂直化的場景中,對場景堅持深耕,是資料標註公司的基本功,只有這樣,才能完成主機廠的定製化資料處理需求。當前,資料標註行業標準不統一,每家公司的標註標準也很不相同。主機廠客戶在涉及多個細分專案時,往往傾向選擇一家能資料複用的標註公司,避免資料遷移導致的成本和效率問題。
這對資料標註公司的資料中臺提出了更高要求,只有打通資料流轉的全生命週期,才能夠實現資料複用。
為了滿足主機廠需求,覆蓋資料流轉的全生命週期,曼孚科技打造了集儲存、處理、匯入匯出於一體的資料管理平臺:透過 SDK 打通資料採集平臺、資料標註平臺、模型訓練平臺和生產運營系統等多種外部平臺。其中,SDK能將標註能力模組化,幫助企業快速構建或增強標註流程,相當於搭建了一條跨平臺的資料高速公路。
有了資料管理平臺,資料標註企業也能接入外部的資料交易核心平臺模組,深入佈局資料交易上下游產業鏈,連線供給端與需求端。這種方式,把主機廠變成資料資源供給方,進一步豐富了資料標註企業的資料集,形成飛輪效應,進一步築高標註企業的競爭壁壘。
從戰略到技術落地的一站式資料解決方案,讓曼孚科技與數百家企業達成深度合作,其中包括世界頂級Tier1廠商、造車新勢力,以及傳統汽車主機廠商等。

超大賽道
有望誕生標註行業獨角獸
《2025自動駕駛資料標註企業TOP10》榜單評選,由投資機構的專業人士擔任評委,評選物件,是市場上活躍的自動駕駛資料標註企業。評選維度主要包括技術能力、標註質量、資本價值和企業規模及影響力四項內容。
綜合本次榜單評選的結果,10家上榜企業在技術能力這一項的評分上,明顯領先非入榜企業,這也從側面說明,資料標註行業當前已轉變為技術主導的行業。
資本價值也是本次榜單關注的重點。本次上榜的10家企業中,4家企業獲得5輪以上融資,融資輪次涵蓋了天使、A、B、C各個輪次,這也說明,這個行業還在市場爆發期。
而且,標註行業的獨角獸,極有可能在自動駕駛行業誕生。
美國資料標註獨角獸企業Scale AI最新估值達138億美元,追溯其發展歷程可以看到,Scale AI的第一個風口,就是自動駕駛。因此,國內資料標註行業的獨角獸企業,很有可能在自動駕駛資料標註賽道誕生。
工信部的一份資料顯示,2024年國內L2級自動駕駛新車滲透率已達50%。而隨著高階自動駕駛技術落地,L3+滲透率也迎來提速之時。Canalys 預計,到2025年,L3輔助駕駛市場滲透率有望達到4.6%。
據英特爾的統計,一輛L3+級自動駕駛汽車,每天產生的資料高達 4000GB 。
面對即將爆發的L3+市場,海量資料需要經過篩選、清洗、標註,自動駕駛資料標註仍有極大的增量空間。根據公開資訊,國內幾家相對成熟的資料標註企業,在2022年實現了200% 以上的業務增速,且自動駕駛業務佔比逐年上升。
自動駕駛資料標註不僅應用於乘用車領域,還可擴充套件到物流、農業、礦業和航空等多個領域。這是一個有著廣闊前景的市場,AI的發展將加速行業的發展程序,也許,下一個巨無霸會在不遠的將來誕生。
