中國發表AI論文數量,全球第一!這些網際網路大廠功不可沒

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | 夕小瑤科技說
事情是這樣的,我今天刷資訊流的時候注意到,螞蟻集團今天釋出了 2024 科技生態白皮書,展示了他們在論文、專利、開源、標準、產學研等幾個方面的進展。
這本來也沒啥,在我的印象裡,螞蟻應該是跟金融科技密切相關的,我本來是想進去看一眼金融科技領域的進展的。
結果,我看到這麼一句——
螞蟻集團 2024 年釋出的論文中,有 46% 是人工智慧方向。
我直接一臉問號。
還有一句話,讓我也印象深刻——
螞蟻集團 2024 年在國際頂會上發表論文超過 300 篇。
這個頂會論文產出量,大大超出了我此前的認知。
我繼續深入挖了一下,發現不止是螞蟻,發現如今中國的科研影響力可能要比很多人想象中的要強大很多。
有個資料,來自美國喬治城大學 Emerging Technology Observatory 資料庫——
資料顯示,過去五年(17~22 年),全球 AI 領域 134 萬篇論文,中國的論文發表數量第一,比美國要高出接近 50%。
當然,論科研影響力,我們也不能只關注論文發表數量,還要看論文平均引用次數。如果論文基數很大,論文平均引用次數過小,則說明我們的科研投入可能大部分拿去灌水了,做出的高影響力研究太少,這種只能自欺欺人,無法形成真正的、足夠大的國際影響力。
在平均被引用次數上,中國平均每篇論文被引用 22 次,是美國的一半,印度的 2 倍。說明我們的論文質量,與美國仍有不小的客觀差距,但也不能走極端的否認我們仍然有大量高影響力的研究。
比如,中國科學技術資訊研究所《中國科技論文統計報告 2024》分析過高被引論文數量——
中國熱點論文數世界第一(48.4%),高被引論文數世界第二(33.8%),以及計算機科學等 7 個學科論文被引次數世界第一
以上資料綜合說明,我國的學術影響力已經相當可觀。
如果聚焦到人工智慧賽道後,還能發現一個更有趣的觀測——
根據斯坦福 AIIndex2024 總結的十大趨勢中第二條,當下,工業界正在主導人工智慧前沿研究。
2023 年,業界一共釋出了 51 個著名的機器學習模型,而學術界只貢獻了 15 個。產學合作釋出了 21 個著名模型。共釋出了 149 個基礎模型,108 個新發布的基礎模型來自工業界,28 個來自學術界。
需要強調的是,這個結論不僅僅是在說美國。
澎湃新聞統計過全球範圍內的工業界 Top10 AI 研究機構。
騰訊、阿里、華為、國家電網、百度佔據了一半的位置。
中國的網際網路大廠,如今已成長為不容忽視的中國科研力量,不再只是商業公司。
越來越多的成績表明,中國的網際網路大廠在全球前沿科技論文中的貢獻越來越大,影響力不斷攀升。
我掃描了一下剛剛召開不久的 AI 頂會 NeurIPS 2024,發現字節跳動、螞蟻集團、騰訊等均有數十篇論文被收錄
而其他主流 AI 頂級學術會議如 ACL、KDD、CVPR、ICML 等,你也會發現,除了清華、浙大等高校外,阿里、螞蟻、位元組、騰訊、百度、小米等大量網際網路大廠身影頻出,在 AI 這種重算力、重資金的研究賽道,工業界科研團隊的含金量在逐漸上升。
再回看螞蟻 2024 科技白皮書披露的資訊,也可以佐證這一點。
從 2024 年 1 月 1 日至 11 月 30 日,螞蟻集團在國際頂會上發表論文 300+ 篇,被收錄為 Oral(現場分享)的論文 35 篇,AI 佔比最大 46%,其次是資料庫佔比 29%。
藉著螞蟻這波統計,我簡單整理了下其今年在頂會上論文發表情況:
  • CVPR 2024:211532 篇論文投稿,接收 2719 篇,錄用率 23.6%,螞蟻 27 篇入選。
  • ICML 2024:  9473 篇論文投稿,接收 2609 篇,錄用率為 27.5%,螞蟻 11 篇入選。
  • ICLR 2024:7262 篇論文投稿,錄用率 31%,螞蟻 15 篇入選,1 篇 Oral,3 篇 Spotlight。
  • ACL 2024:  約 5000 篇,接收 940 篇,錄用率在 21%-23% 之間,螞蟻 10 篇入選,5 篇被主會(Main)收錄。
  • KDD2024:2046 篇投稿,接收論文 409 篇,錄用率為 20%,螞蟻 22 篇入選。
  • NeurIPS 2024:15671 篇投稿,錄取率為 25.8%,螞蟻 20 篇入選。
  • IWQoS 2024:326 篇投稿,錄用 81 篇,錄用率為 24.8%,螞蟻拿下 Best Paper Award。
  • VLDB2024:全球資料庫頂會,螞蟻 9 篇入選
不止論文數量超出我此前的認知,我發現,其對 AI 研究方向的覆蓋面也相當廣泛。
以 AI 相關的論文為例。
光大模型幻覺相關的我就看到好幾篇。比如——
"Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning"(基於強化學習的檢索增強大模型可信對齊)
這篇論文發表在 ICML2024 上,旨在減少模型幻覺。這篇論文的核心工作就是提出一種可信對齊演算法,讓大語言模型更依賴外部檢索到的可靠資訊,減少因模型“幻覺”導致的錯誤。我們都知道,在金融領域,準確性至關重要。這個方法會大大提高人們對模型作為金融助手的信任度,建立可信的 Agent。
"Unified Hallucination Detection for Multimodal Large Language Models ",這篇發表在 ACL'24 上,目的是解決多模態大語言模型(MLLMs)的幻覺問題。
此外,還有非常硬核的最佳化器 + 大模型高效能訓練相關的——
"Rethinking Memory and Communication Costs for Efficient Large Language Model Training"
這篇發表在 NeurIPS 2024
,重新審視視訊記憶體和通訊成本對 LLM 高效資料並行訓練的影響,提出了一個新策略 PaRO(部分冗餘最佳化器),在 LLM 的一些訓練場景下,速度比 ZeRO-3 最快提高到 266%。
還有這篇研究深度神經網路最佳化器的,"A Layer-Wise Natural Gradient Optimizer for Training Deep Neural Networks",同樣發表在 NeurIPS 2024 上,提出了一種高效的自然梯度下降(NGD)近似方法,顯著降低模型訓練的計算成本。
另外,我還發現一篇很有意思的工作,螞蟻集團為第一作者,與武漢大學遙感學院合作的一篇論文,發表在了 CVPR2024 上,介紹了螞蟻自研的多模態遙感基礎模型 SkySense。
"SkySense:A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery / SkySense"
它是迄今為止國際上引數規模最大、覆蓋任務最全、識別精度最高的多模態遙感基礎模型,在國際權威測試場景裡都全面超越同類模型。
我查了一下,SkySense 可以用在城市規劃、森林保護、應急救災、綠色金融、農業監測等領域,而且目前已經可以透過螞蟻內部 MEarth 平臺提供資料與識別服務。
這些都是推動 AI 在真實場景中規模化落地應用的研究方向。
看完螞蟻科技生態白皮書,我發現他們被收錄的 300 多篇頂會論文,研究領域主要聚焦在 AI 可信性、經濟性、效率和安全科技這四個方向。而這四個方向,基本也決定了 AI 能否在降低成本、提升效率、增強可信性和安全性的基礎上,最終實現規模化落地應用,是 AI 技術走向成熟的關鍵。
以前,我們常說自己是追趕者,甚至會反思、批判我們的科研體系。如今,來自工業界的中國科研力量異軍突起,在世界各大頂級學術會議上各放光彩。
這一趨勢背後除了動輒幾百億的科研投入外,大廠企業與高校深度合作也是強力催化劑,就像螞蟻多篇 paper 都是校企合作的成果。以前,我們常說工業界與學術界之間太過割裂。如今,流行一個詞——跨界,頂尖科研人才跨圈,同時活躍於產業界與高校,清華大學教授陳文光曾擔任螞蟻技術研究院院長,中山大學教授林倞曾擔任商湯研究院院長,上海財經大學教授陸品燕兼任華為理論計算機實驗室主任,研究和落地兩手抓。
我們要反思、謙卑,但也要給自己的進步點贊、自信。
期待有一天,我們的論文平均被引次數也能成為絕對第一;期待有一天,我們能成為全球科技創新的引領者。

參考文獻

https://almanac.eto.tech/topics/ai

https://mp.weixin.qq.com/s/c_7iX_GUbP60UW0aoFuwyw

https://iiis.tsinghua.edu.cn/show-10617-1.html

https://mp.weixin.qq.com/s/8hfOQm4FdG5SvXUxfTuu6w

https://mp.weixin.qq.com/s/79U_uGalZtO5HN0JcOyoYw

https://mp.weixin.qq.com/s/CMuuFZSl1q8K1xrd7PAo1A

https://mp.weixin.qq.com/s/F5-lOaNfozPNGsBja2MdnQ

https://mp.weixin.qq.com/s/GGyETplFOUbh2rWUzcny7A

https://mp.weixin.qq.com/s/hrpS3Fmmg4WLD8fmGNxBKA

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章