2025展望:我們到底處在AI發展的哪個歷史節點上?

1.20‍‍‍‍‍‍‍‍
知識分子
The Intellectual
圖源:Pixabay
 編者按
2024年是AI取得巨大成就的一年。
過去一年裡,AI領域經歷了從大語言模型到影片生成、具身智慧等多方面的飛躍式進步,特別是在影片生成、智慧體(Agent)、程式設計助手以及具身智慧四大方面取得了顯著成就。這些進展不僅推動了內容生產方式和技術架構的深刻變革,也為教育、醫療等行業帶來了全新的機遇與挑戰。在醫療領域,AlphaFold榮獲諾貝爾獎後,AI for Science成為解決基礎科學問題的強大工具;而在教育方面,AI正逐步打破地域限制,邁向真正的普惠化。
但在這一年裡,ChatGPT帶來的驚喜,大模型能力迅速增長帶來的興奮也在消退。ChatGPT所引發的熱潮,以及大模型能力快速增長帶來的激情與理想,逐漸被一種新的現實主義取代。GPT-5的缺席更是讓關於Scaling Law是否遇到了瓶頸的問題成為熱議話題。新一年的AI發展急需回答這個問題:不再卷規模後,AI的發展應該走什麼路線。
本文提出了AI突破的三個底層邏輯。Scaling law的發展路徑正在被重新定義,進入追求更高效能的新階段;Transformer-like架構逐漸統一了不同模態的任務處理方式;生成模型作為AI的第一性原理,其潛力遠超想象,正在各個領域發揮重要作用。此外,隨著智慧硬體市場的爆發條件逐漸成熟,消費級機器人新品類有望在今年出現。
我們正身處一場技術革命的歷史開端,站在這個技術革命的起點上,阿里達摩院首席科學家趙德麗梳理了當前AI發展的脈絡,並對2025年的AI發展前景進行了展望,有助於理解我們到底身在AI發展的歷史何處。
撰文 | 趙德麗(阿里達摩院首席科學家
●                  ●                   
我們正身處一場技術革命的歷史開端,以ChatGPT為標誌的這輪AI科技浪潮是演算法和軟體誕生以來人類科技最重要的技術變革,由此開啟了以智慧為核心的第四次工業革命。這次AI變革是由以Scaling law為底層邏輯的基礎模型驅動,其整體的發展脈絡由基礎模型的技術邏輯主導。
進入2025年,我們清晰地看到,Scaling law本身仍然成立,但以堆算力以及一味追求擴大模型尺寸的迭代路徑已經被打破。同時,基礎模型本身的迭代趨於階段性收斂,Transformer-like逐漸成為統一的底層架構。此外,生成模型的潛力遠遠還沒有得到釋放,其將快速深入科學研究在內的多個領域,或大放異彩…
本文以“DAMO開發者矩陣”2025開篇為契機,對當前AI的發展邏輯進行梳理,展望2025年的AI趨勢,初探未來的景象。限於篇幅,僅對於部分方向加以討論闡述。
01
通用人工智慧(AGI)的四種路徑
目視遠方,才能更好理解我們身處的當下。實現通用人工智慧(AGI,這裡也包含常說的超級人工智慧)是AI的發展目標,利用AI演算法達到甚至超過人類的智慧水平。在進入具體的討論之前,我們先從宏觀邏輯分析AGI的可能實現路徑。
第一條路徑是大模型。
目前AI演算法還是圍繞著人類智慧的逼近和模仿來開展。大模型就是利用複雜的深度神經網路對知識的壓縮來逼近人類智慧的隱函式,進而利用思維推理來挖掘智慧本身,所以接下來基於基礎模型的自學習演算法和模型自迭代進化將是透過大模型實現AGI路徑的核心。從這個角度來說,大模型的AGI迭代在2024年剛入正題,但是發展很快。
第二條路徑是智慧機器人。
人類和動物等生物智慧體是在開放式環境中與周遭事物以及環境中的智慧體互動反饋來學習智慧。最接近這種智慧學習的模式是在開放式環境中活動的智慧機器人,特別是和人互動的機器人。所以消費級機器人的落地將是這種AGI模式的開啟,機器人的自我學習和迭代演算法也將是核心。
第三條路徑是腦機。
根據第一性原理,直接獲取人類思維模式的方式是讀取大腦訊號,人類目前的科技水平透過腦機介面來實現。目前腦機還處在非常早期,但是腦機介面將是人機協同非常重要的路徑。
第四條路徑是數字生命。
透過演算法實現從微觀尺度到宏觀尺度生命過程機理的模擬,就可以直接解鎖智慧的奧秘,從而能創造出真正的超級智慧。目前這個方向還在萌芽階段。
02
2024的4個關鍵進展
讓我們先回望2024,從年初的Sora開始,幾乎每個月都有AI熱點新聞出現,長文字、多模態、具身智慧、程式設計助手、思維推理、Agentic System、大模型訓練最佳化等,讓人目不暇接。相比2023年AI進展集中在大語言模型上,2024年可謂是百花齊放,無論是深度和廣度都出現了飛躍。顯然,即使沒有GPT-5的釋出,這仍然是AI技術大爆發的一年。而在這麼多進展裡,有四項進展值得重點關注。
2.1 影片生成
Sora的出現意義重大,是影片生成領域的一個重要轉折點。在Sora之前,行業對影片生成已多有研究,但只停留在學術研究層面,效果差強人意,沒法達到商業化服務的水準。Sora展示了利用DiT可擴充套件架構的有效性,吸引了全球同行們快速跟進,推動影片生成從學術研究到工業級應用的重大跨越,國內也出現了可靈、海螺、通義萬相、混元、豆包等優秀的影片生成模型。
影片生成模型的突破意義不僅在於推動內容生產方式的變革,也在於展現了可擴充套件架構的生成模型在視覺方向的巨大潛力。自然語言資料是人類知識以文字形式的數字化記錄,所以自然語言大模型是知識的壓縮,可以透過大語言模型來逼近從而超越人類的智慧。同樣,影像/影片是對環境和物體的數字化,也包含知識本身的展現。例如,球體的下落是物理規律的呈現、投籃是人類操作技能的展現等。所以不僅僅大語言模型,影片大模型也是通往AGI的重要組成要素。隨著影像/影片基礎模型的效能提升,特別是SOTA級別開源模型的豐富,常見視覺任務大都會圍繞生成式基礎模型重新構建,大一統的視覺任務架構也會出現。另外,傳統視覺相關的模擬也逐步會和影片生成模型深入融合,從而重塑新一代的模擬鏈路,例如世界模型可以看做是其中一個方向。而基於模擬和模擬的技術方向,例如機器人,也會因為影片生成模型的成熟發展速度大大加快。在一些垂直領域,例如醫療和微觀組織研究等,資料缺乏的問題也會因為影片生成模型找到新的解決途徑,從而加快相關領域的突破。
影片生成技術的快速迭代促進各類內容工具的湧現,例如達摩院推出尋光AI影片創作平臺,用AI重塑影片工作流,釋放行業創造力。
2.2 智慧體(Agent)和系統
在2023年AutoGPT出現時,行業從業者就意識到基於大模型構建Agent應用的巨大潛力。進入2024年,Agent相關的落地應用初步展現,如Anthropic釋出了Computer use讓AI可以控制電腦操作,智譜釋出了AutoGLM來重塑手機應用的使用方式。“一句話下單2000杯咖啡”,依託思維推理和自我改進機制,Agent得以執行實現類似的自動化任務。為此,Anthropic釋出了MCP協議(Model Context Protocol),方便大模型連線資料和應用等區域性和線上資源,從而可以構建起以大模型為核心、Agent為應用的生態系統,人工智慧作業系統的雛形也已經顯現。阿里巴巴通義大模型也在此深耕,通義完整的基礎模型系列、一站式大模型服務平臺百鍊、模型開源平臺ModelScope和互連協議等構成新一代人工智慧系統架構的基礎設施。
Agent的重要性在於,它依託基礎模型和軟硬體互聯協議,會給人機互動方式和系統架構帶來根本性的變革。歷史上每一次人機互動的變化都帶來了系統級的變革,就像鍵盤滑鼠之於PC網際網路、手機觸屏之於移動網際網路。
目前我們的系統設計還是基於滑鼠點選或者手指觸控互動的巢狀式圖形介面系統。這一次AI的突破帶來語言/語音/視覺等多模態資訊為互動媒介的人機互動變革。Agent不僅會大大豐富系統和應用的廣度,也將會在多模態互動邏輯下大大縮短應用使用的鏈路和構造邏輯,從而引發系統在AI時代的重構。這將是個人電腦和智慧手機視窗系統誕生以來最大的一次實質性變革。傳統作業系統將在人工智慧作業系統的牽引下和AI深度融合,從而誕生在AI時代更加扁平、更加連線開放、更加自動化的新型作業系統和應用正規化。
2.3 程式設計助手
從人機互動的角度去看,AI大模型帶來了基於語言輸入的全新互動方式。例如,可以透過語言提示輸入到大模型,呼叫大模型的功能來得到結果,包括回答語言相關的問題、生成程式碼、生成網站、生成影像影片等。
語言不僅僅是人類日常交流的媒介,也成了大模型時代的程式語言本身,這對於軟體來說是個突破性的進步。從機器語言、組合語言、C/C++、Java、Python等到現在自然語言,計算機語言經歷著由繁到簡的發展過程。但是在大模型以前,計算機程式設計都是需要專業學習、長期練習才能掌握。自從自然語言成為計算機程式語言本身,軟體從專業技能就變成了大眾化的工具,人人都可以成為高階程式設計師,這對於使用軟體是巨大的飛躍。人類利用軟體工具來提升社會生產力和效率從來都沒有像今天這麼便捷。所以基於大語言模型的程式設計助手的價值顯著,將成為大模型時代不可或缺的基礎工具。
過去一年程式設計助手發展迅速,國外像Github Copilot、Cursor、Windsurf、Bolt,國內如阿里巴巴的通義靈碼以及位元組的豆包MarsCode等相繼湧現。可以預料程式設計助手在新的一年裡將會取得實質性進展,併成為最快成功商業化的AI產品之一。
2.4 具身智慧
我們可以粗略將研究機器人智慧的AI技術稱之為具身智慧。多模態大模型可以視為是機器人的知識技能,具身智慧大模型(目前還沒有共識的範圍定義)可以看作是機器人的操作和移動技能。
AI驅動的機器人是物理智慧體,既可以決定人類利用工具的生產力水平,又可以直接決定社會生產效率和國民生產總值,所以至關重要。特別是人形機器人,可以看作是人的物理化,他可以超越工具屬性本身,作為人類社會智慧體的一員發揮作用,所以人形機器人可以拓展社會的運作模式和維度。
在具身演算法上,谷歌、UC Berkeley、清華、位元組等機構都發表了不同架構的具身智慧大模型,初步驗證了Scaling law在機器人方向上的有效性。併為其引入多模態融合等新維度,讓業界看到了機器人技術突破的希望。模擬上,英偉達正在推動機器人模擬系統的工業化落地應用,開源模擬系統也在快速迭代,為機器人的模擬和批次資料生產打下基礎。資料上,行業內的資料生產標準和基礎設施也在發展中,智元開源的真機資料集也已經達到百萬級別的體量。計算晶片上,英偉達也會在2025年量產針對人形機器人的端側晶片和開發板,使AI在機器人的端側開發更加便利和高效。硬體上,特斯拉正在推動人形機器人的量產,這將促使機器人本體供應鏈走向成熟,從而也會使硬體本體成本大幅下降。所以綜合這幾個維度來看,具身智慧已站在新一輪爆發週期的起點上。但是機器人商業化的路徑存在較大不確定性,和機器人形態以及對應的技術成熟度都有直接關係。
除了作為工具屬性,智慧機器人以下特點值得突出:
一是資料採集埠。資料是模型的基礎,機器人將會是增量資料採集的埠。誰有消費級機器人資料,誰有條件做出最好的AI。
二是應用服務新入口。和人互動場景的消費級機器人,會是繼個人電腦、手機之後的第三智慧硬體形態,是各類應用服務的入口。
三是AGI路徑。如開篇所述,在開放式環境中自我學習和進化的智慧機器人是實現AGI的路徑,將會使智慧演算法得到質的飛躍。由於機器人本身是可程式設計物理智慧體,所以自我進化也將會帶來人類對於智慧本身理解的昇華,會大大拓展人類本身智慧的邊界。所以從AI的視角去觀察,用在固定工業產線和不與人互動場景的機器人和與人互動的消費級機器人是完全兩種機器人消費級人形機器人是AI時代最重要的智慧體,人類可以藉助人形機器人進入一個全新的人機協作的智慧時代,從而開啟人類使用工具的新紀元。
03
AI突破的三個底層邏輯
回顧了2024年AI幾個方面的進展,我們再討論下AI發展的三個基本邏輯,即Scaling law、Transformer架構(泛指Transformer-like的架構)和生成模型。這三個方面相互交織,我們逐項討論下內在的原理和邏輯,便於把握AI發展的底層規律。
3.1 Scaling law邁向縱深
Scaling law是GPT等大語言模型快速發展的底層邏輯,更多的資料、更多的算力、更大的模型,得到更好的效果。Scaling law也是2024年推動了Sora等影片生成模型的技術突破的邏輯遵循,利用更有利於規模化擴充套件的演算法架構。雖然Sora並未開源或公開演算法細節,但其技術報告公開了演算法架構和技術路線,這使得領域內可以快速跟進,例如可靈。他們甚至實現比Sora更好的效果、更快的線上服務,再次在影片生成上驗證了Scaling law的有效性。Scaling law也在具身智慧大模型上面初步得到驗證,讓大家看到了具身智慧GPT時刻出現的希望。在醫療方向,Nature剛剛發表了三篇和醫療基礎模型相關的論文,標誌著醫療AI在快速邁向基礎模型驅動的2.0時代,也是Scaling law規律的體現。所以,Scaling law不僅是大模型發展的底層規律,也是通向AGI的可靠路徑之一。
過去一年關於Scaling law是否遇到天花板的討論比較多,但其實,目前能夠有足夠多的資源和資料去觸控Scaling law天花板的公司,全世界沒幾家。因為首先需要足夠強大的基礎設施和計算資源,其次還需要足夠多的訓練資料。關於資料,一方面是現有的網際網路相關資料,另一方面是合成數據——合成數據非常重要,但是合成數據的質量能否用於有效訓練,取決於基礎模型的生成能力和合成資料的方法,截止到2024年,可能只有GPT-4等極少數模型能達到這個水平。所以,目前還不能給Scaling law下個遇到天花板的結論。
3.2 Scaling law固定路徑被打破
隨著Scaling law的縱深發展,其發展的固定路徑已經被打破!進入了新的Scaling law 2.0階段。
DeepSeek-V3的釋出在領域內引起廣泛討論,他們用正常十分之一的算力達到目前大語言模型的SOTA效能。個人認為這個工作的出現標誌著GPT-1以來基於Scaling law的固定迭代路徑已經被打破了,是個模型架構和工程最佳化結合的突破性成果。由此也讓領域內看到模型工程最佳化的高度,所以模型架構在晶片計算層的最佳化將會是大模型訓練和推理的研發重點方向。由此路徑深入迭代,將會把模型工程引向模型架構和晶片架構深度融合的類腦晶片方向,從而突破Scaling law的限制,把模型訓練和推理帶入下一個階段。當然,這個方向需要時間探索。國內剛剛釋出的MiniMax-01模型也是這類不錯的工作。
除此之外,OpenAI o1開啟Test/inference-timescaling law的階段。語言大模型可以看成是知識的壓縮,那怎麼利用知識產生更好的智慧就是基於基礎模型的思維推理必然發展的方向。思維推理的發展也從一維單鏈路CoT模式到基於像蒙特卡洛樹搜尋MCTS的系統化多維推理演化,從而構建更智慧更體系化的思維模型。推理演算法的發展也反過來影響基礎模型的Scaling law路徑,例如微軟rStar-Math演算法無需從大模型蒸餾也能用60塊A100訓練的7B模型在數學推理上媲美達到OpenAI o1效能。上海AI實驗室的書生·浦語3.0的InternLM3-8B-Instruct模型透過提升資料質量和資料工程,只用15%的算力達到SOTA效能。過去半年這類工作有不少,就不一一列舉。
總結來說,無論資料維度、模型尺寸維度、還是算力維度,Scaling law在模型上的體現已經過了粗獷式的發展階段,進入追求更有效的資料使用方式、更合理的架構設計、更極致的工程最佳化、更體系化的思維推理的2.0階段。
3.3 底層架構趨向統一
這裡所說的架構可以分為兩個層面,一個是指生成架構,例如自迴歸模型、擴散模型、流模型、生成對抗網路等;另外一個層面就是逼近函式通用的網路結構,例如卷積神經網路、LSTM、U-Net、Transformer等。Transformer架構因其對Scaling law的優良適配性,正在成為多種演算法統一的底層架構。自然語言處理領域的自迴歸模型、擅長視覺任務的擴散模型和常用於AI for Science方向的圖神經網路模型,都呈現了逐步收斂到Transformer架構之上的發展趨勢。
在過去的一年,Sora的出現不僅僅是影片生成的突破,也改變了視覺方向的底層架構設計,DiT(Diffusion Transformer)迅速成為視覺方向業界公認的基礎架構,演算法的設計都往這種架構收斂,這就是演算法發展的不可預料性和強大活力。Transformer問世於2017年,當時在NLP領域只用了兩三年時間迅速替代當時的主流框架LSTM。在Transformer沒有誕生之前,LSTM在NLP領域佔有絕對的主導地位,無人能預料到這麼快會被邊緣化——但就是這麼發生了,這種不可預料性也是演算法研究的樂趣所在。
在多模態方向上,理解、生成、理解和生成的統一等任務和模態的統一架構研究也非常活躍。業內期待能有一個大一統的架構可以把不同模態和任務統一,有代表性的例如智源研究院基於自迴歸架構的Emu3和Meta的MetaMorph模型。
架構趨於統一對於AI發展來說很有意義。首先,統一的架構可以顯著地增強AI系統的互操作性,深度探索不同模態、不同語義、不同尺度資料的深層次關聯性,這對人類透過AI認知和理解世界有決定性意義。達摩院在這個方向有跨領域跨學科的專案在開展中。另外,統一的架構也將大幅提升研發和部署效率,不僅使AI底層基礎設施的模型系統架構更加簡潔,也使推理的軟硬體架構可以在不同領域快速泛化使用,這將大大加速AI研發效率、產品的落地速度、和普惠化程度。
自迴歸模型會是生成模型的最終答案嗎?目前只能說,可能性是存在的。但是同時我們也要看到擴散模型除了在視覺方向的廣泛應用以外,在AI for Science方向也正在被普遍使用。Transformer會是AI的終極底層架構嗎?終極答案是否定的,但在一定時間內Transformer還會是大多數AI演算法設計的最優選擇。尤其是隨著AI的廣泛應用,深入千行百業,會強化Transformer的主導地位,因為無論工程和系統方面,還是晶片等硬體層面,目前都是圍繞Transformer架構進行的。除非有一個突破性的新架構出現,否則Transformer很難在短期內被顛覆。
3.4 生成模型是AI演算法的第一性原理
深度學習解決了複雜函式的通用逼近問題,而生成模型解決了機率論裡的古老問題——高維資料分佈(或是非線性結構)的擬合。我們上大學時學習機率論,核心就是估計機率密度函式、擬合數據分佈。為什麼擬合數據分佈重要?因為AI處理的就是資料,一旦擬合了資料分佈,尋找到資料結構的機理,就能透過直接取樣生成新的資料。因此,絕大多數AI要解決的任務,本質上都可以簡化成對資料分佈的擬合和對資料分佈的修正這兩個很基礎的問題。所以生成模型是非常本質的,它成為AI的基礎模型是符合第一性原理的。
生成模型一定程度上可以突破網際網路資料階段性見頂和各個領域內資料缺乏的困境,對推動AI發展的作用遠超作為演算法應用本身。例如基礎模型效能發展最成熟的NLP領域,生成資料用於訓練模型已經是常態,是解決NLP資料困境的有效途徑。除了影片方向的Sora,自動駕駛領域也在用生成資料來解決corner case的問題。Tripo和Rodin三維生成模型也展現了令人鼓舞的前景。科學方向基於擴散模型的RFDiffusion和Chroma演算法可以用於蛋白質設計。微軟釋出了可以快速生成不同型別無機材料的基礎模型MatterGen。醫療方向也在用生成模型解決醫療資料稀缺的問題。隨著各個模態生成基礎模型效能的成熟,其它方向也會如此。
更重要的是,基於生成模型的思維推理是構建智慧的關鍵。目前生成模型的發展和使用還在初期階段。基於生成模型對於知識的建模、結構的擬合、智慧的構建才剛剛開始,新的思維正規化也將會在未來幾年裡出現。從點線的低維度推理模式到高維度體系化思維能力的演化,不僅會促使模型能力的極大提升,也會讓研究員重新審視模型架構的設計本身,從而加速AGI時代的到來。
04
AI產業進入百花齊放階段
前面重點討論了技術方向,接下來,讓我們展望AI的產業影響。人類有幾個基本的特點:血肉之軀的能力限制,所以物理工具是必需品,而最極致的工具是物理化的人——機器人;知識無法遺傳,所以教育不可或缺;肉體衰老死亡,所以醫療是人類社會的剛需服務;活動受到物理環境的限制,所以數字模擬必將成為AI的基礎設施。我們就聚焦在硬體、教育、醫療、和數字模擬這幾個題目進行簡要討論。
4.1 智慧硬體具備爆發條件
2024年像谷歌的Gemini、OpenAI的GPT系列、阿里巴巴的通義Qwen-VL、智譜的GLM-Realtimes、和麵壁智慧的“小鋼炮”MiniCPM-o 2.6 端側模型都在多模態和視覺理解能力上取得了顯著進步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態的資訊來進行和環境感知和互動的,所以多模態是人機互動的關鍵。多模態基礎模型能力的成熟會促使兩個方向的進步:一個就是數字智慧體,也就是現在說的Agent;一個是物理智慧體,也就是包括機器人在內的智慧硬體。所以按照技術演化的邏輯,2025年智慧硬體會迎來高速發展期。
在人機互動的資訊媒介中,語言和語音是其中兩個最重要的兩個基礎模態。對於語音,除了智慧手機之外,智慧耳機會是自然的人機互動的指令入口,所以會在AI驅動的智慧硬體中佔有核心的地位。國內位元組和訊飛都在消費級智慧耳機方向上率先發力。另外,輕量級的腦機介面裝置也在CES 2025上出現,例如美國初創公司釋出的Omi的AI可穿戴裝置。這種類似的智慧硬體雖然輕量,但是都是不同模態人機互動入口級別的智慧硬體,值得關注。
另外一個大的方向就是機器人,剛才在具身智慧章節中從技術的角度闡述了關於機器人的看法。但是從產業落地的角度去觀察,是不同的路徑。目前業內認為率先落地的是工業場景,如汽車總裝線,這個場景下機器人的目標是替換高階技工並帶來產能的提升。另外一個就是家庭智慧玩具,它基於輕機器人本體路線,但帶來多模態的人機互動。
和主流看法有點差異,我們認為對於未來機會的把握這兩個都不是當下落地的理想路徑。而二者的結合:一個低自由度,結構簡單穩定,能夠帶來“輕、靜、快”的物理互動,又能結合AI提供多模態感知互動的機器人,很可能會更早地形成可以持續的商業生態。在2025年,除了大家都熟知的人形機器人,我們更期待一款可落地的消費級機器人新品類出現。
4.2 醫療2.0時代開啟
在AlphaFold榮獲2024年諾貝爾獎後,幾乎所有人都意識到了AI解決基礎科學問題的巨大力量,AI for Science已成為毋庸置疑的重要趨勢。其中,生命科學和醫療是關乎人類福祉的方向。AlphaFold發明人之一、DeepMind CEO Demis Hassabis也預測人類有可能在未來十年內治癒大部分疾病。這一預測如果成為現實,那將是醫藥誕生以來的歷史性進步。
在過去幾個月裡,Nature正刊上接連發表了病理學基礎模型CHIEF、精準腫瘤學多模態基礎模型MUSK、人類細胞型別的轉錄基礎模型GET,還有Nature Medicine上解決醫療影像合成的生成基礎模型MINIM,多模態醫療基礎模型BioMedGPT等。這些基礎模型工作的接連出現,標誌著醫療技術2.0時代的到來。醫療方向正在從針對單病種單型別的技術時代快速向基於基礎模型加具體任務微調的大模型範式轉換。另外,完整週期的大佇列資料對於疾病治療至關重要,但是獲取完整佇列資料非常困難而且週期很長。藉助生成模型,有望解決醫療週期數據缺失的問題,這對醫療領域取得實質性進步意義重大。
達摩院在醫療AI方向成果顯著,在Nature Medicine上發表了基於平掃CT影像的胰腺癌檢測演算法DAMO PANDA,是業內首次藉助平掃CT進行胰腺癌篩查的方法,為大規模低代價進行胰腺癌篩查開闢了新的路徑。這項工作被斯坦福大學釋出的2024年AI指數報告列為“年度亮點研究”,是國內唯一入選的工作。目前達摩院正在進行中的多病種統一演算法架構、醫療多模態基礎模型和腫瘤動力學等相關研究,也有望在今年取得重要進展。
4.3 AI驅動的教育
無論孔子時代的問答式教學、還是柏拉圖時代開啟的思辯,教育至今都延續老師和學生物理互動的模式。學生學業的高度很大程度上取決於老師水平的高低和資源的多少,因此,受限於不同地域和文明發達程度的不一,人類離教育普惠一直遙不可及。令人欣喜的是,這種狀況要在AI時代終結了。
在谷歌的Gemini多模態模型和OpenAI的多模態模型釋出會上,都不約而同地展示了多模態大模型在教育場景的應用示例,這足以說明AI公司對於利用AI技術解決教育問題的期待和重視程度。AI將人類沉澱的知識壓縮到模型中,從而利用記憶和組合生成可以創造出比人類更加智慧聰明的數字智慧體。所以在不遠的將來,利用多模態大模型的能力,虛擬老師的水平將會超過幾乎所有的真實老師的水平,從而使教育提高到一個全新的高度。只要有可以執行AI軟體的硬體終端,人人都可以獲取最好的教育。這會在未來五年內發生,將是人類教育事業全新的開始。
但是教育本身也包含物理互動的過程,而且這是數字智慧體沒法完全取代的,所以教育方向將有適應AI時代的各種智慧硬體出現。
4.4 數字模擬2.0
2024年對於AI發生的其中有一個轉折就是演算法到物理世界的轉場。AI為了更好地適配物理世界並實現落地,各類數字化模擬將會成為不可或缺的基礎設施。世界模型就是其中一個備受關注的方向,還有現象級討論的Genesis物理模擬平臺等。但是這裡談到的數字模擬遠不止現在學術界研究的世界模型覆蓋的範疇,這是一個涵蓋從微觀尺度到宏觀尺度的數字技術和物理世界對映的正規化變化。
英偉達在數字模擬領域上進行了系統化的深入佈局。NVIDIA Isaac、Omniverse和Cosmos等平臺正構建一個完整的模擬生態系統,重塑工業研發鏈路和正規化。在CES 2025上,英偉達演示了在自動駕駛模擬、飛機制造、機器人研發以及工業場景的數字孿生等方面的應用,展現了廣闊的前景。
不僅在工業場景,數字模擬在生命科學上也展現了巨大的潛力。2024年DeepMind和哈佛大學在Nature上發表了由AI生成的數字生命體——虛擬老鼠,使用命名為MIMIC的演算法能夠模擬齧齒動物的大腦活動和行為表現,在生物動力學方向取得重要突破。國內智源研究院提出了 BAAIWorm 天寶,實現了秀麗隱杆線蟲的神經系統、身體 和環境的互動模擬。基於真實物理世界機理的生物動力學模擬,將會開啟一個全新的生命科學研究正規化,有著深遠的意義。
在數字化時代,原則上幾乎每個物理世界的場景都可以進行模擬。從核聚變研究到細胞活動模擬,從機器人研發到數字生命體建模,從機械動力學到生物動力學,從微觀到宏觀的自然界都將會在模擬系統中被重建。
05
結語
這輪AI浪潮會把人類社會帶入全新的智慧時代,人類認知世界、改造世界的能力將得到空前的提高。可以預料到的是,三十年後我們將身處一個與現在完全不同的嶄新世界。作為AI從業人員,我們非常榮幸可以參與這一歷史程序,也希望本文能夠為AI同仁探索未來提供一些啟發。未盡之處,歡迎關注“DAMO開發者矩陣”,我們將在後續文章中持續探討AI的前沿趨勢與應用展望。
本文標題由編者所注,原標題為《2025AI展望:Scaling law新敘事加速AI變革》。
親愛的讀者們,不星標《知識分子》公眾號,會錯過每日科學新知!星標《知識分子》,緊跟前沿科學,一起探索科學的奧秘吧!

請戳上圖卡片新增星標

關注《知識分子》影片號
get更多有趣、有料的科普內容

END

相關文章