李國傑院士:人工智慧將走向何方?

李國傑,中國科學院計算技術研究所研究員、首席科學家,中國工程院院士,第三世界科學院院士。
記者:近期,ChatGPT、DeepSeek等生成式AI爆發式發展,有觀點認為,這意味著人類已接近實現通用人工智慧,您怎麼看待?
  李國傑:通用人工智慧(AGI)指AI在多個領域具備人類同等智慧水平解決複雜問題的能力,這一概念尚未形成廣泛共識。許多學者認為智慧是在知識和資源相對不足的情況下,一個系統的適應能力,並能夠應對設計者預料之外的情況,才叫“通用”。因此,學術界更關注智慧系統的持續學習、自我改進能力以及與外部世界基於常識和經驗互動的能力,而不僅僅是其語言處理能力。簡單宣稱“接近實現AGI”缺乏實際意義,關鍵在於如何定義AGI。
近幾年,生成式人工智慧發展迅猛,我們正在迎來人工智慧第三次浪潮的高峰期。斯坦福大學《2024年人工智慧指數報告》明確指出,機器學習大模型在影像分類、視覺推理及英語理解等方面的表現已超過人類。聊天機器人和其他智慧軟體正在改變我們的工作和生活。AI驅動的科學研究作為科研第五正規化,也展現出驚人潛力。比如DeepMind的AlphaFold3已成功預測地球上已知的超兩億種蛋白質的三維結構,有望顛覆當前的藥物研發模式,其發明者獲得了2024年諾貝爾化學獎。人們相信,智慧技術的指數性發展一定會加速通用人工智慧的到來,但自適應性、持續學習及與外界互動等問題仍需克服。
  人工智慧是對人類智慧某方面的再現和超越,其通用性是相對的,需基於特定條件或範圍。大模型追求的AGI只是眾多通用目標的一種。我們要認識人工智慧的侷限性,不能盲目追求天下通吃的人工智慧,重點還是要根據實際需求,將相對通用的人工智慧技術落地到各行業,讓一定範圍內的人工智慧技術見到實效。
  實現通用智慧是一個漸進過程,不會因某項技術的發明就突然到來。儘管當前AI的通用性比前兩波有顯著提高,但距離真正的通用智慧還有較大差距。在某些應用中透過圖靈測試只是階段性成果,發展既通用自主又安全放心的人工智慧仍是巨大挑戰。
記者:您認為推動這輪AI突破的核心要素是什麼?
  李國傑:這是整個資訊科技發展和成熟的結果。神經網路模型早在1943年就已提出,但在算力和資料充分豐富的今天,才真正釋放威力。一是積體電路和超級計算機帶動平行計算技術走向成熟,使得算力提升了萬億倍,為人工智慧的突破提供了足夠的計算能力;二是網際網路催生資料量爆炸式增長,使得人類已知的全部可數字化的知識都可以被機器學習吸收;三是人工智慧前60年的科研紅利發揮了作用,符號主義人工智慧為數字化基礎設施的形成作出了不可磨滅的貢獻。可以說,人工智慧的復興不僅是神經元模型和深度學習等智慧演算法的勝利,也是計算技術的勝利、網際網路的勝利、摩爾定律的勝利。
與前兩波人工智慧不同的是,統計推理在第三波人工智慧中發揮了核心作用。基於大資料和神經網路模型的統計推理是生成式人工智慧的核心技術,在機器學習和強化學習模型的訓練和最佳化過程中發揮了關鍵作用。馮·諾伊曼最早認識到神經元模型不同於圖靈機模型,他指出:“資訊理論包括兩大塊:嚴格的資訊理論和機率的資訊理論。以機率統計為基礎的資訊理論大概對於現代計算機設計更加重要。”從目前大模型取得的成功來看,馮·諾伊曼的預言已經變成現實,計算模型的改變是隱藏在輝煌成果後面的本質原因。
記者:有人將AI突破完全歸功於大模型,您是否認同?機器學習大模型的本質是什麼?目前學界有哪些主要觀點?
  李國傑:大模型是人工智慧近七十年發展的最高成就,也是實現通用人工智慧的可能方向。這一波人工智慧的成功離不開大模型,也離不開大資料和大算力。因此,將重大突破全歸功於大模型是片面的。到達山頂的路不止一條。人工智慧其本身擁有多元化的目標和多條技術路線。大語言模型是其中的重要進展,但未來還將出現更高效、節能和安全的新技術。
  與傳統的符號主義人工智慧相比,基於神經網路和機器學習的大模型確實有顛覆性的意義。基於大模型的智慧系統已經不是簡單的人造工具,而是與人類認知水平接近的智慧體。不管大模型會不會發展成為矽基生命,我們對大模型引發的機器智慧的巨大潛力和風險要有清醒的認識。
  機器學習大模型的本質是什麼?至今沒有答案。數學家將大模型看成高維函式的擬合器。物理學家將人工神經網路看成尋找系統最低能量的生成模型,早期的神經網路模型被稱為“玻爾茲曼機”。複雜性科學家認為大模型是一個可以出現湧現行為的複雜系統,主張從瞭解複雜系統的規律開啟缺口分析大模型。
  現代資訊學奠基人之一的李明和OpenAI前首席科學家伊利亞·蘇茨克維等都認為,AI大模型的本質是資訊壓縮。輸入大模型進行訓練的資料量是PB級別,而得出的大模型的引數只有TB級甚至GB級,壓縮了上千倍。壓縮可認為是人性的一種本質特徵,生物進化過程的“適者生存”也可解讀為“最壓者生存”。資訊壓縮為理解大模型的本質提供了新的視角,柯爾莫哥洛夫複雜性有望為機器學習提供新的理論基礎。
AI界都在努力尋找描述世界和預測未來的模型,儘管各團隊構建的模型在不同資料和結構上以不同目標進行訓練,但他們正趨向於在其表示空間中形成一個現實世界的共享統計模型。麻省理工學院的研究顯示,大模型內部出現了類似人類大腦“腦葉”結構和“語義晶體”。這一發現為大模型的基礎研究提供了新的線索。
  大模型目前還是一個“黑盒”,其湧現能力像20世紀初物理學上空的“兩朵烏雲”般難以解釋,這正是劃時代理論突破的前兆。學界正致力於揭開其神秘面紗,使之變為“白盒”,至少變成“灰盒”。同時儘量努力把人類向善的價值觀賦予智慧機器,實現以人為本的人機協作。
記者:近期,國內DeepSeek推出了效能優越且成本效益高的新模型,引起全球轟動。這類探索是否代表中國AI從應用創新向基礎創新跨越?您如何評價這類“小而精”模型與通用大模型的差異化價值?
  李國傑:DeepSeek的推出成為世界人工智慧發展史上的一個標誌性事件,不僅創下了全球使用者增長速度的新紀錄,還引發了市場對相關硬體需求預期的調整。例如,英偉達的股價短期內有所波動,反映了市場對新興技術可能帶來的行業變革的敏感性。這也表明中國科技公司在全球最關注的核心技術領域,正透過持續創新重塑世界既有格局。
  DeepSeek為在受限資源下探索通用人工智慧開闢了新的路徑。傳統大模型通常從廣泛的通用能力出發,逐漸向特定應用場景最佳化。相比之下,DeepSeek採取了一種不同的策略,透過專注於特定任務或領域,逐步擴充套件其通用能力。這種方法有助於推動人工智慧技術生態的發展,並促進通用人工智慧的社會共享。“小而精”模型將AI的應用重點從面向企業轉向面向消費者,從廣泛覆蓋轉變為深度最佳化,讓更多的中小企業參與,可能會創造更大的市場空間。這種“垂直深潛”策略與通用大模型的“橫向擴充套件”互為補充,共同構建智慧時代的創新生態。
長期以來,中國AI企業側重於應用和商業模式創新,追求快速盈利,較少涉足核心技術的原創性突破。與西方發達國家相比,我們真正的差距不在於資金或硬體的短缺,而在於缺乏原創技術和發明,以及在增強信心和有效組織高水平人才進行創新方面的能力不足。隨著經濟的發展和技術的積累,中國企業逐漸增強了原創研發能力。DeepSeek帶了一個好頭,他們把探索通用人工智慧的實現之路作為奮鬥目標,並吸引了一批充滿創新熱情和好奇心的年輕博士加入。這些90後的中國青年展現出與西方同行平等對話的信心和“敢為天下先”的勇氣,成為中國科技自主創新能力發展的希望。
記者:大模型的“規模法則”是否已接近極限?是否仍是AI發展的金科玉律?
  李國傑:在AI領域,“規模法則”(Scaling Laws)被一些人認為是公理,俗稱為“大力出奇跡”,OpenAI等企業和美國AI投資界把它當制勝法寶。但是,“規模法則”不是像牛頓定律一樣經過無數次驗證的科學定律,而是OpenAI等公司近幾年研製大模型的經驗歸納。從科學研究的角度看,屬於一種對技術發展趨勢的猜想。從投資的角度看,屬於對某種技術路線的押注。把一種信仰或猜想當成科學公理,不是科學的態度。
  強化學習之父理查德·薩頓曾力挺“規模法則”,在其博文《苦澀的教訓》中總結AI的發展史:“研究人員曾一次又一次試圖透過精巧的工程設計來提升效能,但最終都敗給了簡單粗暴的‘加大算力’方案。”但是他這兩年對“規模法則”進行了深刻反思,認為雖然“規模法則”在提升模型效能方面確實有效,但它並不是解決所有問題的萬能鑰匙。AI系統不僅需要具備強大的計算能力,還需要具備持續學習、適應環境、理解複雜情境等能力,這些能力往往難以透過簡單地增加算力來實現。
  GPT-5遲遲不能問世,可能表明規模擴張的效果已經減弱。圖靈獎得主楊立昆和伊利亞·蘇茨克維等人直言,“規模法則”已觸及天花板。DeepSeek的出現,更逼迫AI界嚴肅地思考這一技術發展路線問題:是繼續燒錢豪賭,還是另闢蹊徑,在演算法最佳化上下更多功夫。DeepSeek的成功似乎預示著“小力也可出奇跡”,或者說“演算法和模型架構最佳化也可以出奇跡”。隨著時間的推移,AI擴充套件方法也在發生變化:最初是模型規模,後來是資料集大小和資料質量,現在是推理時間和合成資料。
  但現在就說“規模法則”已經走到盡頭,也沒有根據。與人腦的神經連線複雜性相比,現在的人工神經網路至少還有上百倍的差距。繼續擴大神經網路的規模和增加訓練的資料量,是否還能取得與投入相稱的回報,還要看今後的實際效果。
記者:算力、資料、演算法被視為AI三大支柱。中國在算力基建(如“東數西算”)上投入巨大,但高階晶片、高質量資料集等仍受制約。如何構建自主可控的AI基礎設施生態?
  李國傑:發展人工智慧需要充足的算力和高質量資料,必須構建自主可控的AI基礎設施生態來保障資源供給。美國的AI基礎設施是基於英偉達的GPU建立起來的。我國的人工智慧加速晶片,如華為的昇騰、海光的DCU和寒武紀的晶片與GPU晶片的硬體效能差距並不是很大。英偉達的核心優勢在於CUDA軟體生態及NVLink和InfiniBand高速互聯,其中CUDA生態最難攻克。DeepSeek雖衝擊了CUDA生態,但沒有完全繞過CUDA,CUDA的生態壁壘仍然存在。從長遠來講,我們需要開發一套比CUDA更優秀的自主可控的AI軟體工具系統。像取代Wintel和ARM+Android系統一樣,就是要重構軟體生態系統,這是一項十分困難的任務,需要周密的規劃和長期努力。國家應該下決心組織全國的開發力量,充分調動上下游企業的積極性,完成這件關於國家發展和安全的大事。
信創工程對推廣國產化晶片和軟體有重大的推動作用,但產業生態的形成主要靠市場牽引。國家要透過政策引導,鼓勵在PC、手機和物端裝置上推廣AI應用,擴大“國產大模型+國產GPU”應用空間,增強國產GPU、CPU和軟體的市場份額。高度重視晶片設計和大模型的開源戰略,爭取我國在全球AI開源系統中起到主導作用。
  GPU晶片可能會在市場上延續相當長的時間。從長遠來看,GPU並非終極方案,針對一類AI應用的專用晶片也可能成為主流,AI加速晶片將來可能進入多晶片競爭的XPU時代。Groq的LPU推理效能已達GPU的10倍,其單晶片能實現每秒250萬億次整數運算,延遲低於1微秒。算力是AI基礎設施的重要組成部分,我們既要攻關ZFlops級的超算,也要探索類腦計算、光子計算等新正規化。為了降低能耗,模擬計算、類腦計算、碳基計算等非傳統計算肯定是重要的研究方向。
記者:資料被稱作新時代的“石油”,但高質量資料的獲取越來越難,AI發展會面臨資料枯竭嗎?未來應如何應對這一挑戰?
  李國傑:確實存在隱憂。現階段人工智慧的主流是資料智慧,從某種意義上講,沒有資料就沒有智慧,資料已成為AI技術進步的關鍵。有專家預計,2026年現存高質量語言資料將耗盡,合成數據將成為關鍵突破口。因此,行業正從“大資料”轉向“好資料”。未來的AI應用需要大量稀缺且難以獲取的長尾資料,如自動駕駛中的極端天氣與路況資料、具身智慧訓練所需要的複雜場景資料等。對於許多實際應用來說,擁有50個精心設計的樣本足以讓神經網路學習所需知識,例如缺陷檢查系統。
  在醫療、工業控制、金融等垂直領域,優質資料更依賴於人工標註,往往需要高素質的專業人員。因此,資料標註不完全是勞動密集產業,其大有發展前途。為此,我國應把握資料標註產業升級的機遇,發展AI輔助標註技術,建立和完善行業資料標準,推動資料標註向技術密集型轉變。DeepSeek等企業的實踐證明,最佳化資料質量比單純增加數量更有效。
記者:可解釋性與自主性是AI發展的兩大目標,但二者似乎存在矛盾。您如何看待這一問題?
  李國傑:人們希望AI系統具備自主性以適應複雜環境,但完全自主可能導致失控,因此可控性至關重要,但可控的人工智慧一定是可解釋的。因此,實現既自主又可控的AI,需要新的治理哲學。
  要解決兩者之間的矛盾,必須對自主和可控設立一定的界限,不能追求絕對的自主和絕對的可控。一是允許“邊做邊看”的適度黑箱,不必強求絕對的可解釋性。二是對不允許做的自主AI技術明確立法限制,可參照核武器和基因編輯技術的管控。自主性和可控性如同汽車的油門與剎車,只有建立動態平衡機制,才能實現“有限自主、可靠可控”的智慧系統。
記者:最後,您對AI基礎研究有何展望?
  李國傑:人工智慧的基礎理論源於半個多世紀前的科學成就。近年來的發展主要得益於工程技術的突破,而非基礎理論的重大突破和新方向的開闢。在現有的研究方向上添磚加瓦、修修補補,可能只會有漸進式的發展,需要解放思想、另闢蹊徑,走前人沒有走過的新路。獨創性的長週期的基礎研究往往是熱情和好奇心驅動的研究,只有改變完全靠論文和“人才帽子”驅動的科研文化,基礎研究才會走上良性發展的道路。
  被譽為AI教父的傑弗裡·辛頓,從提出反向傳播演算法到探索“凡人計算”,為人工智慧的基礎研究樹立了榜樣。“凡人計算”是一種新型計算正規化,顛覆了硬體與軟體分離的傳統計算模式,採用與人腦一樣的存算一體模擬計算方式,從而顯著降低能耗並提高效率。這類研究短期內效果不明顯,但有望帶來重大突破。(來源:《學士時報》)
點選底部“閱讀原文檢視更多
在職“MBA/EMBA/DBA”課程
↓↓↓↓↓↓↓↓↓↓↓


相關文章