20年內實現AGI!李開復與張亞勤共同預測:無人駕駛領頭,大模型六波應用潮流隨後

整理 |華衛
6 月 14 日,零一萬物 CEO 李開復和中國工程院院士、清華大學智慧產業研究院(AIR)院長張亞勤,在 2024 北京智源大會由智源研究院理事長黃鐵軍主持的 Fireside Chat 上,分享了對通用人工智慧技術的整體趨勢判斷,包括大模型的“靠譜”發展路線和應用爆發階段、具身智慧中最有機會的產品可能性以及對 AGI 能力與風險的理性判斷。
“AI 2.0 時代下,在中國大模型 To C 短期更有機會,國外 To B 和 To C 都有機會。”李開復坦言,零一萬物堅決做 To C,不做賠錢的 To B,而是做能賺錢的 To B。並且,他對於近兩年備受追捧的人形機器人,提出了一連串深度質疑。
“絕大多數應用場景並不需要人形機器人。炒菜機器人應該長得像鍋,吸塵器也長得並不像人,沒有必要。波士頓動力那種很酷的、跳來跳去的機器人,真的有很多應用場景嗎?幾個輪子不是更容易移動嗎?”
張亞勤則在指出當前大模型技術存在三大不足的同時,對無人駕駛的實現前景表示了極大的肯定,“在明年,無人駕駛會成為第一個真正實現具身智慧或者物理智慧的 AGI。”
以下是李開復和張亞勤對話的完整版本,AI 前線在不改變原意的基礎進行了刪減編輯。
做大模型,科技與工程缺一不可
黃鐵軍:近期關於大模型的討論特別熱門,可以說大模型是至今為止人工智慧發展最成功的一個技術方向。想請問是什麼原因使得大模型如此成功?還有哪些欠缺的地方需要進一步發展?
李開復:AI 2.0 是有史以來最偉大的科技革命和平臺革命,大模型 Scaling Law 的重要性在這個時代得以凸顯——人類能夠用更多計算和資料不斷增加大模型的智慧,這條被多方驗證的路徑還在推進中,還遠沒有觸達天花板,這點也讓大家非常振奮。
而大模型的智慧來自於接近無損的壓縮,這點也非常重要,上世代的人工智慧從業者很難想到今天壓縮和智慧會連線在一起。因為 Scaling Law 過程中不能盲目堆更多的 GPU,所以需要有一個評估我們有沒有越做越好的方法。零一萬物內部有嚴謹的方法論,用壓縮的理念去評估,讓以往漫無目的“煉丹”訓模過程變得更系統,也更有科學和數學根據。
大模型正面臨著挑戰,比方說如果“僅僅用更多算力就能把它往前推動”是主要方向,就會導致只有那些 GPU 資源豐富的公司和國家能夠在這方面勝出。但話說回來,我們已經驗證了很多國內大模型在部分案例裡接近、打平或者偶爾超過了美國的大模型。所以我認為當下需要關注的是演算法和工程創新一體化的推進,以及怎麼以這種能力避免進入“盲目堆算力推動模型效能提升”的狀態。
當然,目前大模型還直面許多其他挑戰。就像每個技術剛誕生都會有問題,起初大模型也不知道最近一年發生了什麼,如記憶、視窗長度、幻覺問題等。但我們可以看到的是,當全球如此多聰明的大腦湧入這個領域後,大部分問題不能說被完美地解決,但都在逐步被攻克的過程中,所以我對大模型的未來相當樂觀。
張亞勤:我講“三個做對了”的和“三個目前需要改進”的 。首先,規模定律 Scaling Law 的實現,主要得益於對海量資料的利用以及算力的顯著提升。再加上現在的 Diffusion 和 Transformer 架構能夠高效地利用算力和資料,使得“飛輪效應”得以正迴圈。儘管有人質疑 Scaling Law 在 2 到 3 年後是否仍然有效,但我個人認為至少在未來 5 年裡,它仍將是產業發展的主要方向。
其次是“Token-Based”統一表述方式。在大模型中,“Token”是一個基本元素。無論文字、語音、影像、影片,還是自動駕駛中的雷射雷達訊號,甚至生物領域的蛋白質和細胞,最終都可以抽象為一個 Token。Token 之間的訓練、學習和生成是核心環節,這與我們大腦中的神經元工作原理相似,無論執行何種任務其基礎機制都相同。
最後是通用性,這與 Token 緊密相關。現在的通用性不僅體現在文字處理上,還擴充套件到了多模態領域,甚至可以生成如蛋白質等複雜結構。此外,它在物理世界(如具身智慧)和生物世界(如生物智慧)中也有著廣泛的應用前景。
以上這三個方面是大模型做對的。
現階段的主要問題是:第一個,效率較低,特別是大模型的計算效率低下問題與人類大腦的高效性形成了鮮明對比。人類大腦擁有 860 億個神經元,每個神經元又有數千個突觸連線,卻只需要 20 瓦的能量,重量還不到三斤;而 GPT4 這個萬億引數模型需要巨大的算力和能源,與人腦相比相差 1000 倍之多。
此外,人腦能夠根據不同的情境靈活呼叫不同區域的神經元,而大模型卻每次輸入一個問題都要呼叫和啟用幾乎大量引數。因此,如何借鑑人類大腦的計算方法,在降低計算耗能、提高效率方面進行探索和創新是一個值得關注的方向。
第二個,大模型目前還未能真正理解物理世界,相關的推理能力、透明性以及開復剛才提到的幻覺等問題都還在深入研究中。一個重要的問題是,即使大模型做得再好,在生成式表述與對真實世界的描繪之間都存在矛盾。因此,我們需要探索如何將生成式的機率大模型與現有的“第一性原理”或真實模型、知識圖譜相結合。
目前,雖然已經有了一些嘗試,如採用 RAG 技術或進行微調,並取得一定的進展,但我認為這些方法並非根本解決方案。我預測,未來五年內將會出現一個全新的架構,有望取代 Transformer 和 Diffusion 模型。
第三個欠缺的地方是邊界效應。現在大模型無法知道“我不知道什麼”,這是目前要解決的問題。
黃鐵軍:剛才開復老師沒講,我想再追問一下,有些人認為大模型是實踐、工程,是經驗主義做的東西,沒有理論基礎,說得不好聽叫“不靠譜”,不知道你怎麼看這個問題?
李開復:我覺得科學和工程缺一不可。如果只做工程,不瞭解“第一性原理”,沒有數學的根據、沒法評估不同路徑的效果,考慮到高昂的算力成本,這樣的摸索肯定是做不出一個好模型的。但如果只是在實驗室裡雕花,期待有工程人才把自己的論文做成產品,這也是不行的。零一萬物的經驗是,每個做 AI、做模型的 Researcher 都要懂 Infrastructure、推理和成本的問題。這樣當面對科研問題時,就知道在產品裡需要的反應速度有多快,要怎麼實現,且做完實驗就能確保模型可以得到令人滿意的工程結果。訓練模型的過程中絕對不只是寫 Paper,還要同時考慮怎樣系統化、工程化地做資料工程,因為資料的訓練、資料的篩選是非常重要的。還有底層的 AI Infrastructure,GPU 這麼昂貴,如果把一張當成兩張、三張使用,任何公司都會得到好處。所以科技和工程這兩方面缺一不可。
大模型應用出現的六個階段
黃鐵軍:大家關心 AI 2.0,大模型產業化最大的場景在哪裡?移動網際網路這麼多年,To B、To C 這兩個大賽道哪個更有機會?為什麼?
李開復:簡單來說,在中國 To C 短期更有機會,國外兩者都有機會。To C 方面,就像移動網際網路、PC 時代裡一個新技術、新平臺帶來新應用,大模型同樣如此,這是巨大的機會,但這些應用的出現一定是按部就班的。我認為 AI 2.0 時代會和 PC、移動網際網路時代一樣。第一個階段應該是生產力工具,包括資訊獲取;第二個階段可能會是娛樂、音樂、遊戲,第三個階段可能會是搜尋;再下一個階段可能會是電商;然後可能會有社交、短影片、O2O 的應用出現。
理由就是剛開始應用要能夠賺錢、解決問題,所以第一波潮流會是生產力工具,但越往後,難度越高——高使用者量的應用商業模式往往是先堆積使用者再找變現模式,所以應用成本一定要很低,試錯難度很大、所需要的投資也更多。我認為遞進的模式不會有特別大的改變,To C 應用會從生產力工具一步步走向短影片類應用。To C 確實會產生大量使用者,但這不是說不能用大模型來做產品,只是在普及順序上會按照這六個階段進行。
當然,這個過程中也有挑戰,在大模型領域做應用跟 PC、網際網路時代不一樣,因為推理成本太貴。最近零一萬物提出了 TC-PMF 概念(技術成本✖️產品市場契合度),這個概念是指,當你考慮 PMF 時,還要把技術的需求、實現難度和成本考慮進去。
第一,做應用一定要考慮到剛才這六個階段誰先誰後、什麼時候做、提早做。第二,做應用的時候還要綜合考慮到當時的技術夠不夠好,成本是否足夠低。所以大模型 To C 應用不像過去移動網際網路時代,產品經理一個人就可以做主,它需要做 Infrastructure 和推理引擎的人一起打磨 TC-PMF。這件事難度高,但回報也高,機會也更大。
最後我想講,在 To C 方面,我不相信技術可以永久領先。事實上技術帶來的領先視窗非常短暫,一旦巨頭看到你驗證了 PMF,他們會有很多方法超越你。一旦驗證了 TC-PMF,就要把握時間視窗把品牌打出來,最終勝出的 To C 應用不只需要有技術優勢,還需要在時間視窗內打造持續優勢,比如品牌優勢、社交鏈、使用者資料,讓使用者不能離開你這個平臺。在微信強大的時代裡抖音能被做出來,就是因為它抓住了這個時間視窗。
再講一下 To B 的應用。大模型有可能在 To B 方向上帶來更大價值,而且能夠比 To C 更快實現,但是 To B 這個領域有幾個挑戰。第一是大公司、傳統公司不是很敢採取顛覆式技術,大公司會習慣每年增長 5% 預算,做和去年一樣的事情。第二個在中國比較嚴重,許多大公司沒有認識到軟體的價值,為軟體付費意的意識有待進一步提高。現在有許多大模型公司在競標時越競越低,做到最後做一單賠一單,都沒有利潤。
我們在 AI 1.0 時代曾見過這個現象,現在它在 AI 2.0 時代又重現了。這種心態導致部分大公司只願支付很低的價格,大模型公司也只能給出折中的方案,達到驚豔效果的寥寥無幾。零一萬物堅決做 To C,不做賠錢的 To B,而是做能賺錢的 To B。所以零一萬物在 To B 方面精挑細選,找那種公司上下都願意擁抱新概念的公司,也為它們設計了 RAG 知識檢索、專有云、微調等方案,在國內外都有嘗試。
無論 To C 還是 To B,API 都很重要,最近國內很多模型降價了,零一萬物也推出了接入國際 SOTA 成績 Yi-Large 大模型的 API。這個 API 背後的模型能力大概接近 GPT-4o,但價格是 GPT-4 的四分之一,我相信這可以幫助更多公司或者創業者達到所謂的 TC-PMF。
黃鐵軍:亞勤,剛才關於 To B 的觀點,大家還有一個非常關心的問題,大模型產業的最大場景會在哪裡?To B、To C 在什麼地方能夠落地發揮作用?
張亞勤:在應用和服務層面,先面向消費者(To C)再面向企業(To B)。To B 的週期相對較長,而 To C 的應用產品則可以迅速推出,這與過去的 PC 網際網路和移動網際網路的發展路徑基本一致。在基礎設施層,目前真正盈利的主要集中在 To B 領域,特別是在晶片、硬體、伺服器等,像英偉達、AMD 等晶片製造商,以及伺服器、HBM 儲存、InfiniBand 和 NVLink 等相關技術的提供商,目前是盈利最多的。
關於 AI 路徑,我在過去十年中一直強調三個關鍵領域:首先是資訊智慧,其次是物理智慧(現在流行的術語是具身智慧),最後是生物智慧。在具身智慧階段,To B 的應用可能會比 To C 更快落地。然而,在生物智慧階段,情況可能相反,To C 的應用可能會先於 To B 出現。儘管每個領域的具體情況可能有所不同,但總體來看,無論 To C 還是 To B,都將存在開源模型、商業閉源模型、基礎大模型以及垂直行業模型和邊緣模型。
無人駕駛明年首實現具身智慧
人形機器人沒有必要?
黃鐵軍:今年具身智慧特別熱,關注度特別高。講到具身,通常像機器人,人形機器人、輪式機器人是一大類,第二大類是車,也是駕駛場景上的具身智慧。還有無人機,在空中飛將來也是一種形態。甚至於大家可以想象出更多的身體形態和具身智慧可能性。我想請問,在具身智慧這麼多可能性裡面,到底是熱門的人形機器人會先有機會,還是已經有相當多積累的自動駕駛會有機會?
張亞勤:從百度 Apollo 開始,有七八年時間我一直在從事無人駕駛研究,無人駕駛 L4+ 是具身智慧第一個最大的應用,也會是第一次實現新圖靈測試的應用.無人駕駛本身就是一個開車的特殊機器人,最近也有很多好訊息,它的安全性已經比人類駕駛要高至少 10 倍,不管是 Waymo 在舊金山的結果還是百度 Apollo 在武漢大範圍的商業運營。最早在 Apollo 開始的時候,我就要求自動駕駛安全性一定要比人類駕駛高出 10 倍。
儘管安全性很好,當前無人駕駛仍存在一些挑戰,就是它雖然開得安全但不夠老練,不夠老司機,駕駛太守規矩了,不會超速或壓線。無人駕駛要變成主流,要透過新圖靈測試的話,需要是好司機,也需要是老司機。我認為,無人駕駛在明年會成為第一個真正實現具身智慧或者物理智慧的 AGI。
另外,大模型的推出幫助無人駕駛解決了很多原來的問題,比如長尾和資料生成問題。百度已經積累了 1 億公里的駕駛資料,雖然資料已經很多但仍然不夠,生成式人工智慧可以生成很多資料。大模型的應用使得無人駕駛系統能夠實現端到端的智慧化,同時也意味著無人駕駛會有更高的智慧性,還將加速其在實際場景中的落地應用。
李開復:我同意亞勤的分析。在創新工場,我們也投了大概 6 家左右的無人駕駛公司,已經跑出至少 3 家獨角獸公司。現在無人駕駛面臨的巨大機會是終於可以落地了。在 L2、L3 階段,包含城市自動小巴等場景,無人駕駛都可以真正創造價值,這是很讓人欣慰的。到 L4、L5 階段,要無限制地開到開放場景,全球都面臨著挑戰。我在美國時看到了 Waymo 進展是不錯的,依然在往前推進。特斯拉推出的 FSD,雖然不是完全的大模型,但用了類似 end to end(端到端)的概念。
至於不用 FSD 方案能產生多少產業價值,我希望我們投的 5、6 家公司和亞勤的前公司都能夠證明,中國能做得很好,也許這就是很大的市場。我認為 FSD 會帶來新的機會,把大模型的概念放到無人駕駛裡,是我非常期待能夠在下一階段看到的事。但是這需要巨大的投資,不見得適合初創公司來做。
講到具身智慧,跟亞勤說的一樣,它是物理世界跟 AI 的結合,這是很重要的。但我也必須說,大模型是非常適合虛擬世界的,在金融公司的後臺、客服等場景很快就可以落地產生價值。如果你的需求是軟體,直接對接大模型就好了。一旦大模型接入物理世界,就需要面臨安全、機器、機械、故障等各種問題,難度會大很多倍。
從創業者角度來說,雖然現在具身智慧一時比較熱,有一些創業者湧入了,但對於大部分創業者來說,如果希望短期落地產生價值、能賺錢,肯定還是做虛擬世界要遠遠容易很多。
具身智慧可以很好地結合大模型多模態能力,而且一旦具身後就可以產生資料,形成資料飛輪閉環,有很大的想象空間,但短期要做好難度很大。具身智慧肯定要走很漫長的道路,而且對於人形機器人我有一些特別的看法。絕大多數應用場景並不需要人形機器人,炒菜機器人應該長得像鍋,吸塵器也長得並不像人,沒有必要。像是波士頓動力那種很酷的、跳來跳去的機器人,真的會有很多應用場景嗎?絕大多數場景幾個輪子不是更容易移動嗎?很多科學家和創業者都是從小熱愛科技,希望能複製一個人,這無可厚非。但是如果你很簡單地問 VC,給出的恐怕是更務實更理性的判斷。
張亞勤:我補充一點,最近經常有人問我,通用人工智慧到底什麼時候可以實現?我比較樂觀,我認為 15-20 年內可以實現,並透過新圖靈測試。0 至 5 年內,在資訊智慧領域,對語言、影像、聲音和影片的理解、生成等方面透過新圖靈測試。0 至 10 年內,在物理智慧領域,實現大模型在物理環境中的理解與操作能力,透過新圖靈測試。0 至 20 年內,在生物智慧領域,聚焦人體、腦機介面、生物體、製藥和生命科學,實現大模型與生物體連結的生物智慧,透過圖靈測試。要是三年前問我這個問題,我可能會說 50 年實現 AGI,這幾年隨著大模型的發展,我認為除以 2,20 年能實現。
AGI 未必能全方位超越人類
黃鐵軍:通用人工智慧包括今天的大模型或者未來幾年能實現的,在資訊空間裡大模型認知能力通常的評測水平,比如說到了大學、博士、專家、學者,甚至於科學家,這是一個通用性,不管什麼學科都可以做,這是一種理解。
但剛才亞勤講到,有了身體進入物理世界,甚至進入物理世界的具身智慧,跟我們今天講的通用人工智慧又有所不同。也就是大家講的 AGI。GAI、具有通用性的人工智慧和 AI 領域說了這麼多年的 AGI 是不一樣的。AGI 是要超越人類的,AGI 是有自我意識的,不僅僅是智慧水平超過了人類。你們剛才談到的是指這樣的 AGI 嗎,還是隻是說前面一種?
李開復:AGI 的定義是因人而異的。如果把 AGI 定義為能做人所能做的一切事情,那麼我今天沒有辦法定義,因為還有太多未知的東西沒有被解。但是這種定義只把人當作金標準,似乎就是問車什麼時候能跟人跑的一樣快,但是車在很多場景已經比人跑得快很多了,只是有些場景沒法勝任。我個人會說:只要 Scaling Law 繼續,只要 AI 一年比一年更聰明,它會多做比如 5 倍的事情,IQ 會提升 20 個點。
但是,它聰明的方向,能做的事情也許是人從來都不能做的,不見要能做人做的每件事。因為我是做投資和創業的,我想看到的是巨大的商業價值。從這個角度來說,我們不會太糾結是不是能夠百分之一百做到人類能做的事。如果世界上有一萬件事情,AI 在 9000 件上做得比人好,有 1000 件人做得比較好,這樣也挺好的,要給人留一點空間嘛。
談到虛擬跟物理世界,我還想再補充一點。在虛擬世界裡,Agent 還是非常重要的,因為人的 Intelligence 不只是回答問題,是要知道“怎麼把事情做出來”。而且如果是談創造商業價值,Agent 幫你把東西買了,幫你把事情解決了,這個是有很大的商業價值,也是貼近 AGI 的重要一步。
張亞勤:我剛才講的 20 年實現 AGI,不包括擁有意識或情感。我對 AGI 的定義有三點,第一是要有巨大的能力,能在大部分的任務要比人類強,而不是所有任務均超越人類。第二,它必須是通用的,過去每個任務都要用不同的模型,但是 AGI 要有一個通用的大底座,當然可以有小的垂直模型,但它本身具有通用性。
第三是不斷升級、學習、進化,就像人類一樣。我不認為現在的 Scaling Law 或者我們現在做的研究會讓 AI 產生意識,並且我也不認為我們應該從事這方面的研究。我們還是要解決真正的問題,把人工智慧作為我們的工具、我們的延伸、我們的 Agent,而不是另外一種物種。
黃鐵軍:從工程、應用、商業所有的角度,可能沒人想去做一個超越人類的、有自我意識的 AGI。但是最近 OpenAI 發生的事情,從去年年底開始,IIya 和 Altman 的爭論觀點就是:你不想做但是它們可能就要出來了,出來之後我們就面臨著失控的巨大風險。你們認為這種風險存在還是不存在?
李開復:我覺得存在的,但機率不會很高。如果我們越來越依賴 Reward model,完全讓 AI 自己找路徑的話,發生的機率或許會增高。當然,當前大模型的訓練方法還不至於讓大家擔憂過度。不管在哪個時代,我認為技術是中性的,每個科技時代有技術帶來的“電車難題”,最後人類都用了有效的方法解決了。
所以,我對此是持謹慎樂觀的態度,短期最擔憂是壞人用它去做壞事。中長期看,我仍然建議嘗試用“以子之矛攻子之盾”——用更好的技術解決技術帶來的挑戰,讓“AI for Good”,真正造福全人類。
張亞勤:隨著 AI 的能力不斷擴大,風險也在不斷擴大,所以現在考慮到未來的風險是很重要的。我不擔心所謂的 AGI 會出現意識,會掌控人類。我擔心的是如果現在不重視 AI 的治理,當 AGI 達到一定的能力並被大規模部署,那麼可能會有失控風險。目前 AI 仍存在可解釋性問題,未來機器人數量可能會比人要多,那麼當大模型被用到基礎物理設施、金融系統,包括國家安全,軍事系統等方面,就可能會有失控的風險。
因此我主張一定要現在開始把 AI 治理重視起來。對於技術發展我永遠持樂觀態度,我認為我們人類有兩種智慧,一種是發明技術的智慧,一種是引導技術走向的智慧。我認為我們會達到平衡,但前提是現在要採取行動。
內容推薦
新應用時代,融合AI技術的應用開發變得更加複雜。在6月14日至15日的ArchSummit全球架構師峰會上,來自位元組、百度和騰訊雲等知名企業的資深架構師分享了他們如何運用AI模型及技術管理手段,解決實際問題。「AI前線」精選了大會上聚焦AI模型及其應用開發的系列PPT,關注「AI前線」,回覆關鍵詞「應用開發」免費獲取。
 活動推薦
InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。

相關文章