Zhaoyang Wang | Chief Editor, GenAI Assembling
Zack Li | Co-founder & CTO, Nexa AI
Xiyue (Anderson) Xiang | Principle Member of Technical Staff, AMD
近日,已經霸屏中美AI頭版多天、火得一塌糊塗的DeepSeek,繼以對標GPT-4o的V3和對標o1的R1衝擊矽谷模型界、血洗美股科技股市場後,再次釋出了名為Janus-Pro的多模態模型系列。並稱其影像生成表現已超越OpenAI的DALL-E 3,Google的Emu3-Gen和Stability AI的Stable Diffusion XL等領先產品。
從Ilya Sutskever的"預訓練時代終結論",到橫空出世的DeepSeek以超高性價比撼動AI格局,行業對AI算力需求是否迎來拐點,似乎成為不可迴避的熱門話題。
就在一週前,全球 AI 社群GenAI Assembling邀請到兩位行業專家——Nexa AI CTO兼聯合創始人Zack Li和AMD首席工程師、前SambaNova Systems 高階工程經理及創始成員Xiyue Xiang。他們分別從晶片端和裝置端AI的角度,在矽谷展開了一場關於預訓練和推理、AI算力需求轉移、軟硬體協同最佳化、端側智慧機遇,及行業未來走勢的深度對話。
以下為對話實錄:
Zhaoyang Wang:這場討論的主題是"預訓練走向終結——接下來是什麼?"正如業內許多人所知,前半句話出自Ilya Sutskever,而今天我們要聊的是未來走向。很高興邀請到兩位傑出的嘉賓。Xiyue來自AMD,Zack來自Nexa AI。兩位先做一下自我介紹。
Xiyue Xiang:感謝邀請,很高興來到這裡。我的中文名是XiYue,英文名是Anderson。我是AMD的首席工程師,主要專注於利用AI技術解決晶片工程中的挑戰,也參與開發了幾款面向SOC的AI驅動產品。在加入AMD之前,我是SambaNova Systems的創始團隊成員,擔任高階工程經理,帶領團隊交付AI加速器的系統韌體和FPGA原型。
Zhaoyang Wang:謝謝Xiyue。那麼Zack呢?
Zack Li:大家好!我是Zack Li,Nexa AI的CTO和聯合創始人。創立Nexa以前,我在Google和Amazon工作了幾年,專注於裝置端AI。Nexa AI是一家由斯坦福校友創辦的創業公司,專門研究裝置端AI模型和AI基礎設施。我們的主要產品之一是裝置端AI Agent模型Octopus,並開發了OmniVision和OmniAudio兩款多模態模型。這些開源模型在Hugging Face上非常受歡迎。我們還推出了Nexa SDK,支援在筆記型電腦和移動裝置上執行裝置端AI模型,在過去三個月獲得了超過4,000個GitHub星標。我們的客戶包括HP、Lenovo等。非常高興能和大家分享!
Zhaoyang Wang:很高興有來自不同領域的兩位專家——一位來自晶片行業,另一位來自AI模型領域。也許可以先請Xiyue開始。由於不是所有人都熟悉晶片行業,你能給我們介紹一些基礎知識嗎,比如用於訓練和推理的晶片有什麼區別?
Xiyue Xiang:當然可以。簡單來說,訓練和推理對晶片的要求是不同的。
先說訓練。訓練模型就像在學校學習,資料量越大,模型就學得越好。因此訓練本質上看重的是吞吐量,意味著晶片必須能即時高速地處理海量輸入資料。訓練過程中的不同操作——比如計算密集型、記憶體密集型或網路密集型任務——都需要特定的效能。
計算方面,在前向傳播過程中,系統執行大量矩陣乘法和加法運算。在反向傳播過程中,它會計算每一層權重的梯度。這些任務都非常計算密集,這就是為什麼晶片廠商專注於提升晶片的計算能力(FLOPs或TOPs)。記憶體方面,訓練時需要儲存大量資料,包括模型的引數和中間計算結果。就像人需要同時記住很多資訊,所以晶片需要同時提供大容量記憶體和極高的記憶體吞吐量。網路連線方面:當我們用多個晶片協同訓練時,它們之間需要快速交換資料,就像團隊成員之間需要高效溝通一樣。這需要高速互連和可擴充套件的解決方案。
而推理就不同了。推理是一場延遲的較量,最重要的是反應速度。比如自動駕駛時,車必須能立即識別出路上的障礙物。推理主要的挑戰在於如何快速呼叫儲存的模型來得出結果。
總的來說,晶片廠商已經對AI工作負載有了更深入的理解,正在根據不同市場的獨特需求定製他們的產品。
Zhaoyang Wang:這很有趣。據我瞭解,很多AI從業者使用相同的晶片進行訓練和推理。你能詳細說明這是否屬實嗎?如果預訓練確實要結束了,晶片公司打算如何適應?
Xiyue Xiang:好的。我認為推理在未來將發揮更重要的作用。從我在SambaNova的經驗來看,我們最初專注於構建訓練解決方案,但最終因為推理市場的重要性日益提升而轉向了這個方向。對於超大規模計算服務商來說,對訓練和推理使用相同的硬體和軟體架構通常是有意義的,因為這樣既經濟又實用。然而,對於那些只專注於推理的客戶來說,一個更具成本效益的解決方案可能更可取。這是我的觀點。
Zhaoyang Wang:謝謝。下一個問題是給Zack的。當我們談到預訓練即將結束這個觀點時,背後還有一個理論,就是算力正從訓練階段轉向推理階段。具體來說,推理可以分為兩部分:一部分在雲端,另一部分,也就是你們關注的重點,在裝置端。你認為這個趨勢會成為現實嗎?這對你們公司意味著什麼?我記得你們公司現在有兩年曆史了,對嗎?
Zack Li:沒錯,兩年了。Nexa AI從一開始就專注於裝置端AI,在推理方面投入了大量研發資源。我們開發了SDK以 及量化解決方案,可以將模型尺寸縮小到能在平板電腦或手機上執行。這個趨勢完全符合我們公司的願景和研發方向。我們注意到,雖然模型正在變得更小更智慧,但基礎設施方面仍然存在明顯的差距。以PyTorch為例,目前還沒有成熟的基礎設施能在移動裝置上高效執行大型模型。我們正是看準了這個機會,開發了用於壓縮和部署模型到邊緣裝置的工具包。
Zhaoyang Wang:這很有意思。能詳細說說你們在小型模型技術方面的進展嗎?
Zack Li:當然可以。要讓模型能在裝置上高效執行,工具包需要輕量化且通用。
讓我問問:在座有多少人使用過PyTorch或做過基礎張量運算?如果有,請舉手。——好的,比我預期的人數還多。那麼,有多少人嘗試過在筆記型電腦上使用Hugging Face之類的工具來執行模型?請舉手。——看來只有少數人試過。
這就是問題所在。如果你用過PyTorch或基於雲的解決方案,你就會知道它們通常帶有龐大的工具包——通常下載量超過1GB。這些工具包在不同後端之間的相容性也不是很好。比如,PyTorch在AMD裝置上需要Rocm後端,在NVIDIA裝置上需要CUDA後端等等。這種可擴充套件性差是一個主要挑戰。為了解決這個問題,我們開發了一個精簡的工具包提供給企業客戶。這些工具包可以將模型——無論是從我們這裡下載的還是從Hugging Face等平臺下載的——壓縮並擴充套件到各種裝置上,包括手機、筆記型電腦、機器人,甚至自動駕駛系統。
Zhaoyang Wang:很酷。我還有個後續問題:你提到你們作為一個兩年的創業公司,押注於小型模型和推理的重要性,但競爭一定是個因素。像Meta、Google和OpenAI這樣的大公司也在構建自己的大模型,而小模型通常來自於這些大模型的蒸餾。有人認為,只有能夠建立最好的大模型的公司才能生產出最好的小模型。你怎麼看待這種競爭?
Zack Li:這是個很好也很難回答的問題。我來分享一個有趣的故事。2024年5月,我們受邀到Apple Park為他們的高管做演講。僅僅一週後,在WWDC上,Apple釋出了他們的裝置端AI解決方案Apple Intelligence。他們在這方面投入了很多精力,提供了不同的模型,從較小的裝置端版本到較大的版本都有。內部甚至有傳言說這些裝置端模型是從更大模型蒸餾而來的。
在裝置端AI領域,像Apple、Google和Microsoft這樣的大公司在計算能力和資料獲取方面有顯著優勢。但他們的方法通常是將基於雲的解決方案縮小到裝置端,目標是建立能處理廣泛任務的模型。相比之下,我們專注於裝置端AI的特定實際應用場景,使我們的模型高度專業化並針對客戶需求進行最佳化。
比如,我們開發的Optimus模型就是專門為裝置端AI Agent設計的。它達到了GPT-4級別的函式呼叫準確率,在推理和問答方面表現非常出色。這種專業化使我們能夠提供更有針對性和更有效的解決方案。
另一個關鍵區別是基礎設施。像Apple這樣的大公司主要為自己的硬體設計系統。比如Apple Intelligence本質上是推廣他們最新iPhone的一種方式。他們沒有動力去支援舊款機型或Android裝置。相比之下,我們建立了一個跨平臺的基礎設施——無論是Android、iOS、macOS、Windows還是Linux都可以使用。
我們的解決方案相容各種裝置,包括那些頻寬較低的裝置。大公司通常專注於自己的生態系統,比如Apple的Mac生態系統或Google的Pixel生態系統,並不優先考慮跨平臺相容性。這正是我們看到的巨大機會所在。
Zhaoyang Wang:我覺得這意味著你們需要在成為領域專家和構建跨生態系統可擴充套件平臺之間取得平衡。
Zack Li:沒錯,要能擴充套件到不同的生態系統。

Zhaoyang Wang:這也反映了AI領域的一個更廣泛的趨勢。邊界變得越來越模糊——軟體工程師需要了解硬體,晶片設計師需要知道演算法如何運作。我的下一個問題就基於此:OpenAI正在用新的o1系列替代GPT,我們也看到了像DeepSeek這樣的先進模型。它們的成功似乎來自於高度最佳化的硬體和軟體深度協同來最大化模型的執行效率。Xiyue,AMD是如何透過軟體開發來加強自己在這個不斷發展的領域中的地位的?
Xiyue Xiang:在討論AMD的策略之前,我想先更好地梳理這個問題。目前,在擴充套件AI能力方面存在兩個主要挑戰。一是提升AI模型本身的可擴充套件性,二是降低訓練這些模型的成本。
舉個例子,大家可能都知道OpenAI在訓練GPT-4時已經用盡了大部分高質量訓練資料集。雖然擴充套件定律是否仍適用尚不清楚,但幾個月後,他們釋出了GPT-4 Turbo,引入了多模態功能,然後他們又增加了一個新維度:測試時計算。測試時計算本質上允許模型在提供答案前"思考更長時間",使其能夠改進和驗證響應以提高可擴充套件性。這就是像o1和o3這樣的模型背後的核心理念。
從成本角度來看,去年12月DeepSeek V3的釋出就是個很好的例子。他們成功地用550萬美元訓練了一個6710億引數的模型——比用H100 GPU訓練同等規模模型通常需要的5億美元大大減少。他們透過混合專家架構和混合精度訓練等創新實現了這一目標,這讓他們能夠使用更便宜的計算資源卻獲得可媲美的結果。
如果沒有軟硬體的端到端最佳化,這些挑戰是無法解決的。僅僅有一個強大的晶片是不夠的。我見過很多優秀的公司製造出很棒的晶片,但他們卻難以建立可擴充套件和高效的軟體。舉個例子,你可以設計一個具有一個petaflop計算能力的晶片,但如果你的軟體效率低下,你可能只能使用20%的效能——浪費了80%。
說到AMD,我們正在透過三個主要方面來擴充套件我們的軟體能力。首先,我們開發了自己的開源軟體平臺ROCm(Radeon Open Compute),它專門用於程式設計GPU和像MI300這樣的AI加速器。其次,我們透過戰略收購來擴充套件。例如,我們去年收購了Silo AI,2022年收購了Xilinx,我們可能會繼續進行類似的交易。最後,也許是最重要的,我們致力於建立一個強大的生態系統,實現與PyTorch和TensorFlow等流行框架的無縫整合。我們還在與主要的AI基礎設施供應商密切合作,確保我們的硬體和軟體解決方案都具有可擴充套件性和高效性。
Zhaoyang Wang:很好。現在問問Zack。在機器學習工作流程和訓練方面,Nexa AI是如何更好地"榨乾"硬體的全部潛力的?
Zack Li:我注意到一些公司採用硬體-軟體協同設計的方法。我認為這是一個很好的商業模式,因為它允許他們透過直接銷售硬體獲得更多利潤。但這也帶來了挑戰,比如管理物流鏈和處理製造流程。
在Nexa AI,因為我的核心團隊主要由演算法和AI專家組成,我們更專注於模型層面。我們開發的工具包允許開發者將模型部署在各種裝置上——無論是筆記型電腦、手機還是機器人。這些年來,我們試用過NVIDIA的軟體,也試用過Intel的和AMD的。我逐漸意識到,軟體正在成為晶片公司吸引客戶和開發者(特別是個人開發者)的關鍵因素。以Intel的OpenVINO為例,如果你購買Intel的桌上型電腦或筆記型電腦,你就能充分利用他們的NPU(神經網路處理器),它是開源的。在今年CES,我看到三四家創業公司完全基於Intel的NPU構建他們的軟體棧。同樣,我也看到創業公司基於AMD的GPU開展業務。
所以,軟體效率正在成為一個關鍵的差異化因素,特別是對創業公司而言。雖然FLOPs和RAM這樣的規格很重要,但晶片公司在這些領域的產品往往很相似。因此,軟體棧成為許多開發者和客戶選擇硬體時的決定性因素。
Zhaoyang Wang:從你的角度來看,什麼是好的軟體?
Zack Li:但就個人而言,我認為他們的工具包都很不錯,我們當然希望進一步加強合作來改進它。
Zhaoyang Wang:也許我們可以討論一下未來:晶片領域的下一個重大突破是什麼,我們在技術突破方面可以期待什麼?
Xiyue Xiang:當我們談論晶片設計方面可能發生的事情時,我想從五個角度來探討:工藝技術、計算、記憶體、網路和封裝。
首先是工藝技術。大家都說摩爾定律即將終結,也許這是對的。但工藝製程會繼續縮小這個趨勢是不可否認的。這使我們能夠整合更多電晶體並減少功耗,儘管速度比以前慢。從臺積電和英特爾的進展就可以看出這一點。我相信這個趨勢會持續,直到量子計算等顛覆性技術成熟。
第二是計算。晶片廠商和創業公司正在投入大量精力設計專門的計算單元,以支援各種精度和稀疏性。他們還在探索新興架構,如資料流架構,以克服傳統馮·諾依曼系統的侷限性。
第三,讓我們談談記憶體,特別是HBM(高頻寬記憶體)。HBM已經被採用來解決AI時代至關重要的記憶體頻寬和延遲問題。我相信HBM在效能、密度和容量方面會繼續發展。但它非常昂貴。為了平衡成本和效能,晶片廠商可能會探索將SRAM、HBM和DDR記憶體結合起來的分層記憶體層次結構。這種方法有助於最佳化成本、頻寬和延遲之間的平衡。
第四是網路。網路可擴充套件性有兩個維度:向上擴充套件和向外擴充套件。向上擴充套件涉及提升單個系統或節點的效能。向外擴充套件意味著複製多個系統來解決單個問題,這需要在傳輸協議方面的創新,如RoCE(融合乙太網上的RDMA)、NVLink或新興的UCIe(通用晶片互連快車)等。這也要求交換機廠商創造更可擴充套件和經濟的解決方案來構建更大的網路。
最後是封裝。我們目前有2.5D封裝(CoWoS)和3D封裝(基於TSV的技術)。最近,Broadcom宣佈了一種叫做3.5D封裝的技術,儘管具體細節還不是很清楚。我猜測這是2.5D和3D技術的結合,能夠將多個晶片拼接在一起形成更大的晶片。這與向基於晶片組的系統級模組(SoM)發展的趨勢相符,這正在推動封裝技術的發展。
Zhaoyang Wang:我的最後一個給Zack。關於裝置端AI,越來越多的人認為這將是下一個重大突破。這也意味著商業模式可能會發生根本性的改變。比如,在基於雲的AI中,大多數盈利都與使用多少token有關——向雲端傳送資料、處理資料,然後接收輸出,所有這些都需要付費。然而對於裝置端AI,當有人購買智慧手機時,他們實際上已經為計算能力付費了,因為所有操作都在裝置本地進行。他們不需要為傳送到雲端的token付費。作為一個創業公司的創始人,你在這裡看到新的商業模式機會嗎?
Zack Li:裝置端AI的商業模式——如何商業化或盈利——確實與基於雲的解決方案不同。首先,我同意裝置端AI正在勢頭漸起。Apple Intelligence幫助提高了公眾對裝置端AI的認識,展示了它的能力。此外,a16z的管理合夥人Jennifer Li提到2025年將是邊緣AI起飛的一年。我們甚至在辦公室裡highlight這句話來激勵團隊。
說到盈利,裝置端AI需要一種不同的方法。與雲AI中基於token的模式不同,裝置端AI的盈利通常涉及與像AMD這樣的晶片公司和智慧手機、筆記型電腦製造商等OEM廠商的密切合作。這種模式通常按裝置、按安裝次數對邊緣裝置收費。這不是我們獨有的模式——其他幾家裝置端AI公司也在使用這種方法。
Zhaoyang Wang:為了結束這次討論,作為行業的不同視角,現在你們可以互相向對方提問一個最感興趣的問題。Xiyue,你先來。
Xiyue Xiang:Zack,考慮到AI能力明顯從雲端向邊緣裝置轉移的趨勢,你認為2025年最大的機會是什麼?
Zack Li:這是個很好的問題。我認為最大的機會在於建立一個可以跨各種硬體平臺擴充套件的解決方案。雲和硬體生態系統的主要區別在於,在雲端,你可以使用像CUDA這樣的單一工具包,但在邊緣裝置上,硬體環境要分散得多。比如,一臺筆記型電腦可能有來自不同廠商的CPU、GPU和NPU,要建立一個能有效利用所有這些元件的可擴充套件解決方案並不容易。
任何能巧妙解決這個問題的人都將獲得顯著優勢。這就是為什麼我們在這個領域投入巨資——確保AI模型能在不同硬體上高效執行。現在,可能只有十分之一的人有使用PyTorch的經驗,可能只有百分之一的人使用過工具包在筆記型電腦上執行模型。我希望到今年年底,我們能看到每100人中有10個甚至20個人在他們的裝置上執行大型邊緣AI模型。
Zhaoyang Wang:很好。那麼Zack,你有什麼問題要問Xiyue?
Zack Li:Xiyue,隨著你提到的從雲端到邊緣的轉變,你認為我們很快就能看到支援個性化AI的硬體,能夠在裝置本地完全理解和學習嗎?如果是,這可能在什麼時候發生?
Xiyue Xiang:首先,我完全同意人們對個性化AI解決方案有強烈需求。我很希望我的手機能學習我的習慣,在我做決定時提供量身定製的建議。其次,要獲得無縫的AI體驗,我們需要能記住並根據我們的個人經歷進行調整的AI系統,因為這定義了我們是誰以及我們如何處理問題。
從這兩個角度來看,需求是不可否認的。而且,我注意到主流AI框架開始支援裝置端訓練。例如,PyTorch、TensorFlow Lite和ONNX都已經開始啟用這個功能。Google正在積極開發這方面的內容,Apple也開始支援這些努力。這表明供應商認識到了對裝置端訓練的強烈需求,並認為這是一個可行的方法。在我看來,我們很可能在未來幾年內看到這個領域的成熟產品。
Zhaoyang Wang:謝謝大家!