DeepSeek最強專業拆解來了,清交復教授超硬核解讀

DeepSeek的寫作能力為何飛躍?PTX是否真正做到了繞開CUDA的壟斷?
編輯 |  

ZeR0

智東西2月3日報道,週日晚間,五位高校教授夜話DeepSeek,從模型方法、框架、系統、基礎設施等角度,闡述DeepSeek的技術原理與未來方向,揭秘其最佳化方法如何提升算力能效,資訊量很大。
如何復現o1大推理模型?DeepSeek R1技術路線和訓練流程有哪些亮點?為什麼DeepSeek能做到轟動全球?DeepSeek透過哪些最佳化策略有效降低成本?DeepSeek的寫作能力為何飛躍?MoE架構會是最優解嗎?PTX是否真正做到了繞開CUDA的壟斷?這些業界關注焦點話題被一一解答。
北京交通大學教授、CCF YOCSEF AC副主席金一主持了這場線上分享。復旦大學教授邱錫鵬,清華大學長聘副教授劉知遠,清華大學教授翟季冬,上海交通大學副教授戴國浩,分別從不同專業角度分享了對DeepSeek的思考,並延伸到對中國大模型高質量發展路徑的啟發。
邱錫鵬教授主持開發了國內首個開源對話式大語言模型MOSS。劉知遠教授是大模型創企面壁智慧的首席科學家。翟季冬教授是AI基礎設施創企清程極智的首席科學家。戴國浩教授是AI基礎設施創企無問芯穹的聯合創始人。
以下是實錄整理(為提高閱讀體驗已做精編)
01.
邱錫鵬:解讀R1技術路線圖,
強推理模型最終落腳點是Agent
給大家分享一下關於DeepSeek的一些思考和啟發。OpenAI o1也是一個非常現象級的推理模型,在競賽題目上達到了人類專家水平。OpenAI推出了一個AGI規劃,推理在其中是非常重要的一步。
那麼在去年Ilya(前OpenAI首席科學家)曾經說過,我們的預訓練可能時代可能即將結束了。其中一個非常重要的原因就是資料沒有在增長。OpenAI可能會打破這種資料不增長的正規化,繼續推動Scaling Law向前發展。不過因為沒有資料,所以它的目標可能就轉向到比如強化學習、推理時計算這種Scaling。推理長度越長,它的效能可以繼續得以改進。這使得大家對下一代大模型的發展抱以新期望。
所以我們可以看到o1的各種復現層出不窮。業界非常多的o1復現可能基於比如SFT或者蒸餾的路線。但是其實o1的核心應該還是從RL(強化學習)開始。
我們去年也剛好寫了一篇o1的綜述。所以我簡單以此為概括來看一下o1的四個核心。在強化學習的框架下,大語言模型充當了一個Agent。每個Action是預測Next Token或者Step或者Solution,看不同顆粒度。大模型輸入作為State。Policy就是給定當前的步驟或者Talk或者Solution來生成下一階段的Action。
在強化學習的框架下重新看大推理模型,它有四個重要因素:
一是策略初始化(Policy Initialization),透過預訓練、提示工程、監督微調,讓模型具有初始的類人推理行為,比如問題理解、任務分解、驗證修正錯誤等。
二是獎勵設計(Reward Design),為RL提供獎勵訊號。傳統方法分為兩種,一是從環境直接獲取獎勵訊號,二是從專家資料或者偏好資料學習獎勵。o1應該是混合了多種獎勵設計的方法。比如有ground truth的環境,將結果監督(ORM)轉換為過程監督(PRM)。沒有ground truth的話,就用專家或者偏好資料來學習獎勵。在大量領域上訓練獎勵模型,提升泛化性。
三是搜尋(Search),找尋問題的最優解法。傳統方法基本分為兩大類,基於樹的搜尋和基於順序修改的搜尋。這兩種可能對復現o1都有非常大的幫助。
四是學習(Learning),最佳化模型引數。基本上就是一個是用強學習的Policy Gradient,還有一個Behavior Cloning。這兩種基本上可以用在兩個階段:Warmup階段可以使用行為克隆方法,快速收斂;第二階段再用強化學習來提升上限。
復現o1大推理模型,基本上都要從這四個方面下功夫。
R1釋出有兩個模型,一個是R1-Zero。R1-Zero從一個基模型開始,純RL驅動,經過比如Warmup階段,它有了一個Reward,讓模型具有一個類人回覆。比如先給一些prompt,就是要求你的思考要在比如兩個Thinking之間,答案要在兩個Answer的tag之間,然後用最終結果的正確性和是不是符合這種格式來作為Reward,然後對模型進行獎勵。在R1的訓練過程中,我們可以看到,隨著訓練步驟的增加,它逐漸湧現出這種長CoT(思維鏈)能力,它的推理路徑會越來越長。另外它也發現了一些“aha moment”,模型訓練過程中能夠自我發現,可以嘗試修復一些以前的推理。
在純強化學習訓練中,它的效能可以不斷提升。但它有一些不足,它的可讀性比較差,還有language mixing(語言混雜)問題,中英文可能會混雜輸出。這也是下一步真正的R1要解決的兩個問題。
和R1-Zero不同的是,R1模型分為四個階段來進行。左邊這張圖是參考了一個知乎問答的路線圖,畫得非常清楚。
第一階段是冷啟動,一開始要收集少量的Long-CoT資料來微調模型,目的是防止早期訓練不穩定和可讀性差問題。
第二階段是推理導向的強化學習,它以DeepSeek-V3為基礎,針對推理密集型任務,用和R1-Zero相同的大規模RL來進行訓練。同時它為了解決語言混雜問題,引入了語言一致性獎勵。
第三階段是拒絕抽樣和監督微調,要真正訓練R1了,所以它將第一階段的模型加上一些抽樣,結合其他領域的SFT資料,增強模型在寫作、角色扮演和其他通用任務中的能力。
第四階段是適用於所有場景的強化學習,資料準備好、進行微調之後,再以DeepSeek-V3為基礎,先是SFT,然後進行所有場景的RL。對於推理任務就用基於規則的獎勵來指導,對於一般任務就用RLHF(人類反饋強化學習)這種方式來進行。
這基本上就是R1的技術路線。我簡單列一些關於DeepSeek R1的思考和啟發
1、R1/R1-zero的技術路線和社群對o1復現的差異

  • 此前社群對o1的復現基本都會涉及到蒸餾和搜尋。

  • R1-Zero沒有SFT,沒有過程監督,沒有搜尋,也能訓練出類似o1的效果。學術界之前也有很多實驗,但在較小的模型上都沒有成功。說明只有基模型足夠強,Scaling RL才能取得比較好的效果。

  • 雖然R1強調MCTS沒有效果,但是簡單的majority vote能大幅提升R1的效果,說明搜尋仍然是重要的Scale的正規化。

  • R1的成功還依賴DeepSeek強大的系統效率和RL調教能力。

2、策略初始化

  • R1-zero是一個比較好的嘗試,但是R1還是經過了先SFT(大概幾幹條)後再進行RL。

  • 未來後訓練的重心會逐步傾向於RL,但是少量訓練用於SFT可能還是必須的。

3、獎勵模型

  • R1的獎勵設計跟普通的後訓練沒特別大的區別(Qwen2,Tulu3),有ground truth用ground truth做EM,否則用RM。

  • RM的(訓練資料量,模型大小,OOD問題,選代週期)的相關問題在整個訓練的流程中還是比較關鍵。可能使用當前開源的比較強大的RM可以達到比較好的效果,也有可能基於內部的資料重新進行了偏好標註。

  • 獎勵設計(例如RPM的技巧)可能會在基於少量樣本的強化學習微調上仍然起到顯著作用。

4、PRM和MCIS

  • DS給了兩個PRM和MCTS的“不成功嘗試”。但PRM部分說的比較籠統,並且DS的PRM只評估Correctness(與OAI的Lets verify step by step一致)。

  • R1給的是一個簡單而且可規模化的可行解,這樣做不一定是最優的。基於R1的Test-time search也繼續最佳化它的效果。

  • PRM總歸是一種比較稠密的監督訊號,按照傳統R1的理論,對OR進行shaping可以使訓練更穩定或收斂得更快。

  • PRM不應該是一個被完全放棄的東西,可以讓模型收斂得更快速或更穩定(Scaling曲線的斜率更大)。

5、寫作能力提升

  • o1相比4o在寫作等任務上的提升非常小,但R1的創作經常會令人眼前一亮,可能主要是強基模型在Scale RL後湧現的能力,也有人猜測是因為R1的安全對齊做的比較少,沒有太約束模型的創作能力。

6、過度最佳化問題

  • R1經常會使用一些高階詞彙,典型的如量子糾纏和熵增熵減(會用在各個領域)。猜測是某種形式的reward hacking導致的。

  • R1在一些通用領域沒有ground truth的任務上的推理效果還並不理想,強化學習的訓練並不能保證泛化。

7、Test-Time Scaling

  • o1出來後大家討論比較多的是Test-Time Scaling,但重要的還是Training-Time Scaling,包括資料和Training Step。蒸餾見效快,但上限不高,重要的還是高質量致據的缺失,蒸餾資料無法提供訓練Scaling。RL是其中的關鍵,因為它可以保障有足夠的資料和足夠的訓練步驟。

8、Agentic展望

  • R1是目前唯一同時具有強推理能力和聯網搜尋的產品,效果很好,可以調研一些複雜的資訊並進行回答。強推理模型最終的落腳點大機率是Agent,怎麼用強推理模型幫助Agent更好更魯棒是一個比較重要的問題。

02.
劉知遠:R1訓練流程有兩大亮點,
DeepSeek的意義更像Llama
我將從宏觀角度來介紹DeepSeek R1所代表的大規模強化學習技術及其基本原理,同時我們也會探討為什麼R1和o1能夠引起這麼多的關注,並從DeepSeek最近釋出的模型,對大模型技術未來發展進行大致研判。
首先來看DeepSeek最近釋出的R1模型,它的價值主要體現在能夠復現OpenAI o1的深度推理能力。因為OpenAI o1本身並沒有提供任何關於它是如何實現的細節,相當於o1引爆了一個原子彈,但沒有告訴大家秘方。我們需要能夠從頭自己去尋找到底如何能夠復現出這個能力。
DeepSeek可能是全球第一個能夠透過純強化學習技術復現OpenAI o1能力的團隊,並開源和釋出相對詳細技術介紹,為行業做出了重要貢獻。
我們大致可以總結DeepSeek-R1的訓練流程,有兩個非常重要的亮點。
一是R1模型創造性地基於DeepSeek-V1的基座模型,透過大規模強化學習技術,得到一個純粹透過強化學習來增強的強推理模型,也就是R1-Zero。這具有非常重要的價值。因為在歷史上,幾乎沒有團隊能夠成功地把強化學習技術非常好地用在一個大規模模型上,並實現大規模的訓練。
DeepSeek之所以能夠實現大規模強化學習,一個重要技術特點是採用了基於規則的方法,確保強化學習可規模化,實現面向強化學習的Scaling。
第二個貢獻是強化學習技術不只侷限在基於規則的數學、演算法程式碼等容易提供獎勵的領域,它還可以創造性地把強化學習所帶來的強推理能力,泛化到其他領域。這也是所有使用者在實際使用DeepSeek R1進行寫作等任務時,能夠感受到它有非常強的深度思考能力的原因。
那具體是怎麼做的呢?它分了兩個階段:第一階段還是基於V3基座模型,透過增強推理過程的可讀性,能夠生成相當於是深度推理的SFT資料;第二階段,它又去結合傳統的通用SFT資料來微調大模型,再進一步進行強化學習,從而得到了一個具有非常強泛化能力的強推理模型,也就是R1。
所以DeepSeek-R1的重要貢獻體現在兩個方面:一是透過規則驅動的方法實現了大規模強化學習;二是透過深度推理SFT資料和通用SFT資料的混合微調,實現了推理能力的跨任務泛化。
我們應該非常重視DeepSeek-R1。它由於開源,讓全球的人能夠意識到深度思考的能力,相當於讓人工智慧再次迎來了類似於2023年初的“ChatGPT時刻”,讓每個人感受到大模型的能力又往前邁進了一大步。
但是我們同時也要合理評估DeepSeek-R1本身的重要意義。如果說2023年初OpenAI釋出的ChatGPT讓全球看到了大模型的重要價值,那麼這一次的強推理能力,其實也是OpenAI在2024年9月份釋出的o1率先在全球實現。
我們認為DeepSeek-R1在歷史上應該是更像是2023年的Meta Llama。它透過開源復現,並且把這些事情公開給全球,讓大家能夠快速建立起相關能力。這是我們需要對DeepSeek-R1重要意義的一個準確認識。
當然為什麼說DeepSeek-R1能夠取得如此全球性的成功呢?我們認為它跟OpenAI採用的錯誤決策有非常大的關係。我們會看到OpenAI在釋出了o1之後,第一,不開源;第二,把o1深度思考過程隱藏起來;第三,o1收費非常高,不能在全球讓儘可能多的人去普惠、去感受深度思考所帶來的震撼。
而DeepSeek R1相當於是像2023年初的OpenAI ChatGPT一樣,讓所有人真正地感受到了震撼。這是DeepSeek R1出圈的非常重要的原因。
如果再進一步,把DeepSeek R1和前面釋出的V3一起來考慮,它的重要意義在於,在有限算力資源支援下,透過強大的演算法創新模式,突破了算力的“卡脖子”限制,讓我們看到即使是在非常有限的算力下,我們仍然可以做出具有全球意義的這一些領先成果,這件事情對於我們中國AI的發展具有非常重要的意義。
同時我們也應該看到如果想要AI能夠真正賦能全人類,讓每個人都能夠用得上、用得起大模型和通用人工智慧,高效是一個非常重要的命題。強化學習需要有一些未來更加高效的方案。我們還需要探索出更加高效的模型架構,譬如說V3所採用的MoE架構。未來應該也有很多其他相關方案,還有高效算力利用等等。
這是DeepSeek V3和R1帶給我們的另一個非常重要的啟示。我們認為,整個人工智慧的發展,未來追求高效是我們的一個內在使命和需求。
前一個科技革命,即資訊革命,它的一個非常重要的核心是計算晶片的發展。過去80年,計算機從最初要一個屋子才能裝得下的規模,發展到現在人手一臺的手機、PC、各種各樣的計算裝置,都具備非常強大的計算能力。所有這一切都來源於晶片行業在摩爾定律的指引下,不斷提升晶片製程,提升晶片的電路密度,實現計算裝置的小型化、普惠化,推動算力普及。
這也是為什麼我們在去年特別強調要發展大模型的能力密度。過去幾年,我們看到類似於摩爾定律這樣,大模型能力密度呈現指數級增強。從2023年以來,大模型的能力密度大概是按每100天翻1倍。也就是每過100天,只需要一半的算力、一半的引數,就可以實現相同的能力。
面向未來,我們應該不斷追求更高的能力密度,努力以更低成本,包括訓練成本、計算成本,來實現大模型的高效發展。
上一個科技革命,也就是資訊革命,對於我們即將到來的智慧革命有非常重要的啟示。在資訊革命剛剛開始的時候,IBM創始人沃森曾經認為這個世界上不需要超過5臺的主機,足以滿足全世界的計算需求。但到了今天,全球有數十億、上百億的計算裝置在服務全人類的社會。
我們認為智慧革命也要走過一條類似於資訊革命的階段,也要能夠不斷提高能力密度,不斷降低計算成本,讓大模型得以更加普惠。AI時代的核心引擎包括電力、算力、現在所訓練的大模型代表的智力。這種密度定律應該是普遍存在的,將是實現人工智慧高質量、可持續發展的關鍵。
面向未來,我們認為人工智慧有三大主戰場,目標都是要讓通用進行到底。
一是人工智慧科學化,為能力湧現等關鍵機制建立科學理論,科學解釋人工智慧形成的原理。
二是計算系統智慧化,大模型與底層晶片、作業系統、資料管理、程式設計開發、網路通訊深度融合,能夠在計算層面,用更低成本來把大模型更加通用地用在各個領域。
三是領域應用廣譜化,將大模型應用於高精尖製造、科學發現等高度專業化場景中。
最後我特別想說,DeepSeek給我們帶來的一個非常重要的啟示,就是我們用小米加步槍,依然能夠取得非常廣闊的勝利。我們即將迎來一個非常重要且意義深遠的智慧革命時代,它的高潮即將到來,這是可望也可及的。
特別希望能夠跟由DeepSeek來吸引來的更多關注這個方向的人,一起沿著正確的發展方向,不只是為算力,更要重視演算法創新,重視高水平人才的培養,走出一條真正屬於人工智慧的高質量發展路線。
03.
翟季冬:DeepSeek如何降低成本?
拆解並行訓練策略
我主要分享DeepSeek在系統軟體方面的一些工作。這是DeepSeek-V3在技術報告裡公開的預訓練成本。按照H800 GPU每小時每卡2美元的租賃成本,全部訓練成本是550萬美元左右,不包括前期探索模型架構、消融實驗等開銷。
它的成本相對比較低。雖然我們不知道國外像OpenAI這些公司的模型訓練成本,但是可以透過一些相關報道知道成本肯定很高。
大家經常會討論說,為什麼DeepSeek-V3能用這麼低的成本,帶來這麼驚豔的效果?
我們來看一下DeepSeek採用的一些技術。因為DeepSeek本身並沒有公開說用了多少張卡。如果按照它給的資料,是2048張H800的話,大約是需要54天,也就不到兩個月。如果是1萬張H800,大約是11天可以訓練好這個模型。
這是DeepSeek V3的模型引數,是671B。GPT-3的引數是175B,所以它要比GPT-3模型大很多。它是一個MoE的架構,每個token會啟用37B引數,大約是5.5%。總共包括61層Transformer。然後它在FFN網路,除了前三層以外,全部替換成MoE。它的MoE架構採用了非常多的細粒度專家,包括1個共享專家和256個路由專家。每個token會啟用8個路由專家。
論文裡給了DeepSeek模型架構圖,核心是兩塊,MLAMoE。MLA可以進一步降低推理消耗的記憶體。MoE包括共享專家和大量路由專家。
之前釋出的一些MoE模型,比如像Mistral,採用的專家數很少、每個專家很大的架構。但是DeepSeek其實採用的是大量細粒度的專家。
DeepSeek並行訓練方面,技術報告裡有一個輕量級訓練框架。下圖右邊是從網上找的一個示意圖。具體訓練實驗平臺沒有公佈,但從它公開的一些資料,它是一個透過InfiniBand連線起來的GPU叢集,然後在每個節點內透過NVLink連線起GPU。GPU之間的頻寬是160GB,節點之間的頻寬是50GB。這是一個網路拓撲情況。
它具體採用的並行訓練策略,用的是16路流水線並行、64路專家並行,跨8個物理節點,資料並行採用的是ZeRO-1,沒有用通訊開銷比較大的張量並行。我總結了一下,讓整個訓練效率提升有4個方面的最佳化,分別是負載均衡通訊最佳化記憶體最佳化計算最佳化
下面分別介紹這四點。
首先是負載均衡最佳化。如果要用MoE架構去訓練一個超大的模型,最大挑戰是負載均衡。我們清華跟北京智源還有一些單位合作訓練的八卦爐模型就是一個MoE的架構。
DeepSeek團隊為了解決負載均衡的挑戰,創新提出了一個叫Auxiliary-Loss-Free Load Balancing的策略,下圖是DeepSeek團隊公佈的一張圖片,核心是說當給一個token在計算它錄到哪個專家的時候,會給它加上一個專家Bias。Bias的核心目的是保證這些專家負載均衡,如果能做到,最後可以提高整個叢集的效率。
它之前有一篇論文是2024年8月份,Bias的核心是隻影響專家路由,但是不產生任何梯度影響。然後它會動態調整Bias。調整策略思路比較簡單:如果發現某個專家是overloaded,就會降低這個Bias;如果發現某個專家給他的負載不夠,它就會增大Bias。核心是要控制,讓這些專家能夠均衡。如果控制不好專家負載均衡,那它在一個大規模叢集訓練時,利用率很難提升上去。
第二,它們的工作用了很多通訊最佳化。用專家並行會引入非常大的All to All通訊開銷。為了降低這個通訊開銷,它想了很多辦法。
它提出來一個DualPipe演算法,核心是精細地編排計算和通訊。這裡有兩張圖,下面是它的技術包裡的圖片,上面是我從網上找到的。可以看到這是兩個micro-batch,前向跟反向可以拆分成一些單元,比如計算attention、計算MLP。All to All有兩個階段:一是把token分發,最後在過完專家之後,會把它收回來,叫combine。這樣前向和反向都有一些計算和通訊。它透過精細控制GPU SM數量,保證計算和通訊正好能夠完全重疊。
具體怎麼重疊呢?它採用的是雙向流水線機制。下圖上方的示意圖用的是一個8級流水線、20個micro-batch,從前向和反向兩條流水分別去流,然後在中間穩定狀態,黃色跟綠色部分就是前項跟反向重疊的階段。也就是說在這個過程中,可以讓計算和通訊充分重疊。它也給了一些分析。
這裡有一個需要注意的點,如果採用雙向流水線,要在GPU視訊記憶體裡存兩份模型引數。大模型訓練記憶體使用非常重要。為了解決這個問題,它採用了64路的專家並行。雙流水可以非常有效地降低流水線的bubble。
下一個是,通訊最佳化一定會有一些token會被路由到,相當於是走IB網路會分到其他物理節點。它採用了一個演算法,這個code design會限制跨節點的token,每個token最多可以路由到4個物理節點。這實際上是在演算法層面的一個調整。
同時它在節點內每個token最多平均可以選擇3.2個專家。為什麼是3.2個專家呢?這裡的核心IB頻寬是50GB/s,NVLink頻寬是160GB/s,相差的比值是3.2。也就是說在一個節點內路由3.2個專家和在IB上路由1個專家的時間是相當。這樣就可以保證IB和NVLink傳輸時間是重疊的。
同時它還有一些token的路由策略。它用到一個確定性的路由策略,可以非常簡單高效。它首先透過IB轉發到確定的節點,再透過NVLink轉到對應的GPU上,還採用了warp specialization技術。H800裡有132個SM,這裡是用20個SM來控制通訊,用剩下的SM做計算。這20個控制通訊的SM,同時還會去動態調整web的數量,會根據通訊負載,透過英偉達提供的底層PTX(類似於像彙編層的程式語言),來控制SM使用。
下面介紹記憶體最佳化。大模型訓練中記憶體非常重要。DeepSeek團隊在最佳化記憶體方面想了非常多的辦法。比如重計算,提出相應方法,把一些前向計算不去存,反向時再去計算,這樣可以節約一些記憶體使用。同時它還把一些資料,包括像模型引數的指數移動平均,存到CPU記憶體,這樣也是節約GPU視訊記憶體。
它還有一個機制,就是為了提高模型精度,採用MTP。它把主模型和MTP模組的output head和embedding部署在相同節點,讓引數共享。核心是想辦法去降低記憶體。DeepSeek團隊沒有公佈用了多少個節點去做模型訓練。對於給定的算力,GPU視訊記憶體是一個非常珍貴的資源。
另外它為了提升訓練的效率,採用了混合精度。它用了英偉達最新FP8,把主要計算量、比較大的核心矩陣乘法都用FP8去計算。但是用這些低精度去做訓練,模型可能不收斂,或者導致不管是activation還是weight會有一些outlier的存在。
DeepSeek團隊為了減緩outlier影響想了很多辦法,比如採用了細粒度量化,對於activation採用tail條形分組量化方式,對於weight採用block分組方式。同時它還透過增加累積精度(FP32)、增加尾數量,以及線上量化策略。這些方式都是為了減緩outlier的影響,來提高模型精度。最後它用FP8低精度達到了模型收斂。
總結一下我對DeepSeek的一些思考:
第一,協同創新,DeepSeek團隊充分挖掘了演算法、軟體、硬體協同創新。比如它採用了MoE架構,但又在演算法和軟體層面上解決了MoE本身專家並行帶來的通訊開銷問題。
第二,軟體靈活,如果大家看DeepSeek論文分享報告,能看到軟體是非常靈活的。當我們用某一款硬體,不管是英偉達的還是某一款晶片,它都會有一些限制。這個時候軟體能夠彌補硬體的很多限制。
第三,系統軟體,DeepSeek團隊為了降低模型訓練成本想了很多的辦法。優秀的系統軟體可以充分釋放底層硬體的潛力,極致最佳化。包括DeepSeek團隊自己也承認,用了很多非常細緻的最佳化。這些也是它透過挖掘一點點的最佳化,讓整個模型的訓練效率提升,來降低訓練成本。
最後從我個人角度來說,DeepSeek把整個模型開源,能極大促進人工智慧領域的飛速發展。有一個非常開源好用的、效果非常好的大模型,我們就可以嘗試更多軟體相關最佳化。
04.
戴國浩:PTX是否做到繞過CUDA壟斷?
如何極致最佳化大模型效能?
我來就DeepSeek在軟硬體上的最佳化,特別是繞過CUDA層的事情上,展開做一個討論。
我關注DeepSeek團隊和他們的工作有很長一段時間了。他們論文釋出時,我非常喜歡這份技術報告。把它的目錄做個拆解,可以看到它基本上在文章中說了四件事,分別是模型架構、系統架構、預訓練方法、後訓練方法。相對於模型架構、預訓練和後訓練,團隊對於系統架構做了非常充分的介紹。
我在思考的事情是:為什麼這樣一個大模型的工作,大家會花更多的時間和精力去介紹系統層的架構?
DeepSeek團隊有大量的工程師是聚焦在系統架構的最佳化上。過年期間我刷到了很多(DeepSeek繞開CUDA)的推送和新聞。我相信它最早的來源是來自於DeepSeek論文中這樣一句話:
“we employ customized PTX(Parallel Thread Execution)instructions and auto-tune the  communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs。”
“我們採用定製的PTX(並行執行緒執行)指令並自動調整通訊塊大小,這大大減少了L2快取的使用和對其他SM的干擾。”
可以看到透過這樣的一個定製的PTX最佳化,使DeepSeek的系統和模型可以更好釋放底層硬體的效能。無論是在透過去做一些auto-tuning,或者說去做一些communication chunk size的調整。它對於L2 cache的使用,以及不同SM之間的streaming multiprocessor之間的干擾,都會做到最小。但是這些被媒體們解讀成,國外可能叫“breakthrough by pass CUDA”,一些國內媒體會解讀成是“繞開CUDA壟斷”。
我們具體來看一下,到底什麼是CUDA,什麼是PTX?為什麼繞開CUDA的壟斷這件事在我們看來具有很重要的價值,以及它是否真的做到了繞開CUDA的壟斷?
稍微給大家介紹一下,大家平時在使用GPU或者英偉達硬體時,程式設計時到底是怎麼一步一步來呼叫到底層硬體的?為了做深度學習,為了訓練一個大模型,首先你需要有一張或很多GPU卡。但在上面做程式設計時,一般大家更多接觸到的是像PyTorch或者Python這樣的高層語言。一個很高層的語言最終是怎麼呼叫到底層硬體的?它實際上經過了很多語言轉換和編譯的過程。
這是我上課時會用到的一頁PPT。一般上層的應用會透過一些高層次的語言,或者說硬體的一些介面,從而進行程式設計,於是大家並不需要關注到底層硬體長得是什麼樣子。這些介面包括了像CUDA,也就是英偉達所提供的硬體介面,也有一些其他的,大家如果做一些圖形和影像顯示,會用到像DriectX或者平行計算會用到OpenCL等介面。
有底層CUDA的driver(驅動),透過驅動最終來呼叫到底層硬體。可以看到CUDA是一個相對更上層的介面,提供了面向使用者的一系列程式設計介面。而PTX一般被隱藏在了CUDA的驅動中,所以幾乎所有的深度學習或大模型演算法工程師是不會接觸到這一層。
那為什麼這一層會很重要呢?原因是在於可以看到從這個身位上,PTX是直接和底層的硬體去發生互動的,能夠實現對底層硬體更好的程式設計和呼叫。
右邊我們舉了一個Triton的例子,也是OpenAI在主推的一個跨平臺程式語言。它也是透過不斷地編譯和語言的轉化,最終在呼叫底層英偉達硬體的時候,透過PTX code來呼叫的。所以簡單來說,PTX的這一層是透過和硬體的直接互動,使得可以控制硬體更多的細節。
這件事為什麼重要呢?我認為它一共有兩大類最佳化。
第一大類最佳化是底層最佳化。給定某一個確定性的演算法、模型以及底層硬體,透過最佳化軟體,比如做一些通訊最佳化或者記憶體最佳化,這些是不改變任何程式執行的正確結果的。
另一大類最佳化是協同最佳化。像混合精度的量化、MLA這些,同時最佳化演算法、模型、軟體甚至是底層硬體。這就使得整體系統的最佳化空間變得更大。
首先來看一下,為什麼在底層做PTX最佳化?舉一個氣泡排序演算法的例子,我們分別用C程式碼和Python程式碼來做實現。一個小的彩蛋是這裡的程式碼我都是拿DeepSeek來做生成的。C程式碼相對更復雜,在實際程式設計時要關注到一些底層硬體細節,比如陣列儲存位置。但Python語言相對更簡單,不需要去關注底層硬體細節。
為什麼還是有很多工程師需要去聚焦一些像C程式碼的開發呢?我們用了另一篇論文中的實測資料,可以看到越接近底層的語言,對於整體硬體的利用效率更好。在底層做更多的最佳化,就更好地挖掘系統性能來做。
PTX層相對於C或者說CUDA層會更偏底層。我們透過在這一層的最佳化和程式設計,就可以更好釋放底層硬體的效能。
舉一個典型的底層最佳化例子,像Flash Attention這樣的工作,它將整個GPU和CPU整套系統的Memory來做劃分,分別是暫存器級別的SRAM以及GPU上的HBM,包括CPU端的Memory。透過對於不同層級的Memory的精細控制,Flash Attention所實現的Attention運算元,大家可以理解成是一個函式,相對於PyTorch原有實現可以快出將近一個數量級。這樣的最佳化工作被證明可以廣泛應用在大模型訓練中。
我們之前的一個大模型推理工作FlashDecoding++,也是透過對於底層硬體的不斷最佳化和感知,使大模型推理速度進一步提升。這只是一個科研性的工作,我們更想強調系統最佳化工作是可以被應用到更多底層晶片中的。我們大概這裡有1/3的國產晶片,都可以透過這樣感知到底層硬體的最佳化途徑,進一步釋放底層硬體的效能。這種最佳化效能甚至可以達到3倍以上。這就是底層最佳化對於整個大模型系統的意義。
說完底層最佳化,另一件事就是協同最佳化
什麼叫做協同最佳化呢?底層最佳化說白了就是在CUDA或者CUDA下面這一層來做最佳化。整個大模型的生態系統,從最頂層的產品應用到底層的基礎設施,每一個層級都已經形成了非常好的生態,但每一個層級上都存在著非常好的最佳化空間。所以是否有可能在每一個層級上都達到一定的最佳化,最終形成一個笛卡爾積,實現更高的整體最佳化效能?這是我們在思考的第二個大方向,也是我們在DeepSeek論文中看到的一個很大的方向。
這裡我們同樣舉了兩個例子。
一個例子是可能在半年到一年前非常火的一家晶片公司Groq。它透過定製化的硬體架構,將傳統GPU中的HBM記憶體去換成了一些節點的SRAM記憶體,可以實現相對於英偉達GPU呈數量級的大模型推理速度的提升。
我們自己也做了一些相應的硬體和晶片工作,可以相對於GPU,進一步提升大模型在一些多模態任務上的推理速度。這就告訴我們的一個很重要的結論,透過軟體+硬體協同最佳化,可能進一步甚至是超越GPU的效能
在調研性工作中,我們系統性闡釋了透過量化、稀疏化以及一些快速解碼。包括一些運算元,甚至是一些定製化的硬體架構,如何透過協同最佳化的方式,把大語言模型推理和訓練速度進一步釋放和提升,從而滿足我們所暢想的未來廣泛智慧場景的一些應用。
人工智慧的發展得益於三駕馬車,算力、演算法和資料。每一波浪潮人工智慧的發展速度都與這三者息息相關。第一波人工智慧浪潮止步於演算法的缺陷,第二波浪潮止於算力突破。第三波浪潮得益於演算法和算力都得到了空前的發展,大資料成為了另一塊基石。那資料如何進一步發展?強化學習、多模態資料的獲取,都可能成為助推力。
所以可以看到這樣的一個人工智慧發展過程中的閉環,也是我們進一步思考的事情。這個閉環如何在國內實現?我們把這樣的一個邏輯圖給畫出來了。
在國外,模型、晶片、系統已經形成了一套非常完備的閉環生態。在國內,DeepSeek做了非常好的一環,就是使國內模型超越了國外模型,或者說在某些場景完成了超越,或者說在方法論層面上完成了超越。但是如何形成國內“模型-系統-晶片”閉環呢?這是我們認為在未來一定會發生的事情。
DeepSeek打響了非常好的第一槍。我們也希望能夠透過國內系統和晶片的閉環發展,使它達到這樣的一個結果。為了實現這件事,我們有非常好的基礎設施和上層的應用。但是在中間軟體和硬體的一些協同最佳化,是我們需要在未來不斷努力和提升的。
最後做一個總結,我們從PTX和CUDA層的最佳化思考到未來對大模型效能的極致最佳化,可以分為在CUDA層、PTX層的底層最佳化,以及打通軟體硬體的協同最佳化,最終實現模型系統和晶片的閉環,以及“軟體到硬體”+“硬體到軟體”的閉環。
05.
Q&A:從DeepSeek的轟動成功中,
我們能學到什麼?
問題1:請從各自的專業角度來分享和解釋一下,目前DeepSeek引起的一些效應,其中最有亮點的技術是什麼?
邱錫鵬:它最出圈的可能還是因為效果好。很多o1的復現模型可能在某些指標上比較高,但實際用起來會覺得並沒有做到真正的推理技能。但是R1確確實實達到了o1的效果,在很多方面的表現令人驚豔。o1對標R1,相當於ChatGPT對標Llama。開源非常重要,如果它是個閉源模型,那麼一定不會像現在這麼出圈。
還有一個令人震驚的是R1-Zero,證明了如果採用純RL,就能夠讓模型自己湧現長CoT能力。很多時候大家復現o1,非常重要的是訓練資料從哪裡來。如果透過純RL就能夠增強長推理能力,就讓人產生非常大的遐想:我們是不是將來有很大的機會,可以透過大規模的強化學習訓練,在推理路線上達到或超過o1,並且在很多其他領域也能夠達到像在數學等強推理領域的效果?所以我覺得它確確實實打開了一個思路。
最後一點是在模型上,它沒有透過過程監督、MCTS、搜尋,類似於用非常簡單的方法,就能透過Scale達到如此好的效果,這也是非常令人驚訝的。
劉知遠:我覺得有兩個。一是由V3帶來的啟示,它展示了用1/10甚至更少的成本,完成了大概達到GPT-4和GPT-4o水平的能力。V3在底層算力加速方面做了大量工作,實現演算法和底層軟硬體的協同最佳化。這種一體化最佳化機制,讓大家看到即使成本已經很低,仍然可以透過最佳化進一步降低成本。雖然V3的成本仍然是幾百萬美元甚至幾千萬美元,但相比國際上公認的水平,已經低得多。這也是英偉達股價會下降的一個重要原因。
第二個是R1給我們的啟示。因為OpenAI犯了傲慢之罪,不開源,不公開技術細節,價格又非常高,所以不出圈。在這種情況下,R1開源又免費,讓全球使用者使用,而且公開了所有技術細節。相當於是把原來應該由OpenAI佔有的像當年ChatGPT的身位,讓給了DeepSeek。
DeepSeek透過極致最佳化有限資源,成功追趕上國際最先進模型,我覺得幹得非常漂亮。而且透過開源,讓全球都認識到我們中國團隊的創新能力。
翟季冬:我印象最深的是DeepSeek的架構創新,尤其是MoE。我們團隊最早從2021年開始做MoE。當時我們實驗室有同學做Fast-MoE框架,在2021年開源。這個方向當時用的人很少。
MoE有優點也有缺點。優點是模型引數增大,也不顯著增加算力。但真正訓練起來會有很多問題,包括負載不均衡,包括如果訓練像稠密模型在英偉達平臺可能我最佳化到40%到50%的效率,但實際上訓練MoE很多時候只能最佳化到10%或20%,可能會更低。針對這個問題,很多做模型的可能就會放棄。
國外像Mistral架構,採用的是專家數很少、非常均衡的策略。DeepSeek團隊比較敢於創新,設計了每一層有256個路由專家、1個共享專家。之前的研究有Auxiliary Loss的演算法,會使梯度發生擾動,影響模型收斂。DeepSeek提出來Loss Free方式,既能讓模型有效收斂,同時解決負載均衡。
我覺得不完全追隨國外的策略、有自己的思考,非常重要。中國發展到這個程度,我們一定要有一些自己的思考、判斷。不能說別人這樣做,我們就一定這樣做。
戴國浩:我從兩個方面來講。首先從學術角度來看。過去兩個月內很多團隊、廠商都發布了自己的模型,並且對於自己模型架構都提到了非常多的新設計。這是我們看到非常欣喜的一件事情,使我們有更多的機會可以透過底層最佳化去助力上層模型的發展。
如果模型架構本身沒有特別大的變化,像Flash Attention這樣的一些技術可以完全最佳化各個模型。但實際上由於模型不斷變化,我印象非常深的是在DeepSeek裡MLA這樣的架構。這使得我們必須得透過底層的系統最佳化,而不是去用一些現成框架就能達到非常好的效能。
第二件事情是我看到的一個機會。以往我們進行最佳化管理時,都會設定一個最佳化目標。原來可能只是關注演算法精度,後來發展到軟硬體協同最佳化,又會把硬體的一些約束放在裡面。我們現在還必須面臨的一件事情是算力不足、資源受限的情況。這個最佳化問題的解在我看來目前DeepSeek給了一個非常好的答案。
透過更低成本的訓練,我們可以獲得一個更好的模型。也就使得我們形成一個“模型+軟體+系統+晶片”的國產閉環,在未來都發生成為了一個非常大的可能。所以這件事也給了我非常大的信心。
所以這從學術和產業的兩個角度,都給到了我非常大的驚喜。
問題2:為什麼是這個時間點出現了R1模型?之前沒有基於基模型直接做強化學習的嘗試嗎?在這個時間點上,為什麼是DeepSeek做得如此之出圈?
邱錫鵬:我覺得他們是一個長期積累的結果。比如V2版當時已經引起大家對他們能力的認可,然後是V3,直到R1的出現,不是說突然爆冷。它從去年5月份就已經開始就部署整個團隊,一直在往這方面迭代研究,所以我覺得是在大模型這條路線上,加一些AGI的信念,加上軟硬體協同創新能力,一步步走到今天。
它在今年出圈爆火,確確實實是真正能夠從底層最佳化和創新上,對國外OpenAI或者Meta這些大公司產生一些震撼。我們國內雖然受到非常多的算力封鎖,加上訓練資源限制,但是依然能非常出色或高質量地做出效能如此好的模型,確實是他們出圈的根本原因。
劉知遠:我覺得這件事有一定的必然性。大概2024年時,很多投資人,甚至一些不從事人工智慧領域的人,問中國的AI跟美國的AI相比,到底差距是變大還是變小了?我當時明確說,我們認為中國正在非常快速地追趕,與美國最先進技術之間的差距正在逐漸縮小。
雖然我們被“卡脖子”,有這樣那樣的一些限制,但一個很重要的現象可以驗證這一點,國內復現ChatGPT、GPT-4模型大概需要一年時間,再往後看,像Sora、GPT-4o,國內團隊可以在半年左右完成相關復現工作。
像o1這樣的模型能力,DeepSeek非常大的價值是它不只能夠復現,而且用了非常低的成本。能夠在半年左右復現o1水平模型的能力,這件事情應該對於我們國內一線團隊來講是可預期的。只是說DeepSeek能夠更快,而且是更加低的成本,高效完成工作。由DeepSeek來達到這麼出圈的效果,有團隊本身的必然性。
邱錫鵬:我再稍微補充一下,ChatGPT的復現,因為之前還有一些相關的論文發表,所以技術路線相比o1更清晰。但o1確實是OpenAI幾乎沒有任何的論文或技術報告的發表,所以大家都是猜測,難度會高很多。
問題3:我們今天看到的DeepSeek技術的爆發,對於中國大模型的未來高質量發展道路會有哪些啟示?
邱錫鵬:DeepSeek團隊應該大部分都是剛畢業的碩博士,還有很多高年級實習生,能夠非常好地支援長期的基礎創新。我也看了梁文鋒(DeepSeek創始人)的一些採訪,他認為AI或者大模型還沒有到非常大的商業變現時刻,所以目前階段還是以基礎創新為主。在此階段有一個非常好的高人才密度團隊加敢於創新,是非常重要的。
現在畢竟還是有o1明珠在前,我們在追隨。下一步如果真正做前沿創新,需要更大的對未來探索性的東西或嘗試,不怕失敗。科研環境還是非常重要的。
劉知遠:我說兩點。第一點,我特別敬佩整個DeepSeek團隊的技術理想主義,以實現AGI作為夢想去組建團隊。同時看到梁文鋒之前是做量化投資,自己投錢來做這件事情,沒有資金上的相關困擾。對應的,我覺得中國應該要給這樣的技術理想主義提供支援,哪怕不像DeepSeek這麼有資金,能否也能讓他們沒有後顧之憂地進行探索、踏踏實實地做一些原始創新?
第二點,是他們的執行力。DeepSeek這兩個月一炮而紅,是經過多年的持續積累,量變產生了質變。我可以告訴大家,幾年前,DeepSeek就是幻方,當時拿著免費算力來誘惑我們的學生,與他們建立聯絡。也有學生畢業後加入了DeepSeek。
我覺得這也是技術理想主義推動下的長期主義成果。國內應該有更多的團隊,能夠坐得住冷板凳,更加聚焦,在一些重要問題上持續發力,做出有意義的工作。
DeepSeek發展到今天,它做的所有工作可能也是在摸著OpenAI過河。相當於它以OpenAI為師,來看AGI到底該怎麼實現,然後努力做他們認為OpenAI做對的事情。的確這個過程非常困難,包括隨著OpenAI變得越來越封閉,o1如何復現會比當年復現ChatGPT更加困難。但我們看到只要有理想和執行力,它就可以做到。
國內應該有更多的團隊去學習。具體技術當然是我們應該學的一部分,但是要避免會認為因為DeepSeek成功了,所以它做的所有的事情都是對的。它所有的技術是不是都是最先進的?我覺得不見得,這樣反而會限制我們的創新。我們應該學習的是它的理想、堅持、方法論。
翟季冬:DeepSeek對我最大的啟發有兩點。第一點是創新,創新是社會進步和個人發展的永恆動力。DeepSeek團隊在這個過程中,比如說為了降低算力成本,為了突破模型推理精度,想了很多很多創新的辦法。未來一定要勇於創新,才能發現更多的機會。這一波人工智慧讓我們最興奮的是每隔可能一兩年,就會讓我們看到很多新的東西。
第二點,從我個人的體會來說,我覺得DeepSeek榜樣的力量非常重要。我們高效能計算領域,有一個非常重要的獎項叫戈登貝爾獎。這個獎項其實設立了快30年,中國沒有拿到獎。我們在計算機大會上也有論壇,當時討論說中國離戈登貝爾獎還有多遠。後來在2016年,由清華跟中科院軟體所一起拿到戈登貝爾獎。後來國內陸續多次拿到這個獎。
DeepSeek團隊這次能取得這麼好的成果,一定會對中國在人工智慧領域的工作者,給一個非常好的榜樣力量。大家還會做出更多好的成果。我們中國人自己的團隊做出這樣的成果,我們也有信心繼續努力。這可能對中國未來的人工智慧發展會至關重要。
戴國浩:我主要說三點。首先是對於個人或者團隊,我非常欽佩DeepSeek團隊。他們是一幫能創新、有理想並且很堅持的人。在AI領域,在過去2到3年發展還是非常快的。如何堅定走一條他們認為正確的路,並且持續做創新,這對於個人和團隊來說是一個非常大的啟示。
第二點是對於整個國內人工智慧的發展。當我們有了單點突破之後,未來我們可以預見到,只要我們持續堅持來做這樣一件事情,未來一定可以形成一套閉環的生態。我們不僅是在演算法,我們在系統、軟體、晶片各個層面上,都有可能去做出一些不一樣的工作。
我最關注DeepSeek的一個點就在於可以做到大幅度降低訓練大模型的成本。人類發展歷史上每次工業革命中,一些新的生產工具的誕生,都會使得生產力有大幅度的解放。而生產工具能夠提升生產力的本質,是因為生產力成本是不斷降低的。隨著訓練成本降低,未來可以在很多智慧終端場景中大幅降低推理成本,助力到人類生產力的進一步解放,推動人類邁向下一個臺階。
06.
Q&A:MoE是否是最優解?
長思維鏈設計對硬體有什麼需求?
問題1:每100天大模型能力密度會減少一半。這個能力密度是怎麼定義的?內在原因是什麼?是模型最佳化還是資料質量?長思考類模型的引數密度和評估是否和普通大語言模型一致?
劉知遠:能力密度是我們最近半年提出的一個概念。如何有效準確衡量,可以去看論文《Densing law of LLMs》。所謂的能力密度,可以理解為模型在各種評測集上所展現出來的能力,除以其引數規模。我們觀察過去一年半釋出的代表性模型,能力密度每100天會增加一倍,其意義就在於每過100天就可以用一半的引數,實現相同的能力。
這一現象背後有多個因素影響:一是資料質量可能更高,取決於資料治理;二是模型架構,採用更稀疏啟用的模型架構,可以用更少的啟用引數承載更多能力;三是學習方法,包括OpenAI在內的所有一線團隊都會開展的“Scaling Prediction”。在真正訓練一個模型之前,我們會進行大量的風洞實驗,積累各種預測資料,以確定模型需要什麼樣的資料配比和超參配置,從而達到最佳效果。
綜合這些因素,模型可以用更少的引數,承載更多的能力。我們將這一現象類比晶片行業的摩爾定律。摩爾定律是電路密度不斷增加的過程,透過技術發展實現。進一步結合底層算力最佳化,我們可以將這種最佳化對映到模型訓練階段,從而極大降低成本。當然,我們並不是說DeepSeek的算力可以用1/10的成本實現與國外模型相同的能力,但這與Densing law(能力密度定律)有一定的重疊。
Densing law更多地強調模型密度不斷提高,它不僅體現在訓練階段成本的降低,也體現在推理階段。模型可以用更低的推理成本、更快的推理速度,完成相同的能力。我們認為,未來AI的發展一定會沿著這條路線前進。過去幾年的發展也在不斷驗證這一點。
一個直觀的體驗就是,OpenAI等一線公司的API價格在過去幾年快速下降。原因不只是在打價格戰,而是因為它們可以用更少的資源實現相同的能力,從而讓更低的成本去提供服務。
我們認為,高效性是未來AI發展的一個重要方向,也是我們迎來智慧革命的一個重要前提。
問題2:基於DeepSeek的這樣一個軟硬體協同最佳化的方式,未來國產晶片或者國內晶片加國外晶片的組合,以及CPU+GPU異構組合,對大模型進行最佳化,會不會成為未來的新興熱點方向?
翟季冬:我覺得一定會的。最近華為也把這個DeepSeek R1移植到昇騰平臺。我相信過年期間工程師肯定都沒有休息。因為DeepSeek R1模型是開源的,國產晶片都可以儘快嘗試把模型移植到自己的晶片。我相信今年上半年這方面的工作會非常的多,肯定有很多相關的公司或工程師在做這個方向。
戴國浩:這是我們一直堅信的事情。在未來或者今年,我們就可以看到很多國內模型會應用在國內場景中,並且底層使用國內晶片。我們自己也在做很多這方面的一些工作。目的是為了告訴大家,用國內晶片去跑國內模型,用在國內應用場景中,是真的可以做的高效並且形成一整套閉環的。
這裡有很多的工作需要做,需要整個團隊對於從上層軟體到底層的晶片都很瞭解。以DeepSeek為例,它僅僅是對於PTX這一層的最佳化,就可以帶來這麼大的效能提升。而國內這麼多的晶片、這麼多的模型,這樣的M乘N打通,具有非常大的價值。我們堅信這件事情在今年和未來的很長的一段時間都會發生。
問題3:MoE架構會是通往AGI路上的最優解嗎?
劉知遠:我的個人感覺是,沒有人永遠是對的。OpenAI釋出ChatGPT、GPT-4,它做對了;但釋出R1,它做錯了,沒有開源,定價出現了策略失誤,所以相當於是成就了DeepSeek。
我也不會認為因為DeepSeek選擇了MoE,MoE就永遠是正確的。沒有任何證據證明MoE是最優的模型架構。從學術的角度和AI未來發展的角度,這是一個開放性的問題。未來如何實現高效性?我認為一定是模組化和稀疏啟用的,但具體如何稀疏啟用、如何模組化,這件事情本身應該是百花齊放的。應該鼓勵學生和從業者像DeepSeek一樣去努力探索創新。
所以,我本身不太認為MoE有任何絕對的壁壘,或者它一定是最優的方法。
翟季冬:我雖然不是做模型出身,但是我覺得這一波人工智慧對我影響最大的,就是在不停變化。很有可能又有些新的技術會顛覆現在的技術。要對未來充滿更多的期待。
戴國浩:沒有什麼方法是永遠正確的,但會有一些方法論是永遠正確的。這種開源也好,這樣的一些新方法探索。技術發展跟時間有關,例如上世紀80年代很多機器學習會議會拒收神經網論文,因為在當時看來效果不好或者可解釋性差。
我們一定會抱著一個非常開放的態度。無論是新的模型架構、新的硬體架構,抑或是一些聯合設計的方法,都是在未來探索的方向。MoE現在取得不錯的效果,我們認為是當前的一個非常好的解。但未來是什麼樣子?這需要更多的老師同學、行業內的創業者,大家一起來做探索。
邱錫鵬:MoE是大規模模型在做規模上Scale的和現在GPU架構的一種妥協。未來底層硬體的改變,以及新架構晶片的出現,可能都會使模型發生非常大的變化。一個趨勢可能是未來模型架構上面的設計,會更多依賴或考慮到底層硬體上的最佳化。比如通訊頻寬,如果有朝一日變得非常高,那麼可能架構就會發生不一樣的變化。
問題4:長思維鏈設計對硬體有什麼需求?儲存能力是否適合當前的推理?長思維鏈模型設計方面,對於硬體有什麼需求?計算和儲存能力是否適合現在這類推理?
戴國浩:這是一個非常好的問題,也是我們最近正在做的一些研究課題。舉一個例子,原來的這種大模型,以Llama為例,它是一個token一個token來做輸出的。但這種長思維鏈的過程可以分成兩個階段。一個階段是在每一步一個token一個token輸出,但形成了一段話之後,就會有這樣一個思維的過程,它其實是一個sequence to sequence輸出。
所以我們可以看到兩個直觀變化。一個變化是它對於歷史資訊的獲取提出了更高要求。另一個是它對於整體推理時間和推理成本的需求,也會變得更大。
我們知道大模型本質上在推理過程中是一個訪問受限的問題。那如何去提供更高頻寬,使得在長思維鏈過程中還能保持一個比較高的推理效率?這一點除了在軟體上來做最佳化,底層硬體甚至是硬體本身架構,傳統的是計算和儲存的分離,是否有可能把計算和儲存放的更近,甚至是放到一起?這是我們看到的一個非常大的趨勢。相信未來如果說演算法本身的發展是往這個趨勢來做,也一定會有相應的新硬體架構的出現。
問題5:關於PTX方法的通用性,如果我們換一種模型或者換一種型別的卡,那麼重新用這種方法再做,它的泛化性以及工程成本有多高?
翟季冬:PTX是英偉達為了更精細地控制底層的硬體,在CUDA往下的一層。其他硬體廠商也會有一些偏底層的控制指令。因為PTX畢竟是英偉達自己的指令。如果換成其他的晶片,肯定要去用對應的晶片底層相應的一些介面,這肯定是要變的。
戴國浩:我非常同意翟老師的觀點。大家不用去神話PTX。特別是學過計算機的這個同學,可能在大學階段都學過一門課程叫做組合語言。PTX大家可以理解成就是英偉達GPU的組合語言。我們把它放到國產GPU上,類似的也會有相應彙編。特別是在目前國產GPU上層軟體生態相對英偉達來說沒有那麼成熟的情況下,使用國產GPU的“PTX”也是一個必然的路徑。這裡面會涉及到系統軟體開發人員和硬體人員的緊密配合。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章