推理中心化:構建未來AI基礎設施的關鍵

OSCHINA
↑點選藍字 關注我們
最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》
報告聚焦 AI 大模型領域,對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。
在第二章《TOP 101-2024 大模型觀點》中,趨境科技探討了大模型基礎設施建設的未來趨勢以及如何落地。
全文如下:

推理中心化:構建未來 AI 基礎設施的關鍵

文 / 趨境科技
相比於 2023 年的引數量快速擴張,2024 年以來,大模型迭代動力更多源於大模型應用落地、端側部署的需求,大模型正往更加廣泛的行業應用發展。
然而,大模型的成功落地並非易事,尤其是在為大模型提供算力的穩固底座 —— 基礎設施的建設環節中,推理的算力需求日益增加,將成為制約大模型廣泛應用的關鍵因素。
本文將探討大模型基礎設施建設的未來趨勢,以及大模型在落地層面,要如何做基礎設施建設。
推理算力的爆發式增長,將會轉移基礎設施建設的重心
OpenAI 的 o1 模型以其思維鏈式思考(Chain of Thought)模式,為大模型的推理帶來了新的方向。這種模式透過模擬人類解決問題的思維方式,顯著提升了模型的推理能力,使大模型在解決複雜的推理任務上表現出了超越以往的卓越效能,其效率也遠超其他模型。
但這意味著,類 o1 大模型在推理階段需要更多的計算資源,思維鏈的推理模式相當於從原來的單次推理變成了多次推理,推理端對算力的需求大幅增加。原有大模型的推理模式更多是一般推斷,即大模型只進行單次的簡單推理,加入鏈式思考之後,不僅是思考次數成倍數增加,每次思考還會將上一次的思考結果作為 Prompt 再次輸入,對推理的算力需求將是原來的數十倍。
除了對推理算力的爆發式增長,推理還將成為高質量的資料來源。英偉達高階科學家 Jim Fan 表示,大量計算將被轉移到服務推理而不是訓練前 / 後,o1 將成為資料飛輪,反過來將進一步最佳化 GPT 未來版本的推理核心。
這樣的發展趨勢預示著大模型的基礎設施建設將向推理轉移。傳統的 AI 算力設施主要圍繞模型訓練構建,但在新的正規化下,要求我們重新思考和設計 AI 基礎設施去適應這一變化。未來的 AI 基礎設施將更加註重推理能力,以支援大模型的廣泛應用。
算力需求的增加導致的挑戰
在大模型落地行業中,效果、效率與成本之間存在著難以調和的 “不可能三角”。企業往往希望獲得更好的模型效果,即生成內容的準確性高、無幻覺問題且對使用者有實際幫助;同時也追求更高的處理效率,以便快速響應市場需求和使用者反饋;然而,還需要控制成本。
舉個例子來說,引數越大的模型有越高的推理效能,但成本也極高,部署千億大模型動輒需要成數百萬元至數千萬元,此外還需較高的人員成本來做模型維護和應用開發。
效率、成本、效果這三個點本就難以調和,隨著推理思維鏈帶來的新正規化,雖然模型效果有了更大的提升,但同時對算力的需求爆發,導致成本數十倍增加,使得這一平衡更加難以實現。在保證同樣的效能條件下,如何平衡成本,成為了大模型落地的關鍵問題。
如何降低大模型的推理成本
平衡效果、效率與成本三者間,本質是在於如何在有限的成本里做到最優的效能。加之大模型的算力建設重點轉移到推理側,因此,如何最佳化推理算力成為大模型落地的關鍵點。
以存換算在大模型的推理任務中,尤其在實際的應用中,大量的推理任務間往往會有關聯,因此如果將計算的中間結果儲存,遇到相似的問題,甚至是全新的問題,也能讓大模型從歷史記憶中提取相應的計算結果,結合部分現場計算,融合推理得出結論,那麼推理任務的計算量將會大大降低。
這一思路的本質是呼叫儲存空間,儲存複用 KVCache,來置換部分的算力。儲存裝置的成本相對算力而言要低得多,從而進一步降低成本。
全系統異構協同推理大模型算力最主要是來源於 GPU,當前傳統的算力最佳化方案主要是提升 GPU 的利用率。然而,僅針對 GPU 最佳化所帶來的效能提升空間非常有限。此外,據財通證券釋出的行業深度分析報告統計顯示,國產 GPU 產品在單精度 / 半精度浮點算力、製程及視訊記憶體容量上都與英偉達有 2-4 倍的顯著差距。因此,單單依靠 GPU 單點最佳化,短時間內很難趕超英偉達 GPU 方案。
而且對於推理而言,算力要求相較於訓練較低,因為推理僅涉及前向計算,無需複雜的反覆試錯和引數調整。
底層的硬體,除 GPU 之外,還有儲存、CPU、NPU 等。從這些角度考慮,降低 GPU 算力的佔比,釋放裝置中其他硬體的隱藏算力的方法成為最優解。
透過以存換算利用儲存的算力,加入高效能運算元充分呼叫 CPU 和 GPU 算力,增加算力利用率,再加上更科學的算力排程和分配系統,充分並高效釋放了全裝置的算力,這就是全系統異構協同推理架構。
這種架構不僅提高了整體算力利用率,還突破了 GPU 單點最佳化的瓶頸,能夠為大模型的推理提供強大的支援。
推理新架構的開源專案實踐
趨境科技與清華 KVCache.AI 團隊共同開源的專案 KTransformers,便是採用了異構協同的推理新框架:僅需單個 4090 即可在本地執行 Mixtral 8x22B 和 DeepSeek-Coder-V2 等千億級大模型,效能遠超 Llama.cpp 數倍。
同時,KTransformers 成為業界首個僅需單張 4090 即可完成長達 1M 的超長上下文推理任務的高效能推理框架,且生成速度達到 16.91 token/s,比 Llama.cpp 快 10 倍以上,同時維持接近滿分的 “大海撈針” 能力。更進一步的,KTransformers 可以相容各種模型和運算元,在 Transformers 之上,兼顧了相容性、靈活性、易用性和效能。在框架中可以整合各種各樣的運算元,不管是放到 CPU 還是 GPU,都能夠做各種組合測試。
KTransformers 在釋出後仍在不停地迭代更新,根據開發者們的需求提供了對 Windows、Linux 平臺的支援、實現了對主流開源 MoE 大模型的支援等,非常方便開發者根據本地環境進行調整。未來還將根據開發者的不同訴求持續完善。
此外,趨境科技深度參與的開源專案 Mooncake,以超大規模 KVCache 快取池為中心,透過以存換算的創新理念大幅度減少算力開銷,顯著提升了推理吞吐量。其中 Mooncake Store 元件可以充分利用推理叢集中的 CPU、DRAM 和 SSD 資源形成一個高效的多級 KVCache 快取池。透過共享 KVCache,大幅度減少對於 GPU 資源的消耗。
大模型的未來與算力基礎設施的轉型
AI 大模型是未來的趨勢,隨著大模型更加廣泛地落地到各種應用中,對大模型的效能要求會越來越高,推理任務也變得越來越複雜。因此在上層能力與應用高速發展的狀態下,底層對算力的基礎設施建設,尤其以推理為中心的基礎設施建設變得尤為關鍵。
以存換算和全系統異構協同推理是當前應對大模型落地挑戰的創新解法,能夠在大模型的部署階段有效平衡效果、效率和成本三者間的關係,將成為推理基礎設施建設的一種新方式,助力大模型更廣泛的應用。
正如中國工程院院士鄭緯民在資料儲存專業委員會中所提到的:記憶體型長記憶儲存以存換算,是 AI 推理新趨勢。AI 儲存是人工智慧大模型的關鍵基座,儲存系統存在於大模型生命週期的每一環,是大模型的關鍵基座,透過以存強算、以存換算,先進的 AI 儲存能夠提升訓練叢集可用度,降低推理成本,提升使用者體驗。

公司簡介
趨境科技成立於 2023 年底,基於業界首創的以存換算和全系統異構協同推理架構推出 “大模型知識推理一體機”,為使用者提供開箱即用的大模型落地解決方案。公司創始團隊均來自清華大學,在 AI、體系結構、系統軟體等相關的技術系統和軟體領域,有多年學術與產業實踐經驗。
閱讀完整報告https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf

🔗《2024 中國開源開發者報告》正式釋出
分享在看點贊~Orz

相關文章