但這意味著,類 o1 大模型在推理階段需要更多的計算資源,思維鏈的推理模式相當於從原來的單次推理變成了多次推理,推理端對算力的需求大幅增加。原有大模型的推理模式更多是一般推斷,即大模型只進行單次的簡單推理,加入鏈式思考之後,不僅是思考次數成倍數增加,每次思考還會將上一次的思考結果作為 Prompt 再次輸入,對推理的算力需求將是原來的數十倍。除了對推理算力的爆發式增長,推理還將成為高質量的資料來源。英偉達高階科學家 Jim Fan 表示,大量計算將被轉移到服務推理而不是訓練前 / 後,o1 將成為資料飛輪,反過來將進一步最佳化 GPT 未來版本的推理核心。這樣的發展趨勢預示著大模型的基礎設施建設將向推理轉移。傳統的 AI 算力設施主要圍繞模型訓練構建,但在新的正規化下,要求我們重新思考和設計 AI 基礎設施去適應這一變化。未來的 AI 基礎設施將更加註重推理能力,以支援大模型的廣泛應用。算力需求的增加導致的挑戰在大模型落地行業中,效果、效率與成本之間存在著難以調和的 “不可能三角”。企業往往希望獲得更好的模型效果,即生成內容的準確性高、無幻覺問題且對使用者有實際幫助;同時也追求更高的處理效率,以便快速響應市場需求和使用者反饋;然而,還需要控制成本。舉個例子來說,引數越大的模型有越高的推理效能,但成本也極高,部署千億大模型動輒需要成數百萬元至數千萬元,此外還需較高的人員成本來做模型維護和應用開發。效率、成本、效果這三個點本就難以調和,隨著推理思維鏈帶來的新正規化,雖然模型效果有了更大的提升,但同時對算力的需求爆發,導致成本數十倍增加,使得這一平衡更加難以實現。在保證同樣的效能條件下,如何平衡成本,成為了大模型落地的關鍵問題。如何降低大模型的推理成本平衡效果、效率與成本三者間,本質是在於如何在有限的成本里做到最優的效能。加之大模型的算力建設重點轉移到推理側,因此,如何最佳化推理算力成為大模型落地的關鍵點。以存換算:在大模型的推理任務中,尤其在實際的應用中,大量的推理任務間往往會有關聯,因此如果將計算的中間結果儲存,遇到相似的問題,甚至是全新的問題,也能讓大模型從歷史記憶中提取相應的計算結果,結合部分現場計算,融合推理得出結論,那麼推理任務的計算量將會大大降低。這一思路的本質是呼叫儲存空間,儲存複用 KVCache,來置換部分的算力。儲存裝置的成本相對算力而言要低得多,從而進一步降低成本。