Z Circle 是關於人的欄目。
人是一切創新的源動力。在過去的十二年裡,真格一直專注投人哲學,連線起那些最真摯、勇敢、極具創新精神的人們。我們記錄他們的故事和旅程,希望你能從中看見自己,也期待與你相識相知。
2023 年,真格基金 A 輪投資無問芯穹。
無問芯穹的創始團隊由清華大學電子系推動成立,其發起人為電子系教授、系主任汪玉。聯合創始人及 CEO 夏立雪是汪玉教授的第一位博士畢業生,長期致力於深度學習系統的設計方法學研究,曾在阿里雲擔任使用者增長產品技術負責人。
近期,在機器之心的專訪中,夏立雪談到公司成立的契機,中間層生態的機會視窗,以及無問芯穹更長遠的計劃。
以下是訪談原文。
算力不足仍然是制約通用人工智慧發展的重要因素。GPU Utils 今年 8 月的一份資料顯示,全球目前 H100 等效算力的供給缺口達到 43 萬張。在解決算力不足的問題上,除了搶購和囤積英偉達,更多的方案正在浮出水面。
清華系創業公司無問芯穹,是這個賽道上的一個答題者。
不久前,機器之心介紹了來自無問芯穹(Infinigence AI)、清華大學和上海交通大學的聯合團隊所提出的一種新方法 FlashDecoding++。這項工作不僅能將 GPU 推理提速 2-4 倍,還能同時支援 NVIDIA 和 AMD 的 GPU。相較於 FlashDecoding,
這項工作在 NVIDIA A100 實現了推理平均加速 37% ,在 AMD MI210 上實現 300%+ 的效能提升。
基於這項工作,無問芯穹所研發的 Infini-ACC 大模型計算最佳化引擎透過對模型、系統以及硬體層面的系統最佳化,能夠推動實現大模型推理速度提升 10 倍,模型儲存空間降低 10 倍,部署時間降至小時級。
無問芯穹依託計算加速的核心優勢,幫助現有的算力方提高算力效能與價效比。並在核心優勢基礎上推出了智算雲、智算一體化平臺,支援異構算力排程,並提供端到端的一站式大模型落地方案。
透過現有算力的效率提升以及對未利用算力的啟用,無問芯穹希望能夠為大模型市場帶去新的算力增量。根據無問芯穹 CEO 夏立雪的測算,經過最佳化後的算力成本,相比 OpenAI 可壓縮 2~3 個數量級,未來則將會達到 4 個數量級。這意味著,假如一個應用方原本需要向 OpenAI 支付 100 元的 token 費用,經過最佳化,這個價格最終將會被壓縮到約 1 分錢級別。
更值得注意的是,夏立雪在機器之心的專訪中透露,作為中介軟體向外出售系統僅僅只是無問芯穹商業化策略中的第一步,無問芯穹更長遠的計劃是透過與算力中心合作,最佳化算力成本,直接向 B 端和 C 端開發者提供可以直接排程的低成本算力。
「我們的最終目標不僅僅是作為中間層提供生態系統,而是直接為市場提供算力。未來,凡是服務和應用中涉及到大模型的,都是我們的潛在客戶。」
無問芯穹由清華大學電子系主任汪玉推動成立,擁有三位聯合創始人:
聯合創始人及 CEO 夏立雪畢業於清華大學,是清華大學電子系主任汪玉的第一位博士畢業生。夏立雪長期致力於深度學習系統的設計方法學研究,入選 AI2000 人工智慧全球最具影響力學者榜單,以及斯坦福學科 Top2% 科學家榜單。畢業後,夏立雪在阿里雲負責過大語言模型的壓縮加速、生成式 AI 模型晶片等核心戰略專案。曾擔任使用者增長產品技術負責人,幫助阿里雲從 0 到 1 孵化使用者增長產品,穩定獲得上億年營收。
聯合創始人及 CTO 顏深根畢業於中科院軟體所,是國內最早從事 AI 高效能計算的科研人員之一。為原商湯科技資料與計算平臺部執行研究總監,幫助商湯搭建了兩萬片 GPU 的大規模高效能 AI 計算平臺,並主持開發了多個深度學習系統軟體,帶領 200 人規模團隊歷時 3 年打造出上海 AI 超算原型機專案,總投入 6.7 億。
聯合創始人及首席科學家戴國浩現任上海交通大學長聘教軌副教授,清源研究院人工智慧設計自動化創新實驗室負責人。戴國浩在電路設計自動化、異構計算、體系架構等領域發表高水平論文 50 餘篇,谷歌學術引用超千次。承擔包括國家自然科學基金青年專案在內的多個縱橫向專案,個人負責經費超千萬元。
目前無問芯穹團隊共有 100 餘人,研發團隊中 35% 以上來自清華大學,團隊仍在快速擴張。夏立雪表示,當前公司的業務重點是商業化,以確保無問芯穹正行走在正確的商業路徑上。
01
算力難、算力貴問題制約大模型發展
機器之心:能否簡單介紹下公司成立的契機以及目標?
夏立雪:無問芯穹公司註冊於今年 5 月,核心團隊從 3 月份開始組建。
我們的創立與整個行業的大模型發展密切相關,大模型從去年年底開始受到大量關注,引發了對其在不同行業應用的廣泛想象。
但與此同時,但是我們看到,從商業上來講,它要大規模落地還需要解決成本問題。很多場景的成立,需要從 「賠本賺吆喝」到至少 「算得過來帳」。
我是汪玉老師的第一個博士生,畢業後加入了阿里雲。在阿里雲期間,我一直與清華電子系保持著密切的交流。去年年底汪老師開始頻繁地與我討論,大模型爆發後,從電子系的位置出發能為這個產業做些什麼,我們能提供的是否只是學術價值,還是也能提供產業價值?
我們最後看到的核心問題就是國內整體的算力是遠遠不夠用的,不能光靠晶片層的工藝提升和等待多元晶片的成長去解決這個問題。
我們的目標就是去把現在能用的算力用好,以及把現在不能用的算力也用起來,能夠幫助提供更多大模型產業可用且更便宜的算力。
因此,我們核心的兩個技術方向就是,一是大模型在晶片上的極致效能最佳化;二是把多元異構算力利用起來。我們的目標是建立一個生態系統,其中不同模型可以自動部署到不同硬體上,從而使這些未被啟用的算力得到有效利用。
機器之心:團隊構成是什麼樣的?
夏立雪:汪玉老師是無問芯穹的發起人,核心成員是我、顏深根與戴國浩,我們負責過阿里雲大模型壓縮加速、生成式 AI 模型晶片、上海 AI 超算原型機、國家自然科學基金等專案。我們研發團隊的成員參與過 Apache、ONNX、TensorFlow、PyTorch、PyG 等人工智慧相關開源專案建設,並且是其中比較重要的貢獻者。研發團隊中 35% 以上來自清華大學,目前還在快速擴張。
機器之心:你們定義自己是在 「追求大模型落地的極致能效」,為什麼選擇解決這個問題,能效又具體指什麼?
夏立雪:我們看到大模型落地的能效問題,一直懸在所有人的頭頂上。
全球都存在 GPU 的可使用性不足,也就是 「不夠用」,目前全球晶片缺口高達 43 萬張 H100 等效算力。
其次是 「很難用」,大模型訓練時延敏感、容錯率低,部分硬體效能上本身不如英偉達,所以即使多元異構 GPU 叢集建成了,實際中也很難真正把所有算力都用起來。
最後是落地時 「用不了」,大模型作為人機互動的介面,在邊端應用上有很高的發揮空間,但邊緣側裝置能耗敏感,算力、儲存和頻寬都不足,應用普及很難。
無問芯穹定義自己在追求大模型落地的極致能效,這裡的能效是指技術實際發生的作用與所消耗能源量的比值。
我們認為能效水平是生產力與競爭力的測度,比如在物種競爭中,大腦皮層中的神經元數量決定智力的高低。而人類之所以能夠很快超越其他物種,主要是因為人類掌握了烹飪技術,也就是掌握瞭如何短時間、低成本攝入大量能量,以支援大腦中大量神經元運轉的高能效技術。大模型行業現在非常需要這樣一種整體的、高能效的 「烹飪方案」。
放到任意經濟體競爭、商業組織競爭中,同理,誰能以更快的速度、更低的能源消耗或成本實現更高的發展效果、產品質量,誰就更有可能勝出。
機器之心:你提到全球晶片缺口大,即使多元異構 GPU 叢集建成了,實際中也很難真正把所有算力都用起來,這些算力不能被充分利用或者說能效低,可能的原因是什麼?
夏立雪:在 AI 晶片市場上,全球面臨的甚至都不是 「二八定律」格局,可以說是 「一九定律」 了。英偉達佔據了絕對領先的市場份額,這不僅是因為英偉達的硬體效能更強,也因為它在軟體生態系統方面的優勢。
軟體生態反過來幫助英偉達積累了大量的應用模型資訊,讓它能夠及時迭代下一款晶片的設計。這就形成了一個強勢的生態飛輪,一旦英偉達的產能跟不上需求,就會造成全球範圍內的算力緊缺。
儘管硬體廠商們都在追趕英偉達的腳步,但他們在軟體生態系統的建設上仍然落後,這導致即使他們的硬體與英偉達的 A100 相當,也無法得到廣泛應用。因此,構建健全的軟體生態系統是當前的一個重要任務,這是我們在做的事情。
機器之心:為什麼軟體生態很難構建?
夏立雪:軟體生態發展需要時間、耐心和機遇。像英偉達很早就投入了大量精力來構建其軟體生態,經過長時間的使用者培育,加上對圖形計算、高效能計算需求的準確洞察,這個壁壘才逐漸構建起來,並且越來越厚。硬體廠商如果錯過了這個先發機會和市場機遇,就很難再獲得足夠的資金同時投入優質的晶片研發及其推廣使用。
機器之心:如果說國產大模型公司和晶片公司直接合作建設智算中心,來增加自己可以用的算力,這中間可能面臨什麼難題?
夏立雪:今天許多大模型公司和處於 「一」 這個份額空間中的晶片公司在直接合作,以期增加算力的可用性。
在這類合作中,雙方都需要從主線業務中抽調大量人力和資源來做適配,並且沒有人希望 「把雞蛋都裝在同一個籃子裡」。這種情況下,每家公司都會與多個潛在合作伙伴投入資源,例如一家模型公司和多個晶片公司一起合作。再加上這種合作如果是基於物質基礎的,需要由他們多方共同承擔成本、共同定價,這就形成了一個複雜的多維合作空間。
我們的目標是幫助簡化這部分的適配和最佳化過程,不需要客戶承擔合作研發的風險,並提供更好的最佳化效果。這本質上是打造了一箇中間層的生態,一方面為算力使用方提供更多的算力供給選擇,另一方面也能幫助各類硬體生態夥伴拿到真實的業務反饋,來進行下一步迭代。
我們的客戶不僅限於技術能力較強的大模型公司,還包括使用模型的公司。能效對這些公司來說很重要,他們的 AI 演算法與應用場景緊密相關,所以可能只能投入 3 到 10 人的團隊來處理模型相關工作,有了我們的介入,他們不需要再投入 30 人來組建一個完整的工程團隊。
02
中間層生態迎來機會視窗
機器之心:為什麼你們認為現在這件事可以做了?情況發生了什麼改變?
夏立雪:雖然晶片製造商通常會承擔部分軟體工作,能夠提供一些底層的基礎命令,幫助開發者直接實現一些功能。但在一些複雜任務上,比如說現在通用大模型出現了,需要有專人將大模型任務需求翻譯成硬體操作的指令組合。打個比方,就像計算器上的加減按鈕,透過這些基礎按鍵的組合,我們能解決更復雜的問題。
我們看到的是,通用大模型時代,中間層能效最佳化可以有更多縱深了。在過去,行業內要解決一個任務,需要定製化開發一個模型。像聊天能力、翻譯能力、搜尋引擎…… 需要使用不同的模型來實現。任務與演算法繫結,只能進行任務與演算法的協同設計,落到系統上,中間層要做很多不同的工作。
汪老師過去創辦的深鑑科技,跟我們現在的工作有點類似,但因為影像模型、語音模型和自然語言模型之間有巨大差異,想要不賠本,只能針對單一型別的模型去做。
而現在,我們可以使用一個通用模型去解決多個任務了。透過下游任務微調,同一個大語言模型可以實現不同任務。
由於大模型高度統一了模型結構,讓生態這件事出現了一個好的機會視窗,使得我們可以專注於這樣一個更狹窄的領域,應用、演算法、系統之間可以進行協同優化了。完成它的投入不會大到不可靠,或者說絕對算不過來帳。
雖然不同公司的模型訓練資料可能不同,但模型結構是相似的,這允許我們在這個特定時間點開發一個好的中間層工具,將不同模型對映到不同公司的硬體上。
機器之心:具體一點看,過去和現在兩種情況下,對搭建軟體生態這件事的難易程度分別是怎麼樣的?
夏立雪:可以預估運算元數量來體現這個難易程度的變化。比如在過去,每個領域和每種模型結構都有許多專屬運算元,例如 Pytorch 的運算元庫,運算元數量約為 2000 個。但是在現在以 Transformer 系列為核心的 GPT 或其他大模型中,運算元數量可能最終會減少到不超過 100 個。
這意味著,雖然總體開發量仍然超過 2000,但如果從使用量角度考慮,超過 99% 的計算量集中在這 100 個運算元上。因此,我們可以專注於最佳化這 100 個運算元。其他部分不再是最佳化的瓶頸。
機器之心:在這件事上,你們的優勢是什麼?
夏立雪:我認為我們的團隊本身擅長做這件事。清華電子系一直致力於將有意義的演算法與實際場景結合,建立具有商業價值的解決方案。
我們專注於模型、軟體和硬體的綜合最佳化,以降低模型推理成本,將實驗室的技術成果轉化為可持續的商業產品。
我們的工具有兩個特點,快速且高效。這意味著,使用模型的人不需要理解底層的細節,就能高效地使用它,同時保證最佳效能。
機器之心:所謂的 「M×N」 中間層,具體是指什麼?
夏立雪:前面我提到,每家公司都會與多個潛在合作伙伴投入資源,這會形成一個複雜的多維合作空間。我們的解法是,在百花齊放的模型層和多元異構晶片層之間打造一個靈活相容的中間層,實現「M×N」,也就是「M 種模型」和「N 種晶片」間的高效、統一部署。

我們將這套工作拆解為三個著手點,分別是:
-
從演算法到晶片階段,針對算力緊缺問題,透過大模型計算最佳化引擎,讓演算法與晶片相適配,提升晶片可用性。
-
從晶片叢集到模型階段,針對算力池異構特性,建設智算系統層,幫助開發者們遮蔽異構硬體的影響。
-
從模型到模型應用落地階段,透過提供包含各模型及其高效微調、計算最佳化在內的端到端落地服務,降低推理計算量級、時延與成本。
03
為算力市場注入增量
機器之心:按照這個思路,你們如何為算力市場帶來增量?
夏立雪: 目前,我們已經完成了整體方案的驗證。
首先,我們用英偉達的顯示卡驗證了我們最佳化工具的能力,在各個業界團隊都在爭相最佳化英偉達的環境下,我們的最佳化效果仍然達到了世界第一,比 SOTA 高出約 30%。
另外我們也驗證了最佳化能力在不同硬體上的泛用性,在 AMD 硬體上我們的最佳化結果也是世界第一,測試效果提升了 300% 以上。
這表明我們的工具鏈在效能提升方面具有直接的益處,能夠支援不同硬體上的擴充套件,我們有很多個行動小組,正在和 10 家以上的硬體廠商做適配。
機器之心:目前你們整體的商業模式是怎樣?
夏立雪:國內算力緊缺,所以大家並不是在搶奪客戶,而是都在爭取有限的資源。我們商業化的核心是提供最佳化過的、具有更高性價比的算力服務,擴大供給,滿足客戶的需求。
主要有兩方面,一方面是為硬體廠商提供 「中間層封裝」,提升硬體可用性,讓他們能夠開啟大模型市場,把產品銷售給更多客戶。
另一方面是基於中間層能力,和算力叢集共同運營、最佳化和提升算力供給,提升算力使用的價效比。這一塊我們已經和一些算力叢集簽署合作協議。未來將直接對接大模型相關客戶,為他們提供算力。
機器之心:這裡第二種商業模式是通過出售算力來賺取差價嗎?
夏立雪:一般來說,差價意味著以低成本獲取算力,然後直接高價出售,就像中間商。但我們的目標是 「把蛋糕做大」,利用技術最佳化和適配能力,使未充分利用的算力發揮更大價值。這種 「差價」 實際上是我們透過技術提供的增量算力。
我們所做的包括擴大算力池,讓原本用不了的卡被用起來,並提高每一塊卡的效率,讓一塊卡的產能相當於兩塊卡甚至更多。這樣,原本只能支援數十個業務的算力現在能支援數百個業務,這是一個增量市場。
另外,我們的最終目標不僅僅是作為中間層提供生態系統,未來凡是服務和應用中涉及到大模型的,不管是做 B 端還是做 C 端,都是我們的潛在客戶。因為他們需要大模型的算力,我們可以提供價效比高且易於開發的算力服務。這些服務裡面還可能包含某些開發工具。
機器之心:使用你們的產品後,在成本上的體現是怎麼樣?客戶成本可以降到多少?
夏立雪:透過軟硬一體協同最佳化,我們的目標是最終實現呼叫成本約 4 個數量級的下降。
前段時間我們推出了大模型無穹天權,它在處理長文字方面表現出色,有 256k token,這是當時的大模型所能處理的最長文字長度,大概是 40w 漢字長度的文字。這一方面證明了我們最佳化後系統架構的可靠性,一方面也強調了在長文字等對效能最佳化技術要求高的場景中無問芯穹的技術實力。
40w 字輸入給 ChatGPT 是很費錢的,現在行業內普遍都反映這個成本很高、做推理很貴,有的創業者甚至表示 「GPT 創業四個月,投入五六千,使用者五六千,收益幾十塊」。多數開發者和使用者是接受不了這麼高昂的價格和這麼低的投產比的。
目前無問芯穹已經實現了 2~3 個數量級的成本壓縮,目標最終將這一價格降低 4 個數量級,讓大模型落地應用不再是 「開著蘭博基尼送外賣」。我們希望發揮異構算力潛能,把成本降下來,推動模型訓練、推理門檻降低,讓更多創造者進入這個領域。
機器之心:未來在理想化狀態下,能達到什麼樣的程度?
夏立雪:我們的 Slogan 是 「釋放無穹算力,讓 AGI 觸手可及」。我們希望,當你使用基於大模型開發內部或外部應用時,呼叫我們的算力就像使用 API 介面一樣簡單。使用我們的服務時,你不需要關心背後的具體技術,比如是否是某特定品牌的卡。
文章來源:機器之心

推薦閱讀

關鍵詞
大模型
算力
技術
公司
成本