​端側模型打響突圍戰!VC瘋搶,又一創企“殺”出

6 月,三筆鉅額融資掀開大模型戰事新篇章。
前腳,加拿大 Cohere 以 50 億美元估值攬獲 4.5 億美元融資,英偉達、思科助力;後腳,法國 Mistral AI 喜提 6 億歐元,General Catalyst 領投;隨後,日本 SakanaAI 也傳出即將斬獲超 1 億美元融資,估值飈至約 11.5 億美元。
春江水暖鴨先知,國際 VC 押注各地 AI 獨角獸強勢出圈背後,一個共性趨勢隨即浮現:PK OpenAI,他們正以小引數、低成本落地端側“突圍”。
Cohere 開源的新一代大模型 Aya 23,以 80 億和 350 億兩種引數,支援 23 種語言;
Mistral AI 去年釋出的 Mistral 7B,以 70 億引數打敗了數百億引數的開源大語言模型霸主 Llama 2,另一款模型 Mistral Large 開發成本低於 2000 萬歐元(約 2200 萬美元),對比 GPT-4 的開發成本,更是打掉了超 4/5;
再到 Sakana 這邊,其以核心的“模型合併”技術來自動化“進化”演算法,號稱對算力資源的需求極小、能將資料學習週期縮短數百倍。
群雄逐鹿之下,這場 AI 盛宴行至 2024,已然不再是一場堆算力、壘資料的“燒錢”遊戲。
尋找 Transformer 外的可能,
“天選”端模來了
身處大模型一線,近半年,劉凡平對底層技術架構的創新和突破這一趨勢有著明顯的直接感受。
“在全球範圍內,一直以來都有不少優秀的研究者試圖從根本上解決對 Transformer 架構的過度依賴,尋求更優的辦法替代 Transformer。就連 Transformer 的論文作者之一 Llion Jones 也在探索‘Transformer 之後的可能’,試圖用一種基於進化原理的自然啟發智慧方法,從不同角度創造對 AI 框架的再定義。”
他看到,技術變化永遠走在最前面,需要時時刻刻保持“不被顛覆”的警惕,但一方面,這個 80 後創業者看到新技術帶來新產品、新市場機遇的出現,又對行業利好倍感興奮。
在這場對標 OpenAI 的競賽中,劉凡平也早就做好了準備,其帶隊的 RockAI 亦走出了一條屬於自己的進化路徑。
自成立伊始,RockAI 就不曾是 Transformer 學徒,即便是在“百模大戰”打得火熱的去年,劉凡平就意識到 Transformer 架構底層設計邏輯對訓練資料量的要求極大,雖是大模型的智慧體現,卻難以避免“一本正經的胡說八道”的幻覺問題,包括訓練的資源消耗已成行業通病。
甚至連 Transformer 這個架構的設計者 Aidan Gomez,都對“做了很多浪費的計算”一聲嘆息,希望“Transformer 能被某種東西所取代,將人類帶到一個新的效能高原。”
可謂,成也蕭何敗也蕭何。
但更大的挑戰在於,Transformer 在實際應用中的高算力和高成本,讓不少中小型企業望而卻步。其內部架構的複雜性,讓決策過程難以解釋;長序列處理困難和無法控制的幻覺問題也限制了大模型在某些關鍵領域和特殊場景的廣泛應用。
在行業對於高效能、低能耗 AI 大模型的需求不斷增長下,彼時,劉凡平就一直在思考“大模型動輒上萬億的 token 訓練是否真的必要”,對 Transformer 模型不斷的調研和改進過程中,更讓他意識到了重新設計大模型的必要性。
以人類大腦幾十億的訓練量來看,他判斷,資料、算力並不是最終的瓶頸,架構、演算法才是重要的影響因素,就此開啟了 RockAI“破壞式”自研突圍。
1 月,劉凡平帶著國內首個非 Attention 機制的通用自然語言大模型——Yan1.0 模型公開露面。
當時,1.0 版透過對 Attention 的替換,將計算複雜度降為線性,大幅降低了對算力的需求,用百億級引數達成千億引數大模型的效能效果——記憶能力提升 3 倍、訓練效率提升 7 倍的同時,實現推理吞吐量的 5 倍提升。
更令人欣喜的是現場,Yan 1.0 模型在個人電腦端的執行推理展示,證實了其可以“原生無損”在主流消費級 CPU 等端側裝置上執行的實操性。
要知道,原生無損對應的反面就是有失真壓縮,後者是目前大模型部署到裝置端的主流方式。
大熱的 AIPC 是把 Transformer 架構的模型透過量化壓縮部署到了個人電腦,甚至 70 億引數的大模型還需要定製的 PC 晶片提供算力;就連 Llama3 8B 以每秒 1.89 個 token 的速度執行樹莓派 5,支援 8K 上下文視窗的戰績,也是止步於“有失真壓縮”。
更大的模型效果更好,但是如果不透過量化壓縮是部署不到個人裝置上的,恰好說明了 Scaling law 的侷限。
同時,有失真壓縮如同把平鋪的紙揉小後有褶皺般放入,讓多模態下的效能損失無法恢復到原有狀態去進行模型訓練,更直接導致卡住不動、宕機等不確定問題的出現,甚至三五分鐘才能蹦完一句話。
“去”量化壓縮這一步意味著 Yan 模型在裝置端執行避開了多模態下的效能損失,以及具備再學習的能力,也就是說在相容更多低算力裝置上,是“天選級”端側模型。
同步學習,讓模型邊跑邊進化
“原生無損”部署到個人電腦,這只是 Yan 1.0 的表現。
劉凡平還有 2 個疑問待解,一是能不能在更低算力、更普適的裝置上部署大模型;二是部署在端側以後,模型能不能個性化的即時學習。
而這兩個問題的實現,直接帶著 RockAI 朝著 Yan 2.0 進發。
看到 AIPC 依然是雲端大模型為主,離線狀態下模型基本只勉強可用,而使用者的個人隱私在雲端模式下依然待解,劉凡平意識到要找到更低算力且可大部分時間離線使用的裝置來做進入裝置的“敲門磚”。
“PC 或者高階手機其實模型量化都能跑,但是高階裝置的 GPU 算力跟低端裝置差距很大,所以 PK 得往更低端裝置走,才能跟裝置廠商獲得談的資格。”
於是,他的目光便落到了樹莓派上。
這個袖珍型小巧卻又效能強大的微型電腦,可廣泛應用於物聯網、工業自動化、智慧農業、新能源、智慧家居等場景及裝置,譬如門禁、機器人等終端,同時,大部分情況沒有聯網。
這就意味著,跑通樹莓派,等同於打開了低算力裝置端的大門以及不聯網的多場景應用。
為了“拿下”樹莓派,劉凡平得進一步實現 Yan 模型的降本增效,於是在演算法側,基於仿生神經元驅動的選擇演算法便出現在了眼下的 Yan 1.2 模型上。
參考人腦的神經元大概是 800-1000 億,功耗大概是 20-30 瓦,而一臺 GPU 算力伺服器功耗能到 2000 瓦,劉凡平認為主流大模型的全引數啟用,本身就是不必要的大功耗浪費。
而基於仿生神經元驅動的選擇演算法,便是使大模型可以根據學習的型別和知識的範圍分割槽啟用,如同人開車跟寫字會分別啟用腦部的視覺區域和閱讀區域一般,不僅可以減少資料訓練量,同時也能有效發揮多模態的潛力。
據悉,在 3 月類腦分割槽啟用的工作機制實現後,甚至 10 億級引數的 Yan 模型透過改進在 0 壓縮和 0 裁剪的情況下在一臺 7 年前生產的 Mac 筆記本的 CPU 上跑通本地訓練過程,5 月 Yan 1.2 模型便成功跑通樹莓派。
值得注意的是,模型分割槽啟用不僅可以降低功耗,同時還能實現部分更新,也就意味著部署後還具備持續學習能力,而這又是 Transformer 一眾學徒的“軟肋”。
眾所周知,大模型的出現也帶來一種開發正規化:先透過預訓練讓大模型具備一定的基本能力,然後在下游任務中透過微調對齊,激發模型舉一反三的能力。
這就類似先花大量的時間和資源把 1 歲孩子封閉式培養到成為大學生,然後在不同的工作場景裡進行鍛鍊對齊。
這種正規化統一了以往處理不同自然語言任務需要訓練不同模型的問題,但也限制了模型在不同場景的應用。
如果換一個沒有經過預訓練的工作場景,一切都要從頭再來,兩個字概括:麻煩。
一個離自主進化遙遠的 Transformer 大模型,反映到現有實踐中,那就是一旦內容變化,往往要 1-2 個月去把資料清掉後,再重新訓練後進行提交。
預訓練完之後再大規模反向更新,無論從算力、時間還是經濟成本,對企業而言“難以接受”,也讓劉凡平在低消耗、視訊記憶體受限的情況下,為實現端側訓推同步,在模型分割槽可部分啟用更新下,持續尋找反向傳播的更優解,試驗能更低代價更新神經網路的方案。
從反向傳播對引數的調節過程來看,只要模型調整足夠快、代價足夠小,就能更快達到預期,實現從感知到認知再到決策這一迴圈的加速,對現有知識體系進行快速更新。
如此一來,透過模型分割槽啟用 + 尋找反向傳播更優解“兩步走”,就能實現模型的邊跑邊進化,“同步學習”的概念在 RockAI 逐步清晰。
尋找裝置端的智慧,
誰能成為具身“大腦”?
如上,把一個訓練完的 Transformer 大模型比作大學生,那麼,一個可同步學習的 Yan 模型,在劉凡平看來,就是一個正在咿呀學語的孩子。
“從小在各種環境下學習,建立知識體系,又不斷推翻重建,每一天都有新的體悟,會成獨有的知識體系,最終個體多樣性會帶來群體智慧和分工協作。”
而這樣個性化的端側模型有多重要呢?可以設想:在一個智慧城市中,每個家庭的智慧家居系統都具備了 Yan 模型這樣的能力。這些系統可以根據每個家庭成員的習慣、喜好以及環境變化進行自主學習,並做出相應的調整,個性化服務身邊的每一個人。
在劉凡平的設想中,智慧“大腦”,關鍵在於實現模型在邊緣計算中的持續學習能力和適應能力。具備同步學習能力的 Yan 2.0 模型部署到手機、電腦,甚至電視、音響等各類裝置後,會根據你說的話和場景進行自主學習,判斷出你喜歡的事情,透過跟使用者對齊,越來越具備個性化價值,最終形成可互動的多樣性智慧生態。
不過,劉凡平也坦言,相較於 B 端,目前裝置端依然是大模型的藍海市場,離終極的個性化 AI 還差一步。
但這,也給了具備低成本低算力基因的 RockAI,從“為裝置而生”到“為裝置而用”搶佔先機的可能。
Yan2.0 會在年底或明年初面世, 在他看來,這些裝置前期的適配工作做足至關重要,現階段是系統適配各種硬體,端側模型需要結合實際載體(即硬體)去做適配研究和迭代改進。
在樹莓派跑通後,很多機器人廠商也找到了劉凡平,從某種意義上來說,他們也在尋找具身大腦的可能,一家教育機器人公司甚至給到了劉凡平“願意第一時間整合 Yan 2.0”的回覆。
對於具身智慧這一爆火命題,劉凡平很坦率,從身到腦都需要攪局者,但他也有“野心”,去成為那個破局人:在技術創新、商業化同步發力。
四個月前,在 Yan 架構的釋出會上,他曾提出了打造“全模態即時人機互動系統”的理念,期望 Yan 模型未來向全模態、即時人機互動、訓推同步的方向持續升級,使 AI 技術更加易於獲取和使用,推動普惠人工智慧的發展。
而如今,隨著 Yan 2.0 將逐步把多模態的視覺、觸覺和聽覺能力補齊,並結合同步學習的能力,一個在感知、認知、決策、行動四個方面得到全面提升的機器人似乎也在具象化。
可以預見:在感知方面更多模態輸入後,機器人同時擁有眼睛和耳朵,可以即時看到和聽到資訊,然後把接受到的資訊進行認知理解,隨著理解加深,能做出對應的有傾向性的、個性化的判斷,並支配四肢行動。
一個大模型在更加便攜的裝置或終端中進行無損部署的藍圖,正在徐徐展開。
活動推薦
AICon 全球人工智慧開發與應用大會將於 8 月 18 日至 19 日在上海舉辦,匯聚頂尖企業專家,深入端側AI、大模型訓練、安全實踐、RAG應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
內容推薦
大模型正在推動歷史性技術革命,知識觸手可及。2024年6月14日至15日,ArchSummit全球架構師峰會在深圳成功舉辦,我們精選了峰會中聚焦AI大模型技術應用的相關PPT,內容涵蓋了華為雲AI原生應用引擎的架構與實踐、微眾銀行大模型研發實踐以及B站容量管理實踐等。關注「AI前線」,回覆關鍵詞「大模型落地」免費獲取PPT資料。
你也「在看」嗎?👇

相關文章