Nature認證DeepSeek成科研工具全能者,國內高校如何借力大模型?

白交 發自 凹非寺

量子位 | 公眾號 QbitAI
DeepSeek的風,也是飄到了科研領域——
最新訊息,同濟大學透過百度智慧雲千帆大模型平臺接入並呼叫DeepSeek-R1/V3系列模型;
包括浙大、北大清華等知名高校也是紛紛出動,要麼接入模型推出智慧體,又或者出品乾貨課程、使用手冊《從入門到精通》等等,幾度都登上熱搜。
Nature更是幾度發文,因為DeepSeek開源低成本易部署等優勢,科學家們紛紛湧向DeepSeek,這種模型已經是科研AI工具中的全能者
感知到的是,大模型在科研探索中發揮的價值遠比以往任何時候都深入
DeepSeek R1自推出以來,Hugging Face上相關版本的下載量已經接近四百萬次,高居榜首。
但高的使用量,隨之而來的就是算力需求井噴。除了帶來模型本身的穩定性、易用性等挑戰,傳統的科研機構還面臨算力資源碎片化、人才培育滯後等問題。
春節期間,我們看到,整個AI產業鏈都被積極調動起來,來支援模型穩定執行。
但因為科研環境中,對資料的準確性、隱私安全方面的要求以及模型可靠性、穩定性、易用性要求更高,像DeepSeek這樣的大模型能真正應用到科研探索,其實難度不小。
像模型的易用性問題,科研人員並非都具備深厚的AI技術背景,也沒有那麼多時間成本來學習大模型如何配置。他們可能需要花費大量時間學習如何操作模型,而無法將精力集中在核心的科研問題上,嚴重影響科研效率。
而且這還只是模型本身的挑戰,還存在一些系統性難題,其中以算力與人才最為突出。
算力「飢餓與浪費並存」。科研機構無法像企業那樣投入大量資源來建設AI基礎設施。同時算力資源分散,不同機構不同裝置難以實現有效整合和協同使用,從而影響整個科研專案的程序。所以我們經常就會看到有科學家線上求算力,即便李飛飛也曾透露過斯坦福團隊算力不夠的情況。
人才培養的滯後性。技術發展過快,產業界的AI人才稀缺甚至是靠高薪來搶人,而在科研這端,這種既懂科研專業知識又掌握大模型技術的複合型人才可能更是少之又少。
基礎設施是技術研究的基石,缺乏足夠的科研基礎設施,也就很難吸引到人才,同時也限制了技術的發展空間;而沒有足夠的人才來操作裝置,基礎設施也無法發揮出它應用的作用,還會影響到上層模型本身的發展。
如此迴圈往復,那麼大模型在科研環境中的應用程序也就更顯道阻且長了。
今時今日如何破局,也就顯得更為緊迫和艱鉅。

AI科研新基建:算力為核心,全生命週期支援

這段時間,在一眾鋪天蓋地的新聞中,有這麼一則AI算力產業界的進展備受關注——
崑崙芯P800萬卡叢集成功點亮,這是國內首個正式點亮的自研萬卡叢集,並且還計劃將這一數字擴大到三萬。
大家一邊感嘆於它效能方面的顯著,其規格其視訊記憶體規格比同類主流GPU高出20%-50%。它對MoE架構更友好,並且支援8bit推理,單機8卡就能執行671B滿血版模型。
正因如此,崑崙芯相較同類產品更加易於部署,同時可顯著降低執行成本,輕鬆完成DeepSeek-V3/R1全版本推理任務。同時,崑崙芯P800在DeepSeek系列MoE模型大規模訓練任務中也表現出色,全面支援MLA、多專家並行等特性,僅需32臺即可支援模型全參訓練,高效助力模型的持續訓練和微調。
而在另一邊,科研團隊還關注的是,它在能效比上面的優勢——
對比通用GPU,它單位算力功耗可以降低40%,幫助科研團隊突破傳統GPU叢集的電力瓶頸。
經過清華智慧產業研究院驗證,他們搭載崑崙芯P800的算力叢集成功將千億引數模型的訓練週期從28天縮短至19天,電力成本節省超300萬元
而且因為該晶片擁有完全自主智慧財產權體系,從指令集架構到編譯器工具鏈全棧可控,能夠保證科研應用過程中的資料安全。
像北京前沿計算研究中心基於崑崙芯構建的聯邦學習平臺已在醫療影像分析領域實現多機構資料協同訓練,模型精度提升12%的同時,完全滿足隱私合規要求
能夠看到,自研晶片構建算力叢集也許是破局關鍵,它能解決訓練成本、資料安全等方面的難題。
不過能夠吸引這麼多高校Pick合作,不僅僅是因為百度智慧雲部署了崑崙芯,而是一整套AI For Science解決方案。
它憑藉多年全棧技術佈局,以及與多家頂尖高校生態合作,沉澱出這麼一套方案——
包括崑崙芯P800晶片、百舸異構算力平臺、飛槳深度學習框架以及千帆大模型平臺等。
在此之前,還不曾系統性梳理過,今天不妨就來一一拆解,看看背後有哪些值得學習與借鑑。
首先,崑崙芯P800整合的萬卡叢集,它是AI基礎設施當中的定海神針。只有自主可控的堅實底座,才能推動大模型技術持續迭代與生態繁榮。
其次,百舸異構算力平臺,可以理解為算力中樞,或者是統籌師,面對科研環境中複雜多樣的算力需求,這個中樞就顯得格外重要,透過預測排程等操作實現算力資源的高效統籌,它在提升算力利用效率、降低成本、加速科研程序等方面成效顯著——
上海交通大學AI研究院部署百舸平臺後,GPU利用率從35%提升至72%,任務排隊時間減少60%,模型訓練效率得以顯著提高。
如此解決科研中算力資源碎片化的痛點,源於他在架構演算法以及服務模式化上面的創新。
架構方面,它建立了一個靈活彈性的算力供給網路。物理層相容崑崙芯、英偉達、AMD等多元算力晶片,資源層提供容器化算力單元,服務層則支援Kubernetes、Slurm等多種排程系統。
演算法層面,它的智慧排程演算法有三個方面的創新,比如基於強化學習的動態資源預測模型可提前24小時預判算力需求波動;跨叢集任務遷移技術實現全域性負載均衡;異構資源感知排程器可將不同型別計算任務精準分配到最優硬體組合。
還有服務模式上,它創造了「科研算力銀行」這種正規化。能讓機構按需取用、彈性供給。像浙江大學某重點實驗室,就透過這種方式提前3個月完成了氣象大模型的迭代。
並且隨著技術發展,百舸也在持續的更新與迭代,比如配合DeepSeek推理能力推出了一些功能,包括線上推理服務的全生命週期管理、彈性擴縮容能力、自研框架推理加速技術以及完善的運維監控體系。
再者是飛槳深度學習框架,國內首個開源開放的產業級深度學習平臺,工具鏈與社群屬性兼備
它透過構建起基礎模型、工具元件、應用案例的三層資源體系,提高了諸多高校與開發者的科研效率。中國科學技術大學量子計算團隊基於飛槳量子機器學習套件,成功實現量子化學模擬加速,計算效率超越傳統方法2個數量級。
不過能推出如此海量的資源套件,也與百度持續深耕積累Know-how有關。
百度飛槳持續深耕力學與數學、材料化學、氣象預測、生物醫藥等前沿領域,尤其是在生物計算領域尤為顯著。
截至目前,百度已打造完整的基於飛槳的生物計算平臺-螺旋槳PaddleHelix,涵蓋文心大模型-生物計算大模型,探索AI技術在小分子、蛋白/多肽、RNA等場景的應用。
2023年5月2日,國際頂級學術期刊《Nature》正刊發表了百度與合作單位在生物計算領域的研究成果——《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,提出mRNA序列最佳化演算法LinearDesign。這是中國科技企業首次以第一完成單位的身份在《Nature》雜誌發表論文。
而隨著DeepSeek、文心越來越多的模型選擇開源,飛槳的價值其實也就愈加凸顯。
開源的方式保證了研究結果的可靠性,促進了科研成果的廣泛傳播和共享。其他研究人員透過復現在已有基礎上改進和拓展,技術創新與迭代也就在這個過程中加速流動。
像某高校基於飛槳框架研發的遙感影像解譯系統,結果透過社群協作持續最佳化,在農作物分類任務中的準確率從89%提升至96%。
還有就是千帆大模型平臺,一站式AI服務平臺。它是資深的模型專家,從模型開發、訓練、部署、監控等的全流程管理系統。
此前我們比較熟悉的ModelBuilder就是在這一平臺體系下,按照自身需求來完成大模型的開發和部署。這其實是一個包含資料處理、模型精調、模型評估、量化等環節的系統性工程,對於企業而言就難度不小,對於缺乏產業實戰經驗的科研高校來說更是如此。
ModelBuilder提供了一整套完善的工具鏈,院校根據自身科研需求深度最佳化模型效能。現在該平臺的大模型矩陣已經覆蓋了DeepSeek-R1、DeepSeek-V3、文心大模型等,同時支援vLLM、LMDeploy、TensorRT-LLM、SGLang等主流推理框架實現高效能模型託管,幫助高校可以靈活開發與部署。
而在開發與部署之前,它還能幫助科研團隊選出適合自己的大模型。
它的智慧評估板塊,集成了50多種量化指標。在南京大學某分子動力學研究中,研究人員透過平臺的AB測試功能,快速篩選出最優的力場預測模型,研發週期縮短40%。
可以這樣總結,百度技術層面的部署:以算力為核心,整個全週期提供全棧技術支援。另外,在人才培養和科研創新上,百度也在發揮著自己在產業實踐方面的優勢。
比如透過「松果計劃」培養出5000餘名AI工程化人才,參與學生髮表頂會論文300餘篇,孵化出智慧天文資料處理、古生物數字復原等20餘個創新專案。
還有與多所高校包括清華北大、復旦、上海交大、蘭州大學等合作,開設了《飛槳Al for Science前沿系列講座課程》和《飛槳Alfor Science程式碼入門與實操》兩門課程;
與清華共建「東方」智算中心,部署2000+卡規模崑崙芯叢集;與上海交大建設國內首個AI for Science科學資料開源開放平臺;與北大開發「小北學長」智慧體等等。
……
可以看到,百度在AI For Science上面的賦能是全方面的,是從全棧技術到人才培養,也是從底座、模型到應用覆蓋整個模型全週期的。
放在整個行業中,百度這一案例代表著AI科研的一種新基建,其核心邏輯在於將算力從孤立資源升級為智慧化生產力中樞,透過全棧技術鏈重構科研工作流。
在這一過程中,企業與高校之間的合作展現出了一種新型的合作模式。
這種合作並非簡單的點對點式對接,即在某個具體專案上的短暫合作,而是呈現出立體的、動態的和多樣的特點。
他們發揮各自的優勢,比如學校的人才積累和專業資料,企業的算力底座和產業級別演算法,來共同應對大模型創新與應用的各種挑戰。
就像同濟大學與百度智慧雲合作,就格外具有代表性。
同濟大學作為國家重點大學,肩負了一系列重大的國家專項科研任務和工程科研攻關使命。
為了滿足同濟大學在多模態大模型、機器自主感知、多智慧體和具身智慧方向等前沿領域的深度探索需求,百度智慧雲提供了全面的技術支援。
以百崑崙芯P800、百度百舸AI異構計算平臺、百度智慧雲千帆大模型平臺、百度智慧雲一見視覺大模型平臺為基礎,打造全國產底座的具身智慧大模型開發平臺,服務於同濟大學圍繞特色化示範性軟體學院建設、智慧城市感知與規劃重大工程軟體技術教育部工程研究中心建設。
百舸一體機搭載崑崙芯P800,可在單機環境下部署滿血版DeepSeek R1/V3全系列模型,滿足輕量化與極致效價比需求。這一方案支援8bit推理,並全面相容DeepSeek全系列模型,提供一鍵部署、開箱即用的便捷體驗。
合作對學校多智慧體系統技術的突破具有重要作用,有效提升校方多智慧體強化學習演算法、領域定製大模型、協同學習演算法、智慧代理演算法的訓練效率,並將賦能給不同場景機器人、無人機、多智慧體裝置等智慧終端。
AI科研新基建的構建,本質上是一場面向科研正規化的底層革命。

AI For Science:從AlphaFold到DeepSeek

DeepSeek R1模型,憑藉其低成本高表現的顯著優勢,在全球科研領域迅速走紅,受到了科學家們的熱烈追捧。
比如用來探索新研究方向、日常資料處理、篩選整理科學文獻等等。
回顧AI For Science的發展歷程,上一次引發如此廣泛關注和熱議的是AlphaFold。
不過AlphaFold聚焦在提煉生物資料的價值,其核心貢獻在於極大地提高了蛋白質以及大分子結構預測的效率,對於藥物研發、基因編輯等諸多前沿方向帶來深刻的影響。
而現在是以模型通用能力的極大提升、低成本零門檻部署的特點,帶來是整個全面科研正規化的賦能。
它不再侷限於某一特定領域的資料處理和研究,而是廣泛適用於多個學科領域。無論是物理學中的複雜模擬計算、化學中的分子反應預測,還是社會科學中的資料分析和預測,大模型都能發揮其獨特的優勢。
這種通用性使得不同學科的科研人員都能夠輕鬆藉助其能力開展研究工作,打破了學科之間的技術壁壘,促進了跨學科研究的發展。
同時,低成本零門檻的特點讓更多科研團隊,尤其是資源相對有限的科研機構和小型實驗室,也能夠享受到先進AI技術帶來的便利。
此次DeepSeek在AI For Science上的賦能,標誌著該領域來到了一個新的階段。這對模型能力乃至整個科研週期的服務都提出了新的挑戰。
比如穩定的算力、比如高質量專業資料。面對不同學科領域的海量資料和複雜問題,模型要能夠快速學習和適應,提供精準有效的解決方案。在科研全週期中,從資料採集、處理、分析,到模型訓練、驗證和應用,每個環節都需要更高的效率和質量保障。
應對這些挑戰方面,百度給出了一個參考答案。憑藉其全棧的技術能力,為解決這些難題和關鍵瓶頸提供了有力支援,推動科研創新不斷向前。
從AlphaFold到DeepSeek,人工智慧技術發展重塑科研的未來。AI For Science的競速才剛剛開始,需要更多國產玩家,呼喚更大的生態,實現AI在前沿科技的全新里程碑。
—  —
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章