
2025年香港大學中國商業學院
新年展望論壇 林詠華女士主題分享

整個職業生涯有絕大部分是在IBM研究院,相信我不用解釋IBM是誰,然而我過去的幾年是在智源,我想我得告訴大家智源是做什麼的。智源是在2018年成立的新型研發機構,當時是7個首批新型研發機構中唯一一個做人工智慧,它在2019年踩的點很準,在那個時候就選擇大模型作為我們的研究方向。因為人工智慧很寬,我們作為到現在為止有200多個頂尖全職研究員的AI研究機構,我們也只能選擇其中的一個方向,那就是大模型。
我們在2021年訓練出了全球最大的悟道大模型1.75萬億引數,這個引數量就跟GPT4差不多,但是效能差遠了,所以證明scaling law不是alwayswork的。2023年上半年微軟的總裁Brad Smith接受採訪的時候,記者問他你認為全球除了微軟之外三個最重要的AI領域的leadership有哪些時,他提到了BAAI智源。我們也被大家戲稱為中國大模型的黃埔軍校,因為的確從智源研究院出來的很多團隊與老師,大家可以看到這些機構都是由我們孵化出來,或者說他們的負責人就是從智源出來的。

從我自己在IBM這麼多年,到了現在去到了智源,我覺得很重要一點是中美肯定要在科技領域保持著合作和開放。有什麼是中間的牽引?我覺得到今天為止,肯定是開源。
從2013年到2024年,可以戲稱為小模型時代,到2023年開始是整個業界的大模型時代。走過從小模型到大模型的浪潮,我認為開源在大模型時代甚至比小模型時代還重要,為什麼?首先大模型可以總結為四個最重要的技術資源,需要有演算法,有資料,有評測技術,也需要有算力。但是,為什麼認為大模型時代對開源合作,尤其是全球合作尤為重要?
首先它的創新成本太高。任何一個在基礎大模型上的演算法的創新都需要花費數以千萬計的人民幣重新從From Scratch去驗證。所以沒有哪一個機構都能夠負擔起所有的演算法創新都由自己來做,所以今天大家看到很可喜的一面,無論是中美還是歐洲,你方唱罷我登臺,大家驗證過這些技術,因為創新真的太昂貴了,持續創新需要節約成本。
第二個很多在大模型中重要的資源已經不可能由同一個機構完全的具備。一個機構不可能拿到全球所有他需要的資料的資源。
另外一個是評測。目前智源做了三年的大模型評測,我們至今也認為我們只是見到了冰山的一角,所以如果不是全球不同的專業人士、專業團隊一起來做大模型評測,並且開源出來,很難去對大模型有一個全面能力的探索。
還有最重要的一點是底層的創新,必須有上面統一的生態系統。有兩個例子,一個是晶片,在國內到去年為止,超過40家不同的AI晶片企業,他們的生態都不一樣,是割裂的。如果我們沒有統一的開源的生態怎麼辦?今天其實慢慢暴露出來的是另外一個問題,機器人。2024年在中國已經有超過80家機器人公司,不同的機器人從本體內部的結構,甚至到靈巧手觸角的sensor的位置和選型都不一樣。所以,如果我們沒有開源創新,很難建立起一些統一開放的生態。
我就各舉一個例子給大家看一下。

首先,模型演算法。
今天來看,我們很難設想如果沒有模型演算法的開源,我們如何有今天AI快速的發展。大家可以看看右邊有一些新的數字,一個是GitHub,GitHub是全球開原始碼的地方,在2023年大模型產業蓬勃發展的時期,GitHub上新增的AI開源專案比2022年增加了60%。另外還有Huggingface,Huggingface現在也是全球開源資料、開源模型的地方,每天有超過3600個模型在上面開源。透過這些開源的力量,推動整個產業的發展。

另外,這裡也是給大家看一些最新的資料,其實在開源過程中,中美一直都在推動著,左邊這個表實際上是給大家看我們在去年11月份統計Huggingface上每月下載量超過10萬的模型都來自於哪裡,大家可以看到來自於中國的模型超過了半壁江山。另外,右邊大家可以看到Huggingface剛出來的資料,統計了2023年Huggingface上面下載量最多的模型是來自於智源的BGE,這是我們的向量模型,全球一年已經下載了超過5億,2024年排在第一的是阿里的千問,佔了下載量的26.6%。當我們去外面,去美國參加會議的時候,別人都會recognize中國在整個大模型上的推動。

資料,說到資料我覺得值得致敬的是這三個開源資料集,一個是ImageNet,一個是Common Crawl,一個是Laion,沒有這三個資料集,不會有今天AI的發展。ImageNet實際上是在2013-2014年那一波以computer vision為基礎發展起來的企業中的一員,如果沒有ImageNet,就沒有那個時代的Deep Learning。Common Crawl是全球最大的網頁collection,沒有Common Crawl在過去十幾年收集了全球2000多億的網頁,不可能有今天所有的語言模型,還有Laion,所以我們很致敬這些開源的資料集。
但是它們是不是足夠?完全不夠。當我們在2022年底,ChatGPT出來的時候,2023年初國家以及中央網信辦,包括我們也都同時看到了很巨大的問題,這些模型產生的中文的內容,有很多並不好。另外在今年的GPT4.0出來的時候,OpenAI開放了它用來訓練Token Nansen的資料集,那個資料集代表著全球各種語言最常用的資料,中文的資料中有很多汙穢不堪的語言。OpenAI並沒有查那個資料,但是我們知道原因是為什麼,因為Common Crawl在國外的語言資料中,中文的資料80%多是來自於海外的網站,沒有經過任何的清洗。所以坦白說,咱們這個事情發生之後,全球任何一個華人都會覺得蒙羞,因為裡面的那些語言真的是汙穢不堪。這並不關乎任何政治,但是關乎於我們作為華人的臉面。
實際上智源研究院也是做了我覺得很了不起的一件事就是在2022年初,我們拉動了全國80多個機構不斷的去做資料集,圍繞著中文的資料集的收集和開源。我就單獨拿一個數據集為例,其中一個是我們的指令微調資料集,900萬的指令微調資料,我們要拿基礎模型再去訓練對話模型裡需要的資料集。這個資料集出來之後,短短幾個月,全球就已經有十多萬的下載,尤其關鍵的是我們發現幾個月內,Huggingface上面已經有100多個模型用了我們這個資料集訓練他們的模型再開源出來,我們也不知道那些開發者在哪,全球都有,這是我們希望的,全球任何一個機構如果想打造有中文能力的模型,我們希望它的中文訓練資料是來自於咱們中國的。

下一個很重要的資料是什麼,具身智慧的資料,用來訓練機器人大腦的資料。我們希望把大模型放到機器人的大腦裡,讓機器人比今天可以做的事情更多,甚至一個模型可以跨不同的本體,不同的機器人去安放。今天來說在這一方面,我們很缺乏的是多樣性的,可以在大量不同的機器人本體上採集的資料,可以面向不同領域甚至不同行業的資料,因為這些資料都需要有很多的真機採集,我們發動了國內一些部委級的一級協會一起,希望大家一起開源,一起把機器人的資料集這個重要問題解決。
最後一個,我不得不說的跟算力相關。這個問題跟多元AI晶片問題相關。大家知道,英偉達很成功,其實英偉達的成功並不在於它的硬體成功,更在於它的軟體生態太成功了,Cuda這個生態,英偉達花了10多年的時間,100多億的美金,現在基本上壟斷了整個AI演算法中所用到的95%以上的編譯器。所以我們發現別說咱們在中國的本土的AI晶片,連同AMD、英特爾都沒辦法,做出好的晶片又怎麼樣,軟體人員只喜歡用Cuda。所以大家可以看到它的困境在於現在各個AI晶片的廠商,硬體架構不一樣,指令集不一樣,編譯器不一樣,上面的演算法庫自己從頭到尾自己打造,所以個個都是煙囪型的。這個導致的問題是軟體開發者、大模型的演算法開發者不敢輕易的移植到任何一個上面,因為他怕找不到他要用的一些演算法,更新速度慢。

其實不單是我們看到這個困境,其實美國的廠商也看到這個困境,包括英特爾、AMD、高通等等。所以現在我們在全球合作中,基於不同的技術一起來打造開源開放、統一併且是協作型的生態,我們把這種煙囪型的生態,變成橫向的。

在這個框架上面,開源的語言和編譯器其實來自於OpenAI、英特爾。基於這個之上,我們在打造通用的開源的運算元庫並行的框架,統一的通訊庫,智源目前聯動了全球十多家晶片企業,包括各大系統廠商,還有框架廠商等等。這個工作已經取得了不錯的成效,但我們希望在2025年進一步使得大家有更多的晶片可用,多元化的晶片可用,但這裡很關鍵就是說我們需要透過開源和跟全球的合作,構建這樣一個開放的統一生態。

回到中美的合作,這個是HuggingFace透過2024年剛過去的NIPS(NeurIPS,全稱神經資訊處理系統大會)釋出的資料,在NIPS這樣一個AI最頂級的學術大會上看到美國和中國主導了全球AI研究,但是實際上目前在美國和中國,尤其是大家認為特朗普2.0時代,大家還是十分希望保持這樣的開源創新。右邊的那張圖是今年11月份當特朗普的選情出來,剛好第二週是Linux基金會的年會,我們專門組了一個閉門會,那個基金會的Director Board跟我們中國團隊一起去討論在特朗普2.0時代怎麼保持全球的開源,尤其是AI和大模型的開源上面的挑戰。大家最後都是希望雖然有一些事情使得一些門慢慢的不像原來打的那麼開,但是我們希望透過雙方的努力,不斷的把這個門不斷的扒開,我們需要走出去,堅持我們的開源創新。
作者簡介:
林詠華 女士 Ms Lin, Yong-hua
北京智源人工智慧研究院(BAAI) 副院長

掃碼或點選“閱讀原文”獲取課程資料
如果感覺內容不錯歡迎在文章下方“一鍵三連” 也可以點選左下角⬇頭像關注並且🌟星標這樣新文章就會第一時間出現在你的列表裡了