
去年的大模型之戰講究一個“快”字:入場快、釋出快、迭代快。
王小川在去年 4 月份宣佈成立“百川智慧”的兩個月後,就迅速對外推出了 70 億引數量的中英文預訓練大模型 Baichuan 7B。一年多後的今天,百川智慧已經將大模型迭代到了 Baichuan 4。
曾擔任搜狗搜尋研發總經理的陳煒鵬如今在百川智慧負責模型研發,這對他來講也是一次挑戰。“搜尋與模型研發有很大的不同,研發經驗不一定能完全復刻,比如兩者對資料的定義可能完全不一樣。”
但陳煒鵬也表示,做搜尋和大模型也有共性,就是它們都是系統性工程。“在大模型之前,被認為系統性工程的演算法問題只有三個:搜尋系統、推薦系統和廣告系統。以前的搜尋經驗讓我知道怎麼樣解決一個系統性的問題。”
實際上,百川智慧的技術團隊可以分為兩部分:一部分是像陳煒鵬這樣有很強系統性工程經驗的人,他們做過複雜的專案,知道怎樣把複雜的問題拆解成為子問題,然後做有效的科學管理;另一部分則是對語言模型本身有很好認知的研發人員。
“大模型的研發不是一個單點問題,而是一個系統問題。解決系統性問題,是我們團隊的優勢。”陳煒鵬說道。那百川智慧(以下簡稱“百川”)具體是如何解答“大模型研發”這道題的呢?
回顧當初,OpenAI 的 GPT-3.5 在全球範圍內爆火的時候, 國內對怎麼做大模型還沒有形成很好的共識。
基於 BloomZ、OPT(Open Pretrained Transformer)、Llama,還是自己設計模型結構,這其實是兩種不同的大方向,不同公司的路徑都不一樣。百川要做的第一個決策也是要選擇從零做起的冷啟動,還是基於 Llama 訓練的熱啟動。
這個選擇其實對百川來說幾乎不需要猶豫,答案肯定是要從頭開始做起。
邏輯很簡單:熱啟動可能遇到的諸如新資料與之前資料的配比、合併,中英文能力平衡等問題,雖然可以提升團隊在資料、模型能力、訓練技巧等方面的認知,但是並不能給團隊帶來價值更高的技術棧認知。對於百川這樣的創業技術團隊來說,只有自己跑通大模型的整個技術棧,掌握完整的 pipeline,才可以真正把技術沉澱下來。
冷啟動是風險更高的選擇,百川接下來就是要想辦法把研發模型的風險降到最低。
對此,團隊的想法是一個小模型的結果能不能對映到大模型上,先用小成本模型驗證後再進行大量投入。比如對於資料的多樣性、規模和質量哪個更重要的問題,團隊就是在提出假設後先用小模型做了驗證。
百川技術團隊選定了某一模型結構後,做了小、中、大三種引數的模型,然後觀察不同引數之間的表現是否存線上性關係,如果符合 scaling law,後續就可以用該結構繼續做各種資料實驗、訓練框架調優等。現在看,這條路百川走通了。
為了提升整體研發的成功率,百川團隊把不同階段的研發問題轉化成為了評估問題,具體來講就是把整個模型的研發過程拆分成了不同的階段,並在每個階段完成後用對應的方式進行評估。
在陳煒鵬看來,拆分和評估做得好,意味著團隊對整個問題的理解和定義會更好,可以給整體研發帶來明確的方向和效率提升。
“如果不能給當下的研發任務進行有效評估,而是透過最後大模型的效果來證明,勢必會導致整個研發鏈條非常長,難以及時將研發工作轉化為有效認知,進而導致整個團隊的認知迭代非常慢、效率非常低。”陳煒鵬解釋道。
好的評價結果意味著團隊掌握了這個認知。因此,百川花了很多精力去做模型能力評估。“只有知道怎麼評估,才能知道要往哪走、要怎麼做。”
在效果評價方面,行業裡有各種各樣的測評榜單。企業每次釋出大模型時都會介紹自己的 Benchmark 結果、對齊結果。實際上,大模型評估也是一個動態發展、跟模型能力強關聯的演變過程。
很多 Benchmark 只能階段性地反映模型能力。去年大家關心 MMLU 這種更偏知識類的測評和側重數學能力的 GSM8K;去年下半年至今,大模型評測更是深入到了指令跟隨、工具呼叫、多步推理能力、邏輯自洽性,甚至是否具備時間理解能力等方面。
“我們研發期間是想跳出現在的公開評測,自己去定義指標和任務的。”陳煒鵬進一步說到,“參考外部評測主要是為了知道自己在業內大概什麼水平,但更重要的是能定義自己的 Benchmark,能夠自己定義評估標準代表了一個企業對大模型的理解和技術方向。”
早期,很多評測標準是由高校、頭部企業定義的。比如 OpenAI 提出的 GSM8K,就與其對模型能力的定義和想象有關。當 OpenAI 公佈自己的測評標準時,自己在內部已經跑通了一段時間,一定程度上這也意味著企業已經有了超越行業的認知。而頭部企業對大模型能力的理解也會在業內達成共識。
“整個大模型研發,其實是一個從經驗科學到資料科學的過程。”陳煒鵬說道。
大模型訓練上,業內比較依賴 Megatron-LM、DeepSpeed 等分散式訓練框架,這方面大家是相似的。而不同公司大模型訓練的的差異在於訓練框架解決不了的訓練效率、穩定性和容錯等問題。
訓練效率或者推理效率是一種支撐性的技術。提升訓練效率主要是提升整個機器的利用率,業內已經做了很多工作,比如並行策略、調優等。
訓練效率不同的公司千卡利用率是不同的,百川千卡叢集的利用率目前在 60% 以上。而大模型裡涉及到很多 pipeline 和不確定性,使用工具做好過程管理非常重要。當叢集出現故障時,需要及時發現並恢復。諸如此類才是大模型廠商技術比拼的點。
當然一些工具很大程度上可以起到提效作用,但真正的核心競爭力來自於認知,認知的差異則來自廠商對整個模型關鍵問題的定義。
比如重點研究多模態的企業,就會重點研發語言能力與不同模態怎麼做結合等。因為從語言模型走到多模態模型的不確定性是顯著增加的,而整個行業對如何做統一建模並沒有確定的答案,需要企業做大量的實驗。
與此同時,這一年多以來,大模型訓練的重點也在發生變化。
去年的時候,行業更關心訓練效率,對於推理成本沒有特別多關注。“我覺得,去年整個競爭並沒有非常激烈,因為當時模型的效果是最大的障礙,這種情況下,大家並沒有非常關注推理成本。”
到了今年,業內顯然開始更加關注推理成本。核心的原因是當前的模型能力已經在很多場景中具備較好可用性。這種情況下,當大模型開始落地時,大家的焦點自然就會轉移到成本上。
百川團隊現在也在探索如何在相同的推理成本下提升模型能力上限。比如對齊階段遇到的能力平衡問題,研發團隊要做的是圍繞不同的能力方向,訓練好幾個模型,然後再把多個模型整合成一個模型。在選擇哪個模型回答問題上,百川沒有使用粗暴投票的方式,因為這會顯著增加推理成本。
整個大模型推理加速最佳化上,Infra 層很難有數量級的最佳化,這個可能性幾乎不存在,所以很多最佳化都是演算法層面的最佳化。在這些最佳化措施中,效果加速度最大的方式是在模型結構不變的情況下提升模型的能力上限,其次是改變模型結構,獲得與之前差不多的效果,但成本比之前更低;最後則是運算元層或框架層的最佳化。
這與之前機器學習成本最佳化方面的規律一樣,演算法提升帶來的成本下降比工程層面的要更顯著,但技術實現也更難。
提升模型本身的能力是降低推理成本效率最高的方式,比如以前用千億的模型,可能未來百億的模型就能得到千億模型相同的效果。較小引數規模的模型能夠媲美更大引數模型的原因在於對資料質量的提升,比如 1 篇文章能講清楚 10 篇文章論述的事情,就是更高質量的資料。
大模型訓練是基於現在看到的資料分佈建模,而所有資料內容是我們對整個世界的投射,也可以說是對整個世界“打點”,打的這個“點”存在大量重複的內容,如果能夠找到一種方式,用最少的資料把整個世界描述清楚,那效率一定是更高的。
現在取樣資料還是用已有的知識描述整個世界,能用最小的篇幅把整個世界描述清楚,也是合成數據的價值之一。對於合成數據可能帶來的資料噪聲問題,陳煒鵬認為,資料存在噪聲不一定是災難性的,正確資料的規律性比錯誤資料的規律性更強,大模型能夠學習到這個規律,所以存在一定的抗噪能力。
“核心的問題是現在的資料構建方式並沒有產生新的智慧。”陳煒鵬指出。大部分資料合成的工作,都是在讓小模型更接近大模型。但是很少有人提出資料合成的方法能給大模型能力帶來顯著提升。
合成數據只是做到這種程度的話,只能是提效。只有構建的資料能夠超越現在的質量、超越現在的分佈,合成數據才有可能帶來智慧的進一步提升。不過,合成數據能不能創造更高的智慧,如今還是一個比較開放的問題,雖然重要,但大家都沒有找到通用解法。
“整個大模型的發展還挺有意思的,它既是一個 infra 問題,也是一個演算法問題。”陳煒鵬說道。
行業之前取得的大的進展,本質上都是在工程上突破,而不是在演算法上。很大程度上,當模型結構確定後,infra 層的價值可能比演算法層的價值更大。
在 scale up 假設下,大模型越來越大,國內一些企業選擇萬卡互聯,這對 infra 層面的挑戰非常大。而像語言與多模態之間結合等沒有達成高度共識的實現方式上,演算法還有很大的探索空間。
對於大模型更高的算力要求,陳煒鵬是比較樂觀的。“現在有三股力量在解決這個問題,一是晶片層,他們自身的動力是非常強的。另外就是在 infra 層和演算法層,infra 層跟晶片層配合、演算法層就是在模型結構裡面做一些工作。”
與百川一樣,市面上其他模型也都進行了多次大版本迭代,但大家在釋出的時候,還是圍繞各種基本能力的提升,業內的人可能能夠更好理解提升資料,但行業外的人對於代際的差異比較後知後覺。
陳煒鵬對此解釋道,基座模型最關注是本身的智慧水平,具體表現上沒有特別多可差異化的點,真正產生代差的是模型之間的智力水平。
以 GPT-4o 為例,GPT-4o 比 GPT-4V 在應用層的想象空間打開了很多,但 GPT-4o 並沒有被命名為 GPT-5,因為它們的智力水平某種程度上還在同一個水平。
對於熱門的長視窗、推理最佳化等,陳煒鵬認為,這些只能帶來短時間的差異化,在半年以上的週期裡,這些差異都會抹平。“整個行業裡,我覺得大家某種程度上把長文字視窗這個事情‘神話’了。”陳煒鵬提到,“在我的理解裡,上下文視窗大家更多的工作是工程上的,演算法層的突破非常有限。”
另外,大模型廠商在基座模型的迭代期間,其實也已經考慮到了未來自家大模型可能的應用方向。
“大家既要在智力水平上拉開差距,還要在應用上找到差異。這就是守正出奇的邏輯,‘守正’就是我能不能夠在智力水平上跟別人產生代差,‘出奇’就是出於對技術成熟度和產品的判斷,來決定我差異化的功能是哪些。”陳煒鵬表示。
陳煒鵬舉了一個比較形象的例子。大家要製造一個 super man,首先要知道它要具備什麼樣的能力,然後從 AI 本質出發需要怎樣的底層支援,類似有沒有比現在 token predict 更超前的方式等非常本質的問題。
這之後,人們會考慮 super man 除了有一個非常強大的大腦外,還需要具備哪些能力。到了這一步,大家就會有各種各樣的定義。實際上,這時大家已經轉換到了另外一個視角,即應用層,從應用層獲得各種對應的能力。
也就是說,相同的智力水平下能夠做出什麼樣的產品,這與企業對應用的想象有關。比如企業重視長文字能力的應用就會在上下文視窗上投入更多。
因此,總的來看,很多大模型研發決策是 AGI 視角和應用視角交錯下的產物,只是不同的公司在不同視角里的投入有所差別。
以百川為例,Baichuan 3 的定位雖然還是基座模型, 但在醫療方面做了加強。
一方面,百川團隊發現模型訓練過程中,語言能力、知識能力的提升是快收斂的,邏輯推理能力的提升也比較慢,且週期較長。而醫療是一個既包含知識,又包含複雜推理過程的場景,可以很好地衡量大模型能力。
另一方面,百川也很在意醫療場景裡模型的表現,這個就與其對模型應用的想象有關係。模型是要面向應用的,大模型廠商認為哪些場景重要,就會希望模型這方面的能力達到業內領先,帶來應用優勢。
為此,百川增強了大模型在醫療這個垂直場景的能力。百川團隊先是深入到這個領域裡做行業理解,之後花了很多精力解決場景的資料構建和資料配比的問題。
但有一點是毋庸置疑的,就是未來信仰 scaling law 的大模型廠商,釋出節奏可能不會像去年那麼快了。
就像王小川說的,“如果想達到智慧,從現在的路徑來說我們必須 scale up ,但 scale up 不一定會帶來智慧。不管怎樣,這個事情我們得做。”而隨著模型規模的增加,整個計算的複雜性、所需的資料量、背後依賴的算力資源等都要有數量級增加,這無疑是會拉長研發週期的。
王小川在 Baichuan 4 的釋出會上就表示,以後的釋出不會再以月為單位,而是季度,要把時間放到長線做事情。
時代的浪潮終歸會落到每個技術人身上,包括但不只是像陳煒鵬這樣的大模型廠商裡的技術負責人。
大模型時代,技術人才的畫像發生了很大的變化。比如之前的產品經理對使用者端的理解非常重要,但現在要做一款好的產品,就不能只關注使用者端,還要對當前技術能力的邊界、成熟階段有較好的預判。
現在的大模型技術不像之前的技術那樣成熟,歷史的經驗不一定能夠非常好轉化為生產力。一個人有很強的發現新問題、定義新問題、解決新問題是更重要的能力。因此,百川也會傾向招聘新人、年輕人,“因為我們本身就在做一個很新的事情、要解決新問題,所以很多過去的具體演算法經驗,在如今場景下並沒有那麼重要,研究能力才是最重要的。”
目前,百川中的技術人員佔整個公司人數的 70%-80%,其中有經驗豐富的前搜狗各個業務線最優秀的干將和其他知名科技公司核心 AI 人才,也有越來越多的研發新星。期待彙集了多樣人才的百川未來為我們帶來更多驚喜。
《大模型領航者》是 InfoQ 推出的一檔聚焦大模型領域的訪談欄目,透過深度對話大模型典範企業的創始人、技術負責人等,為大家呈現最新、最前沿的行業動態和思考,以便更好地參與到大模型研發和落地之中。我們也希望透過傳播大模型領域先進的實踐和思想理念,幫助潛在大模型應用者、創業者、開發者等做好各類決策和選型。
如果您有意向報名參與欄目或想了解更多資訊,可以聯絡:T_demo(微信,請註明來意)

InfoQ 將於 8 月 18 日至 19 日在上海舉辦 AICon 全球人工智慧開發與應用大會,匯聚頂尖企業專家,深入端側 AI、大模型訓練、安全實踐、RAG 應用、多模態創新等前沿話題。現在大會已開始正式報名,6 月 30 日前可以享受 8 折優惠,單張門票節省 960 元(原價 4800 元),詳情可聯絡票務經理 13269078023 諮詢。
