DeepSeek創始人專訪:中國的AI不可能永遠跟隨,需要有人站到技術的前沿

這位技術理想主義者,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把“是非觀”置於“利害觀”之前,並提醒我們看到時代慣性,把“原創式創新”提上日程的人。
DeepSeek創始人專訪:中國的AI不可能永遠跟隨,需要有人站到技術的前沿
來源/暗湧Waves
整理/Founder Park
因為 V3 版本開源模型的釋出,DeepSeek 又火了一把,而且這一次,是外網刷屏。
訓練成本估計只有 Llama 3.1 405B 模型的 11 分之一,後者的效果還不如它。
在多項測評上,DeepSeek V3 達到了開源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其價格比 Claude 3.5 Haiku 還便宜,僅為 Claude 3.5 Sonnet 的 9%。
在 Chatbot Arena 大模型排行榜上排名第 7,前十名裡面,只有它是開源模型,而且是最少限制的 MIT 許可證。
2024 年 5 月,DeepSeek 一躍成名。起因是他們釋出的一款名為 DeepSeek V2 的開源模型,提供了一種史無前例的價效比,開啟了國產大模型的價格戰。
作為大廠外唯一一家儲備萬張 A100 晶片的公司,DeepSeek 的很多抉擇都與眾不同。放棄「既要又要」路線,至今專注在研究和技術,未做 toC 應用的公司,也是唯一一家未全面考慮商業化,堅定選擇開源路線甚至都沒融過資的公司。
DeepSeek 究竟是如何煉成的?36 氪旗下的「暗湧」團隊分別在 2023 年 5 月、2024 年 7 月採訪了甚少露面的 DeepSeek 創始人梁文鋒。
這位技術理想主義者,提供了目前中國科技界特別稀缺的一種聲音:他是少有的把「是非觀」置於「利害觀」之前,並提醒我們看到時代慣性,把「原創式創新」提上日程的人。
文章轉載自「暗湧」,原文作者於麗麗,原文編輯劉旌,Founder Park 轉載時做了結構調整。

01 

價格戰第一槍是怎麼打響的?

暗湧:DeepSeek V2 模型釋出後,迅速引發一場血雨腥風的大模型價格戰,有人說你們是行業的一條鯰魚。
梁文鋒:我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。
暗湧:這個結果讓你們意外嗎?
梁文鋒:非常意外。沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後核算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。
暗湧:5 天后智譜 AI 就跟進了,之後是位元組、阿里、百度、騰訊等大廠。
梁文鋒:智譜 AI 降的是一個入門級產品,和我們同級別的模型仍然收費很貴。位元組是真正第一個跟進的。旗艦模型降到和我們一樣的價格,然後觸發了其它大廠紛紛降價。因為大廠的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事,最後就變成了網際網路時代的燒錢補貼的邏輯。
暗湧:外部看來,降價很像在搶使用者,網際網路時代的價格戰通常如此。
梁文鋒:搶使用者並不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論 API,還是 AI,都應該是普惠的、人人可以用得起的東西。
暗湧:在這之前,大部分中國公司都會直接 copy 這一代的 Llama 結構去做應用,為什麼你們會從模型結構切入?
梁文鋒:如果目標是做應用,那沿用 Llama 結構,短平快上產品也是合理選擇。但我們目的地是 AGI,這意味著我們需要研究新的模型結構,在有限資源下,實現更強的模型能力。這是 scale up 到更大模型所需要做的基礎研究之一。
除了模型結構,我們還做了大量其他的研究,包括怎麼構造資料,如何讓模型更像人類等,這都體現在我們釋出的模型裡。另外,Llama 的結構,在訓練效率和推理成本上,和國外先進水平估計也已有兩代差距。
暗湧:這種代差主要來自哪裡?
梁文鋒:首先訓練效率有差距。我們估計,國內最好的水平和國外最好的相比,模型結構和訓練動力學上可能有一倍的差距,光這一點我們要消耗兩倍的算力才能達到同樣效果。另外資料效率上可能也有一倍差距,也就是我們要消耗兩倍的訓練資料和算力,才能達到同樣的效果。合起來就要多消耗 4 倍算力。我們要做的,正是不停地去縮小這些差距。
暗湧:大部分中國公司都選擇既要模型又要應用,為什麼 DeepSeek 目前選擇只做研究探索?
梁文鋒:因為我們覺得現在最重要的是參與到全球創新的浪潮裡去。過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。
暗湧:網際網路和移動網際網路時代留給大部分人的慣性認知是,美國擅長搞技術創新,中國更擅長做應用。
梁文鋒:我們認為隨著經濟發展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年 IT 浪潮裡,我們基本沒有參與到真正的技術創新裡。我們已經習慣摩爾定律從天而降,躺在家裡 18 個月就會出來更好的硬體和軟體。Scaling Law 也在被如此對待。
但其實,這是西方主導的技術社群一代代孜孜不倦創造出來的,只因為之前我們沒有參與這個過程,以至於忽視了它的存在。

02 

真正的差距是原創和模仿之差

暗湧:為什麼 DeepSeek V2 會讓矽谷的很多人驚訝?
梁文鋒:在美國每天發生的大量創新裡,這是非常普通的一個。他們之所以驚訝,是因為這是一箇中國公司,在以創新貢獻者的身份,加入到他們遊戲裡去。畢竟大部分中國公司習慣 follow,而不是創新。
暗湧:但這種選擇放在中國語境裡,也過於奢侈。大模型是一個重投入遊戲,不是所有公司都有資本只去研究創新,而不是先考慮商業化。
梁文鋒:創新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關。但現在,你看無論中國的經濟體量,還是位元組、騰訊這些大廠的利潤,放在全球都不低。我們創新缺的肯定不是資本,而是缺乏信心以及不知道怎麼組織高密度的人才實現有效的創新。
暗湧:為什麼中國公司——包括不缺錢的大廠,這麼容易把快速商業化當第一要義?
梁文鋒:過去三十年,我們都只強調賺錢,對創新是忽視的。創新不完全是商業驅動的,還需要好奇心和創造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。
暗湧:但你們究竟是一個商業組織,而非一個公益科研機構,選擇創新,又透過開源分享出去,那要在哪裡形成護城河?像2024 年 5 月這次 MLA 架構的創新,也會很快被其他家 copy 吧?
梁文鋒:在顛覆性的技術面前,閉源形成的護城河是短暫的即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價值沉澱在團隊上,我們的同事在這個過程中得到成長,積累很多 know-how, 形成可以創新的組織和文化,就是我們的護城河。
開源,發論文,其實並沒有失去什麼。對於技術人員來說,被 follow 是很有成就感的事。其實,開源更像一個文化行為,而非商業行為。給予其實是一種額外的榮譽。一個公司這麼做也會有文化的吸引力。
暗湧:你怎麼看類似朱嘯虎的這種市場信仰派觀點?
梁文鋒:朱嘯虎是自洽的,但他的打法更適合快速賺錢的公司,而你看美國最賺錢的公司,都是厚積薄發的高科技公司。
暗湧:但做大模型,單純的技術領先也很難形成絕對優勢,你們賭的那個更大的東西是什麼?
梁文鋒:我們看到的是中國AI不可能永遠處在跟隨的位置。我們經常說中國 AI 和美國有一兩年差距,但真實的 gap 是原創和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。
英偉達的領先,不只是一個公司的努力,而是整個西方技術社群和產業共同努力的結果。他們能看到下一代的技術趨勢,手裡有路線圖。中國 AI 的發展,同樣需要這樣的生態。很多國產晶片發展不起來,也是因為缺乏配套的技術社群,只有第二手訊息,所以中國必然需要有人站到技術的前沿

03 

幻方做大模型是為了做研究,

做探索

暗湧:幻方決定下場做大模型,一家量化基金為什麼要做這樣一件事?
梁文鋒:我們做大模型,其實跟量化和金融都沒有直接關係。我們獨建了一個名為深度求索的新公司來做這件事。幻方的主要班底裡,很多人是做人工智慧的。當時我們嘗試了很多場景,最終切入了足夠複雜的金融,而通用人工智慧可能是下一個最難的事之一,所以對我們來說,這是一個怎麼做的問題,而不是為什麼做的問題。
暗湧:你們要自訓一個大模型,還是某個垂直行業——比如金融相關的大模型?
梁文鋒:我們要做的是通用人工智慧,也就是 AGI。語言大模型可能是通往 AGI 的必經之路,並且初步具備了 AGI 的特徵,所以我們會從這裡開始,後邊也會有視覺等。
暗湧:因為大廠的入局,很多創業型公司都放棄了只做通用型大模型的大方向。
梁文鋒:我們不會過早設計基於模型的一些應用,會專注在大模型上。
暗湧:很多人認為,創業公司在大廠形成共識後下場,已經不是一個好的時間點。
梁文鋒:現在看起來,無論大廠,還是創業公司,都很難在短時間內建立起碾壓對手的技術優勢。因為有 OpenAI 指路,又都基於公開論文和程式碼,最晚明年,大廠和創業公司都會把自己的大語言模型做出來。大廠和創業公司都各有機會。現有垂類場景不掌握在初創公司手上,這個階段對初創公司不太友好。但因為這種場景說到底也是分散的、碎片化的小需求,所以它又是更適合靈活的創業型組織的。
從長期看,大模型應用門檻會越來越低,初創公司在未來 20 年任何時候下場,也都有機會。我們的目標也很明確,就是不做垂類和應用,而是做研究,做探索。
暗湧:為什麼你的定義是「做研究、做探索」?
梁文鋒:一種好奇心驅動。從遠處說,我們想去驗證一些猜想。比如我們理解人類智慧本質可能就是語言,人的思維可能就是一個語言的過程。你以為你在思考,其實可能是你在腦子裡編織語言。這意味著,在語言大模型上可能誕生出類人的人工智慧(AGI)。從近處說,GPT4 還有很多待解之謎。我們去復刻的同時,也會做研究揭秘。
暗湧:但研究意味著要付出更大的成本。
梁文鋒:只做復刻的話,可以在公開論文或開原始碼基礎上,只需訓練很少次數,甚至只需 finetune(微調)一下,成本很低。而做研究,要做各種實驗和對比,需要更多算力,對人員要求也更高,所以成本更高。
暗湧:那研究經費哪裡來?
梁文鋒:幻方作為我們的出資人之一,有充足的研發預算,另外每年有幾個億的捐款預算,之前都是給公益機構,如果需要,也可以做些調整。
暗湧:但做基礎層大模型,沒有兩三億美元,連牌桌都上不了,我們如何支撐它的持續投入?
梁文鋒:我們也在找不同出資方在談。接觸下來,感覺很多 VC 對做研究有顧慮,他們有退出需求,希望儘快做出產品商業化,而按照我們優先做研究的思路,很難從 VC 那裡獲得融資。但我們有算力和一個工程師團隊,相當於有了一半籌碼。
暗湧:我們對商業模式做了哪些推演和設想?
梁文鋒:我們現在想的是,後邊可以把我們的訓練結果大部分公開共享,這樣可以跟商業化有所結合。我們希望更多人,哪怕一個小 app 都可以低成本去用上大模型,而不是技術只掌握在一部分人和公司手中,形成壟斷。
暗湧:一些大廠後期也會有一些服務提供,你們差異化的部分是什麼?
梁文鋒:大廠的模型,可能會和他們的平臺或生態捆綁,而我們是完全自由的。
暗湧:無論如何,一個商業公司去做一種無限投入的研究性探索,都有些瘋狂。
梁文鋒:如果一定要找一個商業上的理由,它可能是找不到的,因為划不來。從商業角度來講,基礎研究就是投入回報比很低的。OpenAI 早期投資人投錢時,想的一定不是我要拿回多少回報,而是真的想做這個事。我們現在比較確定的是,既然我們想做這個事,又有這個能力,這個時間點上,我們就是最合適人選之一。

04 

萬卡儲備其實是好奇心驅動

暗湧:GPU是這次 ChatGPT 創業潮的稀缺品,你們在 2021 年就可以有先見之明,儲備了 1 萬枚。為什麼?
梁文鋒:其實從最早的 1 張卡,到 2015 年的 100 張卡、2019 年的 1000 張卡,再到一萬張,這個過程是逐步發生的。幾百張卡之前,我們託管在 IDC,規模再變大時,託管就沒法滿足要求了,就開始自建機房。很多人會以為這裡邊有一個不為人知的商業邏輯,但其實,主要是好奇心驅動。
暗湧:什麼樣的好奇心?
梁文鋒:對 AI 能力邊界的好奇。對很多行外人來說,ChatGPT 這波浪潮衝擊特別大;但對行內人來說,2012 年 AlexNet 帶來的衝擊已經引領一個新的時代。AlexNet 的錯誤率遠低於當時其他模型,復甦了沉睡幾十年的神經網路研究。雖然具體技術方向一直在變,但模型、資料和算力這三者的組合是不變的,特別是當 2020 年 OpenAI 釋出 GPT3 後,方向很清楚,需要大量算力;但即便 2021 年,我們投入建設螢火二號時,大部分人還是無法理解。
暗湧:所以 2012 年起,你們就開始關注到算力的儲備?
梁文鋒:對研究員來說,對算力的渴求是永無止境的。做了小規模實驗後,總想做更大規模的實驗。那之後,我們也會有意識地去部署儘可能多的算力。
暗湧:很多人以為搭這個計算機叢集,是量化私募業務會用到機器學習做價格預測?
梁文鋒:如果單純只做量化投資,很少的卡也能達到目的。我們在投資外做了大量研究,更想搞清楚什麼樣的正規化可以完整地描述整個金融市場,有沒有更簡潔的表達方式,不同正規化能力邊界在哪,這些正規化是不是有更廣泛適用,等等。
暗湧:但這個過程也是一個燒錢行為。
梁文鋒:一件激動人心的事,或許不能單純用錢衡量。就像家裡買鋼琴,一來買得起,二來是因為有一群急於在上面彈奏樂曲的人。
暗湧:顯示卡通常會以 20% 的速度在折損。
梁文鋒:我們沒有精確計算過,但應該沒這麼多。英偉達的顯示卡是硬通貨,即使是很多年前的老卡,也還有很多人在用。我們之前退役的老卡,二手處理時還挺值錢的,沒虧太多。
暗湧:搭一個計算機叢集,維護費用,人工成本,甚至電費也都是不菲的支出。
梁文鋒:電費和維護費用其實是很低的,這些支出每年只佔硬體造價的 1% 左右。人工成本不低,但人工成本也是對未來的投資,是公司最大的資產。我們選的人也會相對樸實一點,有好奇心,來這裡有機會去做研究。
暗湧:2021 年,幻方是亞太地區第一批拿到 A100顯示卡的公司,為什麼會比一些雲廠商更早?
梁文鋒:我們很早就對新卡做了預研、測試和規劃。至於一些雲廠商,據我所知,他們之前的需求都是分散的,直到 2022 年自動駕駛,有租用機器做訓練的需求,又有付費能力,一些雲廠商才去把基礎設施建好。大廠很難單純去做研究,做訓練,它更多會是業務需求驅動。
暗湧:你會如何看大模型的競爭格局?
梁文鋒:大廠肯定有優勢,但如果不能很快應用,大廠也不一定能持續堅持,因為它更需要看到結果。頭部的創業公司也有技術做得很紮實的,但和老的一波 AI 創業公司一樣,都要面對商業化難題。
暗湧:一些人會覺得一個量化基金卻強調自己做AI,是為其他業務吹泡泡。
梁文鋒:但其實我們的量化基金已經基本不怎麼對外募集了。
暗湧:你會如何去辨別哪些是AI信仰者,哪些是投機者?
梁文鋒:信仰者會之前就在這裡,之後也在這裡。他們更會去批次買卡,或者跟雲廠商籤長協議,而不是短期去租。

05 

V2 模型的研發都是本土人才

暗湧:OpenAI前政策主管、Anthropic 聯合創始人 Jack Clark 認為 DeepSeek 僱傭了「一批高深莫測的奇才」,做出 DeepSeek v2 的是怎樣一群人?
梁文鋒:並沒有什麼高深莫測的奇才,都是一些 Top 高校的應屆畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。
暗湧:很多大模型公司都執著地去海外挖人,很多人覺得這個領域前 50 名的頂尖人才可能都不在中國的公司,你們的人都來自哪裡?
梁文鋒:V2 模型沒有海外回來的人,都是本土的。前 50 名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。
暗湧:這次 MLA 創新*是如何發生的?聽說 idea 最早來自一個年輕研究員的個人興趣?
幻方提出的一種嶄新的MLA(一種新的多頭潛在注意力機制)架構,把視訊記憶體佔用降到了過去最常用的MHA架構的5%-13%
梁文鋒:在總結出 Attention 架構的一些主流變遷規律後,他突發奇想去設計一個替代方案。不過從想法到落地,中間是一個漫長的過程。我們為此組了一個 team,花了幾個月時間才跑通。
暗湧:這種發散性靈感的誕生和你們完全創新型組織的架構很有關係。幻方時代,你們就很少自上而下地指派目標或任務。但 AGI 這種充滿不確定性的前沿探索,是否多了管理動作?
梁文鋒:DeepSeek 也全是自下而上。而且我們一般不前置分工,而是自然分工。每個人有自己獨特的成長經歷,都是自帶想法的,不需要 push 他。探索過程中,他遇到問題,自己就會拉人討論。不過當一個 idea 顯示出潛力,我們也會自上而下地去調配資源。
暗湧:聽說 DeepSeek 對於卡和人的調集非常靈活。
梁文鋒:我們每個人對於卡和人的調動是不設上限的。如果有想法,每個人隨時可以呼叫訓練叢集的卡無需審批。同時因為不存在層級和跨部門,也可以靈活呼叫所有人,只要對方也有興趣。
暗湧:一種鬆散的管理方式也取決於你們篩選到了一批強熱愛驅動的人。聽說你們很擅長從細節招人,可以讓一些非傳統評價指標裡優秀的人被選出來。
梁文鋒:我們選人的標準一直都是熱愛和好奇心,所以很多人會有一些奇特的經歷,很有意思。很多人對做研究的渴望,遠超對錢的在意。
暗湧: Transformer 誕生在谷歌的AI Lab,ChatGPT誕生在OpenAI, 你覺得大公司的 AILab 和一個創業公司對於創新產生的價值有什麼不同?
梁文鋒:不管是 Google 實驗室,還是 OpenAI,甚至中國大廠的 AI Lab,都很有價值的。最後是 OpenAI 做出來,也有歷史的偶然性。

06 

套路都是上一代的產物,

未來不一定成立

暗湧:創新很大程度也是一種偶然嗎?我看你們辦公區中間那排會議室左右兩側都設定了可以隨意推開的門。你們同事說,這就是給偶然留出空隙。transfomer 誕生中就發生過那種偶然經過的人聽到後加入,最終把它變成一個通用框架的故事。
梁文鋒:我覺得創新首先是一個信念問題。為什麼矽谷那麼有創新精神?首先是敢。ChatGPT 出來時,整個國內對做前沿創新都缺乏信心,從投資人到大廠,都覺得差距太大了,還是做應用吧。但創新首先需要自信。這種信心通常在年輕人身上更明顯。
暗湧:但你們不參與融資,很少對外發聲,社會聲量上肯定不如那些融資活躍的公司,怎麼確保 DeepSeek 就是做大模型的人的首選?
梁文鋒:因為我們在做最難的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題。其實,頂尖人才在中國是被低估的。因為整個社會層面的硬核創新太少了,使得他們沒有機會被識別出來。我們在做最難的事,對他們就是有吸引力的。
暗湧:前一段OpenAI的釋出並沒有等來 GPT5, 很多人覺得這是技術曲線明顯在放緩,也很多人開始質疑 Scaling Law,你們怎麼看?
梁文鋒:我們偏樂觀,整個行業看起來都符合預期。OpenAI 也不是神,不可能一直衝在前面。
暗湧:你覺得 AGI 還要多久實現,釋出 DeepSeek V2 前,你們釋出過程式碼生成和數學的模型,也從 dense 模型切換到了 MOE,所以你們的 AGI 路線圖有哪些座標?
梁文鋒:可能是 2 年、5 年或者 10 年,總之會在我們有生之年實現。至於路線圖,即使在我們公司內部,也沒有統一意見。但我們確實押注了三個方向。一是數學和程式碼,二是多模態,三是自然語言本身。數學和程式碼是 AGI 天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能透過自我學習就能實現很高的智慧。另一方面,可能多模態、參與到人類的真實世界裡學習,對 AGI 也是必要的。我們對一切可能性都保持開放。
暗湧:你覺得大模型終局是什麼樣態?
梁文鋒:會有專門公司提供基礎模型和基礎服務, 會有很長鏈條的專業分工。更多人在之上去滿足整個社會多樣化的需求。
暗湧:過去這一年,中國的大模型創業還是有很多變化的,比如去年開頭還很活躍的王慧文中場退出了,後來加入的公司也開始呈現出差異化。
梁文鋒:王慧文自己承擔了所有的損失,讓其他人全身而退。他做了一個對自己最不利,但對大家都好的選擇,所以他做人是很厚道的,這點我很佩服。
暗湧:現在你的精力最多放在哪裡?
梁文鋒:主要的精力在研究下一代的大模型。還有很多未解決的問題。
暗湧:其他幾家大模型創業公司都是堅持既要又要,畢竟技術不會帶來永久領先,抓住時間視窗把技術優勢落到產品也很重要,DeepSeek 敢於專注在模型研究上是因為模型能力還不夠嗎?
梁文鋒:所有的套路都是上一代的產物,未來不一定成立。拿網際網路的商業邏輯去討論未來 AI 的盈利模式,就像馬化騰創業時,你去討論通用電氣和可口可樂一樣。很可能是一種刻舟求劍。
暗湧:過去幻方就有很強的技術和創新基因,成長也比較順利,這是你偏樂觀的原因嗎?
梁文鋒:幻方某種程度上增強了我們對技術驅動型創新的信心,但也不都是坦途。我們經歷了一個漫長的積累過程。外部看到的是幻方 2015 年後的部分,但其實我們做了 16 年。
暗湧:回到關於原創式創新的話題。現在經濟開始進入下行,資本也進入冷週期,所以它對原創式創新是否會帶來更多抑制?
梁文鋒:我倒覺得未必。中國產業結構的調整,會更依賴硬核技術的創新。當很多人發現過去賺快錢很可能來自時代運氣,就會更願意俯身去做真正的創新。
暗湧:所以你對這件事也是樂觀的?
梁文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學老師,九十年代,廣東賺錢機會很多,當時有不少家長到我家裡來,基本就是家長覺得讀書沒用。但現在回去看,觀念都變了。因為錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。
以後硬核創新會越來越多。現在可能還不容易被理解,是因為整個社會群體需要被事實教育。當這個社會讓硬核創新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。

07 

更多的投入

並不一定產生更多的創新

暗湧:現在的 DeepSeek 有一種 OpenAI 早期的理想主義氣質,也是開源的。後邊你們會選擇閉源嗎?OpenAI 和 Mistral 都有過從開源到閉源的過程。
梁文鋒:我們不會閉源。我們認為先有一個強大的技術生態更重要。
暗湧:你們有融資計劃嗎?看有媒體報道,幻方對 DeepSeek 有獨立拆分上市的計劃,矽谷的AI創業公司,最終也都難免要和大廠繫結。
梁文鋒:短期內沒有融資計劃,我們面臨的問題從來不是錢,而是高階晶片被禁運。
暗湧:很多人認為,做 AGI 和做量化是完全不同的兩件事,量化可以悶聲去做,但 AGI 可能更需要高舉高打,需要結盟,這樣可以讓你的投入變大。
梁文鋒:更多的投入並不一定產生更多的創新。否則大廠可以把所有的創新包攬了。
暗湧:你們現在不做應用,是因為你們沒有運營的基因嗎?
梁文鋒:我們認為當前階段是技術創新的爆發期,而不是應用的爆發期。長遠來說,我們希望形成一種生態,就是業界直接使用我們的技術和產出,我們只負責基礎模型和前沿的創新,然後其它公司在 DeepSeek 的基礎上構建 toB、toC 的業務。如果能形成完整的產業上下游,我們就沒必要自己做應用。當然,如果需要,我們做應用也沒障礙,但研究和技術創新永遠是我們第一優先順序。
暗湧:但選擇API的話,為什麼選擇 DeepSeek,而不是大廠?
梁文鋒:未來的世界很可能是專業化分工的,基礎大模型需要持續創新,大廠有它的能力邊界,並不一定適合。
暗湧:但技術真的可以拉開差距嗎? 你也說過並不存在絕對的技術秘密。
梁文鋒:技術沒有秘密,但重置需要時間和成本英偉達的顯示卡,理論上沒有任何技術秘密,很容易複製,但重新組織團隊以及追趕下一代技術都需要時間,所以實際的護城河還是很寬。
暗湧:你們降價後,位元組率先跟進,說明他們還是感受到某種威脅。你怎麼看創業公司與大廠競爭的新解法?
梁文鋒:說實話我們不太 care 這件事,只是順便做了這件事。提供雲服務不是我們的主要目標。我們的目標還是去實現 AGI。
目前沒有看到什麼新解法,但大廠也沒有明顯佔優。大廠有現成的使用者,但它的現金流業務也是它的包袱,也會讓它成為隨時被顛覆的物件。
暗湧:你怎麼看 DeepSeek 之外的 6 家大模型創業公司的終局?
梁文鋒:可能活下來 2 到 3 家。現在都還處在燒錢階段,所以那些自我定位清晰、更能精細化運營的,更有機會活下來。其它公司可能會脫胎換骨。有價值的東西不會煙消雲散,但會換一種方式。
暗湧:幻方時代,面對競爭的姿態就被評價為「我行我素」,很少在意橫向比較。關於競爭,你思考的原點是什麼?
梁文鋒:我經常思考的是,一個東西能不能讓社會的執行效率變高,以及你能否在它的產業分工鏈條上找到擅長的位置。只要終局是讓社會效率更高,就是成立的。中間很多都是階段性的,過度關注必然眼花繚亂。

08 

創新都是自己產生的,

不是刻意安排的,更不是教出來的

暗湧:深度求索團隊的招聘進展如何?
梁文鋒:初始團隊已經集結到位,前期因為人手不夠,會從幻方臨時借調一部分人過去。去年底 ChatGPT3.5 風靡時,我們就開始動手招聘了,不過我們依然需要更多的人加入。
暗湧:大模型創業的人才也是稀缺的,有投資人說很多適合的人才可能只在 OpenAI、FacebookAI Research 等巨頭的 AI lab 裡。你們會去海外挖這類人才嗎?
梁文鋒:如果追求短期目標,找現成有經驗的人是對的。但如果看長遠,經驗就沒那麼重要,基礎能力、創造性、熱愛等更重要。從這個角度看,國內合適的候選人就不少。
暗湧:為什麼經驗沒那麼重要?
梁文鋒:不一定是做過這件事的人才能做這件事。幻方招人有條原則是,看能力,而不是看經驗。我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。
暗湧:在創新業務上,你覺得經驗是阻礙嗎?
梁文鋒:做一件事,有經驗的人會不假思索告訴你,應該這樣做,但沒有經驗的人,會反覆摸索、很認真去想應該怎麼做,然後找到一個符合當前實際情況的解決辦法。
暗湧:幻方從一個完全無金融基因的外行,切入到這個行業,幾年內做到頭部,這條招人法則是其中秘密之一嗎?
梁文鋒:我們的核心團隊,連我自己,一開始都沒有量化經驗,這一點很特殊。不能說是成功的秘密,但這是幻方的文化之一。我們不會故意迴避有經驗的人,但更多是看能力。
拿銷售這個崗位舉個例子。我們的兩個主力銷售,都是這個行業的素人。一個原來做德國機械品類外貿的,一個是原來在券商做後臺寫程式碼。他們進入這個行業時,沒有經驗,沒有資源,沒有積累。
而現在我們可能是唯一一家能以直銷為主的大私募。做直銷意味著不用給中間商分費用,同樣規模和業績下,利潤率更高,很多家會試圖模仿我們,但並沒有成功。
暗湧:為什麼很多家試圖模仿你們,卻沒有成功?
梁文鋒:因為僅憑這一點不足以讓創新發生。它需要和公司的文化和管理相匹配。事實上,第一年他們什麼都做不出來,第二年才開始有點成績。但我們的考核標準和一般公司不太一樣。我們沒有 KPI,也沒有所謂的任務。
暗湧:那你們的考核標準是?
梁文鋒:我們不像一般公司,看重客戶下單量,我們的銷售賣多少和提成不是一開始就算好的,而會更鼓勵銷售去發展自己的圈子,認識更多人,產生更大影響力。因為我們認為,一個讓客戶信任的正直的銷售,可能在短時間內做不到讓客戶來下單,但可以讓你覺得他是個靠譜的人。
暗湧:選來合適的人後,用何種方式讓他進入狀態?
梁文鋒:交給他重要的事,並且不干預他。讓他自己想辦法,自己發揮。其實,一家公司的基因是很難被模仿的。比如說招沒有經驗的人,怎麼判斷他的潛力,招進來之後如何才能讓他成長,這些都沒法直接模仿。
暗湧:你覺得什麼是打造一個創新型組織的必要條件?
梁文鋒:我們的總結是,創新需要儘可能少的干預和管理,讓每個人有自由發揮的空間和試錯機會。創新往往都是自己產生的,不是刻意安排的,更不是教出來的。
暗湧:這是一種非常規的管理方式,這種情況下你如何確保一個人做事是有效率的,而且在你要的方向上?
梁文鋒:招人時確保價值觀一致,然後透過企業文化來確保步調一致。當然,我們並沒有一個成文的企業文化,因為所有成文東西,又會阻礙創新。更多時候,是管理者的以身示範,遇到一件事,你如何做決策,會成為一種準則。
暗湧:你覺得這波做大模型的競爭中,創業公司更適合創新的組織架構會是和大廠競爭的破局點嗎?
梁文鋒:按照教科書的方法論來推導創業公司,在當下,他們做的事,都是活不下來的。但市場是變化的。真正的決定力量往往不是一些現成的規則和條件,而是一種適應和調整變化的能力。很多大公司的組織結構已經不能快速響應和快速做事,而且他們很容易讓之前的經驗和慣性成為束縛,而這波 AI 新浪潮之下,一定會有一批新公司誕生。
暗湧:做這樣一件事,最讓你們興奮的是什麼?
梁文鋒:去搞清我們的猜想是不是事實,如果是對的,就會很興奮了。
暗湧:這次大模型招人,什麼是我們必卡的條件?
梁文鋒:熱愛,紮實的基礎能力。其他都沒那麼重要。
暗湧:這種人容易找到嗎?
梁文鋒:他們的熱情通常會表現出來,因為他真的很想做這件事,所以這些人往往同時也在找你。
暗湧:大模型可能是一件無休止投入的事,付出的代價會讓你們顧慮嗎?
梁文鋒:創新就是昂貴且低效的,有時候伴隨著浪費。所以經濟發展到一定程度之後,才能夠出現創新。很窮的時候,或者不是創新驅動的行業,成本和效率非常關鍵。看 OpenAI 也是燒了很多錢才出來。
暗湧:會覺得你們在做一件很瘋狂的事嗎?
梁文鋒:不知道是不是瘋狂,但這個世界存在很多無法用邏輯解釋的事,就像很多程式設計師,也是開源社群的瘋狂貢獻者,一天很累了,還要去貢獻程式碼。
暗湧:這裡邊會有一種精神獎賞。
梁文鋒:類似你徒步 50 公里,整個身體是癱掉的,但精神很滿足。
暗湧:你覺得好奇心驅動的瘋狂可以一直持續下去嗎?
梁文鋒:不是所有人都能瘋狂一輩子,但大部分人,在他年輕的那些年,可以完全沒有功利目的,投入地去做一件事。
(這是一本為美好社會理想構建政治地基的探索之作)
END
推薦閱讀
十點公社
一個時代的記錄
自由評論
只為蒼生說人話

相關文章