邊塞科技吳翼:當AI不再追求更強|ZCircle

「00後狠人計劃」持續招募中!自我們釋出計劃一個月以來,已和數百位夥伴建立了聯絡。他們中有從 9 歲就開始程式設計的技術小天才,有 B 站上最早的百大學習 up 主,也有從高中就設計研發測試各類火箭炸藥的超級發明家……
當然我們也知道,或許 20 歲的你還沒有一個成型的創業想法,因此我們找來了比你年紀稍長几歲的學長學姐,請他們聊聊自己在 20 歲時的困惑與選擇。
第四集,我們請到了邊塞科技創始人 & CEO 吳翼。他一直活躍在 AI 研究的各個領域。2020 年,他辭去了 OpenAI 的研究員工作,回到清華叉院擔任助理教授,並開啟了自己的 AI 創業專案。2023 年,真格基金天使輪投資邊塞科技。這一集,吳翼談到了他的多元身份,以及他將如何顛覆 AI 與人的互動方式。
真格,你的創業第一站。「00 後狠人計劃」仍在滾動招募中,歡迎一切有想法的年輕人來投遞,無論羽翼是否豐滿!
觀看影片,瞭解吳翼的故事
銀牌
故事的一面是,他是一路的天才少年。
出生於 1992 年的吳翼在高二暑假的 NOI1 競賽中拿到金牌,隨後被清華交叉資訊研究院簽下,保送進入姚班2。2014 年本科畢業,他前往加州大學伯克利分校攻讀人工智慧方向博士,第一篇深度學習論文就獲得了 NIPS3 當年的最佳論文獎。博士畢業,在回國任清華交叉資訊研究院的助理教授前,他加入 OpenAI 工作了一年半,參與的遊戲專案「捉迷藏」是 OpenAI 歷史上影片點選率最高的影片。
2023 年,他創立邊塞科技,「all in 體驗」——用強化學習為更多人創造更好的智慧體驗。
但一切並不像看上去那麼順利。資訊學競賽打了十年,他一直缺一枚金牌。
高三以中國國家隊隊長身份代表中國出戰 IOI4,銀牌。
進入清華,和毛傑明(IOI 金牌)、莫濤(NOI 第一)三人組隊參加 ACM-ICPC5 區域賽。從福州到長春再到天津,三個人總計參賽 9 次,一共拿了 7 次亞軍。
2013 年,大三第一次在聖彼得堡參加 ACM-ICPC 世界總決賽。由於「可能是清華歷史上拿第二名最多的隊」,三個人取隊名「Again and Again」。那一年,他們碰到白俄羅斯信奧傳奇 Tourist(Gennady Korotkevich),後來又在 2015 年的賽場上再次相遇。
ACM 比賽一共會頒出 4 金 4 銀 4 銅,2013 年,他們是全球第 12 名,拿到一塊銅牌。
本科在姚班,「成績不好呀」。班裡第一名吳佳俊——幾乎所有課程都是班裡最高分。「早上醒來佳俊走了,晚上我們在那聊天,11 點熄燈了,佳俊回來了。他真的太勤奮了。」(吳佳俊現為斯坦福大學助理教授。)
再看看學弟陳立傑在特獎答辯上的知乎出圈表現——「我在波士頓的街頭漫步,突然看到天空中飛過一隻白鴿,它以不同的方向穿越了天空」——於是他靈光一閃,解決了一個其導師自 2002 年就開始苦苦思索但未曾解開的 open problem。(陳立傑為麻省理工學院博士,現為加州大學伯克利分校研究員。)
在伯克利讀博士,有半年的時間他整夜睡不著覺,回頭看「真的很怕那時候抑鬱了」。創立邊塞科技後,「全是瓶頸」。作為技術型創始人,「感覺就是木桶原理,其它都沒有板,一條單棍豎著。」
「一直不是第一名」——也許是他所至之處,滿溢著太多天才和傳奇。和這些 S 級相比,他似乎差了一點點「極致」。但如果成為至強者的必要條件即是「極致」,成為「吳翼」則需要加一點點「感性」,再多一點點「認識自己」。
決定
這一點點「感性」,是在 AI 暴力美學的勝利與對規模定律的不移信仰之外一個柔軟而堅定的聲音。
吳翼常用一個比方:現在的 AI 就是一個肌肉男,在追求更強的路上狂奔。把衣服一扒,「看我的胸肌」,也有人喜歡。但相比胸肌,大部分人想要的是更好的體驗。
從 2017 年起,他在很長一段時間裡的所有研究都聚焦於多智慧體學習和人機互動,就是希望在未來能有一個不再冷冰冰的 AI,能用舒服的方式理解人、和人互動、和人一起完成複雜的事情。
如果 AI 和人一起打 Dota,不能因為厭蠢,自己衝在前面,不搭理隊友。如果有一隻機械狗,它可以不止於爬樓梯、遞水,而是可以被牽上街溜達溜達,能在主人回家的時候跳起來招招手。做到這一切,「必須有很強的智慧和很好的控制。」
所以創立邊塞科技的決定並不難做。「邊塞」二字來源於「prosocial(親社會)」的縮寫 Psi,也是希臘字母 ψ(Psi)的音譯。另一層含義,是希望做無人區的事情。他希望透過通用強化學習訓練平臺,在 AI 和人之間做好一道對齊技術,把智慧以最舒服的方式呈現給人,讓世界上儘可能多的人喜歡。公司是實現這一理想的載體形式。
大的決定,他感性地做。2012 年大二去剛剛上市的 Facebook 實習,一個電話。2016 年博二回國加入 3000 人的今日頭條實習,一個電話。
博士畢業前的那個夏天,決定回國,他想了一週。他問自己,你會不會一輩子在美國啊?應該不會,可能五年後就回國吧。但如果一件事情五年之後你想做,現在做一定比之後做更好不是嗎?「那就回來」。完整經歷過 2016-2018 年的位元組風起雲湧的時代,他觸動很大,「中國的機會比大家想得好很多。」
回國加入位元組嗎?試想一下——在位元組工作五年後會是什麼樣?「那可能是一個 tech lead(技術負責人),一個 senior manager(管理層)。」這個事情行不行?「好像對我來說不行。」為什麼不行呢?「我想實現自己的東西,而不是幫別人。」那就先想個職業吧,什麼職業是百分之百在做自己的事情?「老師。」
2018 年 8 月,吳翼確定回國。9 月,想了想不去位元組,就直接聯絡了姚班所在的交叉資訊研究院,10 月份簽了叉院,成為了助理教授。
不過在回國之前,他想先用一年半時間在美國業界看一看。Google 想招他,但覺得一年半太短,內部想辦法繞過 headcount 花了太久時間。他就陰差陽錯地去了當時名氣不夠響亮、因為還是 NGO 所以不賺錢的 OpenAI。2022 年第一次出去融資路演,還要在一開頭先「介紹一下我們公司」,直到年底 ChatGPT 釋出。
2019 年底公司內部評估,OpenAI 的研究副總裁 Bob McGrew 問他,要不要再待一年?升職的時候給你發股票。彼時大家都很好奇 OpenAI 從 NGO 向 LP 轉變後股票有什麼用,Sam Altman 在全員會議上說,這是實現 AGI(通用人工智慧)之後的 AGI share。「這什麼玩意兒?不要不要,我要回去當老師了。」
但在吳翼能夠順溜地回答以上一串對於自我的追問之前,在他明確地知道「自己要什麼」之前,他要先「脫一層皮」,再握起拳,敲開一扇門。
2014 年,吳翼來到伯克利讀博,導師 Stuart Russell 的研究方向聚焦在 AI safety 和機率邏輯推理,認為整個 AI 介面臨的最大難題就在這裡,而伯克利的博士就應該挑戰最難的問題。
博士一年級,吳翼跟著導師研究邏輯語言推理工具,「發現自己特別擰巴,不喜歡,很痛苦。」
他一直對 system 很感興趣。本科申請博士的個人陳述,他就寫自己要做 large-scale machine learning system(大規模機器學習系統)。來到伯克利,他還嘗試在 Databricks 源起的 AMPLab(大資料領域世界頂尖的實驗室之一)做過一段時間。但導師對這個方向實在不是很支援,回覆說「The system is a matter of engineering work(系統主要是做工程)」。
緊接著他被告知,指導他寫論文的一位 advisor,也是程式語言領域的領軍人物Rastislav Bodik 要離開伯克利去華盛頓大學了,身邊又少了一位相知的師友。到了博二,投稿九次,只中了一篇,還是一篇重新投稿的本科論文。他想,如果十投一中,「我就不幹了。
博二整整半年,吳翼持續地處於深度焦慮狀態,「精神內耗」,睡不著覺。睡不著覺就想快速消費資訊,看短影片會讓人感到非常糟糕,於是他開始瘋狂刷知乎,一刷兩小時。短平快的小知識,會讓內心得到一些粗淺的安撫。
焦慮與苦悶瀰漫。他最終決定做自己喜歡的方向。他敲開了 Pieter Abbeel 教授的門,「Pieter,我想做一些 Reinforcement learning research(強化學習研究)。」
在取得導師 Russell 的支援後,吳翼同時跟隨 Pieter Abbeel 教授開展深度學習研究。Abbeel 曾帶著學生在 2016 年加入 OpenAI,也在那時讓吳翼認識到了這家創業公司。第 10 次投稿中了,十投二中。第 11 次投稿的那篇論文,也是他在深度學習領域的第一篇論文《Value Iteration Networks》,一舉獲得了 NIPS 2016 年的最佳論文獎。「這就很麻煩了。」
吳翼在 OpenAI 參與的多智慧體「捉迷藏」遊戲
名字
一位選手一生最多被允許參加兩次 ACM-ICPC 總決賽。2015 年夏天在摩洛哥西南部的馬拉喀什舉行的 ACM-ICPC 總決賽,是吳翼競賽生涯的最後一場比賽。他已經博士一年級了。從舊金山穿過大西洋向東飛至卡薩布蘭卡,乘火車前往馬拉喀什,步入賽場,腳下是令人眩暈的紅棕色花紋的地毯,128 支隊伍列坐在白色的隔板之間,投影屏上巨大的數字時鐘開始倒數。
五個小時,每一秒都在跳動。心跳加速,血壓升高,腎上腺素飆升,螢幕上的排名不斷滾動重新整理,代表賽題被 A(解決)的彩色氣球在場地各處升起。這一次,自稱「1.5 流選手」的吳翼會終結此前七次亞軍的走勢嗎?他會拿到那枚自初一從老師口中第一次聽到 ACM 起就夢寐以求的金牌嗎?
他聽到自己的名字。他在領獎臺上笑著露出了牙齒。
A 掉十題,排名第六。又是銀牌。「最後是自己跟自己和解,」他獨霸了「北美冠軍」的獎牌,給伯克利剩了一塊「全球第六」。
大三那場總決賽,他捧著證書,在領獎臺上臉很黑,癟著嘴,感到很失敗。現在是老年隊了,宿命般地一直拿銀牌,也「挺浪漫的」。
2013 年,吳翼代表清華參加 ACM-ICPC 
世界總決賽獲得銅牌,全球第 12 名
2015 年,吳翼代表伯克利參加 ACM-ICPC
世界總決賽獲得銀牌,全球第 6 名
在動身前往摩洛哥前,吳翼在一篇文章裡寫道,「ACM 是我的初戀」。所謂初戀,不過是數不清的五個小時,是世界各地一場又一場的奔赴,是密密麻麻想贏的心。
當然很想贏。但拿了第一名之後呢?輸了之後呢?走出賽場,五個小時的倒計時就消失了,「如果你覺得這是要堅持一輩子的事情,研究也好,公司也好,都是馬拉松,這件事情不會停下來的。」
在清華,ACM 不過是眾多學生活動中普通的一項。大家都要做最好的學生,要拿滿績,要發論文,要跑 3000 米,ACM 比賽只是「很小很小的一部分」。但每一週,吳翼會投入 10 個小時,做滿兩個全賽程的訓練與覆盤。他自封后勤隊長,負責研究去什麼賽區,協調大家訓練,還負責代購火車票飛機票以及和教練溝通,並且樂此不疲。
後來去了伯克利,導師 Russell 得知他要去參加 ACM,問吳翼,這個比賽不是本科生參加的嗎?吳翼說,不是,24 歲以下都可以參加。Russell 回覆,「我 24 歲都開始當教授了。」
他參加的最後一場 ACM 在 2018 年,作為伯克利的教練。距離他 2007 年第一次參加 ACM 比賽過了十一年。他的比賽 ID「jxwuyi」,取名於在局前街小學讀書時老師讓大家註冊郵箱使用的統一字首縮寫「局小(jx)」。幾周前,他在清華的一個競賽冬令營做了分享。作為交叉資訊研究院的助理教授,他還會負責出每年博資考的演算法題。據他的博士生高嘉煊說,「跟競賽還是比較像的。」
吳翼的筋骨,很大一部分由 ACM 這項資訊學競技比賽形塑——日復一日的堅韌、高壓下的冷靜自如、Deadline 追趕下的全然激發。任何一項競技比賽的頂級選手,都是天賦與大量嚴苛訓練的造物。
「很多人是願意一個人坐在那刷很長時間題的。」但他沒有那麼享受刷題。他喜歡的是「大家幾個人湊在一塊訓練」,喜歡在這項比賽裡遇見的人。
吳翼小學參加計算機興趣小組,初一正式跟隨常州高階中學的曹文老師學習資訊學競賽。曹老師喜歡胡侃過去學生的故事,他閒時也就跟著喜歡上翻閱往年的 IOI 比賽、ACM 世界總決賽的成績單。他可以如數家珍地說出近十年資訊學競賽中國國家隊,甚至美國國家隊的隊員名單,或者 ACM 世界總決賽清華、交大的隊員名字與相應的名次。
初三暑假在交大,吳翼第一次在機房裡見到了仰慕已久的戴文淵(ACM 世界冠軍,第四正規化創始人 & CEO)。高一在 ACM 南京賽區,他又見到了唐文斌(ACM 總決賽世界第六,曠視聯合創始人 & CTO)。高二在 ACM 杭州賽區,總算見到了一直嚷嚷想見的朱澤園(IOI 金牌,ACM 總決賽亞軍,MIT 博士)、樓天城(樓教主,小馬智行聯合創始人 & CTO)和周源(IOI 滿分,ACM 總決賽亞軍,CMU 博士),「當時捧著那張合影,簡直比拿了冠軍還激動。」
他在文章中寫道,「當時我可能做夢也想不到,過了若干年,我會和唐文斌一起坐在火車的餐車地上打牌,會和郭華陽在紐約曼哈頓睡上下鋪。後來進了大學,和貝小輝成了好朋友,樓天城成了我的助教,胡偉棟(IOI 金牌,ACM 世界亞軍)會請我吃飯……當然了,進入大學以後,我不會再端著相機四處合影了。」
這些「如雷貫耳」的名字或多或少地影響了他的選擇。
大二時因為「覺得 Google 的飯好吃」,他想去 Google 實習,找了唐文斌。唐文斌找了大師兄張一飛,張一飛又剛好從 Google 來到 Facebook。於是他加入了 3000 人的 Facebook 實習。
在一次回校訪問期間,吳翼與常州高階中學競賽圈的師兄李磊相識。吳翼在姚班讀書時,李磊是吳翼後來的導師Stuart Russel教授的博士後,並推薦他來伯克利實習。
2016 年,李磊對他說,我要回國了,我要去一家公司,叫今日頭條,你也回來看看。吳翼就拒絕了微軟研究院的 offer,成為位元組第一個美國回去的 PhD 實習生,也是 AI Lab 的第 4 個成員,坐在楊震原(字節跳動副總裁、演算法和資料技術負責人)旁邊,研究如何訓練 LSTM (Long-Short Term Memory,長短期記憶) 給文章起標題,「驚!冒號。重磅!冒號。感嘆號!全是這種東西。」
做 NLP6 時不太會,他就給陳丹琦(IOI 金牌,普林斯頓大學計算機科學助理教授)打電話,「有問題就問她」。剛創業的時候,他也問了樓天城的建議。那些曾經「心中猶如浩瀚星辰般的神們」,成為了日後相伴左右的同行者。
不過最近吳翼開始提及一些新的名字。採訪中,他提到「張一鳴」19 次。他在 2016 年的位元組待過,通讀了張一鳴的微博、早年的 BP(Business Plan,商業計劃書),和張一鳴的同事聊早年的經歷,他意識到很多事情開始串起來——「這個人怎麼這麼牛?」
海邊
三件事會讓 INTJ 人吳翼開心,喜茶,集卡,仙劍。或許這三件事不過是一件事,體驗。
因為不喝咖啡,他規律性帶領博士生一同吸食喜茶。採訪中途他點了一杯不加糖的金鳳茶王,並多次檢視喜茶配送動態,「今天快樂了嗎?」
投會議論文主打「體驗式集卡」,AI、Machine Learning、Robotics、NLP、System、Programming Language 的會都投,「No reason,只是喜歡。」
他打卡了 39 個國家,318 個城市,踐行著一句他從中學記到現在的,一個北大學姐發的朋友圈——「我們去(旅遊)的國家數量要比我們年齡大」。
打仙劍四的時候,他貓著三天沒出門,「沉浸式體驗劇情」。一鍵安裝修改器,戰鬥直接靠調數值過去,「I don’t care」,關鍵在劇情,「每句話都要看的」。第一次玩仙三他用別人的檔中途開始,特別喜歡龍葵,通關回去再重頭打一遍雪見,「不可救藥」、「擋不住好嗎?」
「All in 體驗」,是邊塞科技的方向,也是他的科研興趣。這源於他作為一個「Deep I」人的敏銳的感知。
他有著強大的感受和共情能力。在公司的困難時刻,他約每個人 1-1 談話。所有人進來都坐在他對面,只有一個博士生進來,不說話,坐在他旁邊。「印象太深刻了,我當時就說,你給我一個月的時間,就一個月時間。」錄取這個博士生時,他只花了二十分鐘,感覺點都對了,「就是他了」,就錄進來了。
一次評比獎學金,吳翼的博士生高嘉煊說,本來已經決定了,到最後卻突然發現沒有自己的名字。「吳老師院裡每個老師挨個問了一遍,他真的問了。雖然最後還是沒給我,但我覺得很開心。」
他把學生視作他的夥伴,希望每一個學生都是開心的,會用心幫每一個學生找到自己的興趣、對應的平臺和資源。他希望大家價值觀一致,做對齊、多樣性演算法、機器人、強化學習、系統,都是為了最終人機互動的體驗服務。
寫作是吳翼的思考形式。他想不明白時常常會問自己,「答案不可能一下子冒出來,」今天可能想到了一點,明天想到了一點,總有一天突然明白,好像是這樣。「只能不停地問。」他不停地問,也在不停地寫,「後來會越來越覺得,人類的智慧是語言,人類的體驗,很大程度上也是由語言驅動的。」
2 月份吳翼去了一趟南極。站在南極的雪坡上,他開始思考一些和「體驗」相關的事情。想著想著,就開啟 Flomo,「寫了很長的一段東西。」寫完了,一個小時過去了。
在學習成為一名 CEO 的過程中,他開始和更多人聊,在更多的輸入中去理解和感受,「你不看世界,不知道世界在哪。」和張月光師兄(妙鴨相機產品負責人)吃飯,他聊嗨了。吳翼說,你知道嗎?我會一個人在海邊坐三小時,聽海浪。張月光一聽就打斷他,哎呀,我也凌晨兩點鐘睡不著,在鴨川邊上看著河川流過,就像生命從手中流逝。
吳翼發現自己和張月光師兄特別像。他也曾在夕陽時走在海邊,往那裡一坐,一個人坐到天黑。
他很喜歡海。海浪的每一個時刻是不一樣的。「它不能是完全沒有聲音的,它是有一點聲音的。你在那裡,就會覺得在感受。」
1. NOI,全國青少年資訊學奧林匹克競賽,National Olympiad in Informatics
2. 姚班,清華學堂計算機科學實驗班,由世界著名計算機科學家、圖靈獎得主姚期智院士創辦
3. NIPS,神經資訊處理系統大會,後改名 NeurIPS,Conference and Workshop on Neural Information Processing Systems
4. IOI,國際資訊學奧林匹克競賽,International Olympiad in Informatics
5. ACM-ICPC,國際大學生程式設計競賽,Association for Computing Machinery – International Collegiate Programming Contest; 現 ICPC 與 ACM 脫鉤後已獨立運營,文章中取常見的 ACM、ACM-ICPC 
6. NLP,自然語言處理,Natural Language Processing
「00 後狠人計劃」仍在持續招募中

掃描二維碼,和我們聊一聊!
歡迎一切有想法的年輕人
無論羽翼是否豐滿
監製|Jiafen
編導|Jiafen & Tammy
拍攝|Dan & Chushi
剪輯|Matthew
文|Wendi
推薦閱讀

相關文章