科技愛好者週刊#348:李飛飛,從移民到AI明星

這裡記錄每週值得分享的科技內容,週五釋出。
本雜誌開源[1],歡迎投稿[2]。另有《誰在招人》[3]服務,釋出程式設計師招聘資訊。合作請郵件聯絡[4][email protected][5])。

封面圖

5月1日,宇宙飛船造型的深圳科技館新館開館,上圖是設計團隊在新館前合影。(via[6]

李飛飛,從移民到 AI 明星

大家知道李飛飛[7]吧,AI 的明星教授。
她在斯坦福大學任教,是美國國家工程院等三院院士,擔任過斯坦福 AI 實驗室主任,以及谷歌雲 AI 首席科學家。
她1976年出生於北京,在成都長大,16歲全家移民美國。
我一直好奇,她怎麼走上 AI 這條路,從移民變成學術明星?
這幾天,我讀完她的自傳《我看見的世界》[8](中信出版集團,2024),才發現她的人生很有戲劇性,每當重要關頭,都有幸運的事情發生

(1)高中階段

她出生於一個普通家庭,中學階段並無過人之處。
我們家位於成都當時的外環路旁邊,小區由三棟一模一樣的塔樓組成,我家住在四樓。這個環路是不斷擴張的城市邊緣,一側是工廠,另一側是農田。
我進入了一所吸引全市優秀學生的中學。在那幾年裡,對女孩的預設和偏見讓我越來越不耐煩,這種情緒已經超出了課業的範圍。在同齡人中,我已經有“假小子”的稱號。
1992年,移民美國後,她家的生活頓時變得困難。一家三口擠在新澤西鄉下一間一居室公寓,她睡客廳,床就放在餐桌旁邊。
父親在一家華人商店修理舊相機,後來被辭退,從此失業。母親做雜貨店營業員,後因風溼性心臟病,回家休養。李飛飛下課後,就要去打工,有時在中餐館端盤子12個小時,每小時2美元。
最後,實在走投無路,她們家決定買下社群的一家乾洗店,靠洗衣為生。買下乾洗店需要10萬美元,全家僅有2萬美元儲蓄,其餘8萬美元都是借的。

(2)大學階段

1997年,李飛飛中學畢業,要申請大學了。
一開始,我的目標大學主要是州立大學和社群大學,而不是常春藤學校。但我一直對一所頂級高校念念不忘,那就是普林斯頓大學。
我們是一個靠從車庫市場淘來的舊貨才能勉強度日的家庭,連我用的計算器都是壞的,我們怎麼可能負擔得起常春藤學校的學費呢?
儘管如此,我還是無法抑制內心的衝動,提交了申請。就算只是象徵性地申請一下,我也感覺具有特殊意義。
她申請了普林斯頓大學,結果好夢成真,普林斯頓給了全額獎學金。
如果沒有全獎,以她家的經濟狀況,負擔不了學費。如果不去普林斯頓大學,她就不太可能走上學術道路了,更不要說後面的成就了。

(3)博士階段

大學畢業後,李飛飛原想去華爾街工作,解決家庭的經濟問題。
母親鼓勵她,繼續追求自己的夢想。於是,她選擇去加州理工學院讀研究生,方向是視覺識別機制。
2004年,李飛飛為了寫博士論文,需要圖片材料,來訓練演算法。她找了9000張圖片,組成了一個圖片集,手工對每張圖片進行分類標註,一共分成101類。
這個圖片集叫做 Caltech 101,演算法經過訓練,就能從新圖片識別出這101類物品。她因此順利拿到了博士學位。

(4)助教階段

博士畢業後,李飛飛先去伊利諾伊大學,後去普林斯頓大學,都是擔任計算機科學的助教。
她繼續探索視覺識別,想找到一種通用演算法,能夠識別所有種類的物品,而不是 Caltech 101 那樣,只能識別出101類物品。
這意味著她需要一個超大的圖片訓練集,能夠包含了世界上所有物品。這可太難了,所有人都反對這件事。
我們都是年輕的助理教授,所處的院系競爭激烈,在事業起步的那幾年裡,我們都面臨著“要麼發表論文,要麼完蛋走人”的局面。壓力之下,我們必須馬不停蹄、保質保量地完成工作,因為我們知道,稍有懈怠就可能與終身教授的職位說再見,一同失去的還有獲得穩定生計的最佳機會。
我聽到的勸阻之聲已經多得夠我用一輩子了(可能下輩子也夠了).
– 有上萬個類別的資料集有什麼用?大部分模型連一兩個類別都識別不準!
– 你知道用這麼多影像訓練一個模型要花多長時間嗎?這個時間可是用“年”來計算的。
– 別人要怎麼下載呢?你這個影像總量比大多數硬碟的儲存量還要大。
– 具體怎麼做,你有計劃了嗎?幾百萬張圖誰來做標註?要花多長時間?怎麼驗證所有內容的準確性呢?

(5)ImageNet

李飛飛堅持要做,這個通用圖片集起名為 ImageNet。那時是2006年。
她想到一個思路,英語詞典有一些基本名詞,用來解釋其他所有物品。只要統計一下,基本名詞有多少個,每一個又有多少變體,那就得到了所有物品的基本類別。
統計結果是3萬類。因此,李飛飛估計,ImageNet 將有3萬個類別,總共包含2000萬張圖片,每張圖片都要有分類和標註,需要從幾億張圖片裡面篩選出來。
我們發出了郵件,招募願意幫忙從網上下載和標註圖片的本科生,工作時間靈活,每小時10美元。我們招募到一些學生,但是按照這樣的進度,完成整個專案需要19年。
這太慢了,專案方法做了改進,用指令碼自動去谷歌搜尋圖片,然後抓取。但是這樣也需要人工核對和篩選,只把19年的時間縮短到18年。
幸運的是,亞馬遜剛剛釋出了眾包平臺“土耳其機器人”(Amazon Mechanical Turk,AMT)。在這個平臺上,你可以出錢,透過網際網路,把任務分包給世界各地接活的人。
他們透過這個平臺,將 ImageNet 分包出去,投入的人數一下子擴充套件到幾千人,而人均費用只是原來的幾十分之一。
2009年6月,ImageNet 的初始版本終於完成了。我們成功達成了目標:收集了1500萬張圖片,涵蓋了2.2萬個不同類別。這些圖片篩選自近10億張候選圖片,並由來自167個國家的4.8萬多名全球貢獻者進行了標註。

(6)ILSVRC 演算法競賽

ImageNet 雖然完成了,但在學術界毫無反響,沒有太多人關注。
我們遇到了第一個也是最嚴重的挫折:在當年的“計算機視覺與模式識別大會”上,ImageNet 被降級為“海報展示”。
所謂的“海報展示”是一個學術術語,意味著我們將不能在演講廳內向聽眾展示我們的工作,只能在會場的指定區域裡擺放一幅印有專案摘要的大幅海報,希望能引起路人的興趣。
我想過 ImageNet 可能被證明是對的,也可能被證明是錯的,對於這兩種可能性,我都做好了準備。無論是哪種結果,都會是一個學習的機會。然而,我萬萬沒想到,它被忽視了。
由於 ImageNet 得不到承認,李飛飛想到一個辦法,她要每年舉行一次演算法比賽,看看哪種演算法識別 ImageNet 圖片集的正確率最高。
這樣一來,在計算機視覺領域,ImageNet 就會成為一個比較基準,各種演算法都需要用它表示自己的識別能力,大家就不會忽視它了。這個比賽叫做 ILSVRC(ImageNet 大型視覺識別挑戰賽,ImageNet Large Scale Visual Recognition Challenge)。
2010年,第一屆比賽令人失望,11個團隊提交了35個參賽演算法。冠軍演算法是傳統的圖片向量比較,並無創新之處,正確率也不高。
2011年,第二屆比賽更慘,獲勝演算法還是圖片向量比較,正確率只提高了2個百分點。這意味著,沒有任何創新和進展。
最糟糕的是,參賽人數也出現急劇下降,參賽演算法從35個減少到15個,願意為此付出努力的人似乎越來越少。
說這種經歷“讓人羞愧”已經遠遠不足以描述我們的心情了。為了推動 ImageNet 的發展,我們傾注了多年的心血,蒐集的圖片數量遠遠超過以往的任何資料集,還精心策劃了一場國際競賽來探索它的能力,但結果卻只是簡單地重複了現狀。如果說ImageNet 是一場賭注,是時候開始思考我們是不是已經輸了。
眼看這個專案就要失敗了,幾年的心血付之東流。就在這個時候,李飛飛人生最大的驚喜和反轉來臨了。
2012年,第三屆比賽,一個加拿大團隊使用被學術界遺忘已久的卷積神經網路,一舉將圖片識別正確率提高了10%。
接下來的事情,就是被寫進教科書的歷史了。全世界被神經網路的效果轟動了,AI 研究出現突破,人類進入 AI 時代。
李飛飛徹底翻身,一舉成名,從助教變成世界知名的 AI 研究領頭人物,人生從此海闊天空。
她的故事令人感嘆,如果神經網路演算法沒有在2012年出現,而是再晚幾年,或者更早一點,亞馬遜的土耳其機器人眾包平臺沒有在2005年誕生,一切會怎樣?
這就是時運吧。科學家的人生和科學發現一樣,都是由一些偶然事件推動的。個人奮鬥固然重要,但是關鍵時刻還是離不開幸運。

科技動態

(1)傳統的腦電圖,需要在頭上佈滿電極(下圖),有很多限制,也不舒適。
美國賓州大學的科學家,發明了一種頭髮電極[9],細得像頭髮一樣,可以直接粘在皮膚上,淋浴和運動也不會掉下。
這種電極目前還是有線的,但是有計劃開發無線版本。
(2)百度地圖[10]在導航路面植入廣告。
(3)谷歌的 AI 筆記應用 NotebookLM,可能很快就會新增“影片概覽[11]”功能。
它已經支援生成音訊和 AI 問答,如果再支援生成影片,簡直難以想象,是否還需要真人老師。
直接上傳課本,它就生成講課影片了。
(4)安卓官方的桌面模式[12],洩露了執行照片。下圖是它的多視窗模式。
但是 Android 16 可能來不及,釋出要等到 Android 17。
手機當作桌面電腦,已經不遠了。
(5)百度公佈“動物語言轉換方法、裝置、電子裝置及儲存介質[13]”專利,使用 AI 識別動物的情感狀態,轉換為人類能夠理解的語言,從而實現動物與人類之間的情感交流和理解。

文章

1、一段讓 Chromium 機器人崩潰的程式碼[14](英文)
作者介紹了一段 JS 程式碼,讓Chromium 無頭瀏覽器(Puppeteer 和 Playwright)崩潰。它可以用來識別,訪問者是不是機器人。
2、Git worktree 簡介[15](英文)
Git 倉庫同時只能有一個工作區,如果想同時建立多個工作區,可以使用 git worktree 命令。
3、用 Go 移植 TypeScript 的重要影響[16](中文)
微軟官方要用 Go 語言重寫 TypeScript 專案,本文分析這樣做的目的和影響。(@imbant[17] 投稿)
4、為什麼大模型可以控制手機[18](中文)
開源專案 droidrun[19] 可以透過大模型,以自然語言操作安卓手機的 APP。本文分析它是如何做到的。(@lezhi12[20] 投稿)
5、創業公司可能無法承受微服務[21](英文)
本文提出,微服務需要很強的運維能力,並會增加程式碼複雜性,創業公司不要盲目採用,單體應用更簡單。
6、從 Prettier 和 ESLint 遷移到 BiomeJS[22](英文)
BiomeJS 是用 Rust 語言寫的工具,對 JS 程式碼進行格式化和語法檢查,速度極快,可以取代 Prettier 和 ESLint。
7、如何自己託管 Obsidian[23](英文)
Obsidian 是一個優秀的筆記軟體,作者給出詳細步驟,自己託管 Obsidian 伺服器,從而在任何地方都可以透過瀏覽器使用。

工具

1、Void[24]
開源的 AI 程式碼編輯器,Cursor 的替代品,基於 VS Code。
2、Hyvector[25]
線上的向量圖(SVG 檔案)編輯工具。
3、Karakeep[26]
一個自搭建的書籤 App,提供全文搜尋和 AI 自動分類標籤,參見介紹文章[27]
4、PairDrop[28]
區域網傳輸檔案的 Web 應用,程式碼開源[29],類似於 ShareDrop[30] 和 LocalSend[31]
5、zVault[32]
NAS 作業系統 TrueNAS 原本基於 FreeBSD,正在轉向 Linux。zVault 是一個社群的分支,由社群推動繼續在 FreeBSD 開發。
6、YAMLResume[33]
使用 YAML 格式建立簡歷,並透過 LaTeX 輸出 PDF,方便進行版本管理。(@xiaohanyu[34] 投稿)
7、AllinSSL[35]
開源的 SSL 證書自動化管理平臺,集證書申請、管理、部署和監控於一體。(@KincaidYang[36] 投稿)
8、Basecoat[37]
一套基於 Shadcn UI 的元件庫,但是不使用 React。
9、Scraperr[38]
網路爬蟲的 Web 控制檯。

AI 相關

1、MathModelAgent[39]
開源的 AI 應用,自動完成數學建模,生成一份完整的論文。(@jihe520[40] 投稿)
2、BiliFilter[41]
基於本地大模型的 Bilibili 彈幕過濾器,對彈幕分類過濾。(@ddddng[42] 投稿)
3、AI 語音克隆[43]
免費的語音克隆工具,3 秒錄音克隆人聲。(@xiaodaidai0701[44] 投稿)

資源

1、I Don't Have Spotify[45]
一個音樂搜尋引擎,輸入 Spotify、YouTube、Apple、SoundCloud 的音樂連結,它會提供該音樂在其他網站的連結。
2、IPinfo Lite[46]
地理位置資料庫 IPinfo 推出的免費服務,IP 查詢地理位置,無需信用卡,API 請求次數不受限制。
1、Web Component 教程[47]
英文的 Web Component 入門教程。

圖片

1、數字鍵盤的樣式[48]
數字鍵盤來源於電話。
早期的電話都採用旋轉的撥號盤。20世紀50年代,電話可以長途直撥了,撥打長途電話需要輸入11個號碼,撥號盤就太麻煩了,導致了數字鍵盤的誕生。
1955年,AT&T 公司的研究人員,做過一個研究,10個數字的小鍵盤應該怎樣排列,效率最高?
他們一共列出了15種排列。
經過研究和比較,使用者更喜歡從左到右、從上到下的佈局。
具體來說,兩排五列水平佈局與現在普遍使用的 3×3+1 佈局速度相當,差異很小。
AT&T 公司最終為電話選擇了 3×3+1 佈局,主要原因大概是它比較緊湊。

文摘

1、我第一次加入創業公司的教訓[49]
一位開發者大學畢業後,加入了一家創業公司。
他逐漸發現,公司內部有很多矛盾,產品決策也有失誤。
最終,公司開始走下坡路,他就提交了辭呈,放棄了自己的期權。
離職後,他寫了一篇文章[50],總結了自己得到的教訓。
(1)即使創業公司的每個員工都很有動力,但如果創始人並非頂尖人才,那麼取得巨大成功的機會很低(但你仍然可以從中學到很多東西)。
(2)創業公司只有兩種工作:開發和銷售。如果創始人既不做開發,也不做銷售,不知道他在做什麼,那就相信你的直覺吧。
(3)創業公司的產品還未得到市場驗證的情況下,為多個平臺構建原生應用,是一種極其低效的行為。如果同時為兩個產品在每個平臺開發兩個原生應用,簡直是瘋了。
(4)創業公司的路演,大多是浪費時間。產品的驗證來自於與使用者交流和迭代,而不是打動評委。
(5)沒有什麼比並肩作戰、共同實現夢想更神奇的了。如果你經常見不到創始人,所有的溝通都只能透過遠端進行,那可不是好兆頭。
(6)如果創業公司沒有經過嚴格的面試,就錄用了你,這是一個危險訊號。他們到底是基於能力來錄用你,還是因為你是第一個同意只收很少的報酬,就為他們工作的工程師?

言論

1、
科學專案日益大型化和制度化,使得個人的好奇心和創新,對於科學的推動正在減弱。科學的進步越來越依靠有效的組織和大量的投入。
— 《思想家和實幹家》[51]
2、
除非你參與過歷史遺留專案,否則你不能自稱高階工程師。
— infobip.com[52]
3、
是什麼讓矽谷的公司如此強大?
不僅僅是它們數十億美元的資金或數十億使用者,也不僅僅是因為它們擁有驚人計算能力和資料儲備,讓學術實驗室的資源相形見絀。它們之所以強大,是因為成千上萬個才華橫溢的人在同一個屋簷下共同努力。
— 《李飛飛自傳》
4、
以前的小團隊是1名高階開發人員 + 5名初級開發人員,以後是1名高階開發人員 + AI 大模型。
— Hacker News 讀者[53]
5、
我打賭,以後的工程師必須深入底層,更接近矽片的層面。開發應用程式將不再需要精通技術的人,AI 讓每個人都可以開發自己的應用程式。
— Hacker News 讀者[54]

往年回顧

(完)

References

[1] 開源:https://github.com/ruanyf/weekly[2]投稿:https://github.com/ruanyf/weekly/issues[3]《誰在招人》:https://github.com/ruanyf/weekly/issues/6771[4]郵件聯絡:mailto:[email protected][5][email protected]:mailto:[email protected][6]via:https://www.szstm.org.cn/[7]李飛飛:https://baike.baidu.com/item/%E6%9D%8E%E9%A3%9E%E9%A3%9E/7448630[8]《我看見的世界》:https://book.douban.com/subject/36672955/[9]頭髮電極:https://newatlas.com/medical-devices/3d-printed-hairlike-eeg-electrode/[10]百度地圖:https://finance.sina.cn/7×24/2025-05-09/detail-inevxzxx9213651.d.html[11]影片概覽:https://www.xda-developers.com/notebooklm-video-overviews/[12]桌面模式:https://www.androidauthority.com/android-desktop-mode-leak-3550321/[13]動物語言轉換方法、裝置、電子裝置及儲存介質:https://www.sohu.com/a/892944913_120347736[14]一段讓 Chromium 機器人崩潰的程式碼:https://blog.castle.io/detect-and-crash-chromium-bots-with-one-weird-trick-bots-hate-it/[15]Git worktree 簡介:https://opensource.com/article/21/4/git-worktree[16]用 Go 移植 TypeScript 的重要影響:https://imbant.github.io/blog/2025/05/07/ts-go/[17]@imbant:https://github.com/ruanyf/weekly/issues/6817[18]為什麼大模型可以控制手機:http://hanzilu.com/wordpress/?p=376[19]droidrun:https://github.com/droidrun/droidrun[20]@lezhi12:https://github.com/ruanyf/weekly/issues/6822[21]創業公司可能無法承受微服務:https://nexo.sh/posts/microservices-for-startups/[22]從 Prettier 和 ESLint 遷移到 BiomeJS:https://blog.appsignal.com/2025/05/07/migrating-a-javascript-project-from-prettier-and-eslint-to-biomejs.html[23]如何自己託管 Obsidian:https://www.xda-developers.com/i-self-hosted-obsidian-so-i-can-access-it-in-web-browser-anywhere/[24]Void:https://github.com/voideditor/void[25]Hyvector:https://www.hyvector.com/[26]Karakeep:https://github.com/karakeep-app/karakeep[27]介紹文章:https://www.xda-developers.com/this-self-hosted-app-showed-me-been-using-bookmarks-wrong-all-life/[28]PairDrop:https://pairdrop.net/[29]程式碼開源:https://github.com/schlagmichdoch/PairDrop[30]ShareDrop:https://github.com/szimek/sharedrop[31]LocalSend:https://localsend.org/zh-CN[32]zVault:https://www.zvault.io/[33]YAMLResume:https://github.com/yamlresume/yamlresume[34]@xiaohanyu:https://github.com/ruanyf/weekly/issues/6837[35]AllinSSL:https://github.com/allinssl/allinssl[36]@KincaidYang:https://github.com/ruanyf/weekly/issues/6842[37]Basecoat:https://basecoatui.com/[38]Scraperr:https://github.com/jaypyles/Scraperr[39]MathModelAgent:https://github.com/jihe520/MathModelAgent[40]@jihe520:https://github.com/ruanyf/weekly/issues/6825[41]BiliFilter:https://github.com/ddddng/BiliFilter/[42]@ddddng:https://github.com/ruanyf/weekly/issues/6833[43]AI 語音克隆:https://aivoicecloning.io[44]@xiaodaidai0701:https://github.com/ruanyf/weekly/issues/6850[45]I Don't Have Spotify:https://idonthavespotify.donado.co/[46]IPinfo Lite:https://ipinfo.io/lite[47]Web Component 教程:https://plainvanillaweb.com/index.html[48]數字鍵盤的樣式:https://www.doc.cc/articles/a-brief-history-of-the-numeric-keypad[49]我第一次加入創業公司的教訓:https://blog.jacobstechtavern.com/p/the-side-hustle-from-hell[50]一篇文章:https://blog.jacobstechtavern.com/p/the-side-hustle-from-hell[51]《思想家和實幹家》:https://www.strangeloopcanon.com/p/on-thinkers-and-doers[52]infobip.com:https://www.infobip.com/developers/blog/seniors-working-on-a-legacy-project[53]Hacker News 讀者:https://news.ycombinator.com/item?id=43955519[54]Hacker News 讀者:https://news.ycombinator.com/item?id=43965599[55]OpenAI 的圖書館工位:https://www.ruanyifeng.com/blog/2024/05/weekly-issue-301.html[56]國產單板機值得推薦:https://www.ruanyifeng.com/blog/2023/04/weekly-issue-251.html[57]中國需要成立半導體部:https://www.ruanyifeng.com/blog/2022/04/weekly-issue-201.html[58]NFT 是什麼,聽說能賺錢: https://www.ruanyifeng.com/blog/2021/03/weekly-issue-151.html


相關文章