引發AI熱潮的原始程式碼開源了!Hinton靠它獲的諾獎,Ilya、Krizhevsky、李飛飛都有大貢獻

整理 | 華衛、核子可樂
近日,谷歌與計算機歷史博物館(CHM)聯合釋出了 AlexNet 專案原始碼。目前,專案的 Python 程式碼已作為開源軟體在 CHM 的 GitHub 頁面上對外開放,允許 AI 愛好者和研究人員一窺這項在計算發展史上開天闢地的關鍵成果。
AlexNet 是一種卷積神經網路 (CNN),其在 2012 年時被公認改變了 AI 領域的面貌,表明“深度學習”可以實現傳統 AI 技術所無法達成的諸多功能。
深度學習技術採用多層神經網路,無需明確程式設計即可從資料中學習,由此開闢了一條與依賴手工制定規則與特徵制定的傳統 AI 截然不同的實現路徑。深度學習推動了醫療保健、科學研究和無障礙工具的進步,但它也促進了深度偽造、自動監控以及廣泛失業的可能性等發展。但在 2012 年,這些負面後果對於當時的人們來說還只是個遙不可及的科幻夢想。專家只是驚訝於計算機終於能夠以接近人類的準確度識別影像內容。
作為 AI 發展的一個分水嶺,AlexNet 能夠以前所未有的準確度識別出照片中的物體——具體來講,它能正確將影像歸入 1000 個類別中的具體一個,如“草莓”、“校車”乃至“金毛犬”,且錯誤率遠遠低於以往的 AI 系統。
如同觀察最初 ENIAC 計算機的電路設計或者 Babbage 差分機一樣,AlexNet 的原始碼將讓未來的歷史學家們瞭解一項相對簡單的實現方案是如何激發出重塑整個世界的 AI 技術的。
AlexNet 原始真實程式碼得以公開
正如 CHm 在其博文中所介紹,AlexNet 源自多倫多大學研究生 Alex Krizhevsky 和 Ilya Sutskever 及其導師 Geoffrey Hinton 的工作。該專案證明,深度學習技術確實勝過了傳統計算機視覺方法。
神經網路憑藉遠超以往任何方法的質量識別出照片中的物體,並最終贏得 2012 年的 ImageNet 競賽。當時正在義大利佛羅倫薩聆聽相關演講的計算機視覺資深專家 Yann LeCun 立即意識到它對 AI 領域的重要意義,據報道他在演講結束後站起身來,稱 AlexNet 是“計算機視覺歷史上的一個明確轉折點”。更具體地講,AlexNet 的出現標誌著定義現代 AI 的三大關鍵技術由此開始融合。
據 CHM 解釋,該博物館於 2020 年起開始努力獲取這批具有歷史意義的程式碼。當時 CHM 館長 Hansen Hsu 曾聯絡 Krizhevsky 討論能否釋出原始碼,但由於谷歌在 2013 年收購了該團隊所屬的 DNNresearch 公司,因此智慧財產權歸屬問題導致開放計劃未能成行。
該博物館與谷歌合作了五年,就釋出事宜展開了談判,並認真確定了哪個特定版本才是 2012 年的最初實現——之所以需要認真琢磨這個問題,是因為網上已經存在大量號稱是“AlexNet”的二創版本,但都並非引發突破的真實程式碼。
背後的技術創新
雖然 AlexNet 對 AI 的影響如今已經成為傳奇,但瞭解其背後的技術創新仍有助於解釋它為何能夠代表這個關鍵性的里程碑。具體來講,這一突破並非單一技術革命的結果,而是先前單獨開發的多項現有技術的優雅組合。
該專案融合了之前相互獨立的三大元件:深度神經網路、海量影像資料集與圖形處理單元(GPU)。深度神經網路構成了 AlexNet 的核心架構,其擁有多個層,能夠學習極其複雜的視覺特徵。該網路以 Krizhevsky 的名字命名,紀念他實現了這套系統並完成了廣泛的訓練過程。
與傳統 AI 系統不同,之前的 AI 專案要求程式設計師手動指定要在影像中尋找哪些特徵。相比之下,深度網路則能夠自動發現不同抽象級別的模式——從早期圖層的簡單邊緣與紋理,到更深層中的複雜物件部分。
但需要注意的是,AlexNet 使用專門用於處理影像等網格狀資料的 CNN 架構,這與當今大語言模型(例如 ChatGPT 和 Claude)依託的 Transformer 模型有所區別。後者源自谷歌研究院 2017 年的一項發明,Transformer 擅長處理順序資料並透過所謂“注意力”機制捕捉文字及其他媒體中的長距離依賴關係。
在訓練資料方面,AlexNet 使用了 ImageNet,即斯坦福大學教授李飛飛博士於 2006 年建立的資料庫。李飛飛收集了數百萬張網際網路影像,並將其整理成名為 WordNet 的資料庫當中。亞馬遜 Mechanical Turk 平臺專案的工作人員則幫助對這些影像進行了標註。
該專案需要強大的算力資源才能處理這些資料。為此,Krizhevsky 在父母家臥室的一臺計算機上安裝了兩張英偉達顯示卡,並藉此完成了訓練過程。神經網路會並行執行大量矩陣計算,而圖形晶片能夠很好地處理這些任務。在黃仁勳的領導下,英偉達於 2007 年釋出的 CUDA 軟體為其圖形晶片賦予了可程式設計能力,由此掀開了顯示卡在非圖形任務領域的一路狂飆。
AlexNet 的影響當然不僅限於計算機視覺。如今,深度學習神經網路正在為語音合成、遊戲系統、語言模型和影像生成器等提供支援。而從負面角度來看,它們也在生成大量社交垃圾資訊、幫助集權者監控民眾甚至篡改歷史記錄,最終有可能造成嚴重的社會撕裂。
核心開發者們如今在做什麼?
在取得突破的 13 年之後,AlexNet 的核心開發者們將自己的專業知識運用到了不同方向,每個人都在以獨特的方式繼續為 AI 領域做出貢獻。
在 AlexNet 取得成功之後,Krizhevsky、Sutskever 與 Hinton 成立了名為 DNNresearch 的公司,並於 2013 年被谷歌收購。自此之後,各位團隊成員走上了不同的發展道路。Sutskever 於 2015 年參與創立了 OpenAI,該公司於 2022 年釋出了 ChatGPT,近期又推出了 Safe Superintelligence (SSI) 並以初創身份獲得 10 億美元融資。Krizhevsky 則於 2017 年離開谷歌,在 Dessa 從事新的深度學習技術研究。
Hinton 因警告未來 AI 系統的潛在危險而備受爭議,他於 2023 年從谷歌辭職,以便能更自由地討論這個話題。去年,Hinton 與 John J. Hopfield 共同獲得了 2024 年諾貝爾物理學獎,以表彰他們在上世紀 80 年代初在機器學習領域做出的開創性貢獻。訊息一齣,整個科學界備受震動。
關於成就 AlexNet 的最大功勞該歸於誰,Hinton 以他特有的幽默感向計算機歷史博物館做出了這樣的介紹:“Ilya 覺得我們應該試試,Alex 把事做成了,卻是我得了諾貝爾獎。”
參考連結:
https://arstechnica.com/ai/2025/03/you-can-now-download-the-source-code-that-sparked-the-ai-boom/
 直播預告
智慧編碼工具層出不窮,究竟怎麼選、如何用?3 月 5 日 -28 日,InfoQ 極客傳媒將發起「智慧編碼系列」直播,邀請阿里、百度、騰訊、位元組、商湯、思碼逸等企業一起線上 Coding,與所有開發者直觀感受和評測數款國內外線上編碼工具在企業真實生產場景中的表現。歡迎掃碼或點選按鈕一鍵預約直播、查看回放
今日薦文
凌晨“激戰”!谷歌亮相新模型,OpenAI 緊急甩出 GPT-4o 動動嘴就能 P 圖,網友:又要感謝 DeepSeek 了
“不用高階GPU”!螞蟻用國產AI晶片狂降百萬訓練成本,模型效能還與DeepSeek 2.5 相當
Siri 跳票、iOS 強綁 AI,庫克震怒換帥!大佬銳評:蘋果高層都是快 70 歲老頭兒,該換懂 AI 的年輕人上了
Qwen3部分技術細節被扒;年薪達945萬!80後女副總裁首登福布斯;位元組吳永輝親自帶實習生,取消Seed季度 OKR|AI週報
你也「在看」嗎?👇

相關文章