5年談判,AlexNet原始“原始碼”終於公開:Hinton團隊日誌註釋首次曝光,意義遠超程式碼本身

整理 | 華衛、核子可樂
近日,谷歌與計算機歷史博物館(CHM)聯合釋出了 AlexNet 專案原始碼。目前,專案的 Python 程式碼已作為開源軟體在 CHM 的 GitHub 頁面上對外開放,允許 AI 愛好者和研究人員一窺這項在計算發展史上開天闢地的關鍵成果。
AlexNet 是一種卷積神經網路 (CNN),其在 2012 年時被公認改變了 AI 領域的面貌,表明“深度學習”可以實現傳統 AI 技術所無法達成的諸多功能。
GitHub 連結:https://github.com/computerhistory/AlexNet-Source-Code
深度學習技術採用多層神經網路,無需明確程式設計即可從資料中學習,由此開闢了一條與依賴手工制定規則與特徵制定的傳統 AI 截然不同的實現路徑。深度學習推動了醫療保健、科學研究和無障礙工具的進步,但它也促進了深度偽造、自動監控以及廣泛失業的可能性等發展。但在 2012 年,這些負面後果對於當時的人們來說還只是個遙不可及的科幻夢想。專家只是驚訝於計算機終於能夠以接近人類的準確度識別影像內容。
作為 AI 發展的一個分水嶺,AlexNet 能夠以前所未有的準確度識別出照片中的物體——具體來講,它能正確將影像歸入 1000 個類別中的具體一個,如“草莓”、“校車”乃至“金毛犬”,且錯誤率遠遠低於以往的 AI 系統。
如同觀察最初 ENIAC 計算機的電路設計或者 Babbage 差分機一樣,AlexNet 的原始碼將讓未來的歷史學家們瞭解一項相對簡單的實現方案是如何激發出重塑整個世界的 AI 技術的。
AlexNet 原始真實程式碼得以公開
正如 CHm 在其博文中所介紹,AlexNet 源自多倫多大學研究生 Alex Krizhevsky 和 Ilya Sutskever 及其導師 Geoffrey Hinton 的工作。該專案證明,深度學習技術確實勝過了傳統計算機視覺方法。
神經網路憑藉遠超以往任何方法的質量識別出照片中的物體,並最終贏得 2012 年的 ImageNet 競賽。當時正在義大利佛羅倫薩聆聽相關演講的計算機視覺資深專家 Yann LeCun 立即意識到它對 AI 領域的重要意義,據報道他在演講結束後站起身來,稱 AlexNet 是“計算機視覺歷史上的一個明確轉折點”。更具體地講,AlexNet 的出現標誌著定義現代 AI 的三大關鍵技術由此開始融合。
計算機歷史博物館的軟體歷史學家 Hansen Hsu 為釋出具有歷史意義的 AlexNet 原始碼,與谷歌展開了長達五年的談判。這一程序始於 2020 年,當時 Hsu 聯絡了 AlexNet 共同開發者 Alex Krizhevsky,希望獲得程式碼釋出授權。但由於谷歌早在 2013 年已收購該團隊所屬的 DNNresearch 公司,相關智慧財產權歸屬谷歌,初次接觸未能達成共識。
轉機出現在 Krizhevsky 將 Hsu 引薦給谷歌深度學習專家 Geoffrey Hinton 後。作為當年研發團隊的核心成員,Hinton 主動協調博物館與谷歌相關部門建立正式溝通渠道。在隨後五年間,雙方團隊不僅需要解決複雜的法律授權問題,還需從眾多迭代版本中精準識別 2012 年原始程式碼——這成為專案推進的關鍵難點。正如 Hsu 強調,儘管網路上存在大量以"AlexNet"命名的重構版本,但真正引發人工智慧革命的原始實現始終未被公開,GitHub 上很多同名程式碼庫都是基於這篇著名論文的重新創作。
透過比對論文細節與程式碼架構特徵,雙方最終確認了包含 2012 年 ImageNet 大賽突破性成果的初始版本。該版本因其完整保留了原始硬體適配方案和早期神經網路設計正規化,被認定為最具歷史價值的技術遺產。
另外,除了程式碼本身的價值,HuggingFace 聯合創始人 Thomas Wolf 還發現,程式碼中的註釋也非常有啟發性。
他說:“也許真正的歷史在於 AlexNet 程式碼中,每個實驗配置檔案末尾的日誌評論。”很多網友也同意他的看法。
背後的技術創新
雖然 AlexNet 對 AI 的影響如今已經成為傳奇,但瞭解其背後的技術創新仍有助於解釋它為何能夠代表這個關鍵性的里程碑。具體來講,這一突破並非單一技術革命的結果,而是先前單獨開發的多項現有技術的優雅組合。
該專案融合了之前相互獨立的三大元件:深度神經網路、海量影像資料集與圖形處理單元(GPU)。深度神經網路構成了 AlexNet 的核心架構,其擁有多個層,能夠學習極其複雜的視覺特徵。該網路以 Krizhevsky 的名字命名,紀念他實現了這套系統並完成了廣泛的訓練過程。
與傳統 AI 系統不同,之前的 AI 專案要求程式設計師手動指定要在影像中尋找哪些特徵。相比之下,深度網路則能夠自動發現不同抽象級別的模式——從早期圖層的簡單邊緣與紋理,到更深層中的複雜物件部分。
但需要注意的是,AlexNet 使用專門用於處理影像等網格狀資料的 CNN 架構,這與當今大語言模型(例如 ChatGPT 和 Claude)依託的 Transformer 模型有所區別。後者源自谷歌研究院 2017 年的一項發明,Transformer 擅長處理順序資料並透過所謂“注意力”機制捕捉文字及其他媒體中的長距離依賴關係。
在訓練資料方面,AlexNet 使用了 ImageNet,即斯坦福大學教授李飛飛博士於 2006 年建立的資料庫。李飛飛收集了數百萬張網際網路影像,並將其整理成名為 WordNet 的資料庫當中。亞馬遜 Mechanical Turk 平臺專案的工作人員則幫助對這些影像進行了標註。
2020 年拍攝的 ImageNet 資料庫截圖
該專案需要強大的算力資源才能處理這些資料。為此,Krizhevsky 在父母家臥室的一臺計算機上安裝了兩張英偉達顯示卡,並藉此完成了訓練過程。神經網路會並行執行大量矩陣計算,而圖形晶片能夠很好地處理這些任務。在黃仁勳的領導下,英偉達於 2007 年釋出的 CUDA 軟體為其圖形晶片賦予了可程式設計能力,由此掀開了顯示卡在非圖形任務領域的一路狂飆。
ImageNet 和 NVIDIA 的 CUDA 最初都只是相對小眾的技術成果,正等待合適的環境來展現其真正價值。2012 年,AlexNet 首次將這些元素(深度神經網路、大資料集和 GPU 計算)結合在一起,並取得了開創性的成果。
Krizhevsky、Sutskever 和 Hinton 的論文於 2012 年秋季發表,並由 Krizhevsky 在 10 月義大利佛羅倫薩的一場計算機視覺會議上公開展示。經驗豐富的計算機視覺研究者對此持懷疑態度,但出席會議的 Yann LeCun 將其稱為 AI 領域的轉折點。他的判斷是正確的。在 AlexNet 之前,幾乎沒有頂級計算機視覺論文使用神經網路,而在它之後,幾乎所有的論文都開始採用神經網路。
2012 年發表的開創性論文已被引用超過 172,000 次
AlexNet 的影響當然不僅限於計算機視覺。如今,深度學習神經網路正在為語音合成、遊戲系統、語言模型和影像生成器等提供支援。而從負面角度來看,它們也在生成大量社交垃圾資訊、幫助集權者監控民眾甚至篡改歷史記錄,最終有可能造成嚴重的社會撕裂。
核心開發者們如今在做什麼?
在取得突破的 13 年之後,AlexNet 的核心開發者們將自己的專業知識運用到了不同方向,每個人都在以獨特的方式繼續為 AI 領域做出貢獻。
在 AlexNet 取得成功之後,Krizhevsky、Sutskever 與 Hinton 成立了名為 DNNresearch 的公司,並於 2013 年被谷歌收購。自此之後,各位團隊成員走上了不同的發展道路。Sutskever 於 2015 年參與創立了 OpenAI,該公司於 2022 年釋出了 ChatGPT,近期又推出了 Safe Superintelligence (SSI) 並以初創身份獲得 10 億美元融資。Krizhevsky 則於 2017 年離開谷歌,在 Dessa 從事新的深度學習技術研究。
Hinton 因警告未來 AI 系統的潛在危險而備受爭議,他於 2023 年從谷歌辭職,以便能更自由地討論這個話題。去年,Hinton 與 John J. Hopfield 共同獲得了 2024 年諾貝爾物理學獎,以表彰他們在上世紀 80 年代初在機器學習領域做出的開創性貢獻。訊息一齣,整個科學界備受震動。
關於成就 AlexNet 的最大功勞該歸於誰,Hinton 以他特有的幽默感向計算機歷史博物館做出了這樣的介紹:“Ilya 覺得我們應該試試,Alex 把事做成了,卻是我得了諾貝爾獎。”
參考連結:
https://arstechnica.com/ai/2025/03/you-can-now-download-the-source-code-that-sparked-the-ai-boom/
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
GPT-4o “吉卜力”爆火,Prompt、SD 白學了?!大模型能力進化碾壓一切
谷歌沒有閉源,但正把安卓變得“能看不能摸”
“我們要重建 TikTok 演算法”!Perplexity CEO 放話收購 TikTok,並開源關鍵技術
與全球 140+ 頂尖工程師共同解構 AI 時代的技術浪潮
會議推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習之約,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。

相關文章