通往人類永生!AI時代如何儲存記憶和歷史?

我很喜歡一張我女兒的照片,她坐在我們家的後花園裡,微笑著,胖乎乎的小手抓著草坪。這張照片是在 2013 年用一臺快要報廢的三星數碼相機拍攝的,當時她已經快一歲了。我最初把這張照片儲存在筆記型電腦上,後來又將照片轉存到了一個外接硬碟中。
幾年之後,我把照片上傳到了 Google Photos。當我搜索“草坪”這個詞時,谷歌的演算法會把它找出來。我每次看到這張照片總會非常開心。
我每月向谷歌支付 1.79 英鎊以“續存”我的這些照片,而這也可以看作是我對這家成立僅 26 年的科技公司的巨大信任。但它幫我解決的麻煩似乎是值得的。現在有太多東西需要管理,資料的更新、儲存和保護所需的工作量實在是太大了。
我的父母就不存在這個問題。他們偶爾會用傳統膠片相機給我拍照,然後定期把照片打印出來放在相簿裡。如今,40 多年後,這些照片仍然可以在褪色泛黃的相紙上看到。 
我幾十年間的許多回憶也是寫在紙上的。我 20 多歲時出國旅行時收到朋友的來信,是用帶格子的紙寫的。我現在仍然還把這些信件珍藏在一個鞋盒裡,這對我而言是一個有趣的離線檔案。
如今,我們不再有空間限制。我的 iPhone 每年拍攝數千張照片。我們的 Instagram 和 TikTok 源源不斷地更新。我們總共傳送了數十億條 WhatsApp 訊息、簡訊、電子郵件和推文。
儘管所有這些資料都很豐富,但它們也更加短暫。也許在不久的將來,YouTube 將不復存在,其影片可能會永遠消失。Facebook 以及你叔叔的假期帖子將會消失。這些其實有先例可循。例如,第一個大型社交網路 MySpace 看似無意地刪除了 2016 年之前上傳的所有照片、影片和音訊檔案。整個 Usenet newsgroups(上古純文字社交網路)已經永遠離線並從歷史中消失了。今年 6 月,MTV News 檔案下線後,20 多年的音樂新聞也隨之消失。
對於許多資料檔案管理員來說,警鐘已經敲響。在世界各地,他們正在清理失效的網站或有風險的資料,以儘可能多地拯救我們的數字生活。其他人正在研究如何以可持續數百年甚至數千年的格式儲存這些資料。 
這些努力也提出了一個複雜的問題,對我們來說什麼才是重要的?我們如何決定保留什麼,放棄什麼? 
子孫後代將如何理解我們所儲存的東西?
“歡迎來到每位歷史學家、考古學家和小說家所面臨的挑戰。你如何理解剩下的東西?你如何避免透過現在的視角去解讀它呢?”文化人類學家 Genevieve Bell 說。
最後的機會
人類當今所創造的東西比歷史上任何時候都要多。在谷歌今年的 I/O 大會上,該公司執行長 Sundar Pichai 表示,每天會有 60 億張照片和影片上傳到 Google Photos,每分鐘會發送超過 4000 萬條 WhatsApp 訊息。
儘管如此,我們的資料比以往任何時候都更加脆弱。書籍可能會在一場圖書館火災事故中被燒燬,但資料卻更容易被永遠擦除。我們已經看到這種情況的發生,不僅是意外刪除 MySpace 資料之類的事件,有時也是有意為之。 
2009 年,雅虎宣佈將停止網頁託管平臺 GeoCities(最早一批使用者提供個人主頁服務的網站之一),這使得數百萬精心製作的網頁面臨被毀掉的命運。雖然這些頁面中的大多數可能看起來無關緊要,但它們代表了網際網路的早期發展,並且即將永遠消失。
如果不是由 Jason Scott 領導的一群資料檔案管理員志願者介入的話,那結果必將是這樣。
“我們立即採取行動,當時比較棘手的部分是,從下載幾個有趣的網站到突然承擔起早期網路的網站。”Jason Scott 回憶道。
他的團隊名為“Archive Team”,在永久關閉之前迅速動員並下載了儘可能多的 GeoCities 頁面。他和團隊最終儲存了該網站的大部分內容,從 2009 年 4 月到 10 月期間,他們總共存檔了數百萬個頁面。他估計他們成功下載並存儲了大約 1TB 的資料。但他指出,GeoCities 的大小不斷變化,並且峰值時約為 9TB,很多頁面可能永遠消失了。“它包含 100% 由使用者生成的作品、民間藝術以及人類書寫資訊和歷史的真例項子,這些在其他地方都找不到。”他說。
Jason Scott 以他的高頂禮帽和充滿賽博朋克風格的時尚感而聞名,他將幫助拯救那些面臨丟失風險網路資料作為自己的畢生使命。“人們越來越認識到檔案、儲存和保護是一種選擇、一種責任,而不是像潮汐一樣自然發生的事情。”他說。
Jason Scott 現在在網際網路檔案館擔任“自由檔案保管員和軟體管理員”,這是一個由網際網路先驅 Brewster Kahle 於 1996 年建立的線上圖書館,旨在儲存和儲存可能會丟失的一些資訊資料。 
在過去的二十年中,網際網路檔案館積累了一個龐大的從網路上收集的材料庫,其中包括 GeoCities 內容。它也不只是儲存純粹的數字內容,它還擁有大量經過修復和掃描的數字化圖書收藏。自成立以來,網際網路檔案館已收集了超 145PB 的資料,其中包括超過 9500 萬個公共媒體檔案,包括電影、影像和文字等,它已成功儲存了近 50 萬個 MTV 新聞頁面。
它的“Wayback Machine”可以讓使用者回溯到某個時間點檢視特定網站,其已經儲存了超 8000 億個網頁,並且每天還會新增 6.5 億個網頁。它還記錄和儲存來自世界各地的電視節目頻道,甚至包括 TikTok 和 YouTube 影片。它們都儲存在網際網路檔案館自己擁有的多個數據中心中。
這其實是一項“西西弗斯”式的任務。哈佛大學圖書館創新實驗室主任 Jack Cushman 表示,作為一個社會,我們正在創造如此多的新鮮事物,以至於我們必須刪除比前一年更多的東西。他在該實驗室幫助圖書館和技術人員相互學習。他說,“我們必須弄清楚什麼可以被儲存,什麼不能,那我們該如何決定呢?”
(來源:MIT TR)
檔案管理員必須不斷做出這樣的決定。例如,我們應該為子孫後代保留哪些 TikTok 影片?
丹麥奧胡斯大學的網際網路研究員 Niels Brügger 說,“我們不應該去想象未來的歷史學家會對我們感興趣。我們根本無法想象 30 年後的歷史學家想要研究什麼,因為我們沒有任何線索。所以我們不應該試圖預測和限制未來歷史學家可能會提出的問題。”
相反,在他看來,“我們應該儘可能多地儲存東西,並讓他們以後再想辦法。作為一名歷史學家,我肯定會選擇‘把所有的東西都拿到手’,然後歷史學家就會發現他們到底要用它做什麼。”
Jefferson Bailey 在網際網路檔案館為圖書館和機構開發存檔軟體,他表示,“在網際網路檔案館,最有可能丟失的資料會被優先考慮。那易逝的、有風險的或尚未數字化的材料更容易被破壞,因為它們是模擬或印刷格式的,這些都會得到優先考慮。”
人們可以請求將頁面存檔,圖書館和機構也會進行提名,工作人員會處理剩下的部分。在 TikTok 和 YouTube 等開放社交媒體上,世界各地圖書館的檔案團隊選擇某些帳戶,複製他們想要儲存的內容,然後與網際網路檔案館共享這些副本。它可以是每日趨勢快照,也可以是來自知名人士釋出的推文或影片等。
這個過程無法涵蓋所有內容,但它很好地反映了 21 世紀初期幾十年我們所關注的問題。雖然歷史記錄通常依賴於社會最富有的人的私人信件和財產,但收集推文的檔案過程總是會更加平等一些。
“你可以得到過去 30、40 年的一個非常有趣且多樣化的快照,這與 100 年前傳統檔案館的樣子完全不同。”Jefferson Bailey 說。 
作為公民,我們也可以幫助未來的歷史學家。Niels Brügger 建議人們可以將他們的個人信件“資料捐贈”到檔案館。“每年有一天,邀請所有人捐贈該周的電子郵件。如果你能年復一年地獲得成千上萬人電子郵件通訊的時間片段,那就太好了。”
Jason Scott 想象未來的歷史學家最終會使用人工智慧來查詢這些檔案,以獲得對我們生活方式的獨特見解。“你可以問機器‘你能給我看 1960 年的時候人們在遊樂園玩耍的照片嗎?’它會說‘給你!’我們到目前為止所做的工作都是因為相信這樣的事情可能存在。”他說道。
過去指引未來
人類知識並不總是隨著像 GeoCities 這樣戲劇性消失,有時它會逐漸被抹去。你不知道某件事已經消失了,直到你回去檢查一下。其中一個例子是“連結失效”,即網頁上的超連結不再指向正確的目標,讓你陷入死衚衕和斷頁。Pew Research Center 於 2024 年 5 月開展的一項研究發現,2013 年的網頁中有 23% 在目前已經無法訪問。
除了網頁連結,其他內容也需要持續的整理和關注。與紙張不同,現在儲存大部分資料的格式通常需要某些軟體或硬體才能執行,而且這些工具很快就會過時。例如,我們的許多檔案無法再讀取,因為讀取它們的應用程式已消失或資料已損壞。
緩解此問題的一種方法是定期將重要資料備份到最新的儲存介質中,這樣在需要讀取這些資料的程式丟失之前可以避免資料永遠丟失。在網際網路檔案館和其他圖書館,資訊儲存方式每隔幾年就會更新一次,但對於沒有得到積極維護的資料,可能只需要幾年時間訪問這些資料所需的硬體就不再可用。想想曾經無處不在的儲存介質,如 Zip 驅動器或 CompactFlash。 
一些研究人員正在尋找方法,以確保我們始終能夠訪問舊的數字格式,即使閱讀它們所需的裝置已成為博物館的藏品。Olive 專案由卡內基梅隆大學的 Mahadev Satyanarayanan 運營,旨在讓任何人都可以“只需點選一下”即可使用任何應用程式,無論它有多麼老舊。自 2012 年以來,他的團隊一直致力於建立一個巨大的去中心化網路,該網路支援虛擬機器(老式或已廢棄的作業系統及其執行的所有軟體的模擬器)。
像這樣保留舊資料是一計算機科學家 Danny Hillis 曾經稱之為“數字黑暗時代”的保護方法,這是對中世紀早期的致敬,當時由於缺乏書面材料,未來的歷史學家幾乎無從下手。
Danny Hillis 是麻省理工學院的校友,是平行計算的先驅,他認為我們這個時代快速的技術變革將使學者們對我們的經歷感到困惑。 
“隨著年齡的增長,我不斷地想,我怎樣才能成為一個好祖先?”
—— 網際網路創始人之一 Vint Cerf
“當人們回顧這一時期時,他們會說,‘哦,好吧,你知道,這是一種難以理解的快速技術變革,很多歷史在這場變革中丟失了。’”他說。
Danny Hillis 是“Long Now”基金會的創始人之一(與 Brian Eno 和 Stewart Brand 一起)是一個總部位於舊金山的組織,以其引人注目的藝術/科學專案而聞名,例如“Long Now 之鐘”,這是一個由 Jeff Bezos 資助的巨型機械時鐘,目前正在德克薩斯州西部的一座山上進行建造,旨在精準執行一萬年。它還創造了羅塞塔光碟,這是一個鎳圈,在微觀尺度上蝕刻了大約1500種世界語言的文件。Long Now 的部分重點是幫助人們思考我們如何為子孫後代保護我們的歷史,不僅是為了讓歷史學家更輕鬆。根據該組織的使命宣告,這是為了幫助我們成為“更好的祖先”。  
這種觀點與網際網路創始人之一 Vint Cerf 的觀點不謀而合。“隨著年齡的增長,我不斷地想,我怎樣才能成為一個好祖先?”他說。
“瞭解過去發生的事情有助於預測或解釋現在正在發生的事情以及未來可能發生的事情。在各種情況下,缺乏對過去的瞭解,對於一個社會來說是一種致命的弱點。”Vint Cerf 說。
“如果我們沒有記憶,我們就無法思考。而社會記憶的方式就是把事情寫下來並放入圖書館。”Brewster Kahle 同意這一點。他說,“如果沒有這樣的儲存庫,人們就會對什麼是真實的、什麼是不真實的感到困惑。”
Brewster Kahle 創辦網際網路檔案館是為了確保所有知識對任何人都是免費的,但他認為權力的平衡已經從圖書館向企業傾斜。從長遠來看,這可能會成為保持內容可訪問性的一個問題。
“如果讓公司來決定,那就全完了。”他說。“我們不僅談論經典出版的作品,比如雜誌或書籍,而且我們談論的是 Facebook 頁面、Twitter 頁面、你的個人部落格。所有這些現在都在企業平臺上,而這些都會消失。”
哈佛大學 Jack Cushman 表示,失去長期數字檔案對社會運作有實際影響,他指出我們的法律決定和文書工作大部分都是以數字方式儲存的。如果沒有永久的、不可更改的記錄,我們無法再依賴過去的判決來指導現在。他的團隊創造了一些方法,讓法院和法律期刊將網頁副本存檔在哈佛法學院圖書館,並作為法律先例記錄無限期地儲存在那裡。它還建立了工具,讓人們可以透過瀏覽歷史版本的網站或使用自定義 GPT 與這些檔案進行互動。
許多其他團體正在研究類似的解決方案。美國國會圖書館提出了儲存影片、音訊和網頁檔案的標準,以便子孫後代在未來可以訪問這些檔案。它敦促檔案管理員思考一些問題,比如資料是否包含如何訪問資料的說明,或者該格式的採用範圍有多廣泛(其想法是更流行的格式不太可能很快被淘汰)。
但最終,數字檔案比物理檔案更難儲存。Jack Cushman 表示,“如果你預算不足,依然可以把書放在安靜、黑暗的房間裡十年;但如果你一個月沒有支付 AWS 賬單,那你的檔案就會永遠消失了。”他說。
無法儲存的時間尺度
即使我們儲存數字資料的物理方式也是不穩定的。資料中心中用於災難恢復等應用的大多數長期儲存都是磁性硬碟驅動器或磁帶。硬碟幾年後就會出現磨損,磁帶或許要好一點,但它仍然無法讓你的儲存使用超過十年,然後就會開始出現故障。 
公司一直在進行新的備份,因此從短期到中期來看這倒不是什麼問題。但是,當您想要長期儲存重要的文化、法律或歷史資訊時,你需要考慮得更加周全。你需要既可以儲存大量資料,又可以經受住時間的考驗,並且不需要經常維護的裝置。 
DNA 經常被視為是一種適合長期儲存的新“介質”。它可以儲存驚人的資訊量,並且非常持久。骨頭碎片中含有數十萬年前的可讀取的 DNA。但目前在 DNA 中編碼資訊既昂貴又緩慢,並且需要專門的裝置來“讀取”資訊。這使得它作為我們世界知識的長期可靠備份是不切實際的,至少目前是這樣。
(來源:MIT TR)
幸運的是,已經有一些引人注目的替代方案。最先進的想法之一是 Project Silica,目前正在英國劍橋的微軟研究院進行開發,Richard Black 和他的團隊正在玻璃方片上建立一種新的長期儲存形式,可以持續數百年甚至數千年。
它們都是使用精準、強大的雷射製造的,該雷射在玻璃表面下方寫入奈米級變形以編碼資訊。這些微小的缺陷在玻璃中一層一層地堆積起來,然後使用強大的顯微鏡進行讀取,該顯微鏡可以檢測光的折射和偏振方式。Richard Black 說,“機器學習用於解碼位元,每個方片都有足夠的訓練資料,可以讓未來的歷史學家在需要時從頭開始訓練模型。”
當我手裡拿著其中一個方片時,感覺很科幻,彷彿我剛把它從《2001太空漫遊》中把它拿出來關閉 HAL。編碼資料在光線照射到缺陷處並散射時呈淡藍色。微軟分享的一段影片顯示,這些玻璃方片被微波爐加熱、煮沸、在烤箱中烘烤,並用強力磁鐵敲擊,都不會對其產生不良影響。
Richard Black 想象二氧化矽可用於儲存數十年的長期科學檔案,例如醫療資訊或天氣資料。至關重要的是,該技術可以建立氣隙(與網際網路隔絕)的檔案,並且不需要電力或特殊保護。它們可以被鎖在一個筒倉中,並且在幾個世紀後應該可以正常工作並且可讀。“人類從未停止製造顯微鏡。”他說。2019 年,華納兄弟公司在二氧化矽玻璃上存檔了一些過往舊作,其中包括 1978 年的經典電影《超人》。 
Richard Black 的團隊還為 Silica 設計了一個圖書館儲存系統。在劍橋辦公室的一個小房間裡,架子上擺滿了數千塊玻璃方片。安裝在貨架上的機器人沿著貨架快速移動,並偶爾停下來,從一個架子上解下自己,爬上或爬下到另一個架子上,然後再次飛馳而去。當他們到達特定位置時,他們會停下並從架子上取下一個方片,這個方片比 CD 還要小。它的內容會被讀取,然後機器人會回到原來的位置。
與此同時,在挪威斯瓦爾巴群島一座廢棄礦井的深處,GitHub 將一些歷史上最重要的軟體(包括 Linux、Android 和 Python 的原始碼)儲存在特殊的薄膜上,其建立者聲稱可以儲存超過 500 年。該膠片由 Piql 公司製造,表面塗有微小的鹵化銀晶體,暴露在光線下會永久變暗。高功率光源用於建立直徑僅為 6 微米的暗畫素,對二進位制資料進行編碼。然後掃描器讀取資料。每個卷軸上的說明都是用英語寫的,以防沒有人能解釋它的工作原理。
除了 GitHub 的收藏之外,這個被稱為“北極世界檔案館”的儲存設施還包括梵蒂岡和歐洲航天局提供的資料,以及來自世界各地政府和機構的各種藝術品和影像。例如,耶魯大學將包括 Microsoft Office 和 Adobe 在內的一系列軟體儲存再 Piql 膠片上。沿著這條路走幾百米,您會發現斯瓦爾巴全球種子庫,這是一個為子孫後代儲存世界生物多樣性精選的儲存設施。有關每個種子容器所容納內容的資料也儲存在 Piql 膠片上。
確保這些資訊以可以在幾百年後解碼的格式儲存將至關重要。正如 Jack Cushman 指出的那樣,我們仍然再爭論播放卓別林電影的正確方式,因為正確的播放速度未被記錄下來。“當研究人員在未來幾十年內嘗試訪問這些資料時,構建展示它們的工具會花費多少成本,以及我們出錯的可能性有多大?”他問道。
最終,所有這些專案的動機是它們將作為“人類的備份”。一種長期媒介,能夠抵禦世界末日,來自太陽的電磁脈衝,文明的終結,讓我們重新開始。 
讓人們知道我們在這裡。
幸運的意外
早在一世紀的某個時候,一位名叫 Claudia Severa 的羅馬婦女正計劃在英格蘭北部的一座堡壘舉辦一場盛大的生日聚會。她讓僕人在一塊木板上寫下一封邀請函送給她最好的朋友之一,然後用花體字簽名。 
她絕不會想到,近 2000 年後,文德蘭達石碑(其中最著名的是她的邀請函)將被用來讓我們對當時人們的日常生活有獨特的瞭解。
總是這樣。縱觀歷史,最奇怪、隨機的事物倖存下來,為歷史學家提供指導。同樣的情況也會發生在我們身上。儘管檔案管理員、圖書館員和儲存研究人員付出了努力,但我們仍然無法確定當我們離開很久之後哪些資料仍然可以訪問。而且他們可能會對他們在其中發現的東西感到驚訝。哪一批存檔的電子郵件或 TikTok 將成為未來歷史學家和人類學家解鎖我們時代的鑰匙?他們會怎麼看待我們呢?
歷史學家在我們的“數字碎片”中尋找線索,可能會留下一系列無法回答的問題,他們只能做出最好的猜測。
“你需要詢問誰擁有數字技術。”Genevieve Bell 說。“他們是如何為它提供電力的?誰有權對此做出選擇?它是如何儲存和傳播的?誰能看到?”
我們不知道 20 年、50 年或 100 年後什麼仍然會執行。也許 Google Photos 的雲端儲存將被廢棄,一堆舊硬碟被埋在地下變成垃圾堆,或者,如果幸運的話,Jason Scott 檔案保管員的精神繼承人可能會儲存它,以免它消失。
也許有人把它下載到某種玻璃方片上,然後把它藏在某個地方的保險庫裡。
也許有一天,某個未來的考古學家會發現它,並把它擦乾淨,然後發現它仍然可以讀取。 
也許他們會隨機選擇一個檔案,啟動某種軟體模擬器,然後找到 2013 年的數億張照片中的一張。 
看到一個胖乎乎、快樂的小女孩坐在草坪上。
(來源:MIT TR)
原文連結:
https://www.technologyreview.com/2024/08/19/1096284/data-archives-archeologists-tiktok-future-wayback-machine/

參考閱讀:
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~ 
AI交流,歡迎加我本人微信:FrankGPTs

相關文章