從燒燬的卷軸到破碎的楔形文字泥板,人工智慧如何解密古代文獻?

據《自然》雜誌報道,義大利科學家正在開展一項名為“維蘇威火山挑戰”(Vesuvius Challenge)的研究,該研究旨在透過人工智慧解讀過去無法解讀的古代文獻,例如因火山爆發被燒燬的莎草紙卷軸、破碎的楔形文字泥板等。多國的研究團隊正在進行類似的嘗試。
閱讀古文字。圖片來源:《自然》雜誌引自慕尼黑大學。

編譯丨劉亞光
“維蘇威火山挑戰”的專案名稱來源於公元79年維蘇威火山的爆發,許多珍貴的莎草紙文獻在火山噴發中遭到損毀。18世紀,研究人員從義大利龐貝附近赫庫蘭尼姆的一座羅馬別墅遺蹟中發掘出數以百計的卷軸。這些卷軸寫有文字的部分多已炭化,使得研究人員很難進行解讀。
科學家們一直致力於用新的科技輔助解讀這些古老的文獻。美國肯塔基大學的計算機科學家布倫特·西爾斯(Brent Seales)就曾花費數年時間開發“虛擬展開”(virtual unwrapping)技術,即透過對古卷的內部結構進行高解析度掃描,再繪製橫截面,最後用演算法將其展開為平面圖像。2015年,這種技術成功解讀了以色列恩戈地的一個可追溯至公元三世紀的燒焦古卷。
恩戈地古卷寫作的墨水中含有鐵,在計算機掃描的過程中會發出光芒。與之不同的是,赫庫蘭尼姆古卷的抄寫員使用的是碳基墨水,在計算機掃描中幾乎不可見。解讀難度的增大迫使科學家團隊思考新的探索方案。西爾斯認為,即使無法直接看到墨水,他們或許可以透過訓練神經網路發現裸露的莎草紙和寫有墨水的莎草紙表面紋理的差異,進而推進解讀。
“維蘇威火山挑戰”在這種需求下應運而生。西爾斯的團隊於2023年3月和矽谷企業家納特·弗裡德曼(Nat Friedman)合作,發起該挑戰賽,他們公佈了卷軸表面的扁平影像,要求參賽團隊透過訓練神經網路來尋找差異,以贏取豐厚的獎金。最終,超過1000個團隊參與比賽。今年2月,一支由多位計算機專業學生組成的團隊獲得獎金。該團隊鑑定文字可能來自於伊壁鳩魯派哲學家菲洛德摩斯。
多名學者認為,近些年來,人工智慧的高速發展正在大幅重塑我們對古代世界的看法。早在2010年,人們就已經開始將深度學習應用於古代文獻的研究中。人工智慧也逐漸表現出與人類考古研究者協作的潛力。英國諾丁漢大學的西婭·索莫斯奇爾德(Thea Sommerschield)等人曾經使用公元前七世紀至公元五世紀之間的數萬個希臘銘文訓練了一個名為Pythia的模型,透過大量資料的訓練,向模型展示它從未見過的文字時,它可以根據上下文重建文獻中缺失的字元。2022年,他們對模型進行了升級,以使其能捕捉到更復雜的語言模式。索莫斯奇爾德表示,在測試中,面對人為製造的古代文字空白,人工智慧的修復準確率達到62%,高於人類研究者的25%。不過,若人類研究者在人工智慧的幫助下開展研究,修復準確率可以上升到72%。
人工智慧正在展現出的潛力已經為多個國家所重視。中國的多個研究團隊都曾嘗試借用人工智慧的力量破譯甲骨文。今年年底,在接受媒體採訪時,廈門大學資訊學院自然語言處理實驗室史曉東團隊就曾表示,團隊正在利用已經破譯出的1000多個甲骨文,透過人工將其拆解為IDS(表達結構的部首偏旁序列)。找出與現代文字IDS的對應關係後,再將這些資料“喂”給AI,實現學習。
西爾斯將這些有待科技進一步挖掘的文獻稱作“隱形圖書館”,包括中世紀書籍、古埃及木乃伊包裹物中的文字等等。“如今,人工智慧幫助我們打開了曾經無力訪問的資源。”
參考連結:
1.How AI is unlocking ancient texts — and could rewrite history
https://www.nature.com/articles/d41586-024-04161-z
2.“喚醒”甲骨文 廈大團隊嘗試用AI破譯古老文字
https://news.xmnn.cn/xmxw/202412/t20241211_286795.html
本文為編譯內容。編譯:劉亞光;編輯:西西;校對:穆祥桐。歡迎轉發至朋友圈。文末含《新京報·書評週刊》2023合訂本廣告

點選“閱讀原文”
開啟2024新京報年度閱讀推薦入圍書單~

相關文章