
(來源:MIT Technology Review)
儘管我不是機器人,但在網際網路上我常常需要花費大量時間來證明“我不是機器人”,比如,點選照片中的人行橫道和摩托車、辨認扭曲的數字與字母,甚至還要勾選小方框來確認自己並非機器人。
這些所謂的驗證碼,也就是“完全自動化的公共圖靈測試以區分計算機和人類”,本應是用於防範垃圾郵件和資料爬取的,但如今看來,機器人在破解驗證碼方面似乎比人類更為擅長,這著實令人費解。
幸運的是,在現實世界中區分真人和機器人要容易得多,至少目前是這樣。其中,一個明顯的區別在於我們的獨特技能。
很大程度上,機器人往往擅長那些成年人覺得頗具難度的事情,比如國際象棋達到世界冠軍水平,或者進行大數乘法運算;然而對於一個五歲小孩都能輕鬆完成的事情,它們卻覺得困難重重(甚至根本做不到),比如接住一個球,或者在房間裡自由走動而不撞到任何東西。
這種教機器人抽象思維相對容易,而教它們基本的感官、社交和運動技能卻非常困難的現象被稱為莫拉維克悖論(Moravec's paradox)。
該悖論源於機器人學家漢斯·莫拉維克(Hans Moravec)在 20 世紀 80 年代末的一項研究,大體意思是說對人類來說困難的事情(數學、邏輯、科學推理),對機器而言卻很輕鬆;而對機器來說困難的事情(繫鞋帶、讀懂人類情緒、進行對話),人類做起來卻輕而易舉。

圖|文中提到的三本書籍(來源:MIT Technology Review)
科學作家伊芙·赫羅爾德在其新書《機器人與愛它們的人:在社交機器人時代堅守人性》(Robots and the People Who Love Them: Holding On to Our Humanity in an Age of Social Robots)中提出,得益於機器學習的新方法以及人工智慧的持續進步,我們終於開始逐步破解這一悖論。
在她看來,“由此帶來的個人和社會機器人新時代即將來臨,這將迫使我們重新審視從友誼、愛情到工作、醫療和家庭生活的方方面面。”
為了給讀者展示這個新的社交機器人世界的模樣,赫羅爾德提到了由日本軟銀集團和法國 Aldebaran Robotics 開發的一款人形機器人 Pepper。
“像 Pepper 這樣的機器人很快會變得不可或缺,因為它們能與我們建立獨特的高度個性化的聯絡。”赫羅爾德寫道,“這個小夥伴能夠輕鬆讀懂我們的表情和情緒狀態,並以其孩童般的聲音做出恰當回應。”
Pepper 聽起來有點耳熟,那可能是因為自 2014 年推出後的數年間,它一直被大肆宣傳為世界上第一款 “情感機器人”。
然而在 2021 年,軟銀突然停止了 Pepper 的生產,原因是需求不足,以及 2,000 美元的售價過高且功能欠佳。
寫書往往需要耗費很長時間,並且在寫作過程中很多事情也會發生變化,Pepper 在這本書出版前三年就已停產,而作者卻似乎忽略了這一點。
將一個無人問津的產品定位為新社交機器人革命的一部分,確實讓人難以信服。對此,赫羅爾德可能會回應稱,她的書更多關注的是人類自身而非機器人,在我們與機器人建立的新關係中人類的角色才是重點。這似乎也有一定道理。
但儘管她認真剖析了我們賦予機器人人性化的傾向,並帶領讀者瞭解了一些關於深度學習和恐怖谷效應的基礎研究,可她對人性和心理學的結論往往顯得過於簡單化,或者與她所提供的證據脫節。
對於一位聲稱“撰寫關於未來的文章,唯一的方式就是保持高度謙遜”的作者來說,書中仍有許多令人質疑的論斷(比如 “到目前為止,總體而言,我們對演算法的信任是合理的”),以及一些過於絕對的預測(比如 “毫無疑問,某種陪伴機器人很快就會進入工業化國家的家庭”)。
在書的開頭部分,赫羅爾德提醒讀者:“試圖展望未來的科普寫作,往往更多地反映了寫作時的時代特徵,而非未來世界的真實面貌。” 從這個角度來看,她的書確實很有啟發性。
例如,這本書反映了我們傾向於將技術影響的討論簡化為二元對立(比如“這太棒了”/“這太糟糕了”)、面對不良後果我們常常表現出無奈的預設態度、科普作家很容易受到行業炒作的影響,以及令人不安的是機器的邏輯和價值觀(速度、效率)在很大程度上已經被人類所接納。
這些可能並非赫羅爾德想要傳達的要點,但如果這本書證明了什麼的話,那就是並非機器人變得越來越像我們,而是我們變得越來越像機器人。
若想深入瞭解人類社會表達的一個核心媒介,特別是我們如何嘗試將其轉移至機器上,那麼莎拉·貝爾的《機器之聲:會說話機器的文化史》(Vox ex Machina: A Cultural History of Talking Machines)呈現了一個引人入勝且見解深刻的 20 世紀“語音合成”發展歷程。
貝爾是密歇根理工大學的教授,她對我們如何嘗試以數字方式再現人類的各種表現形式感興趣,無論是言語、情感還是視覺形象。
正如她在書中開篇所指出的,“理解這一過程往往意味著要了解工程師(幾乎都是男性)是如何決定測量和量化我們身體的各個方面的。”
故事始於 20 世紀許多重要技術突破的中心 —— 貝爾實驗室。到 20 世紀 30 年代,貝爾實驗室的研究人員已經開始將人類語音視為一種訊號,或者是“一種特殊的聲學程式碼”。
其中,工程師霍默·達德利將舌頭比作電報機的按鍵,認為它只是我們口腔內的一種工具,用來調製從聲門發出的“載波”。
達德利相信,就像摩爾斯電碼將文字分解以便之後重組一樣,語音以及構成人類豐富語音表達的一切,同樣可以被壓縮或簡化為脈衝訊號。
按照貝爾的說法,“像達德利這樣的研究人員為此後幾乎所有的語音合成工作打下了基礎。他們將對人類語音機械本質的假設融入了後續所有技術中。”

圖|1939年在紐約世界博覽會上首次亮相的 Voder 是一種由真人操控的語音合成器(來源:MIT Technology Review)
達德利最著名的早期研究成果之一是 Voder(語音演示器),它在 1939 年紐約世界博覽會上首次亮相,其本質上是一個“小型語音樂器”,由“Voderettes”操作。這些 Voderettes(操作員)需要經過一年的訓練,透過操縱 10 個按鍵、一個腕板和一個踏板掌握這臺機器能發出的所有語音。
這種會說話機器的演示儘管經過精心編排,但還是受到了參觀者和媒體的熱烈追捧,以至於人們似乎賦予了 Voder 遠超其實際水平的理解力和自主性。
即使在整個演示過程中,Voder 的操作員始終在人們的視線範圍內,但媒體通常只是順帶提及負責控制發出聲音的人(有的甚至根本不提)。
顯然,Voder 被擬人化了,並賦予了高度的自主權。《大眾科學》雜誌寫道:“它沒有嘴巴和喉嚨,但說起話來滔滔不絕。”
從 Voder 和 Elektro the Moto-Man,到會說話的拼寫學習翫具 Speak & Spell 和 Perfect Paul,再到 Alexa 和 Siri,這本書不僅展示了語音合成的產品,還揭示了使它們成為可能的基礎技術。
這是一個引人入勝的探索之旅,尤其是當貝爾發現當時公眾對這些 “會說話的機器” 的反應預示了幾十年後人們對“會思考的機器” 的反應。
雖然用機器比喻人類、用人類比喻機器的做法可以追溯到幾個世紀前,但機器模擬人類語言的能力(無論多麼蹩腳)為“機器擬人化賦予了新的內涵”,貝爾表示。
換句話說,機器越能 “說話”和“思考”,我們就越認為自己也是機器的一部分。誠然,人們不禁會發現,這與當今人工智慧的發展有著驚人的相似之處,特別是我們願意減少或忽視讓我們成為人類的特質,以更好地適應產品所展示的“智慧”屬性。
比如,OpenAI 的薩姆·奧爾特曼對大語言模型本質上只是出色的文字計算器這一事實的回應,“我是一隻隨機鸚鵡,你也是。” 他說道。
“別擔心自動化會搶走我們的工作,現實情況正好相反,其是人類搶走了機器人的工作。”
——Antonio A. Casilli
或許,Voder 只是語音合成領域最早的初步嘗試之一,它的實際運作方式(依賴大量人類訓練和勞動)與公眾及媒體的認知(將其視為具有自主發聲能力的機器)之間的脫節,預示了我們今天仍面臨的問題。
安東尼奧·卡西利在《等待機器人:自動化的僱傭勞動力》(Waiting for Robots: The Hired Hands of Automation)一書中指出:儘管有相反的觀點,但人類的參與仍然是所有現代自動化和人工智慧工具的關鍵組成部分,無論這些工具多麼先進。不同之處在於,如今這個角色不像 Voderettes 那樣明顯,而是被隱藏起來了。
卡西利是巴黎綜合理工學院的社會學教授,他所從事的研究工作支撐著當今許多社交媒體平臺、微任務網站,以及按需服務的、那些未被看見和認可的“數字勞工”。
他並不認為自動化和人工智慧會奪走人類的工作,而是導致工作進一步碎片化,將其分解為對我們許多人來說更細微、更無意義的任務。“別擔心自動化會搶走我們的工作,現實情況正好相反,其是人類搶走了機器人的工作。”他寫道。
無論是亞馬遜的 Mechanical Turk(招募成千上萬的工作者來做機器無法完成的影片篩選和影像標註等任務),還是自動化學習和人工智慧訓練所需的持續人類“監督”和“強化”,卡西利為讀者提供了大量例項,展示了人類勞工(其中很大一部分來自亞洲、拉丁美洲和非洲國家)支撐著(有時甚至是假裝成為)智慧系統和產品。
最終,卡西利更擔心的不是機器人會取代白領工作者,而是成千上萬低薪或無償的數字工作者會取而代之。正如他所指出的,我們已經在不知不覺中被公司招募,每年集體無償工作數百萬小時。
以前文提到的驗證碼為例,谷歌擁有並使用最受歡迎的驗證碼服務版本之一(ReCAPTCHA 和 No CAPTCHA),十多年來一直在利用這種數字勞工。
這些勞動成果有助於識別門牌號以改進谷歌街景檢視、為谷歌圖書數字化文字,還能訓練其計算機視覺演算法來識別位置和重建場景,從而增強谷歌圖片功能並提升 Waymo 自動駕駛汽車的效能。“具有諷刺意味的是,一項本應區分人類和機器人的服務,實際上卻讓人類工作以製造出更多機器人。”卡西利寫道。
儘管圍繞當今人工智慧工具的大肆宣傳和誇張言論可能讓人覺得前所未有,但卡西利提醒讀者,這種言辭其實並不新鮮。
幾十年來,機器人、自動化和各種智慧系統一直都宣稱即將接管我們工作和文化產出等方方面面。他認為,“歸根結底,人工智慧是一個並非真正‘人工’的技術過程,揭開高效的表象,你會發現背後全是人類的身影。”
本文作者 Bryan Gardiner 是一位駐加利福尼亞州奧克蘭的作家。
原文連結:
https://www.technologyreview.com/2025/02/25/1111767/book-reviews-ai-robots-automation-eve-herold-sarah-a-bell-antonio-casilli/
