癱瘓十八年,大腦中植入253個電極後,她重新“開口說話”

1.3‍‍‍‍‍‍‍‍
知識分子
The Intellectual
圖源:pixabay
文 | 趙志磊(康奈爾大學)
●                  ●                   

Ann已經18年沒有開口說過話。
時鐘撥回到2005年,30歲的Ann是加拿大一所高中的數學老師,她和丈夫Bill的女兒剛滿一歲,一家人過著平靜幸福的生活。可一場突發的中風打破了這一切,由於腦幹中的血管堵塞,她失去了對全身肌肉的控制能力,從此癱瘓在床,發病初期甚至不能主動控制呼吸。
頑強的Ann活了下來,經過積極的理療重新學會了怎麼去呼吸、進食和搖頭,她甚至重新能夠哭和笑了,但是和很多中風患者一樣,她的語言能力遭受了毀滅性打擊。中風後的Ann有正常的思維和情感能力,卻無法把所思所想表達出來,因為她大腦中語言腦區的發出的指令失去了對喉、舌等發音器官的控制能力。醫學上有一個形象的術語來描述這種症狀–閉鎖綜合症(Locked-in Syndrome),患者的思想彷彿被鎖在密閉的房間裡無法向外表達。
這麼多年來,Ann依賴類似霍金所使用過的傳統的人機互動系統,透過頭動追蹤來控制電腦螢幕上的游標,緩慢費力地使用語音合成軟體來與人交流。Ann希望“讀心術”真的存在,可以把她腦中的想法即時高效地讀取出來給周圍的人聽。
這種天方夜譚般的願望在2023年得到了實現。神經外科醫生和科學家在Ann的大腦皮層之上植入了253個電極,高解析度地記錄語言腦區的神經活動,再使用人工智慧演算法解碼,即時合成她想要說的話和臉部表情,最後透過揚聲器及電腦螢幕播放出來。藉助這一套先進的語言腦機介面系統(speech neuroprosthesis),被閉鎖了十八年的Ann終於又可以暢所欲言了!
圖1:Ann使用的語言腦機介面系統
主導這項醫學奇蹟是美國加州大學舊金山分校(UCSF)的華裔神經生物學家兼神經外科主任Edward Chang教授。滴水穿石,非一日之功。Eddie在語言神經科學領域深耕多年,取得了一系列開創性的基礎發現,同時整合了最新的人工智慧方法,最終催生了語言腦機介面技術的重大突破。
圖2:Edward Chang教授在手術室
我國長期大力倡導產學研的結合,瞭解這一突破性技術的來龍去脈及背後的制度支撐有重要的啟示意義。同時,對於渴望在科研上大有作為的年輕人,如何提出重要的科學問題,積累關鍵的技術能力,進而開闢出獨樹一幟的科研道路,Eddie的科研歷程也是一個極好的範例。
01
語言神經科學的研究背景
為什麼只有人類才能學習和使用複雜的語言?對於這個問題的探討,從某種意義上來說,標誌了腦科學這個學科的誕生。法國醫生Pierre Broca從1860年代開始研究失語症患者—那些因為大腦損傷而失去了說話能力的人,發現他們主要共同點為左腦額葉的額下回(後命名為Broca腦區)有損傷,因此推斷此腦區對說話至關重要。雖然此研究存在爭議,但是卻無法否認其非凡的意義,因為它第一次提出實證來支援大腦中存在功能分割槽的理論。
如果某個腦區負責產生語言,那是否意味著還有其他腦區負責理解語言,以及情感、記憶等特定的認知功能?後續Karl Wernicke等人的研究發現在顳葉中確實存在一個腦區,損傷後人會失去理解語言的能力。我們知道聽和說在功能上是緊密聯絡在一起,進一步研究也發現Wernicke腦區和Broca腦區之間有著非常緊密的神經連線。這些早期的基於大腦損傷的研究構築了語言神經系統的傳統模型(classical model)
圖3:語言系統的傳統模型和現代模型。Chang et al. 2015 J Neurosurg.[1]
進入20世紀後,一些新興的技術方法被廣泛地應用於語言神經機制的研究。這些方法可以非侵入式地記錄大腦在產生或者理解語言時的神經活動,分為兩大類,有各自的優缺點。首先就是基於神經電訊號的腦電圖(EEG)和腦磁圖(MEG)等方法,擁有較高的時間解析度,可以區分語言資訊處理的不同階段,但是空間解析度較低,難以把訊號源定位到特定的腦區。與此相反,基於血氧代謝訊號的正電子斷層造影(PET)和功能核磁成像(fMRI)等方法空間解析度提高,可以區分不同腦區的神經活動,但是時間解析度較低,難以區分資訊處理的不同階段。
透過這兩類方法的結合,傳統模型被進一步修正和擴充為雙資訊流的現代模型(dual stream model)。以理解語言輸入為例,首先由Wernicke腦區中的顳上回(STG)和顳上溝(STS)處理基本的聲學資訊,然後資訊進一步沿著腹側和背側兩個方向並行處理。在腹側,資訊流向顳葉前部和中部,聲音中蘊含的語義和概念被識別。在背側,多個腦區包括傳統模型中的Broca腦區、運動前皮層和頂葉-顳葉交界,負責感知與運動的整合(sensorimotor integration),將聲學資訊與發聲器官的具體運動模式進行關聯,以實現學習發聲的功能。
需要指出的是,無論是傳統模型還是現代模型,都是對某個腦區和語言某方面功能的粗略描述。由於腦電圖或功能核磁成像等非侵入式方法所記錄的每個資料點,可能都是幾百萬個神經元的活動的總和,每個腦區中的神經元具體是如何處理語言資訊的並不為人所知。Eddie和他的課題組在這個重要的問題上取得了突破性的進展。
02
突破
基礎研究的突破,往往始於選取了合適的技術路徑。前文提到,對於腦電圖等非侵入式方法,雖然適用面很廣,但是時間和空間解析度不可兼得。解決這一問題有一個簡單直接的思路,就是把電極直接放到語言腦區皮層之上或者之中記錄神經活動,沒有了頭皮和顱骨的阻隔,訊號質量可以得到質的飛躍。然而,這樣的方法具有侵入性,只有在疾病條件下,在對治療有益、反覆驗證安全性、徵得患者允許的必要情況下,才可以使用。同時,只有神經外科醫生才具有實施手術的資質。
也就是說,要使用侵入式方法深入研究語言的神經機制,需要具備醫學和科學的雙重背景。美國的醫學/科學雙博士(MD/PhD)專案為培養這樣的交叉人才提供了制度基礎,而Eddie正是透過加州大學舊金山分校的這一專案獲得了完備的科學研究技能和神經外科手術資質。在伯克利完成博士後訓練之後,他回到舊金山分校開展獨立研究,同時對癲癇、腦瘤等患者進行手術治療。在手術之前的檢查中,通常需要使用電極記錄等方法對病灶進行精確定位,同時也需要對語言等高階認知功能進行定位,以期最大限度地在術後得以保留,這為深入研究語言的大腦機制提供了寶貴的機遇。
在此基礎上,Eddie進一步技術創新,開始將皮層腦電圖(ECoG)應用到語言神經科學的研究。與普通腦電圖(EEG)不同,皮層腦電圖是在開顱手術後,將電極陣列直接置於大腦皮層之上,因此記錄到的神經訊號質量很高。一個陣列包含幾百個獨立的電極,可以高密度地覆蓋好幾個相鄰的腦區,解決了時間和空間解析度不可兼得的難題。此外,已有研究表明皮層腦電圖訊號中的高頻部分(50-150Hz)與電極附近神經元的動作電位直接相關,因此有更好的可解讀度。
圖4:皮層腦電圖ECoG示意圖。Tang et al. 2017 Science[2]
使用這一方法,Eddie的課題組在大腦如何產生和理解語言的機制上取得了一系列突破性的進展。限於篇幅,筆者僅舉例介紹其在發音控制機理上的發現,因為這些研究直接催生了本文開篇所描述的語言腦機介面的突破。
在我們說話的過程中,喉嚨、舌頭、下頜和嘴唇等多個發音器官需要精密地協調配合。早在1930年代,Wilder Penfield等人使用電極刺激的方法發現腹側體感運動皮層vSMC(ventral sensorimotor cortex)控制發聲器官的運動。然而,他們發現單點的刺激並不能產生有意義的發聲,說明vSMC並不是以音素為單位,而是有其他的功能組織結構。
在2013年發表的研究中,Eddie的課題組使用皮層腦電圖記錄了三名英語母語的癲癇患者在產生子音-母音音節時的神經活動,對vSMC腦區進行了精細的刻畫[3]。發不同的音時需要不同的發音器官的參與,例如發子音’b’需要先緊閉嘴唇,而發‘d’音需要舌尖頂住上顎。透過將發音器官的參與程度與電極的神經訊號做關聯分析,可推算出不同位置的電極控制何種發音器官。他們使用此方法發現vSMC中存在一個控制發音的軀體地圖(somatotopic map),由腹側到背側依次控制喉、舌、下頜、嘴唇和喉,這個順序和這些器官在聲道中的解剖位置大致相符。此外,發同一個音時不同器官的運動有先後之分,vSMC腦區中不同的區域也相應地從不同的時間點開始啟用,形成一個時間序列。進一步分析發現,同一電極在產生同一音素時的神經活動也不是固定不變的,而是受到上下游音素的影響[4]
圖5:vSMC腦區的發音軀體地圖。Bouchard et al. 2013 Nature
細心的讀者可能已經發現,在上圖展示的軀體地圖中,有兩塊相隔較遠的腦區控制喉的運動。有趣的是,腹側的喉區在其他靈長類中也存在,而背側的喉區卻是人類特有的。那麼這個腦區有何特殊的功能呢?在我們說話的過程中,喉有兩個主要的功能:一是透過聲帶的震動來產生聲音,二是透過調節聲帶的張力來改變音調。這其中第一個功能是和其他靈長類共有的,但是隻有人類才能自主地、靈活地控制音調的高低,那麼人類特有的背側喉區是否與此功能有關?Eddie的課題組在2018年發表的研究對此給出了肯定的回答[5]。他們設計了一個巧妙的任務,讓被試重複說一句話,但每次都強調不同的單詞,以此保證其他因素基本不變的情況下可以在不同的音節位點上改變音調,同時使用皮層腦電圖記錄語言腦區的神經活動。透過關聯分析,他們驚奇地發現與音調相關的電極集中於背側的喉區。更進一步,我們在唱歌時也可以靈活改變音調,而背側喉區也與此相關。最後,如果使用電極直接刺激背側喉區,可以觀察到喉的運動,在清醒的被試中甚至可以聽到發聲,說明了此腦區直接參與發音的控制。
圖6:背側喉區控制音調。Dichter et al. 2018 Cell
說話發音本質上屬於一種運動控制行為,但與四肢軀幹等運動不同,喉與舌等體內發音器官的運動軌跡難以直接觀察與測量,這在很大程度上阻礙了神經機制的研究。Eddie的課題組在這個問題上也做出了重要的貢獻。一方面,他們將影片捕捉、超聲、電子聲門儀(EGG)等方法與皮層腦電圖結合起來,直接同時觀測多種發音器官的運動軌跡及語言腦區的神經活動[6,7]。另一方面,他們開發了強大的深度神經網路模型,透過聲學資訊反過來推算發音器官的運動模式[8]。綜合這些方法,他們的研究揭示了vSMC腦區對於發音器官運動軌跡的編碼模式及動力學性質。
這些基礎發現對於開發語言腦機介面至關重要,因為在後續的應用研究中發現,相比於直接將神經活動解碼為語音,先解碼為發音器官的運動模式再由此轉化為語音,可顯著提高腦機介面的準確度[9]
03
人工智慧的加持
腦機介面技術的創新大致可以分為兩大類。一類是神經活動記錄方法上的創新,以更高的解析度、更多的通道數和更好的穩定性為目標,包括前文介紹的皮層腦電圖,以及新興的neuropixel探針和Neuralink等公司所開發的技術。
另一類就是神經活動解碼演算法上的創新。儘管最新的探針可以同時記錄上千個通道,但是這個數目相比於語言腦區中數以億計的神經元來說也還是微不足道的,這也就意味著需要強大的演算法模型來將神經活動解碼為語音資訊。早期的腦機介面主要依賴傳統的機器學習演算法,在有限制的詞庫中訓練分類模型。近年來人工智慧的爆發,為語音腦機介面技術的突破提供了強有力的加持。
Eddie的課題組也牢牢把握住了這個浪潮,在解碼演算法上引領了諸多創新。例如在2019年發表的研究中[9],他們首先訓練一個雙向長短期記憶網路(bLSTM),將皮層腦電圖記錄的神經活動轉化為發音器官的運動模式,再訓練另外一個bLSTM網路進一步轉化為語音。可以看到,使用這套方法重構出的語音與訓練資料達到了很高的相似度。更為神奇的是,訓練好的模型甚至能夠在被試只默唸不出聲的情況下解碼其想說的話,離真正的“讀心術”又近了一步。而在本文開頭所提到的Ann的例子中[10],大腦神經活動的資料不僅被用於解碼語音,同時也可以即時解碼錶情和文字,達到了多模態模型的效果。
圖7:語言腦機介面從大腦活動中解碼語句。Anumanchipalli et al. 2019 Nature
在眾多人工智慧技術中,以ChatGPT為代表的大語言模型火出了圈。其所使用的Transformer架構,可以從海量的文字資料中學習詞句之間的關聯性,達到給出提示就可以對答如流的神奇效果。最新的語言腦機介面技術也開始使用此架構作為其中的一個解碼模組。
在幾個月前發表於《新英格蘭醫學雜誌》的研究中[11],來自加州大學戴維斯分校的團隊使用融合了Transformer的演算法將語言腦機介面的準確率提高到了令人咂舌的97.5%,幫助一名漸凍症患者實現了準確且穩定的語音交流。在一次學術會議報告此進展時,團隊負責人之一的Sergey Stavisky教授感嘆到,當患者第一次重新“開口說話”時,在場的所有人,包括患者本人、他的家人以及科研人員,無一不感動落淚。
04
啟示、機遇與挑戰
“你做的這項研究有什麼用?”這是一個科研工作者常常被問到的問題。從基礎的研究發現,到開發造福人類的實際應用,往往是一個很漫長的過程。如果我們回顧語言神經科學的研究歷史,就可以看到從Broca提出語言腦區,到腦機介面技術能夠幫助癱瘓患者重新開口說話,已經跨越了超過一個半世紀。好幾代科研工作者孜孜不倦地對於新知識的追求,才可以讓那些過去只存在科幻作品中的想象成為現實。
這個過程離不開穩定的基礎科研經費的支援,同時也離不開科研和教育制度的創新。從本文介紹的Eddie的例子中我們可以看到,美國的醫學/科學雙博士(MD/PhD)專案為他提供了一套獨特的技能和資質,成為最有可能在語言神經科學作出突破的人之一。這無疑是一個非常具有挑戰性的專案,不僅在招生上極為苛刻,而且整個過程可能持續七八年的時間,需要同時學習科學和醫學的知識技能,也往往會進入最頂尖的實驗室進行基礎科研的訓練。這些擁有醫學/科學雙博士學位的人,成為了在生物醫學領域內最瞭解實際的應用需求、最熱心且善於將基礎研究成果進行轉化的一股力量。這樣的專案也許值得我們借鑑。
最後,已有的語言神經科學的研究以及語言腦機介面的應用主要集中於說英語的人群。中文作為世界上使用人口最多的語言,在語言學上與英語有很多顯著的差別,已有的腦科學成果和應用在多大程度上能夠直接適用中文,非常值得探索。

參考文獻:(上下滑動可瀏覽)

    [1] Chang, E. F., Raygor, K. P. & Berger, M. S. Contemporary model of language organization: an overview for neurosurgeons. J. Neurosurg.122, 250–261 (2015).
    [2]Tang, C., Hamilton, L. S. & Chang, E. F. Intonational speech prosody encoding in the human auditory cortex. Science357, 797–801 (2017).
    [3] Bouchard, K. E., Mesgarani, N., Johnson, K. & Chang, E. F. Functional organization of human sensorimotor cortex for speech articulation. Nature495, 327–332 (2013).
    [4]Bouchard, K. E. & Chang, E. F. Control of spoken vowel acoustics and the influence of phonetic context in human speech sensorimotor cortex. J. Neurosci.34, 12662–12677 (2014).
    [5]Dichter, B. K., Breshears, J. D., Leonard, M. K. & Chang, E. F. The Control of Vocal Pitch in Human Laryngeal Motor Cortex. Cell174, 21–31.e9 (2018).
    [6] Bouchard, K. E. et al. High-resolution, non-invasive imaging of upper vocal tract articulators compatible with human brain recordings. PLoS One11, e0151327 (2016).
    [7]Conant, D. F., Bouchard, K. E., Leonard, M. K. & Chang, E. F. Human sensorimotor cortex control of directly measured vocal tract movements during vowel production. J. Neurosci.38, 2955–2966 (2018).
    [8] Chartier, J., Anumanchipalli, G. K., Johnson, K. & Chang, E. F. Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex. Neuron98, 1042–1054.e4 (2018).
    [9] Anumanchipalli, G. K., Chartier, J. & Chang, E. F. Speech synthesis from neural decoding of spoken sentences. Nature568, 493–498 (2019).
    [10] Metzger, S. L. et al. A high-performance neuroprosthesis for speech decoding and avatar control. Nature620, 1037–1046 (2023).
    [11]Card, N. S. et al. An accurate and rapidly calibrating speech neuroprosthesis. N. Engl. J. Med.391, 609–618 (2024).

親愛的讀者們,不星標《知識分子》公眾號,會錯過每日科學新知!星標《知識分子》,緊跟前沿科學,一起探索科學的奧秘吧!

請戳上圖卡片新增星標

關注《知識分子》影片號
get更多有趣、有料的科普內容

END

相關文章