
夕小瑤科技說 原創
作者 | 小鹿
漸凍症,大家應該都聽說過。如果你不知道漸凍症,但你應該知道蔡磊。
最近,谷歌開發了一個工具,利用LLM幫助漸凍症患者更快更省力地用眼神打字,可以減少 57% 的眼動打字按鍵次數。
漸凍症,是一種運動神經元疾病,會導致腦和脊髓中的運動神經元受到損害,患者會逐漸出現肌肉無力、萎縮、肢體僵硬。
所以,對於他們來說,語言交流是一個巨大的挑戰,我們習以為常的發聲說話、用手打字,在他們身上都變得非常困難。
雖然有輔助溝通裝置(AAC)和眼動追蹤技術可以幫助患者進行基本交流,但依舊有很多問題,比如交流的速度很慢,不能流暢對話,而且頻繁的眼動選字容易導致視覺疲勞。
谷歌研究團隊最新開發了一款創新的互動介面——SpeakFaster。

這個系統基於大語言模型,可以把高度縮略的英文文字擴充套件為完整短語句子,高度縮略的文字僅包含單詞首字母,必要時可以新增字母和單詞,透過準確預測使用者的意圖,擴充為完整的句子,實現大幅減少所需的輸入操作。
它不僅分析語境,還會結合非語言資訊,幫助使用者更快速、更輕鬆地表達想法。
該系統幫助 ALS 患者減少了 57% 的眼動打字按鍵次數,文字輸入速度相比基準提高了 29% 至 60%。
論文題目
:
《Using large language models to accelerate communication for eye gaze typing users with ALS》
論文連結
:
https://www.nature.com/articles/s41467-024-53873-3
這篇論文已經發表在Nature 子刊 Nature Communications 上,接下來和小鹿一起看下這項工作到底做了什麼~
模型設計
研究團隊利用大語言模型的強大功能,對患者使用者的文字輸入策略和使用者介面設計進行了深入分析。
他們開發了一個名為SpeakFaster的系統,該系統透過對大語言模型(本研究使用經過微調的 LaMDA)進行微調並利用對話上下文,能夠將高度縮寫的英文文字(僅包含必要單詞的首字母和一些額外的字母或單詞)擴充套件成完整的短語,且具有極高的準確率。

SpeakFaster系統是Google Research與Team Gleason共同開發的成果。

根據研究團隊的初步使用者調研表明,這種共同設計的使用者介面在離線模擬測試中,相比傳統的預測鍵盤,減少了57%的操作動作,並且文字輸入速度比傳統基準快了29%至60%。
儘管縮寫擴充套件技術前景廣闊,但在實際應用中仍存在一些亟待解決的挑戰。
其中最突出的是:當系統無法正確識別使用者輸入的縮寫時,需要為使用者提供輸入任意短語的靈活選項。
為此,研究團隊開發了一個完整的解決方案,包括使用者介面系統和兩個經過專門微調的大語言模型。這兩個模型的訓練資料來自四個公共英語對話資料集,研究人員從中提取併合成了約180萬個獨特的訓練樣本,每個樣本都包含上下文、縮寫和對應的完整短語三個要素。

第一種大語言模型是KeywordAE,該模型能夠擴充套件混合首字、僅首字母母和完整或部分拼寫單詞的縮寫:

第二種大語言模型是FillMask, 則根據周圍單詞的上下文中生成給定首字母開頭的備選單詞:

此外,為了形成通往微調 LLM 的通道,研究團隊還設計了具有三個路徑的 UI,即 Initials-only AE、KeywordAE 和 FillMask,以支援完整的縮寫文字輸入體驗。
Initials-only AE 是 SpeakFaster UI 中所有短語輸入的基礎路徑。它只需輸入首字母,操作簡單快捷,特別適合輸入簡短、常見的短語。
工作流程:
-
使用者每輸入一個字母,系統就會自動呼叫 KeywordAE LLM -
LLM 基於輸入的縮寫和歷史對話記錄,返回 5 個最可能的短語選項 -
使用者可以直接從推薦列表中選擇目標短語 -
如果首字母路徑未能找到目標短語,SpeakFaster UI 還提供兩條備選路徑供使用者使用。
第一種替代 UI 路徑是 KeywordAE:
-
支援多個關鍵詞輸入 -
即時響應每次按鍵操作 -
自動展示 LLM 生成的 top-5 短語擴充套件
第二種替代 UI 路徑是 FillMask:
-
用於修正短語中的個別詞語 -
主要處理單個詞語不準確的情況 -
作為無法找到精確匹配短語時的補充方案
KeywordAE和FillMask是兩種互補的互動方式,幫助使用者從首字母輸入中恢復出完整短語。
SpeakFaster UI允許使用者在使用KeywordAE模式後切換到FillMask模式,這在預測複雜短語時特別有用。
使用SpeakFaster時,使用者首先輸入短語中每個單詞的首字母。接著,經過最佳化的LLM預測出完整短語,並根據首字母和對話上下文展示最可能的選項。如果所需短語未出現在選項中,使用者可以透過拼寫關鍵詞或選擇替代詞來改進預測。
這種方式顯著減少了按鍵次數,提高了交流效率。
模擬實驗
為了評估SpeakFaster使用者介面在減少使用者操作步驟方面的潛在上限,研究團隊進行了一系列模擬實驗。實驗中,他們利用Turk Dialogues語料庫,測試了三種不同的使用者互動策略:
策略1:首先使用首字母縮寫(AE)進行輸入,若未成功匹配,則轉而使用KeywordAE進行迭代拼寫,直至找到符合的短語。
策略2:基本與策略1相同,但在最佳匹配短語候選中只剩一個錯誤單詞時,採用FillMask技術進行單詞替換。
策略2A:是策略2的一種變體,更加積極地應用FillMask技術,在最佳選項中剩下兩個或更少錯誤單詞時即進行替換。

其中:
-
圖A比較了不同條件下的鍵擊節省率(KSRs)與Gboard基線(藍色)。橙色條表示使用對話上下文的KSRs,灰色條表示不使用對話上下文的KSRs,其中所有結果基於KeywordAE和FillMask LLMs的前五個最優選項。
-
圖B展示了策略2中,LLM選項數量與KSRs的關係,並與Gboard基線進行對比。
-
圖C顯示了首字母AE的成功輸入比例,該比例隨選項數量和對話上下文的可用性而變化。
所有資料點均來自測試集中280個Turk對話的模擬結果,僅包含長度不超過10個單位(包括單詞和標點)的對話輪次。實驗結果表明,SpeakFaster在所有三種策略中都優於Gboard基線。其中,策略2使用KeywordAE v2模型時表現最佳,達到0.657的鍵擊節省率,比Gboard的0.482高出36%。這證實了結合LLM的上下文感知能力和FillMask的詞替換功能可顯著提升輸入效率。研究還發現,五個選項是最優數量,且對話上下文對LLM預測至關重要。
使用者研究
為了評估SpeakFaster的有效性,研究團隊不僅進行了模擬實驗,還開展了使用者研究,涉及非AAC使用者和ALS眼動使用者。這些研究分為劇本和非劇本兩個階段,以全面測試系統的效能。
在劇本階段,參與者按照螢幕上顯示的文字輸入對話內容,而在非劇本階段,參與者與實驗者進行5至6輪即興對話。
為了幫助參與者熟悉SpeakFaster介面,研究團隊提前提供了影片演示和五次對話的小練習。
使用者研究中,主要評估了三個指標:
-
節省的動作(與完整字元集相比節省的擊鍵數) -
實用性(每分鐘的打字速度) -
SpeakFaster UI的可學習性(人們需要多少練習才能熟練使用系統)。
相比傳統基準系統,SpeakFaster在減少使用者操作負擔——節省動作方面取得了顯著成效。
如下圖所示,使用SpeakFaster後,無論是ALS患者還是普通使用者都能大幅降低輸入操作次數,普通使用者在固定場景下可減少56%的按鍵操作,在自由對話場景下也能減少45%的操作量。特別值得一提的是,對於依賴眼動控制的ALS患者,SpeakFaster在預設對話場景中也顯著降低了他們的操作負擔。

在實用性方面,對於普通使用者而言,系統的文字輸入速度與傳統輸入方式相比不相上下,而在針對ALS患者的專項研究中,系統表現出顯著的優勢:在預設對話場景(劇本)下,使用者的輸入速度提升了61.3%;即便在自由對話場景(非劇本)中,輸入效率也提高了46.4%。這些資料充分證明了SpeakFaster在提升特殊群體溝通效率方面的突出貢獻。

在可學習性上,研究團隊選用了評估打字系統和使用者介面時使用者的學習過程和認知負擔的曲線作為衡量指標。

如上圖所示,ALS患者透過眼動操作 SpeakFaster 系統時,初期學習速度相對較慢,但經過適度練習後便可以熟練使用。大概完成約15次對話練習後,患者就能達到流暢且舒適的打字水平。
這種學習曲線雖然比普通使用者略長,但對於需要輔助溝通的患者來說仍是可以接受的適應過程。

而且,研究觀察到的使用者KSR值可以透過模擬結果高精度預測。如上圖的圖7中頂部面板中的藍點顯示,在劇本對話中,所有使用者的平均KSR值與逐輪模擬值之間存在顯著的正相關(皮爾遜相關係數:R158 = 0.905,p < 0.001)。非劇本對話(橙色點)的模擬值和觀察值之間也表現出顯著的相關性(R158 = 0.636,p < 0.001)。
研究團隊還展示了一個示例:

例子中包括兩個對話者的六輪對話。
右側則展示了從這些對話中提取的示例,用於訓練KeywordAE和FillMask模型。這些示例在縮寫策略上有所區別:
-
第一個示例只使用首字母縮寫,不包含完整關鍵詞 -
第二個示例包含一個完整關鍵詞 -
第三個示例包含兩個部分關鍵詞。
在訓練示例的縮寫部分,關鍵詞之間插入了空格,這有助於提高大語言模型微調的精度,因為它能從底層的SentencePiece分詞器中提取更一致的分詞。關鍵詞下的下劃線僅用於提高視覺清晰度。底部的FillMask示例展示了一個無上下文的例項,而實際資料集中既包含無上下文示例,也包含帶有前幾輪對話作為上下文的示例。在展示的示例中,黑色文字表示輸入到LLMs的內容,藍色文字表示LLMs被訓練以生成的目標。
結語
大語言模型的出現標誌著人工智慧領域的正規化轉變,開創了認知計算的新紀元。這一技術突破不僅體現了計算機科學的重大進展,更預示著人機互動模式的革命性變革。
除了以上大的意義,大語言模型出現對人類生活質量的產生了大大的改善!
SpeakFaster這項突破性的進展讓我們看到,透過整合大語言模型與精心設計的使用者介面,我們竟然能夠如此顯著提升患有運動障礙者的溝通效率!,讓他們能夠更自如地表達思想、參與社會交流。
而且,效果如此好!
小鹿相信這僅僅是開始~未來,隨著大語言模型技術的持續演進,未來將為數百萬人帶來更多的新希望~



參考資料
https://research.google/blog/speakfaster-revolutionizing-communication-for-people-with-severe-motor-impairments/