Deepseek時代,智慧硬體能帶來新的“GPT時刻”嗎?

作者 | AICon 全球人工智慧開發與應用大會
策劃 | 李忠良
編輯 | 宇琪
開年以來,DeepSeek-R1 推理模型將 AI 浪潮推向新的高度,各行各業迅速跟進落地,智慧硬體在大模型時代浮現出全新形態。那麼智慧硬體在計算能力上有哪些演進?大廠又應如何佈局智慧硬體、應對計算平臺的變遷?
近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了未來智慧聯合創始人 & CTO 王松擔任主持人,和李未可科技合夥人 & 演算法實驗室負責人古鑑、網易有道 AI Infra 負責人張廣勇一起,在 AICon全球人工智慧開發與應用大會2025 上海站即將召開之際,共同探討 GPT 時代,智慧硬體的挑戰與機遇。
部分精彩觀點如下:
  • 迴歸硬體設計的本質,關鍵是圍繞使用場景來匹配硬體和軟體的能力。
  • 未來眼鏡必定會擁有自己的算力平臺。
  • 像耳機、眼鏡等裝置,隨著場景化的結合和 AI 與硬體的融合,使用者體驗會不斷提升。
在 5 月 23-24 日將於上海舉辦的 AICon 全球人工智慧開發與應用大會上,我們特別設定了【智慧硬體落地實踐】專題。該專題將聚焦智慧硬體領域的創新趨勢與行業變遷,並邀請相關廠商分享最新技術進展,從多個維度探討未來發展方向。
檢視大會日程解鎖更多精彩內容:https://aicon.infoq.cn/2025/shanghai/schedule
以下內容基於直播速記整理,經 InfoQ 刪減。
技術演進驅動產品創新
王松:過去這一年,有沒有哪款智慧硬體或者產品形態讓你們覺得——“這個真的不一樣”?核心技術上有哪些本質提升?
古鑑: 我對位元組推出的 Ola Friend 這款產品印象深刻。最初,我並沒有特別關注它,但在購買和使用後,我發現它的體驗非常順暢。特別是它與大模型的互動、與豆包的溝通速度和流暢性、喚醒能力以及降噪效果都讓我感到滿意。我認為這款產品是一個大模型的入門級產品,但它確實達到了我對 AI 硬體的期待。
王松:你平時的使用場景是什麼?
古鑑: 聽歌、詢問一些問題,我的孩子也喜歡與豆包聊天。
張廣勇: 我並沒有特別關注某一款產品,但這幾年智慧硬體領域取得了顯著進展。例如,AIPC、以及智慧眼鏡、人形機器人等產品,還有有道推出的詞典筆和答疑筆等,這些產品已經結合大模型從理論走向了實際應用。
總體來說,裝置的輕便性、流暢性和質量都比預期的進展要快。最令人印象深刻的是這些裝置的低延遲,避免了人們對大模型可能產生的慢速反應的擔憂,在智慧硬體上落地後,使用者體驗得到了極大的提升,使得人與裝置的交流更加自然。
王松:隨著模型壓縮、量化等技術發展,哪些過去無法實現的功能現在可以落地到裝置端?
古鑑: 我們已經做了三代眼鏡。在第一代產品中,我們使用了安卓系統,並將一些功能,比如 SLAM 技術,應用到帶攝像頭的運動型眼鏡上。然而,當我們進入第二代和第三代時,發現將一些複雜的演算法,甚至是大模型演算法落地到端側,實際操作的難度相當高。例如,現在將一個可能佔用幾 GB 的模型放到手機上,雖然可以實現,但在功耗和效果方面仍無法滿足使用者的基本體驗。而我們的產品是一個只有幾十克的眼鏡,至今仍面臨很大的挑戰。如果要做一款端側的大模型產品,既能滿足使用者的要求,又能在特定場景下順暢使用,難度確實很高。因此,我們目前仍覺得基於雲端的模型是最佳方案。
張廣勇: 最初,我們的功能主要集中在查詞和翻譯上。但現在,我們已經上線了更多的大模型能力,比如 AI 老師的答疑功能,以及語法精講、單詞講解等多種大模型功能。關於落地模式,我們有幾種選擇。一種是純雲端,另一種是雲端與本地結合的模式。由於手機算力相比於大模型仍然差距較大,某些大模型無法在本地執行,因此我們使用基座模型和雲端計算。而對於需要語音識別、OCR 等互動的場景,我們可以在本地使用算力處理離線任務。
除了雲端結合外,我們還上線了純離線的大模型。雖然這些模型的規模沒有達到雲端那種幾十甚至上百 B 的規模,但我們已經實現了 0.5B 到 3B 的離線大模型。這些模型支援中英互譯,以及古詩文翻譯等功能,單個模型能夠完成多個任務。
相對於原來的離線功能,我們使用離線大模型進行翻譯,質量上有了很大的提升,已超過了線上 NMT 的質量。
王松:您說的離線功能是依賴於手機端的離線模式嗎?
張廣勇: 不是的,我們的離線功能是基於詞典筆的。詞典筆可以獨立使用,特別是針對學生,因為家長通常不會把手機給孩子使用。我們希望詞典筆能獨立運作,而且學生可以在戶外或教室等地方使用。因此我們部署的離線功能完全基於詞典筆本身的算力,不需要藉助手機或其他裝置。這樣一來,即使沒有網路連線,詞典筆也能使用。
技術實現與跨團隊協同
王松:智慧硬體需要軟體、演算法、硬體、產品團隊深度協作,協作過程中遇到過哪些關鍵矛盾,如何尋找最佳平衡?
張廣勇: 從硬體團隊的角度來看,硬體工程師追求效能穩定、成本可控和可量產。產品團隊則更關注使用者體驗和上市時間,通常需要壓縮開發週期。但硬體開發與 APP 開發不同,硬體不僅需要研發,還涉及許多其他因素,AI 演算法模組。AI 的迭代速度較慢,這給產品開發帶來時間上的壓力,導致硬體和產品需求之間存在衝突。
從軟體和演算法的角度來看,我們希望具備靈活的開發能力。在詞典筆上,我們部署了本地模型,理想情況下希望本地算力和記憶體越大越好,但這會大幅增加硬體成本,特別是對於像我們這種小型硬體產品,成本壓力較大。由於詞典筆的市場定位和價格較低,它的算力和記憶體遠不及手機。因此,在硬體有限的情況下,部署多個 AI 模型面臨更大挑戰。此外,產品團隊面臨的需求變化頻繁,尤其是 AI 結合的新產品,使得演算法的迭代變得更加複雜。在 APP 端,由於記憶體有限,無法支援過多底層演算法模組,需要進行整體最佳化。最終,我們的目標是打造一款具有優秀使用者體驗的產品,確保我們的智慧硬體具備高質量、低延遲、低成本、低功耗的整體優勢。
古鑑: 硬體產品的定義在初期階段至關重要。首先,我們需要明確硬體的使用場景,並在此基礎上做出合理的妥協。例如,在我們設計的眼鏡中,雖然 AI 眼鏡是面向大眾市場的,我們必須確保使用者能夠長時間佩戴,且眼鏡外觀應應該考慮到主打的人群。
功能定義同樣至關重要。作為重語音互動的產品,我們就需要為眼鏡設計特定功能,如降噪和特定詞彙識別等。與此同時,還要在電池容量和外觀設計之間找到平衡。效能與外觀之間的矛盾將不可避免地在這一過程中顯現。例如,一些人可能希望眼鏡具備與使用者長期互動的能力,甚至實現類似智慧助手的功能。迴歸硬體設計的本質,關鍵是圍繞使用場景來匹配硬體和軟體的能力。
王松:是否曾因裝置算力限制被迫簡化功能,甚至是模型?可以分享透過演算法最佳化或硬體適配破局的案例嗎?
古鑑: 在設計過程中,確實會面臨捨棄一些功能的情況。現在我們的設計更多采用的是分發模型。很多人會問我們在設計 AI 眼鏡時使用了哪家的大模型,對此,我認為需要更詳細地解釋:我們並不是只使用一個大模型,實際上是多個模型的組合,包括小模型、分發模型、聊天模型和 Agent 模型等。在這種情況下,我們需要確保分發過程足夠快,因此可能會選擇較小的模型。
但在聊天時,為了確保準確性,避免出現錯誤的回答,我們則會使用較大的模型。使用大模型時,回覆速度可能相對較慢。那麼如何在這個過程中解決等待時間的問題呢?因為眼鏡裝置的使用者耐心是非常有限的,所以必須在短時間內給予使用者反饋。這些都是設計中非常重要且具有挑戰性的部分,尤其是在 Agent 功能中。很多 Agent 的接入方式甚至會涉及不同的大模型,這也是硬體和軟體設計中一個比較複雜的難點。
王松: 古老師提到一個非常關鍵的點——不同的功能或場景可能需要使用不同的模型。前置部分實際上相當於你們內部的一個 MOE 模型。
古鑑: 對,因為很多時候,如果你只是問一個簡單的“你好”,卻還需要呼叫 Deepseek 模型,那就會浪費很多資源,關鍵是如何進行分發。例如,當我分發完後,就可以確定是否呼叫豆包模型或 Deepseek 模型等,這樣的設計非常重要。
張廣勇: 詞典筆同時使用雲端和端側模型。關於雲端部分,我們使用了有道自研的“子曰”教育大模型。由於端側的算力較小,例如我們使用的詞典筆配置的是 A53 CPU,相比手機晶片要弱得多。因此,從第二代到現在的第七代,我們在演算法和工程上進行了大量最佳化,包括採用蒸餾、MOE、量化等。由於第三方計算庫效能不足,我們自己實現了一些底層計算庫,並採用了混合精度量化技術,讓我們的模型可以部署在詞典筆本地。由於算力和記憶體的限制,我們的模型初期較小,效能最佳化不足,但這並非終點。隨著效能的提升,演算法模型的大小也在逐步,最終最佳化後,模型的引數量提高了一倍。從 2018 年至今,我們針對離線機器翻譯已經優化了多個版本,即提升了質量又降低了延遲,大幅提升使用者體驗。
此外,我們與上下游的合作也非常緊密,尤其是與晶片廠商的深度合作。智慧硬體的落地需要 AI 能力的支援,而晶片廠商的合作至關重要。端側使用的 NPU 晶片比 CPU 更強大,功耗更低。舉例來說,我們的 OCR 模型從 CPU 切換到 NPU 後,模型規模增大了 15 倍,錯誤率下降了 60% 以上,識別速度提升了 50%。
使用者體驗與互動設計
王松:如何協調演算法效能、硬體能力和使用者體驗,以實現高效的硬體互動設計?
張廣勇: 雖然詞典筆現在上線的模型還不是端到端的多模態模型,但我們的使用者體驗功能已經是多模態的。使用者不僅可以透過文字輸入,也可以透過語音輸入,尤其詞典筆的掃描輸入更高效,是使用者最喜歡的輸入方式。當然,這個過程是逐步探索的,我們在 7 代詞典筆上增加了攝像頭,以便更好地讓使用者使用。
在詞典筆的設計上,原本只提供查詞和翻譯功能,形態較為長條且集中在筆頭部分。隨著答疑功能的加入,尤其是題目講解等需求,我們發現全屏更適合這種功能,因此我們將它升級為全屏設計,提升了螢幕的顯示效果,使用更為便捷。
古鑑: 雖然一些廠商可能會結合戒指或手機來控制眼鏡,但我們一直相信一體式設計,即眼鏡本身的互動方式是最完整的。因此,我們的核心依然是語音體驗。我們認為語音互動是所有互動方式中最基礎的部分,此外可能還會在鏡腿上增加一些簡單的滑動操作。
在語音互動方面,我們注重語音識別和指令識別等基礎功能。尤其是在雙晶片設計中,我們如何進行降噪、聲源定位等最佳化,都是互動設計的重要部分。同時,我們還考慮了喚醒詞和翻譯過程中的同聲傳譯,比如回聲消除和語種區分等。這些功能在實際場景中的應用非常複雜,因此我們在確定場景後,會圍繞場景最佳化硬體和軟體的核心能力。
王松: 很多人認為眼鏡是下一代計算平臺,您怎麼看。
古鑑: 我之前一直從事 AR 行業,現在我認為眼鏡仍然無法完全脫離手機。然而,未來眼鏡必定會擁有自己的算力平臺。如果眼鏡要與未來的技術變革相適應,可能會顛覆現有的應用商店,取而代之的是類似於 Agent store 的系統,眼鏡必須擺脫手機的限制。
未來,眼鏡將具備眼球追蹤、SIM 卡和攝像頭等功能。如何在保證這些功能的同時,實現續航和電池的妥協,且保持眼鏡輕巧(如低於 40 克,最好控制在 30 至 35 克之間),將是一個巨大的挑戰。我認為,這一目標可能還需要 3 到 5 年,甚至更長的時間才能實現。
王松:聽說 Apple 的 Vision Pro 2 已經在開發了,您覺得它的一代產品成功嗎?
古鑑: 我認為第一代並不算成功,它的重量超過 600 克,銷量也沒達到預期。我認為第二代會更加註重最佳化,它可能會對標 Meta 的眼鏡,或者採用像碳化矽材料這樣的新型顯示技術。
王松:在未來的多模態感知技術中,對於 AI Infra 的架構設計有哪些挑戰?
古鑑: 我們預計下個月就會推出帶攝像頭的眼鏡。之前,我們已經用這款帶攝像頭的眼鏡進行過多模態應用的測試,例如在博物館內進行文物識別等。我認為有幾個關鍵點需要注意。首先是多模態傳輸協議的問題,如何將圖片等資料快速傳輸到雲端,同時保證速度和功耗的低消耗。其次是向量儲存問題,尤其是多模態資料儲存和文字對齊等,這也是一個技術難點。
另外,進行平行計算也是一個重要問題。傳輸過程中,可能需要同時進行語音計算等操作。此外,互動模式也會有很大變化。比如,當看到一張圖片時,系統可能會主動告訴你它是什麼,或者你可以主動詢問:“這張圖是什麼?”這些互動方式如何做到自然流暢,是架構設計中的一個挑戰。我認為底層架構的關鍵部分包括向量儲存和多模態傳輸協議的設計。
張廣勇: 從使用者角度來看,我們的詞典筆已經是一個多模態產品,具備筆頭掃描、攝像頭拍照和語音輸入功能。當然,從端到端的方案來看,現在的流程還是序列的,未來肯定會向端到端的多模態模型發展。如果是完整的多模態模型,我們可能會將拍攝的圖片直接傳輸到雲端的大模型進行處理。而現在採用的是本地和雲端相結合的模式,先在本地進行 OCR 文字識別,然後只傳輸文字,這樣可以大大減少傳輸量。
目前,在圖片傳輸和獲取方面,我們的技術已經比較成熟,並且在產品上已經落地。未來可能還是聚焦在雲端多模態模型的部署,包括分散式平行計算、資料量分離、量化等各種挑戰。如果加入更多的模態和不同的網路結構,部署會變得更加複雜,需要結合像 GPU 或其他晶片進行設計開發,儘量確保模型能夠在保證低延遲的同時,實現較高的吞吐量。
場景化應用
王松:在教育硬體中,如何透過演算法最佳化和 AI Infra 的支援,確保模型的快速響應和高精度知識輸出?
張廣勇: 首先,關於幻覺問題,我們基於子曰教育大模型,並結合了 RAG、知識庫等技術,透過多年的教育積累和資料支援,來規避這些問題。在低延遲方面,我們採用了 INT8、INT4、FP16 等混合量化方式,利用低精度充分發揮本地算力。而在高精度方面,我們採用了混合量化技術,因為純 INT4 精度可能無法滿足要求,混合使用 INT8 和 FP16 能夠既保證精度,又能提供快速響應。
王松:你們端側的 OCR 識別率怎麼樣?
張廣勇: 我們的 OCR 識別率對於常規文字來說,通常能達到 98% 以上。當然,識別的準確度與詞典筆的使用習慣有關,如果使用者沒有正確對準掃描區域或者沒有拍好照片,可能會影響識別效果。在這種情況下,使用者有時會重新掃描。如果掃描到位,常規文字的識別沒有問題,甚至對於一些複雜場景,比如藝術字、手寫等場景,我們也能保持較高的準確度。
王松:那麼像 OCR 這種場景,離線模式已經足夠應對了?
張廣勇: 對,對於大多數情況,離線能力已經足夠。不過,對於一些複雜的場景,比如複雜的公式識別,離線模式可能因算力限制而無法處理得很好,這時我們會結合一些線上能力來解決。
王松:古老師能否分享一些具體的演算法最佳化策略或 AI Infra 架構設計,以展示在這兩個領域的差異化調優實踐?
古鑑: 整體速度仍然是一個關鍵問題。比如在部署模型時,我們可能會先使用類似投機取樣的小模型進行序列探測,然後再由大模型進行驗證。另外,在設計過程中,我們致力於提升使用者的體驗。與手機聊天的文字輸入相比,使用者與眼鏡互動時的感受是完全不同的。我們設計了分發策略,透過快速處理大量標註的語料,包括系統語料、閒聊語料和指令語料,從而訓練了我們的分發大模型。
舉個例子,當用戶問天氣時,系統能夠快速呼叫天氣資訊。如果使用者說:“我吃飽了,想去西湖玩”,系統需要判斷是呼叫導航功能,還是提供西湖周邊的美食推薦等。這一切依賴於我們的訓練策略,透過對大量資料進行標註,整體速度得以提升。
在使用者體驗方面,我們還加入了一些最佳化,比如在搜尋過程中,系統會提示使用者稍等一下。當用戶收到類似反饋時,通常會願意等待幾秒鐘。此時,我們可以提供更好的反饋,提升使用者體驗。
王松:您認為哪些 AI Infra 層面的技術創新可以有效提升產品的場景適應性和使用者體驗?能否分享一個您參與或瞭解的成功案例,詳細說明如何透過演算法和 AI Infra 的結合,實現產品的場景化設計與使用者價值感知的提升?
張廣勇: 主要集中在兩個大場景:查詞翻譯和 AI 答疑老師。查詞翻譯功能結合了 OCR、翻譯和 TTS 技術,AI 答疑功能則是在大模型的支援下,能夠為使用者提供更多的價值。答疑功能的目標並不是替代老師,而是作為對老師的補充。例如,傳統的輔導老師在學科上有明確分工,而 AI 大模型則可以在同一個模型下處理所有學科的問題。如果學生在學習數學時遇到歷史問題,AI 大模型也可以幫助解答。
此外,AI 大模型還能夠提供更好的互動體驗。與傳統的固定答疑方式不同,大模型可以實現靈活的互動,學生可以隨時打斷並提問,向模型詢問具體知識點或相關百科知識,這樣可以讓學習過程更有趣,也能拓寬學生的知識面。
古鑑: 目前,我們正在與一些展會和外貿場景結合,打造一個完整的解決方案。這個方案包括多語種翻譯,特別是一些小語種的翻譯,同時也包括全天候記錄和總結功能。尤其是在專業場景中,比如前幾天我參加了廣交會,現場的確感受到了不同國家的人們都需要翻譯服務。
雖然英語翻譯裝置很多,但對於小語種、專業詞彙和不同口音的翻譯需求,仍然存在挑戰。我們的眼鏡可以快速與使用者進行交流,尤其是在展會中,展商需要記錄與客戶的溝通內容。如果一天與 100 個客戶交流,記不住所有細節是很常見的。我們的方案能夠幫助展商記錄下交流內容、總結對話,甚至保留翻譯歷史和音訊檔案,便於後續聯絡潛在買家。我認為這是一個基於實際場景的有效翻譯解決方案。
王松: 如果能加上影片和拍照功能,記錄現場情況並還原場景,使用者的印象可能會更加深刻。
古鑑: 確實,收到反饋後,我們計劃在攝像頭版本中加入拍攝名片和合照的功能,將這些內容插入到記錄中,這樣可以讓記錄更加完整。
王松:端側能力開發中,選擇開源模型還是自研閉源方案?考慮的維度有哪些?
張廣勇: 端側的演算法和模型最佳化主要依賴兩部分:一是演算法,二是模型工程。我們會基於一些開源模型,結合我們的資料進行深度最佳化。對於雲端來說,開源的推理框架非常多且效果不錯,但在端側,開源推理框架較少,效果也有限。主要原因在於,詞典筆的算力和記憶體非常有限,記憶體僅為 1GB,而一些模型動輒需要幾百兆的記憶體。此外,使用第三方框架時,速度往往無法達到即時要求。因此,我們選擇自己實現底層服務,即提升了速度,又降低了執行記憶體,使記憶體消耗保持在可控範圍內。這也反映了端側和雲側模型部署的一個重要區別:雲側可以透過擴充套件多臺機器和多個卡來滿足使用者需求,但在端側,一臺裝置上的晶片需要同時支援多個功能模組,例如離線大模型、OCR、TTS、ASR 等。這個限制使得在端側部署本地模型更具有挑戰。
古鑑: 目前,我們還沒有一個完全開源的端側解決方案,因為眼鏡的算力有限。我們認為,眼鏡和手機都是個人裝置,使用者的聊天記錄等資料應該保留在本地,以確保隱私安全。因此,我們傾向於使用開源解決方案,並經過最佳化以適應手機或眼鏡端。然而,現在看來,眼鏡端直接執行端側模型仍然有一定距離。
王松:您預計眼鏡上大概需要多長時間才能直接執行離線模型呢?
古鑑: 這肯定與電池技術的發展密切相關。例如,現在有些半固態電池已經在使用,如果晶片算力得到提升,電池續航也能增加,我覺得在未來一兩年內是很有可能實現的。現在,許多公司都在探索這種可能性。端側的模型相對較小,可能會解決特定場景的問題,而不是像我們所說的大型離線模型方案。因此,這種小型離線模型的實現是非常有可能的。
王松:您認為 AI Agent 深度嵌入硬體會帶來哪些正規化級體驗變革?
古鑑: 我們非常重視 Agent 這一概念,因為我們認為眼鏡應當是一個隨身裝置,像個人助手一樣。例如,我們有自己的 Agent store。此外,我們還在探索 MCP 方案,希望能夠接入更多的 Agent 框架。Agent 的優勢在於,它能夠突破傳統資料限制,連線所有 APP,並記錄使用者的使用情況,從而提供更個性化的幫助。我們希望在眼鏡上實現類似的功能,例如透過 Agent 來點咖啡、點外賣,訂票等。透過 Agent,你不再需要開啟手機,這正是未來的發展趨勢。
張廣勇: 我們的 AI 答疑老師本質上是一個 Agent,具備幾個特點。首先,它可以實現個性化教學,因材施教,並且支援全科目教學。傳統教育中,各學科相對獨立,但在 AI 智慧體的支援下,學生可以跨學科學習,打破學科之間的壁壘。
其次,AI 智慧體可以增強學生的學習體驗,提升互動性。例如,對於立體幾何等空間感較強的學科,學生可能難以理解,但如果透過影片或動畫形式展現,學習起來更加形象化。AI 可以根據學生的需求生成內容,甚至讓學生自己根據想法繪製和生成學習內容,而不再侷限於固定格式。
此外,AI 還可以促進學生從被動學習轉向主動學習。傳統教育方式中,學生主要接受老師的講授,而現在,學生可以透過掃描、拍照、語音互動等方式主動探索知識。與 AI 的互動讓學生可以隨時提問,激發更主動的學習興趣。AI 不僅能生成影片和動畫,還能創作其他作品,這為學生提供了更多可能性。
王松: 我認為未來 AI 與人類的互動將有兩種模式。第一種是 Copilot 模式,主要的活動還是由人類主導,而 AI 在旁邊提供高度智慧的輔助。這種模式是未來無法避免的,因為人類始終是主角。第二種模式則是,人在開始時設定任務,然後 AI 獨立完成,直到任務完成後再通知人類。未來,我認為這兩種模式將並行很長一段時間。人類會繼續參與,但也能偶爾“偷懶”。因此,這兩種模式在未來都非常重要。
王松:未來 2-3 年最看好的智慧硬體場景是什麼?
張廣勇: 對於我們自己的產品,我們主要做的是 AI 與教育結合的學習智慧硬體產品,像我們今年推出的 spaceone 答疑筆,具有全屏,更適合大模型的功能落地。基於這些硬體,再加上大語言模型、推理模型和多模態模型的能力,我們的產品能夠提供一個非常自然的互動體驗,無論是語音還是拍照,都能順暢進行。
對於其他產品,使用者體驗會越來越好。例如,我使用了豆包耳機,原本以為延遲大、會卡頓,但實際使用後發現它的互動非常自然,反應也非常快,可以方便地解決各種問題。
像耳機、眼鏡等裝置,隨著場景化的結合和 AI 與硬體的融合,使用者體驗會不斷提升。當然,智慧硬體面臨的挑戰,特別是功耗和重量問題,特別是眼鏡裝置需要更便攜,未來這些裝置的缺陷會逐漸得到彌補,體驗也會越來越好。
古鑑: 我還是非常看好眼鏡的發展。比如說,未來的教育中,孩子們的近視率很高,很多家長不希望孩子使用手機。如果孩子戴上眼鏡,可以用它來掃題、提示學習內容,甚至引導坐姿糾正等,我認為這就是眼鏡在教育領域的一個重要應用場景。
除了眼鏡,還有像項鍊、戒指等裝置,必須與 AI 結合。透過這些隨身硬體收集個人資料,並訓練出一個個人助手或輔助系統,將大大提升使用者體驗。未來,甚至有可能將這些資料與腦機介面或機器人技術結合,從而使使用者擁有一個“替身”,幫助完成許多工。這樣,使用者就可以更多地享受生活,而不必擔心瑣事。大模型只是一個起點,隨著技術進步,人類的工作將逐步減少,我們將更多依賴“Avatar”來完成工作。
 活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章