連Siri都熬了14年,語音智慧難在哪,AI硬體為什麼突然火了?|對話聲智科技陳孝良

此刻,或許你已經踏上了國慶長假的旅途。假如你在國外,當你戴上AI耳機,它不僅能幫你翻譯選單,還能教你即時用外語問路……你會為這樣一款耳機買單麼?
戰時潛艇反聲吶收音機,到風靡一時的民用消費品:Walkman、CD 播放器、 MP3、iPod、Siri、智慧音箱,再到今天的AI手機、AI耳機……聲學技術一直以來都是消費電子產品發展的關鍵點之一。
如今,隨著 AI 技術的快速發展,聲音正成為人機介面互動的新前沿,在聆聽和對話之間,重塑我們和世界的互動方式。
不久前,豐叔邀請聲智科技創始人陳孝良博士聊了聊。陳孝良博士曾任職於中國科學院聲學研究所,是聲學領域的研究員,於 2016 年創辦了聲智科技。聲智科技一直在聲學+ AI 交叉領域探索,在智慧音箱紅極一時的年代,大部分我們熟知的智慧音箱品牌都搭載了聲智的遠場聲學互動技術
但是,在相當長的時間裡,智慧音箱給人留下的印象是“不智慧”。AI 大模型的出現,終於解決了智慧音箱“不智慧”的問題,聲音互動不再是雞肋
陳孝良一直堅信 AI 的效果驗證最終大規模落地,肯定是在消費領域。2024年,聲智科技推出了自己的AI耳機。讓使用者最先感知到AI功力的,是耳機內建的即時翻譯和轉寫功能。所以,開頭我們提到的場景,已經在變成現實。
iPhone 16(蘋果首款AI手機)釋出後,陳孝良博士和豐叔就聲學發展的歷史沿革,以及AI 硬體創業的現狀和未來,展開了深入對話,他們討論的話題包括:
  • 潛艇聲納魚雷軍事相關技術,為什麼必須用聲音訊號?
  • 為什麼我們唱歌時,自己聽到的聲音和錄音機裡播出的不一樣?
  • 最初服務於國防和軍工領域的聲學技術,是如何一步步轉向消費電子產品的?
  • 語音訊息為起點的微信是如何崛起,併成為中國排名第一的即時通訊服務應用軟體?
  • Siri 早在2010年就推出了,熬了接近14年,一直不溫不火,為什麼卻成為蘋果首款AI手機發佈會的核心看點
  • 你家裡是不是也有一個落了灰的智慧音箱,智慧音箱為什麼“不智慧”?這背後有哪些技術挑戰和使用者體驗難題?
  • GPT-4o 可以為語音識別帶來哪些新的變化和可能性?
  • 穿戴式耳機走過了什麼樣的發展歷程?AirPods耳機 vs. 骨傳導耳機 vs. 耳夾式耳機
  • AI 將如何賦能耳機
  • 在中國,助聽器的滲透率很低,這個局面會改變嗎?助聽器如何贏得新一代老年人使用者嗎?
希望能帶來不一樣的角度和思考。歡迎移步小宇宙APP / Apple Podcasts(蘋果播客) / 喜馬拉雅APP,搜尋並訂閱「高能量」收聽這期節目。
互動福利
你有戴耳機的習慣嗎,你有哪些需求是市面上的耳機能夠很好地滿足的?歡迎在評論區留言,我們將隨機挑選2位讀者,送出聲智科技的AI耳機

/ 01 / 
聲學雖小眾,卻是每一次科技突破的關鍵點
李豐:今天的對話嘉賓是陳孝良博士,他創業前是中國科學院聲學研究所的研究人員。2016 年,他從科學院體系出來創業,在創業的 8 年裡,他經歷了與聲學人工智慧相關的多次浪潮。這次我請陳博士來分享他對當前 AI 與硬體結合的新創業方向的看法,以及這一次熱潮對未來我們能體驗到的科技消費品會產生怎樣的影響。
陳孝良:非常高興今天能夠和大家聊聊AI+聲學+硬體創業相關話題。聲學,在一個全球範圍內,都是比較小眾的學科,過去主要服務於國防和軍工領域,比如潛艇聲納和魚雷等相關技術。
李豐:插入一個小知識,在軍事上,聲學的一個關鍵應用就是如何用聲納更好地探測,以及如何避免被別人用聲納探測到。
陳孝良:為什麼必須用聲音訊號?因為水下環境中,聲波是唯一能夠保持訊號長距離傳輸,且不快速衰減的通訊和感測手段。
光學訊號和電磁波在空氣中是主要手段,但在水中它們的訊號由於水體的吸收和散射會快速衰減。這就是為什麼當你潛水的時候,你會發現,在10 米以下的水域,基本上漆黑一片,因為光會快速衰減。
消費領域,我們也用到了許多聲學技術,包括錄播客用到的麥克風、音響、在電影院聽到的音效、聽歌的 MP3 格式,等等。這些都是聲學領域的典型應用。
但是,這些底層演算法(比如編解碼)大多來自海外。我們也嘗試過自主研發一些編解碼演算法,但因為這背後涉及到全球統一的標準,所以推廣難度很大。
回顧上世紀八九十年代日本經濟快速發展,大家可能還記得那時候興起的 WalkmanCD 唱機
直到後來,蘋果推出了iPod。消費聲學硬體一直在不斷發展。
再往前推,現在海外的一些聲學品牌,基本上都是二戰期間生產或維修收音機的企業,比如西門子、飛利浦、Bose。彼時,航母、潛艇等行業的發展,帶動了聲學在國防軍工領域的應用。
再往前推,是 19 世紀電話的發明,這也是一個非常重要的科技進步。
李豐:這是第二次工業革命的重要一環。
陳孝良:所以說,聲學許多科技發展取得突破的關鍵點之一。
AI 的興起,某種意義上也是從聲音開始的。深度學習也曾率先在聲音上驗證它的效果。2011 年,蘋果在釋出會上正式推出了 Siri,這是第一個推向市場的語音助手,讓大家一下子感受到了深度學習帶來的演算法變化。這次釋出會極大地推動了聲學演算法的升級
/ 02 / 
最早我們用微信,像是在用對講機
李豐:你剛講到Siri的重要性,其實如果我們回過頭來看移動網際網路,2010 年以來幾乎所有成功的中國移動網際網路創業,比如美團、抖音、快手、微信,都是在此之前難以想象的商業模式。
這些新崛起的移動網際網路巨頭有一些共性
首先是互動形態的改變。我們把資訊輸入從PC的物理鍵盤,改成在智慧手機上的觸控式螢幕上進行拖拽、滑動,也就是可以不依賴鍵盤。這種互動形態的改變,帶來了很多商業模式,比如今日頭條和抖音的大資料推薦。
其次是新感測器帶來新資料。因為有了高畫質攝像頭,跟圖片和影片相關的移動應用開始流行,比如抖音快手。因為在智慧手機中加入了 GPS,於是有了位置資料,隨之產生了與位置相關的移動應用,包括滴滴打車、外賣服務。
微信的崛起也與之有緊密聯絡。
雖然現在微信大家可能打字比較多,但我們可以回憶一下,微信最初推出時是以語音為主的。那個時候,很多使用者把微信當對講機來用。
這是因為,在聲音輸入上,當我們告別諾基亞手機,切換到以蘋果手機為代表的智慧手機,麥克風從簡單的收音裝置變成了麥克風陣列,聲音質量和信噪比都提高了。即使在嘈雜背景中,我們也能清楚地接收語音資訊。
此外,當時的網路也能很好地支援語音資訊的傳輸,並且語音還原效果也不錯,使用者體驗也算得上特別——當時智慧手機變成了全屏,但螢幕很小,沒有物理鍵盤,虛擬鍵盤也不太好用,語音通訊比打字的效率高很多。
陳孝良:微信誕生時,用到的聲學技術還比較簡單,主要是錄音和播放,不涉及複雜的 AI 技術。後來,微信加入了一些語音識別技術,AI 技術逐漸得到應用。
值得一提的是,微信語音的普及,離不開底層編解碼技術的提升,即大幅降低了語音傳輸的流量需求,同時保證了清晰度。要知道早年的語音通話,時常會出現網路卡頓、斷斷續續的問題。
李豐:我們剛才講了人類與智慧裝置的互動方式。鍵盤打字是需要後天學習的技能,沒有人天生就會打字,但滑動和拖拽這樣的操作是完全天然的,小朋友拿起 iPad 就能玩。而攝像頭像是人眼的延伸,語音交流也是人類自然的輸入輸出方式。
所以在智慧手機的發展中,最大的變化是從有物理鍵盤轉向了無物理鍵盤。這讓使用者開始使用新的感測器和互動方式,比如聲音、位置資訊、高畫質攝像頭,滑動和拖拽等,形成了新的互動方式。
陳孝良:其實從 Siri 誕生開始,業界就達成了一個共識,下一代的互動是基於聲音的多模態互動。但是,為什麼十多年過去了,聲音互動仍然沒有成為主流?這是因為聲學相關的底層技術還沒有達到非常成熟的商業化階段。
聲音涉及到很多問題,包括不同的語音特徵、多語言處理、語義理解等,這些都是現在大模型正在解決的問題。然而,聲學計算已經很久沒有新的進展了。
舉個例子,收音機的發明基於早期的電子管技術,它主要透過類比電路來處理聲音訊號。後來,Walkman 和 CD 唱機等裝置出現,聲學技術逐漸從模擬訊號處理轉向數字化,但仍是基於訊號處理的思路。
後來,蘋果推出音樂播放器 iPod,並憑藉這款產品再次崛起。我覺得,喬布斯對聲學技術是有執念的。到 2009 年左右,人們已經開始嘗試使用深度學習的方法,來處理語音問題。不過,那時還沒有深入到語言或聲學領域,只是用於處理語音。
不再依賴傳統的訊號處理方法——從模擬訊號轉向數字訊號,再進一步到深度學習時代,相當於說聲學計算發展到了第三個時代
深度學習非常擅長處理傳統的訊號處理方法沒法解決的非線性問題,儘管其在精確度上不如傳統方法。在語音識別中,它很難達到 100% 的準確率,但往往並不需要100%準確。每個人的語音特徵都有差異。人類在聽聲音時也會出錯,尤其在沒有聽清楚時,會習慣透過聯想來補全內容。好在大模型可以補足這一塊。在語音識別領域,機器已經能夠超越人類。
喬布斯推行的聲音互動鏈條裡,有兩個關鍵部分:聲學和 NLP(Natural Language Processing,自然語言處理)。在 2010 年左右,語音處理技術還僅限於在手機裡使用。
2014 年底,亞馬遜釋出了 Echo 智慧音箱,推動了聲音互動的發展。亞馬遜從 2011 年開始研發 Echo,當時為了解決語音的識別問題,引入了麥克風陣列技術。
單個麥克風只能接收到聲音訊號的振幅,透過多個麥克風的組合,我們還可以捕捉到相位資訊。利用時間差計算相位差,我們可以更精確地確定聲源的位置,進一步提升語音識別的準確性聲音訊號的質量
/ 03 / 
距離、延遲與噪聲,三個常見的聲學問題如何解決?
李豐:很多聽眾可能不太瞭解聲學技術。當你講到麥克風陣列,其實涉及到幾個常見的場景和問題。
第一種是像我們現在錄播客,大家離麥克風非常近,收音效果很理想,這是一種理想環境。
另外一種是開會時,大家離桌上的麥克風遠近不同,坐在邊上的人說話可能很清楚,但遠處的人說話就聽不清,有時聲音斷斷續續。
此外,如果在室外,手機還會有很多背景噪聲,比如地鐵行駛、風聲等。
那麼,麥克風陣列在解決這些問題時,現在和未來的解決方案是什麼?
陳孝良:人與裝置的互動是很自然的,比如人和手機互動一個手臂的距離,這叫“近場”互動。未來當智慧機器人普及,我們不可能像用手機一樣,去追著它按按鈕或按觸控式螢幕,所以,必須解決遠場互動的問題。
智慧音箱使用陣列技術也是為了優先解決遠場問題。在 2016 年,我們的主要任務就是去掉距離這個邊界條件,保證在遠距離時仍能清晰聽到聲音。
在軍事中的聲納對抗中,這是最核心的問題。海洋環境非常複雜,不可能有理想的邊界條件。但是在消費場景中,往往有成本限制。我們最初用六個麥克風陣列,後來降到三個,現在用一個也能達到效果,這表明技術也在不斷進步。
會議場景則是個典型的多人場景。多人場景裡有一個現象叫“雞尾酒會效應”:人類可以在嘈雜的環境中,透過專注某些聲音,來忽略其他聲音。除了外界噪聲,還有自噪聲的問題。
這是因為人類聽聲音的方式有兩種,一種是空氣傳導,另一種是骨骼傳導。我們聽到的自己的聲音其實是這兩種方式的結合。你說話時不可避免會帶動骨骼的震動,而這些震動會透過骨傳導傳遞到你的耳朵,這就是自噪聲。AI硬體包括機器人就必須抑制好自噪聲問題
李豐:這真是個冷知識。
陳孝良:所以說,人類在唱歌時,自己聽到的聲音和回放的聲音,或者說和別人聽到的聲音是不一樣的。唱歌時很多人會跑調,是因為他們沒有準確地聽到自己的聲音。而為了精確控制音調,歌手通常會佩戴返聽耳機,不斷調整唱歌節奏。這就對聲學系統的延遲提出了非常高的要求。
繼續說邊界條件,聲音在空氣中和固體中傳播的速度是不同的。聲音在空氣中的傳播速度約為 345 米/秒,而聲音在鋼鐵中的傳播速度是在空氣的十多倍。假如敲擊暖氣片,聲音立即傳遍整個樓層。如果聲音延遲了、錯位了,本來應該抵消的聲音反而加劇了,就會變成噪聲。
所以,延遲是一個很大的技術挑戰。就像衛星定位依賴於精確的時間同步,時間一旦錯了,精度就會下降。聲學也有類似的要求,第二個邊界條件就是延遲。
聲學處理與語音識別有很大不同。在聲學處理時,延遲必須控制在人類可接受的範圍內。一般來說,人類發出一個單詞的時間大約是 200 到 300 毫秒,而我們對聲音的混響、回聲感知則在 80 到 100 毫秒。但敏感的人對延遲的感知最低能夠達到 30 多毫秒。因此,聲音的處理必須把延遲壓縮到 30 毫秒以內
我們處理語音,會將它分為非常小的幀,每幀最長一般只有 10 毫秒——非常片段化的資料,並且必須即時預測和處理
在智慧音箱中,使用麥克風陣列時,我們主要解決了兩個問題:第一個是解決遠場問題,第二個是解決延遲問題。我們要確保對話服務的延遲在 1.5 秒左右,比如說使用者發出命令後,音箱開始播放音樂的時間不能超過 2 秒,否則使用者就會感到明顯的延遲,影響體驗。
李豐:所以透過聲學控制的方式,是否可以加上自然語言部分提前處理,而不是等到後續?
陳孝良:不能提前加入。2016 年,我們所有的陣列裡要加上十多種聲學演算法,它主要是為了降低第三個邊界條件:噪聲
另外,端點檢測也非常重要。它在整個對話互動過程中延遲是最大的,如果控制不好,延遲可能會達到一到兩秒,嚴重影響後續的使用者體驗。
李豐:端點檢測的概念,跟編輯播客音訊時處理“氣口”是一樣的道理嗎?
陳孝良:對。類似於你說話時,每個停頓都要被檢測到。有些人說話很快,我需要加上端點檢測,確保能夠正確地分割。因為聲學處理的分割,必須給後續的語音和語言處理留出空間,如果前面的處理不準確,後續的語音和語言處理就都會出錯。
所以,在陣列處理中,其實要解決很多邊界條件的問題,承擔的工作非常多,這也是為什麼我們要找到一個新的載體,因為手機當時的算力不足以支撐這些複雜的處理。正因為這樣,我們才需要開發一個小型聲學晶片
同時,我們還需要降低成本。Echo 當時使用的是非常高階的數字訊號處理器——TI DSP晶片,我們後來把所有的演算法移到 ARM 架構上,從麥克風直接接入晶片,智慧音箱的價格因此降到了 200 元左右小米的智慧音箱也是在那個時候成為爆款的。
/ 04 / 
早年的智慧音箱,為什麼不智慧?現在技術進步了嗎?
李豐:智慧音箱在 2016 到 2018 年特別火,對你們來說,最終實現了哪些目標?
陳孝良:我覺得實現了三個目標,也有一個目標未能實現。
第一個是,我們解決了複雜場景下的聲學問題,成功讓智慧音箱脫離手臂距離的束縛,成為真正的遠場互動裝置。
第二個是,透過使用陣列和聲學結構,我們構建了完整的 AI 聲學處理架構,從聲學處理到語音識別、語言處理,再到內容服務和 TTS(Text-to-Speech,文字轉語音)合成,整個鏈條被打通了,為後續的智慧裝置迭代奠定了基礎。
同時,我們提高了語音識別的精度。在複雜場景下,我們對於遠場語音識別的精度基本上能夠達到 85% 以上,已經足夠用來理解和執行使用者的指令。
第三個是,在將多個演算法組合在一起後,我們成功將延遲控制在使用者可以接受的範圍內,保證了精度、延遲和距離三者的平衡。
李豐:這些技術當中有多少是和你們相關的?
陳孝良:包括前面提到的所有聲學演算法,和後面的喚醒演算法。當年,由我們提供技術支援的智慧音箱,在一年內,賣出了兩三千萬套
但是,有一個問題我們未能完全解決,就是當時 NLP 的處理還不夠成熟。很多人說智慧音箱“不夠智慧”,那個時候確實有這個問題。在智慧音箱火爆之後,從 2019 年開始,我們花了很多精力去提升 NLP 技術。
李豐:我稍微總結一下。智慧手機中的聲學技術發展,使得像微信這樣的高畫質語音通話應用得以實現,特別是像對講機模式的語音通話。但由於手機本身的硬體限制,亞馬遜從 2011 年開始尋找新的載體,最終在 2014 年到 2019 年之間,促成了智慧音箱的興起。
由於更大的空間更高的算力智慧音箱的聲學效能得到了提升。然而,儘管硬體方面已經做得很好了,在那個時期,智慧音箱的 NLP 能力和互動能力仍然存在一些難題。
陳孝良:2010 年到 2015 年,深度學習帶來了語音技術的飛躍,像蘋果的 Siri、谷歌的 Assistant、微軟的 Cortana 等都逐漸崛起。不過,它們在手機上的語音識別精度不高,而且不夠智慧,有點雞肋
2015 年到 2020 年,麥克風陣列技術解決了關鍵的聲學問題,尤其是在複雜的場景中的應用。但在當時,語言處理技術並沒有顯著提升。雖然資料積累了很多,但如何高效地處理和使用這些資料仍然是個難題。
結果即使到現在,智慧音箱依然是全球使用者觸達最廣泛的 AI 裝置
2020 年之後的技術和之前 10 年已經有很大不同,尤其是大模型的出現,現在我們看到了一些新的可穿戴裝置的機會,蘋果也開始推出 AI 手機,這是因為語言技術和 AI 的結合更加成熟了。
/ 05 / 
GPT-4o時代,語音互動將迎來更大的機會
李豐:在 AI 和聲學相關的領域,大家對 GPT-4o 反應熱烈,尤其是在語音互動方面。我想從你的角度來聊一聊 GPT-4o 和其後的發展。
陳孝良:接下來非常重要的一步,是將聲學與大模型結合,並落地到裝置中。GPT-4o 目前可以基於手機進行語音和語言展示,對聲學要求相對較低。大模型在對話中的表現,已經比智慧音箱時代好了很多,使用者體驗達到了可用水平。
但是,語音互動依然面臨挑戰,特別是在自然對話中,現在的智慧音箱仍然是“一對一”的互動方式:你說完一句,它聽完後再給出回應。但在多人聊天的場景中,語音需要被切分開來,分辨出誰在說話,以及不同發言者之間的上下文聯絡。
這就依賴於聲紋技術,快速識別出到底有幾個人在說話,誰說了什麼。否則,如果沒有準確的上下文,大模型就可能誤解整段對話內容。聲紋技術一直沒有被廣泛商用,但它在解決這些問題中扮演著重要角色。
李豐:這聽起來像是指紋識別一樣。
陳孝良:對。特別是在複雜對話場景中,聲紋起關鍵作用。一旦技術成熟,再結合之前的積累,複雜場景中的互動體驗將會變得非常好,屆時你會感覺到,它不僅能夠理解單個人的發言,還能夠真正理解多個不同人的對話內容。
李豐語言大模型基本上涉及兩個場景,一個是寫作,一個是語音互動。到了 GPT-4o 階段,我們會看到更多“說”和“聽”這類互動形式。
AI 智慧硬體在過去半年裡突然火熱起來,包括智慧眼鏡、AI耳機,以及很多可以語音互動的陪伴式裝置,比如在玩具上加入語音功能。未來,也許可以透過語音來做面向老年人的陪伴與狀態監測類裝置。
GPT-4o 帶來了輸入輸出形態的改變,你們在這方面做了哪些嘗試?
陳孝良:我認為GPT-4o可以跟Siri類比,GPT-4o就是下一代的 Siri。Siri從2010年蘋果釋出以來,熬了接近14年,現在終於迎來一次重大升級。蘋果的 AI 手機就是 Siri 升級到 GPT-4o 後的結果。Siri 從原來的“聽不清、聽不懂”,逐步進化到如今能夠識別多人對話,並且能夠理解這些對話,是依靠大語言模型來實現的。
其實蘋果開始將 GPT-4o 和搜尋功能結合,表明語音和語言大模型的結合已經相對成熟,可以商用。GPT-4o 是語音和大模型結合的關鍵節點,這一次的技術升級很快會被應用到各種新的智慧裝置中,如 PC、耳機、眼鏡等。接下來,隨著更多裝置的加入,再加上聲學的提升,整個 AI 裝置市場將會迎來一次爆發式的增長。
李豐:因為聲音是基於語言的自然互動,語言技術部分成熟後,互動方式的轉變將越來越依賴語音。
陳孝良:是的,如果你想讓大模型得到更好的應用,或者讓硬體發揮其優勢,這兩者肯定要結合在一起。
/ 06 / 
穿戴式耳機的發展與迭代
李豐:所以你們基於這種認知,加上過去的積累,推出了一款新的 AI 耳機?
陳孝良:是的,它在很短時間內就成了爆款。我們原以為一個月能銷售 5 萬臺、全年銷售60 萬臺就已經很不錯了,但實際情況遠超預期。我們也一直在補充產能。
李豐:消費者的購買熱情超過了你們的備貨量。具體來說,這款耳機在不同平臺上銷量如何?
陳孝良:我們目前還只在抖音上預售一上線就爆單了,而且是抖音平臺定義的爆單。目前我們耳機在抖音的自然流量中基本都排在前十,甚至是第一名。每週的加購數量也在翻倍增長,這個節奏讓我回想起當年智慧音箱的爆發
李豐:在抖音上能夠賣到第一名是很厲害的,因為抖音幾乎是最卷的賣貨市場了。你覺得這款耳機成為抖音爆款的主要原因是什麼?
陳孝良主要是因為AI。很多使用者想知道 AI 到底能做什麼,但他們不清楚 AI 可以怎麼幫他們,我們的AI耳機加了翻譯功能,讓使用者可以直觀地體驗AI耳機的能力。
比如出國交流,去一帶一路沿線的小語種國家,翻譯這個需求就很明確。翻譯功能的市場教育成本很低,使用者買了耳機後,就可以立即體驗到 AI 的功能。
李豐:相當於買了個耳機,還順便得到了一個翻譯機。
陳孝良:對。第二個原因是大模型的應用。雖然大模型在很多場景下有其侷限性,比如需要提示詞,還存在“幻覺”問題,但是我們針對這些問題做了一些最佳化,幫助使用者更好地使用 AI。
李豐:你們在基座模型上做了哪些適配?
陳孝良:我們的基座模型引數不大,採用了混合專家模型的架構,每個專家模型專注於特定型別的任務或資料。這個基座模型特別適合對話場景,它生成的內容非常言簡意賅,通常是短對話,快速幫助使用者解決問題。短對話還有另一個好處,因為AI要把翻譯完的話讀出來,太長了使用者還得聽半天,而簡短的回答可以減少使用者等待時間,使交流更加流暢。
所以,現在消費市場整體低迷,很難刺激使用者更換裝置。加入 AI 之後,情況完全不同了。AI 激發了使用者的消費需求,他們願意嘗試新的技術與產品。所以,消費需求並不是不存在,而是需要一個新的觸發點來激發
李豐:接下來我們聊聊行動式耳機的發展。2019 年蘋果的 AirPods 耳機經過了一些迭代後變得非常受歡迎。
陳孝良TWS 耳機,也就是我們常說的真無線耳機
李豐:是的,以前主流的耳機都是有線的,或者笨重的。TWS 耳機問世之後,大家開始習慣長時間佩戴無線耳機。這也是培養市場的一個過程。
陳孝良:相當於把耳機的滲透率拉上去了。
李豐:接著,又因為疫情,大家在家中待久了以後,戶外活動尤其是運動場景增多,骨傳導耳機變得流行。
骨傳導耳機的特點和優勢在於,你在戶外運動時,不影響對環境的收音,比如車輛鳴笛。但它的音質相對沒那麼好,而且,運動過程中如果出汗,耳機還會有“呲啦呲啦”的干擾聲音。
總體而言,今天的耳機市場已經相對成熟,人們習慣了長時間佩戴無線耳機,而且室內室外不同的使用場景都有相應的產品。你們的耳機,既不是完全入耳的,也不是完全外接的,而是採用了耳夾式的設計,這是怎麼考慮的?
陳孝良:這也是我們對硬體形態的一次創新
李豐:你們這款耳機賣多少錢?
陳孝良:現在的定價是 399 元,但在預售期間優惠價是 199 元,和之前的智慧音箱定價差不多。
李豐:這個定價非常巧妙,湊巧命中了一個“消費規律”:中國消費者對 200 元以內的新型電子產品的接受度很高,這意味著,如果你定價在 200 元以下,大家願意為了新奇的體驗,容忍它的一些小缺點。如果產品質量不錯,就會超出他們的預期。而在美國,類似的價格區間大概是 300 美元左右,相當於 2000 元人民幣左右。
我推薦一些不太瞭解你們的朋友買了你們的耳機,大家的總體反饋是超出預期。首先,他們覺得包裝很炫酷,做工也很好。此外,耳夾式的設計結合了入耳和骨傳導的優點,既能聽到外界聲音,又不會被太多幹擾,而且收音效果好,這些基礎功能已經超過了199塊的預期。等他們再用到 AI 功能時,才意識到耳機居然還能有這個功能,就會覺得物超所值。
這個產品估計老年人也會喜歡。因為人到了一定年紀後,看東西會比較累,聽東西對他們來說是更容易的方式。而且老年人喜歡溜達,尤其是在戶外活動時,比如散步或跑步,他們更依賴聽覺。
陳孝良:是的,原本我們以為這些電子裝置主要是學生群體購買,但實際上,很多老年人也有很大的需求,他們也希望瞭解和使用 AI,這也是我們沒有預料到的。我們有計劃推出專為老年人設計的耳機型號,最近也會發布。
/ 07 / 
頂級航空耳機貴在哪?下一代 AI 耳機會長什麼樣?
李豐:你們未來會推出更高階的耳機嗎?售價最貴的頂級耳機通常貴在哪裡?
陳孝良:我們也在研發更頂級的耳機,比如類似飛行員使用的航空耳機。它對聲學硬體和演算法的要求都非常高,哪怕在炮火連天的場景下,仍能保持舒適的聽覺體驗。在國外,這樣的頂級耳機的價格要在 1 萬美元以上。
李豐:這種耳機應該不能完全無線吧?是不是要總是連著電源?
陳孝良:早期的版本需要電源連線,但現在的技術進步了,像 AirPods 一樣使用四五個小時也沒問題。
李豐:這種耳機肯定是全包裹式的吧?
陳孝良:是的,不過現在也有開發半開放式耳機。未來隨著技術迭代,這類耳機會應用於飛行員低空開發場景
李豐:很多人坐飛機時使用降噪耳機,比如 Bose。
陳孝良:那是比較成熟的降噪耳機,主要是抑制外部的穩態噪聲。
李豐:現在的青少年幾乎全都戴上耳機,目的之一就是為了不讓家長跟他們說話。就像我們小時候,戴上 Walkman ,就可以沉浸在自己的世界裡。所以,如果耳機的遮蔽效果極佳,收音效果也非常好,他們就會聽得更多。
陳孝良:這個真的有可能像 Walkman 一樣變得普及。
李豐:在未來的研發中,你希望下一款針對大眾的耳機在 AI 功能上承載哪些新特點呢?
陳孝良:現在有兩個主要的方向。
第一個是在當前價格約 200 元左右的耳機中,我們希望實現三個功能點。第一是即時翻譯,我們目前升級到 66種語言的互譯,以及 8 種語言的即時同聲傳譯;第二是面向商務人群,最佳化多人語音即時轉寫功能;第三是基於大模型的對話生成和應用
第二個大方向是耳機與 AI 的深度融合,這是我們接下來要重點突破的領域。我們曾經成功讓智慧音箱脫離手機獨立執行,現在,我們計劃讓耳機也能夠在完全獨立於手機的情況下,提供更豐富的 AI 功能
李豐:大家在國外問路或者點菜,用這個耳機是不是可以即時翻譯和對話了?
陳孝良:這些正是我們想要實現的。
李豐:那我給你設一個有挑戰的場景,假如年輕人去酒吧,在那種極度嘈雜的環境下,AI耳機能幫他聽清楚對方說的外語,再給他生成合適的回應,甚至教他怎麼用外語回應。這在未來能實現嗎?
陳孝良:豐叔提到的這種複雜場景我們也在探索。我們在做使用者測試時發現,凌晨時段使用者活躍度非常高翻譯功能的需求很大,比如韓語、烏克蘭語等語言在系統中的活躍度很高。
李豐:如果有人現在買了你們的耳機,未來你們做的產品迭代與升級,也會推送給現有使用者嗎?
陳孝良:是的。目前購買耳機,我們會贈送一年的會員卡,在會員有效期內,使用者可以享受持續迭代的功能和效能。
/ 08 / 
新老年人的消費訴求:別讓人看出我老了
李豐:助聽器為什麼這麼難做?它屬於偏社會公益、有高社會價值的產品。
陳孝良:做好助聽器有幾個核心挑戰。
首先每個人的聽力損失不同,音高音低的感受即響度也有差異,助聽器需要大幅放大聲音,這比普通耳機的要求更高,它必須具備足夠的能力來處理這種高增益的放大
其次,聲音成倍數地放大後,不能所有聲音都被放大。它還要精準地放大使用者關心的聲音,同時加上降噪功能,因為當噪聲過大時,會對使用者的心理健康造成嚴重影響。
再次,助聽器的電力消耗很大,如何控制功耗是另一個關鍵問題。
此外,許多醫療器械廠商生產的助聽器,雖然功能強大,但一看就是醫療裝置,配戴不便,使用體驗也不好。
李豐:大部分老年人害怕別人看出他們老了,像助聽器這種直接暴露老年身份的產品,他們是不喜歡的。
陳孝良:所以我們的目標是把助聽器設計得像耳機一樣時尚。老年人戴上它,看起來就像戴普通耳機。我們計劃釋出一款面向重度聽損人群的AI助聽器出廠就自帶 AI 功能
我國的耳聾人士數量超過 2000 萬聽力有損失的人群達兩億,然而,很多人寧願聽不清,也不佩戴助聽器。除了有些助聽器不太美觀,也有人對使用助聽器有一定的偏見,不願意戴。另一個問題是,很多老年人的需求並沒有被認真傾聽
要想在國內大幅提升助聽器的滲透率,面臨著很大的挑戰。美國助聽器的滲透率大概是 35%,而中國不到 5%。這導致國內市場被國外品牌,尤其是中高階品牌佔據。不過正因為滲透率低,國內品牌有價格優勢,我們正在縮小市場差距。
李豐:如果做得像耳機,而且時尚,會有更多老年人願意使用。舉個例子,大概一兩年前,消費市場上開始流行雙焦鏡,在同一片鏡片上可以實現看遠處和近處的功能。這類產品在新一代“70 後”新老年人中非常受歡迎。
現在的新老年人最不喜歡的,就是用明顯是老年人標誌的物品。一換上老花鏡,大家就知道你老了。像雙焦鏡那樣,不需要切換眼鏡,就能既能看清近處的東西,也能看清遠處的東西,新中年人就會很喜歡。因為這種設計不僅滿足了他們的實際需求,還幫助他們和自己期望的身份認同保持一致。聽力裝置最終也會走這個方向。
/ 09 / 
往前看,往後看:語音終會成為互動的新入口
李豐:回過頭來看,你講到Siri是14年磨一劍。作為一家創業公司,你們從技術整合、硬體演進,到軟體演算法的融合,終於將軟硬演算法連成一體,再加上大模型或者AI技術的應用,做出了今天的爆款耳機。你會怎麼總結這 8 年過程中的曲折?
陳孝良:這 8 年,我們正好趕上了很多重要的事件。
首先,我們抓住了技術紅利。起初 Siri 從手機上起步,後來語音互動從手機轉向了音箱等智慧裝置。當時,一個關鍵技術是要解決聲學問題。我們抓住了這個機會,但技術發展並不是一蹴而就的,它需要經過漫長的打磨。比如資料積累不是一天兩天就能完成的,數學認知分析和大模型的發展,都離不開資料的積累。如果沒有網際網路,大模型不可能發展
我們經歷了漫長的煎熬,做了很多技術路線的探索和實驗,大多以失敗告終。但是我們有堅定的信念,要觸達消費者。一開始,我們是和合作夥伴一起來觸達消費者——我們的智慧語音解決方案是絕大多數國內智慧音箱品牌的標配。所以我們對消費者還是有一些理解。
後來,AI 大模型的出現,終於解決了智慧音箱“不智慧”的問題,使得聲音互動不再是雞肋,可以真正幫助使用者解決問題。所以說,目前技術層面起碼達到了可用的水平。我們一直也很期待能夠透過自己的品牌來直接觸達消費者,所以做了AI耳機
從抓住紅利、經歷煎熬,到技術成熟、產品爆發, 有很多是我們沒有料到的。創業也總是會遇到挑戰,但我堅信,AI 的最終大規模落地肯定是在消費領域。蘋果釋出的 AI 手機是個很好的例子。它看起來變化不大,但實際上裡面有很多AI相關的佈局。
此外,豐叔提到的很多觀點,我們也在思考和驗證。比如,結合我國製造的優勢和科技創新,再加上對消費需求的理解,做好產品設計,有機會做出新物種
我一直認為,聲學互動肯定是未來非常重要的互動方式,我們也會繼續在 AI 與硬體結合的方向去探索,讓消費者可以感受到AI的魅力AI帶來的效率提升
李豐:就像那句老話,“人生沒有白走的路,每一步都算數”。希望聲智科技的耳機繼續大賣、爆賣。像這樣跨語言的,有很大社會價值的產品,應該更多地去國際市場上賣
往後看,你講得非常有道理。首先,就像在上一輪電子產品的革新中,智慧手機的演進,把觸控變成新的互動方式,同樣地,語言模型的發展與演進,也讓語音成為一種新的輸入輸出方式,一個重要的入口。我對這一點是確信的。
其次,就像你提到的,隨著耳機的普及,更多 AI 功能得以在耳機上實現。同樣值得期待的,是耳機成為新的互動入口
對陳博士而言,這段歷程就像從潛艇的反聲吶技術到智慧音箱,最終走向了 AI 爆款耳機。祝願聲智公司能夠克服更多的挑戰,繼續成長。
互動福利
你有戴耳機的習慣嗎,你有哪些需求是市面上的耳機不能夠很好地滿足的?歡迎在評論區留言,我們將隨機挑選2位讀者,送出聲智科技的AI耳機
祝假期愉快!

 具身智慧 vs. 運動科技:一個讓機器像人,一個把人變成機器?| 峰瑞報告

▲ 通往具身智慧之路 | 峰瑞報告

▲ 對話清華教授陳文光:如果大模型不再拼“大”?

▲ 李豐對話連文昭:大模型的想象與泡沫,機器人的「不可能三角」與未來

▲ 李豐對話逐際動力創始人張巍:人形?機器人?

 李豐對話季宇:理解英偉達,解構英偉達,挑戰英偉達

星標峰瑞資本微信公眾號
一手商業思考及時送達

相關文章