對話WisprFlow創始人Tanay：語音輸入，如何創造極致的VoiceAI產品體驗

文章轉載於Sentrum Okern作者：Vela

最近，矽谷的AI語音輸入產品Wispr Flow背後公司完成Menlo Ventures 領投的 3000 萬美元 A 輪融資。

這是一款讓使用者在任何應用內都能透過語音進行輸入，支援 104 種語言，並會根據不同應用場景基於AI能力自動調整語調和格式的產品。在諸多使用反饋中，使用者對它評價很高。它的絲滑程度，產品設計和智慧感讓人印象深刻。

今天我們獲權轉載一篇與其創始人 Tanay Kothari 的對話，作者Vela為在矽谷的語音產品創業者。

如果說矽谷最近有什麼產品能真正給大家帶來那種珍貴的 aha moment，語音輸入產品 Wispr Flow 就是其中之一。這個產品是我認為第一個能讓使用者真正感受到語音作為輸入介面，產生 aha momen 的產品。尤其是最近看到很多朋友體驗後都表示，不用打字之後，能透過自然語言像和人交流一樣的方式輸入，那種爽感是真實的。

今年二月我和創始人 Tanay Kothari 交流，發現他其實對語音互動和產品設計有很深的思考，會從神經科學和設計哲學的角度去探索更深層的"為什麼"。在那次對話之後我也很佩服他，在矽谷這麼多技術驅動的創業公司裡，像他這樣既懂技術又真正關注使用者體驗、有產品 sense 的創始人並不多。

作為同樣在語音賽道的創業者，我個人覺得從矽谷這邊來看，語音 AI 還處於技術創新的非常早期階段。它就像重寫所有的 APP 一樣，會在互動輸入層面重塑現在大多數產品的體驗。目前語音 AI 整體創業的進展是先從基礎設施層出發，比如 speech-to-text、real-time voice conversation 這些，然後再進入到應用層的產品。

然而，語音這種輸入介面的方式對於人們使用產品的習慣影響是慢慢滲透的，在應用產品層正在逐漸出現聚焦各種細分賽道的語音應用。從 OpenAI 的 Advanced Voice Mode 讓我們第一次體驗到真正的 AI 對話，到 Google 的 NotebookLM 用雙人播客重新定義資訊消費，再到語音輸入的 Wispr Flow、情感陪伴的 Tolan、會議記錄的 Granola 等產品在不同場景的探索——語音正在成為一個穩定的介面，擴寬人們與產品互動的物理邊界。

前幾周，Wispr Flow 宣佈完成了 Menlo Ventures 領投的 3000 萬美元 A 輪融資，這篇文章分享一下我和 Tanay 聊的一些觀點，以及關於語音產品設計的思考。

一、Wispr Flow：比打字快 4 倍的語音輸入

Wispr Flow 是一款語音轉文字應用，核心功能是讓使用者在任何應用內都能透過語音進行輸入。不管你是在寫郵件、發 Slack 訊息、寫文件，還是和 ChatGPT 對話，都可以用說話代替打字。產品支援 104 種語言，並且會根據不同應用場景自動調整語調和格式。

團隊背景

創始人 Tanay Kothari 擁有斯坦福大學計算機科學學士學位，曾在 Andrew Ng 指導下進行 AI 研究。9 歲開始程式設計，20 歲時創立的第一家公司 FeatherX 在一年內被收購。

聯合創始人兼 CTO Sahaj Garg 同樣來自斯坦福，曾在 Google Brain 進行 NLP 和機器學習公平性研究，在 Luminous Computing 擔任 AI 團隊負責人。

產品發展時間線

Wispr AI 成立於 2021 年 8 月，最初想做透過識別無聲口型來打字的可穿戴裝置。

– 2023 年轉向軟體，開發 Wispr Flow 應用

– 2024 年 10 月釋出 Mac 版本

– 2025 年 3 月推出 Windows 版本

– 2025 年 6 月釋出 iOS 應用並在 Product Hunt 獲得第一名

目前產品的使用者增長率達到月環比 50%，收入增長月環比 60%，付費轉化率 19%，年收入 380 萬美元。據 Tanay 透露，矽谷幾乎每一家一線風投基金都在使用 Wispr Flow 處理郵件、備忘錄和文件，"他們感到被這個產品吸引住了，這是他們每天都在使用的產品之一"，我自己也是產品的日活使用者。

有體驗過的朋友會更認可這一點，語音輸入一旦進入的 flow 其實很難再回到打字狀態，這也是為什麼我自己和身邊做語音產品的朋友一直也越來越相信“語音作為一種新的產品互動媒介”的原因。

二、對話 Tanay：深入 Voice AI 的設計哲學

二月份我與 Tanay 進行了一次深度對話，那次交流印象極深，不僅僅是 Wispr Flow 這一產品的設計理念和技術實現，還有很多是彼此同作為語音產品的早期探索者，對於 Voice Interface 語音介面這一全新互動方式的一些思考和共鳴。以下是對話的核心內容：

Vela: Why is the product called "Flow"?

Tanay: The name "Flow" captures the essence of the product's design philosophy—enabling users to enter a natural, uninterrupted rhythm while speaking, listening, and completing tasks. The interface avoids distractions and cognitive overload, allowing users to focus entirely on their interactions without being interrupted by unnecessary visual or technical elements.

Vela：為什麼產品叫"Flow"？

Tanay："Flow"這個名字型現了產品設計理念的精髓——讓使用者在說話、聽取和完成任務時進入一種自然、不中斷的節奏。介面避免干擾和認知過載，使使用者能夠專注於互動，而不被不必要的視覺或技術元素打斷。

一些思考：

這裡體現的是心理學家 Mihály Csíkszentmihályi 的"心流"理論在產品設計中的具體應用。在我自己構建語音產品的過程中，我深刻體會到"Flow"狀態對使用者體驗的重要性。使用者在使用語音輸入時，任何介面上的干擾都會打斷思維的連貫性。

這一設計理念讓我想起了之前分析過的 Suno 的產品哲學——技術的最高境界是讓使用者感受不到技術的存在。當我們在設計語音介面時，如何在提供必要反饋的同時不打斷使用者的思維流，這是一個需要精心平衡的設計挑戰。

Vela: What is the goal of the voice interface?

Tanay: The voice interface is designed to become an indispensable tool in users' lives by replacing traditional devices like phones and laptops for 90% of daily tasks. The ultimate goal is to build a product that users trust and rely on, with seamless usability, personalization, and natural interactions as its core features. The long-term vision involves creating a dedicated hardware device that integrates the voice interface into users' lives, allowing them to perform tasks like communication, task management, and information retrieval effortlessly through voice commands. This vision emphasizes the shift from screen-based to voice-first interactions, making technology more intuitive and accessible.

Vela：為什麼做語音介面？

Tanay：語音介面旨在成為使用者生活中不可或缺的工具，透過替代傳統裝置（如手機和筆記型電腦）完成 90% 的日常任務。最終目標是打造一個使用者可以信任和依賴的產品，其核心功能包括無縫的可用性、個性化和自然的互動。長期願景是建立一個專用的硬體裝置，將語音介面無縫整合到使用者的生活中，使他們能夠透過語音命令輕鬆完成通訊、任務管理和資訊檢索等任務。從基於螢幕的互動轉向語音優先的互動，讓技術更加直觀和易用。

一些思考：

在《Voice-first，閉關做一款語音產品的思考》中提到過，我認為語音正在成為一個較穩定的介面擴寬人們與產品互動的物理邊界，而 Tanay 提到的"替代 90% 日常任務"不是簡單的功能替換，而是互動方式的重新定義。

語音互動的最大價值在於它解放了使用者的手和眼睛，讓多工處理成為可能。但要實現這個願景，關鍵在於如何處理語音互動中的錯誤和模糊性，比如在人們日常說話中有很多話是沒有必要的，但又有一些很重要（nuance），所以如果作為一種從聽寫的互動看，不必要逐字逐句聽寫，但又要弄明白使用者意圖、什麼是重要的？——這正是 Wispr Flow 透過"零編輯"這一目標要解決的核心問題。

Vela: When talking about voice interface design, all of us are pretty new to this field. What is the product design philosophy when building the flow?

Tanay: The product is designed with a user-first, emotion-based philosophy, emphasizing how interactions make users feel rather than focusing solely on technical performance.

– Emotion-Based Design: The design aims to elicit positive emotions and reduce frustration, creating a delightful and intuitive user experience.

– User-Centric Focus: Moving away from overly technical, developer-oriented designs to prioritize the needs and behaviors of end-users.

– Flow-Oriented Interface: The product ensures a seamless, uninterrupted experience by aligning with how users naturally interact with technology.

For example: – Avoiding real-time text display during speech to reduce cognitive interference (based on neuroscience research). – Displaying text during pauses to help users process information more effectively. – Learning from user corrections to build a personalized dictionary and continuously improve accuracy.

Vela：產品的設計理念是什麼？

Tanay：使用者優先、基於情感，強調互動如何讓使用者感到愉悅，而不僅僅關注技術性能。

基於情感的設計：設計旨在激發積極情緒，減少挫敗感，創造令人愉悅且直觀的使用者體驗。

以使用者為中心：摒棄過於技術化、面向開發者的設計，優先考慮終端使用者的需求和行為。

Flow 流暢介面：產品透過與使用者自然的技術互動方式相一致，確保無縫、不中斷的體驗。例如：

– 避免在語音過程中即時顯示文字，以減少認知干擾（基於神經科學研究）。

– 在暫停時顯示文字，幫助使用者更有效地處理資訊。

– 從使用者的糾正中學習，建立個性化詞典並不斷提高準確性。

一些思考：

"情感優先設計哲學"這一點值得思考。在我自己構建語音產品的過程中，我發現技術指標和使用者體驗之間往往存在微妙的平衡。傳統的語音識別產品過分關注 WER（詞錯誤率），但使用者真正在意的是能否"零編輯"地使用輸出結果。

就像當時分析 NotebookLM 時發現的一個重要洞察：最好的 AI 產品不是炫耀技術，而是讓技術消失在使用者體驗中。Wispr Flow 透過基於神經科學的介面時序設計，體現了對使用者認知過程的深度理解——這正是我認為語音產品與傳統 GUI 產品最大的差異。

Vela: What neuroscience insight influenced the design?

Tanay: Neuroscience research revealed that speaking and reading activate the same brain region responsible for language understanding. This overlap makes it challenging for users to do both simultaneously. To address this, the product avoids displaying real-time text during speech, reducing cognitive interference. Instead, text appears during pauses, aligning with how the brain processes language and allowing users to reflect on their output more effectively.

Vela：神經科學的哪些見解影響了設計？

Tanay：神經科學研究表明，說話和閱讀會啟用同一個負責語言理解的大腦區域。這種重疊使使用者難以同時完成兩項任務。為了解決這一問題，產品在語音過程中避免顯示即時文字，從而減少認知干擾。相反，文字在暫停時顯示，與大腦處理語言的方式保持一致，使使用者能夠更有效地反思輸出內容。

一些思考：

一個啟發點，在設計語音介面時，我們往往本能地想要提供即時反饋，比如其他的同類語音輸入產品 Aqua、Superwhisper 是這樣做的，但 Tanay 提到的這一點值得我們在設計產品時從使用者體驗而不是技術角度出發來思考問題。

認知負載理論將人腦處理資訊的負荷分為三類：內在負載（任務本身的複雜性）、外在負載（呈現方式造成的額外負荷）、以及有效負載（促進學習和理解的負荷）。從認知負載的角度來看，Wispr Flow 透過將複雜的 AI 處理過程完全後臺化來最佳化內在負載，透過精心設計的介面時序來消除外在負載，透過個性化學習來增強有效負載。

Vela: How does personalization work in the product?

Tanay: Personalization is a cornerstone of the product, achieved through advanced modeling that adapts to each user's unique preferences, behaviors, and communication styles. Key elements include:

– Tone and Style Adaptation: The system learns how users communicate in different contexts (e.g., casual with friends, formal with colleagues, warm with family) and adjusts the tone, language, and structure of responses accordingly.

– Emoji and Phrase Integration: It incorporates contextual elements like emojis or specific phrases that align with the user's habits, making interactions feel more natural and human-like.

– Continuous Learning: The system learns from user corrections (e.g., adjusting transcriptions or adding new words to the dictionary) to refine its performance over time.

– Multi-Language Support: Personalization extends across languages, ensuring consistency in tone and style when users switch languages.

This level of personalization ensures the product feels intuitive, tailored, and responsive to each individual's needs.

Vela：Wispr Flow 是怎麼做語音輸入的“個性化的”？

Tanay：個性化是產品的基石，透過高階建模實現，能夠適應每位使用者的獨特偏好、行為和溝通風格。關鍵要素包括：

語氣和風格調整：系統會學習使用者在不同情境下的溝通方式（例如，與朋友的隨意交流、與同事的正式溝通、與家人的溫暖交流），並相應地調整語氣、語言和回覆結構。

表情符號和短語整合：它會根據使用者習慣整合上下文元素，如表情符號或特定短語，使互動更自然、更人性化。

持續學習：系統從使用者的糾正中學習（例如，調整轉錄或新增新詞到詞典），隨著時間推移不斷最佳化效能。

多語言支援：個性化功能擴充套件到多種語言，確保使用者在切換語言時語氣和風格的一致性。

個性化機制其實正是 AI 產品的”護城河“，關鍵在於是否有足夠有效的使用者資訊。

Vela: What is the roadmap for flow in terms of voice interface?

Tanay:

1. Perfect Speech-to-Text Functionality: Establishing a highly accurate, reliable foundation for real-time transcription and speech recognition.

2. Personalization and User-Specific Models: Building sophisticated models that adapt to individual users' preferences, communication styles, and unique vocabularies.

3. Actions and Workflow Capabilities: Introducing features like smart reminders, email/message automation, and workflow integration to enhance productivity and convenience.

4. Dedicated Hardware Device: The long-term vision includes creating a wearable device that replaces 90% of phone and laptop usage, allowing users to perform most tasks seamlessly through voice commands.

Vela：怎麼看 Flow 發展的產品路線圖？

Tanay：

1. 完善語音轉文字功能：建立一個高度準確且可靠的即時轉錄和語音識別基礎。

2. 個性化和使用者特定模型：構建複雜的模型，能夠適應每位使用者的偏好、溝通風格和獨特詞彙。

3. 動作和工作流功能：引入智慧提醒、電子郵件/訊息自動化和工作流整合功能，提升生產力和便利性。

4. 專用硬體裝置：長期願景包括建立一個可穿戴裝置，替代 90% 的手機和筆記型電腦使用，透過語音命令無縫完成大部分任務。

一些思考：

先在軟體層面做到極致，再考慮硬體承載，其實這一路線比他們一開始直接做硬體以及很多做語音硬體產品更為現實。

而 Tanay 提到的第三階段提到的"動作和工作流功能"，是語音產品區別於傳統輸入工具的關鍵——從被動的轉錄變成主動的行動助理。就像Granola，不僅僅是一個會議聽寫記筆記工具，它還會在會議開始前提醒你將要到來的回會議，並在會議結束後為你撰寫一封必要的郵件。

Get things done.

同時，值得一提的是，在新功能正式釋出前， Flow 團隊首先會在內部進行大量的 Beta 測試。這使團隊能夠觀察實際使用情況，識別問題，並根據反饋對功能進行最佳化，然後再發布給外部使用者。確保新功能以使用者為中心、可靠且經過完善。

三、寫在最後，關於 AI 產品設計

從 Wispr Flow 可以很好地看出一個關注產品本身、且具有”產品Sense“的一個 AI 產品是怎樣被創造出來的。而對於 Voice AI Interface 這一全新的互動，對於所有創業者來說都是一種全新的體驗的探索。創造 Voice Interface 的思考可以遷移到對 Voice AI 的構建中：

第一，使用者體驗重於技術指標。傳統的語音識別產品追求準確率，但 Wispr Flow 追求的是"零編輯"的使用者體驗。這個差異看似微小，實則代表了完全不同的產品哲學。

核心是從使用者角度出發，什麼是你希望帶給使用者的一種好的使用者體驗？很多第一次體驗語音輸入的朋友都表示，“啊不用打字只需要blabla且不用擔心說廢話真爽”，就像很多第一次體驗會議記錄產品 Granola 的使用者說 “啊，不用再擔心錄音、丟掉會議資訊的感覺真爽”“而自己只需要記錄自己覺得核心的東西，其他的事情交給 Granola 很放心”。

第二，相信科學，忠於使用者。 Wispr Flow 語音輸入背後是基於神經科學研究：人在說話時大腦是怎麼運作的？我們是否可以同時說話、傾聽、記筆記？然而，優秀的產品也同樣極其關注使用者，關注產品背後真實的人與使用者故事。

第三，個性化（Personization）是 AI 產品的核心競爭力。在人人都可以用大模型捏一個產品的時代，真正的護城河不在於模型本身，而在於對使用者的深度理解、使用者知識沉澱和個性化能力。

我很喜歡 Flow 這款產品，很欣賞 Tanay，就像自己剛來矽谷和 Suno 交流一樣，Tanay 也像極了 Suno 的創始人 Mikey，他們有著及其相似的 vibe，一樣的對做創造產品的熱忱、和對於產品設計近乎極致的追求。

在語音 AI 逐漸發展的今天，Wispr Flow 的出現給大家帶來的 Voice-First 體驗的 Aha moment。正如我在之前的文章中提到的，"語音正在成為一個較穩定的介面擴寬人們與產品互動的物理邊界"。

我相信我們正站在一個重要的歷史節點。Voice-first 不僅僅是一種技術趨勢，更是一種重新定義人機互動與重塑的機會。

對於 Voice- AI，其實一切都才剛剛開始。

黎明破曉，我們都在路上。