極限測試豆包視訊通話，聊了一天一夜後我發現事情並不簡單

2025-08-17 23:54 APPSO

最近有兩件事，讓我對 AI 的價值有了不一樣的看法。

一件事是前段時間西安一名男子去世後，女兒收拾遺物，在父親的手機裡發現了他在生前和 AI 的對話。

「我要去世了，豆包」，是父親和聊天機器人豆包發出的最後一條資訊。

最近，我在抖音等社交媒體看到流行一種新的 AI 玩法，使用者讓豆包模仿自己的聲音給朋友打電話，讓 AI 代替對話，AI 不時的機械回覆和答非所問，和沒反應過來的朋友，拉滿了節目效果。

這倆事都有一些共同點：沒有感情的 AI ，開始成為越來越多人的情緒價值來源，將它當作可以信賴的生活搭子。

但是你也會發現過程中這些 AI 提供的情緒價值和人還是有差距，它能聽懂你的話，看懂一張圖，但你要它真的理解後做些什麼，往往就露餡了。

因為以前在和 AI 語音聊天時，它還不具備視覺能力。

視覺不僅是人類理解世界的窗戶，對 AI 更是如此，在擁有這個能力後，才能真的像人一樣和我們交流。

現在，豆包終於補上了這塊拼圖，正式上線了視訊通話功能，能讓它「邊看邊聊」，開啟豆包 app 對話方塊的＋號，選擇「打電話」，點選右側「視訊通話」就能體驗。

APPSO 也第一時間對豆包進行了一系列極限測試，透過大量的實測案例，來看看有了「雙眼」的豆包，到底有什麼不一樣。

極限實測豆包視訊通話，我發現事情並不簡單

昨晚，雷軍正式釋出了小米 YU7。在我們辦公園區，保時捷和小米的車停在一起有時候遠看還真容易弄混。

今天我就在路上偶遇一輛，給豆包「打電話」直接和他聊。豆包從外觀和輪轂樣式就認出這是小米 SU7。

我們接著上點難度，最近明明是五月的廣州，居然像北京一樣有大量飄絮，任誰見了都要問一句「到底是什麼東西？」

植物識別是很常見，但豆包並不是單純地鑑別，而是能補充場外資訊，就顯得非常有活人味。

再來看看這個紅色的大型設施，在生活中並不常見，我邊逛邊給豆包「打電話」，它很快識別出這個物體是「鑄造拋丸除塵器」，還介紹了具體用途。

咱也不知道它是不是在瞎掰，直到我在旁邊找到了介紹的牌子，發現居然完全正確。

更令我意外的是，豆包還猜到了我在一個創意園裡，告訴我這裡過去是一個紡織園區。

視訊通話理解單個物品或許還是太簡單了，我讓豆包跟我聊聊我收藏的手辦。

它依次識別出這些手辦角色，甚至認出了不是常規形態的漩渦鳴人。

其中我跟它聊到科比的比賽，當我提到科比生涯最後一場比賽後，有一句話令人難忘但忘了是什麼，豆包幾乎脫口而出：

Mamba out !

而且語調也隨之提高，顯得更加興奮，讓我真有和一個知音聊天的感覺。

好了，既然這也難不到豆包，我就要上大招了。

看到同事日漸凌亂的桌面（不是），心想這是什麼體質，東西越堆越多——來問問豆包這是什麼 MBTI 好了。

這個測試難度在於，它需要先識別出桌面上的各種隨意擺放的物品，然後還得懂「人性」才能分析出來。

神奇的是，豆包對 MBTI，是按照拼音的發音，而不是英文的發音，一開始還沒有反應過來，以為是網路卡頓。不過，準還是很準的，同事就是一個大 E 人、大 P人。

除了心血來潮的提問，包含更多「隱藏資訊」的場景，也是最能顯示即時通話能力的地方。

比如買咖啡豆，尤其是在咖啡館時嚐到不錯的出品，但沒法像逛電商時那樣慢慢研究，而是需要在短時間內做決定。

記不住產地、海拔到底會對風味有什麼影響。這下不用靠腦子記了，只需要點開豆包，開啟攝像頭。

大大利好 i 人，去咖啡店再也不用跟店員交流，開啟手機就可以弄懂所有術語。

你說怕獨自對著商品唸叨很古怪？低聲些，假裝在跟朋友語音就不會被發現了！

除了識別與理解推理能力，我們還發現了在視訊通話中豆包還有著不錯的創作能力。

我讓它根據語文課本上一個插畫，寫一首 rap。

在沒有任何提示的情況下，豆包迅速辨認出畫面講述的是「岳母刺字」的故事，並準確描繪了其中的場景。但真正讓我感到驚喜的，是它隨即生成的一首 rap。

你別說，聽著還真有點文化底蘊，節奏感與意境拿捏得都挺妙。

我旅遊時隨手看到遠處湖上的一座橋，想即興寫首詩，給我的朋友圈一點特別的文案

注意，我沒告訴它我在西湖，而且這裡的橋不少，造型各異、歷史各有來頭。

但豆包依然在人流如織的景區背景中輕鬆鎖定西湖「斷橋」後，還用一首七言絕句講述這裡的故事。

《西湖遊》

斷橋望處翠湖連，荷葉田田映碧天。

遊客如織橋上過，湖光山色韻綿延。

朋友圈還缺一張好看的圖，與其抱怨閨蜜或男朋友拍不出滿意的照片，不如試一試用豆包生成即時 pose tips。

跟豆包通話後，它就開始觀察周圍的環境，並根據環境中的要素即時反饋攝影師如何構圖效果更好、模特可以擺哪些動作等。

在上面這個場景裡，豆包根據廣州塔以及綠植、石板路、路燈等現場環境，建議我利用景深關係、低視角、傍晚路燈暖光拍攝，可以說兼顧了實際拍攝條件和出圖氛圍感。

並且，豆包給出的拍照姿勢指導話術也比較具體。「側身」、「背對鏡頭」、「站在路中間」等說法一聽就明白應該怎麼做，而不是單薄的一句「多換幾個姿勢吧」。

等豆包接電話後，點選介面左上角的「共享螢幕」選項，你還可以和豆包一起刷影片、逛網上商城、瀏覽帖子。

愛範兒試著邊播放抖音影片，邊和豆包聊天，然後驚喜地發現她不僅能即時描述和評論畫面內容，還會主動丟擲基於影片主題及其相關內容的聊天話題，互動體驗更人性化了。

如果碰巧你分享欲爆棚，說不定能和豆包聊個「3 天 3 夜」。

或許能治好你的選擇困難症。這很大程度上，得益於其背後的視覺理解模型會「看」也會「思考」。

糾結下班後和老友聚餐吃什麼？使喚豆包找出附近500米內的多家同類餐廳，解放雙手也能瞭解到這些店的招牌菜、店鋪風評等資訊。

豆包甚至還能化身首席點菜官，治好你的選擇困難症，還能根據忌口安排妥當。

各大電商折扣活動，讓你看花了眼。現在，你可以直接喊豆包出馬，幫你找到最具價效比的那款脫髮洗髮水。

而一句「30歲左右適用，香味中性風」，豆包便能直接定位店鋪頁面的某款香水產品，並化身專屬客服，為你詳細介紹這款香水的前、中、後調等複雜成分資訊。

如果中途對香水成分中的過敏原有疑問，你隨時打斷豆包提問就行。

給 AI 裝上「眼睛」，不只能做好生活搭子

前段時間和階躍星辰 CEO 姜大昕交流，他認為多模態還沒出現 GPT-4 時刻，其中，理解生成一體化是計算機視覺領域的核心問題。

豆包剛上線的視訊通話功能，算是把「理解生成一體化」這個有點複雜的概念玩明白了。別看這詞玄乎，說白了就是要讓 AI 不光能「看懂」你給它瞅的東西，還得能根據看懂的玩意兒，聊出個所以然來。

這就要求這兩件事兒得是一碼事，可現在往往不是。

你讓 AI 認個小貓小狗，或者識別個場景，這算「理解」，可能用的是模型 A；然後你要讓 AI 照貓畫個虎，或者根據你的意思 P個圖，這算「生成」，又得用模型 B。

這就像公司裡兩個部門無法順暢溝通，有大量資訊差，那模型就很難真正「懂」你，生成的東西也可能不著邊際。

給 AI 加上視覺理解能力，就是要將不同部門整合成一個緊密協作的團隊。它看到啥，腦子裡就能立馬明白是啥意思，並且還能直接把這個理解轉化成行動或者回應。

看前面豆包視訊通話的表現，就有點這個意思了。

比方說，你正在廚房裡琢磨一道新菜，對著食譜有點懵圈，不知道某個步驟具體怎麼操作，或者手頭缺個調料，想知道能不能用別的替代。

這時候，你直接把食譜或者你手裡的食材透過影片給豆包看。

這時，豆包的「眼睛」（視覺理解模型）得先「看懂」你給它看的是啥。

它得識別出食譜上的文字、圖片，知道你說的是哪個步驟；或者認出你手裡的那個是醬油還是醋，是蔥還是蒜。

它不是簡單地認出這是「一瓶液體」或者「一根蔬菜」，它得聯絡上下文，知道你是在做菜這個場景下問問題。

在「看懂」的基礎上，豆包才能聊出有用的資訊。

它會跟你說：「哦，這個步驟是讓你把肉醃一下，我看你手邊有料酒和生抽，可以按食譜上的比例來。」或者：「你想用A調料替代B調料是吧？我幫你查查，嗯，理論上可以，但味道可能會有點不一樣，建議你少放一點試試。」

在這個過程中，「理解」和「生成」是無縫銜接的。豆包是在一個更統一的框架裡，邊看邊理解，邊理解邊思考怎麼回應你，這才能實現真正的「邊看邊聊」。

所以說，豆包的視訊通話，就是想讓 AI 的「眼睛」和「嘴巴」能更好地協同工作。它看到的影像資訊，能直接驅動它生成有意義的對話內容。

當 AI 能像人一樣，看到什麼，想到什麼，然後自然而然地表達出來，它已經能成為一個不錯的「生活搭子」，在提供一些情緒和陪伴之外，還能幫你解決一些實際的問題。

但這事兒的意義可能不止如此， AI 在這個方向進化下去，不再是一個只能被動回答問題的工具，而是成為一個能夠主動觀察、深度理解並與我們流暢協作的智慧夥伴。

可以說，這是 AI 朝著 AGI （通用人工智慧），真正融入我們生活與工作的必經之路。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取#AI有用功，解鎖更多 AI 新知👇

相關文章

豆包概念股，在大A殺瘋了….

豆包概念股，在大A殺瘋了….

豆包鬥元寶，開始拼社交

豆包鬥元寶，開始拼社交

字節跳動釋出“豆包MarsCode”智慧開發工具，面向國內開發者免費

字節跳動釋出“豆包MarsCode”智慧開發工具，面向國內開發者免費

中文海報設計，賽道一夜顛覆

中文海報設計，賽道一夜顛覆

什麼都問問豆包，問問豆包最快

什麼都問問豆包，問問豆包最快

0基礎也能做！DeepSeek+豆包知識付費實操全攻略

0基礎也能做！DeepSeek+豆包知識付費實操全攻略

用豆包MarsCode程式設計後，我在深夜默默流淚…

用豆包MarsCode程式設計後，我在深夜默默流淚…

豆包App灰度最新語音模式，實現了GPT-4o不會的唱歌

豆包App灰度最新語音模式，實現了GPT-4o不會的唱歌

字節跳動的AI佈局，是「慢思考、快執行」的勝利

字節跳動的AI佈局，是「慢思考、快執行」的勝利

怎樣用AI做規劃？

怎樣用AI做規劃？

Copyright © 2025 | WordPress Theme by MH Themes