豆包上線視訊通話，AI能睜眼看世界了！

大家都知道，我們平時與 AI 的交流大多數都是靠文字對話，或者頂多上傳圖片或檔案就被視為「多模態」互動了。

至於像 Siri、小愛同學也只是語音交流，雖然便捷但仍然侷限於單一感知渠道。

現在 AI 唯獨缺失的就是視覺能力，都說「眼睛是心靈的窗戶」，那什麼時候 AI 能開啟這扇「窗戶」呢？

就在上週五，豆包放了一個大招，可以打影片電話了，簡單說就是豆包 App 能夠透過影片畫面與我們進行即時問答互動。

也就是說，你眼睛看到什麼，它就能同步看到什麼。

直接下載豆包 App ，更新到最新版。

點選對話方塊的＋號，選擇「打電話」。

點選右側「視訊通話」就可以體驗了。

有了這個影片電話，就相當於 AI 長了一雙眼睛，這個週末我走哪都忍不住拿出手機讓它看看，跟我聊幾句，不得不說，還是挺有意思的。

視訊通話

靜態圖片

首先，先從簡單的開始，我在大門口和它視訊通話，問它看到了什麼？它回答：古銅色的門和對聯。這個沒錯。

然後再問它對聯上寫的什麼，儘管寫的不是標準的字型，還是變形字，它也能準確識別出來。

更妙的是，攝像頭沒有拍到下聯，它居然還知道讓我把攝像頭移一下。

說完下聯之後，還對這幅對聯總結了一番。

這樣以後去什麼景點了，直接和豆包影片聊天，讓它當個導遊介紹景點沒有一點問題。

我又問它，認不認識這是什麼車，其實這僅僅是個不完整畫面，但並不影響它輕鬆識別出來。

然後我又問隨手問它，我手裡拿的什麼？它也能識別出來這是一盒香菸，但是當我問它什麼價格的時候，它卻說錯了，說明對於檢索商品價格的能力還有待提高。

再來，如果外出吃飯選擇困難症不知道怎麼點菜，那就把要求說出來，拍著選單，讓豆包根據選單為你點菜。

你看我一個朋友就是這麼用的，這個就很實用了，我最怕點菜了，往後可以讓它幫忙了。

基於探索 AI 能力邊界的考慮，我又讓它來識別一下人物，比如我們最熟悉的三上老師，豆包對她也不陌生，不僅認得特別清楚，而且講起三上的背景講得頭頭是道，看來平時也沒少看小電影。

動態物件

除了靜態的畫面，我還關心它對連續的動作識別能力如何，於是決定給它上點難度。

我直接在電腦上開啟一場球賽的影片讓它看，這是2024年英格蘭足總盃的決賽。

不得不說，豆包識別得還是挺精準的，開始的比賽和比分都可以從影片左上角看到，這算是基操了。

令我驚奇的是，它居然能識別出來這是那一場比賽，這就牛逼了，我後來還問它，你是怎麼識別出來的，它回答是透過場邊的廣告牌標識看出來的，說明這個理解能力相當強了。

而且根據它給出的回答，還能準確報出比賽比分以及進球球員，我猜測應該是具有聯網功能的。

我還去查了一下，事實證明它說的沒錯。

不過對於高速運動狀態下的即使解說，那就難為它了，它只能識別出一些大概資訊，還做不到同步解說。

不過這個例子，我測試了一下如果把攝像頭橫過來的話，不影響它理解畫面，它會自己調整觀看方向，這樣就拓寬了不同場景的視訊通話，更加實用。

其實對於豆包視訊通話不能完全即時反饋攝像頭看到的畫面，我是有心理準備的，因為這個對算力和網速的要求就太高了，除非將來端側本地大模型具備這一能力。

測試延遲及原理

不過既然它不能即時連續反饋看到的畫面，那麼它是不是以連續截圖的方式去理解畫面呢，如果是這樣，那這個間隔是多大呢？

好奇心一上來，就想試試它的能力邊界。

我在電腦上顯示一個帶秒錶的時間，讓它看到變化就讀出來，這樣就能看出它到底延遲了多少秒。

當它說出 11 點 15 分 05 秒時，此時螢幕已經顯示到 10 秒。說明它大概至少延遲了 5 秒左右。

之後的讀秒更是延遲了 6-7 秒左右。

那會不會是因為讀出數字耗時太長，它的語速來不及挨個念出來呢？

我就讓 AI 生成一個小程式，每秒重新整理一次，每次就顯示一個各位數字，然後和豆包影片聊天，告訴它：如果有數字變化後，就讀出來，一直讀，不要停，也不準猜。

顯示的數字是從依次是 5、6、7、8、9、0、1、2、3、4。

但是豆包念出的數字是 0、2、4、6、8、9，就像是間隔著來唸的。

我嘗試了多次實驗，都沒有辦法讓它逐個數字準確讀出來。

所以我推測它應該以截圖的方式理解影片的，大概是 2 秒的間隔，也就是說，在現階段豆包的眼裡，世界是由一幀幀的畫面組成的。

話說回來，人類觀測到的運動其實也是由一幀幀畫面組成的，只不過現階段的豆包還處理不了這麼高的幀率。

而且，豆包呼叫的攝像頭還壓縮了畫質，不能調整焦距，不管你手機攝像頭有多牛逼，都不管用，不難猜測這些限制都是在控制算力成本。

實際上，在這個週末，我和豆包的對話遠不止這些，我還讓女兒們和它聊天，問問題，英文對話，成語接龍等等，她們也非常喜歡。

該怎麼說這種感受呢，如果說幾年前有個玩具能實現這種功能，怎麼也得大幾千塊吧，現在人人都可以免費使用，這本身就跟科幻一樣。

真的，這進化速度太快了。

共享螢幕通話

還有，豆包還能實現共享螢幕通話，也就是在共享螢幕的同時和豆包進行對話，豆包可以根據你的需求幫你處理螢幕上的一些問題。

這個功能已經有一段時間了，可能有些小夥伴還不知道，今天也順便介紹一下，因為我覺得真的挺好用的。

在電腦上使用這個功能需要下載安裝豆包客戶端。

安裝之後在桌面上會有一個懸浮球，點選這個懸浮球就能進入「共享螢幕語音通話」功能了。

比如開啟一封英文郵件，咱看不懂啊，這時就可以進入這個功能，直接問豆包這郵件什麼意思。

豆包思考片刻就回答出來了，然後我又問它怎麼回覆它呢？豆包也馬上給我寫好了回覆的郵件，最後我還讓它把回覆的郵件翻譯成英文，同樣也很快。

我想起前幾天的文章中還有一道數學題圖片，直接問豆包：這個數學題怎麼解。

它也立馬識別出來並做出瞭解答。

除了共享螢幕，豆包還支援共享一些應用，最後的效果也是和共享螢幕一樣。

這就相當於多了一個全天候的桌面 AI 助理，有任何問題不用再去開啟 AI 網站，還不用再打字輸入問它，直接說出你的問它給豆包，它就能在桌面馬上響應並解決。

結語

現在，你已經親眼見證了豆包的視訊通話功能，這不僅僅是一個新功能的上線，而是 AI 互動方式的一次革命性飛躍。

從簡單的文字對話，到能看能聽的全方位互動，AI 正以驚人的速度走進我們的日常生活。

它能辨認門上的對聯及文字，能看懂足球比賽，甚至能為你即時解說賽事。雖然還有5-7秒的延遲，雖然對價格的判斷還不夠精準，但這些都是成長中的煩惱，是技術進步過程中必然會遇到的小坎。

從根本上說，AI 助理的挑戰已經從「能力」轉向了「互動」。

過去，我們習慣於繁瑣的 GUI 操作——點這兒點那兒，在各種視窗之間來回切換。

而現在，透過語音指令和影片互動，AI 直接理解我們的意圖，就像我向豆包展示英文郵件時的那種流暢體驗，不需要截圖上傳，不需要複製貼上，一切都變得如此自然。

AI 不僅在看，還在理解，在適應，在進化。它變成了我們的第二雙眼睛，隨時準備協助我們理解這個世界。

還記得鋼鐵俠裡面的賈維斯嘛，此時此刻，我覺得離人人擁有一個真正的賈維斯越來越近了。

還有一點別忘了，這個功能可是全量免費使用，就衝這一點，它的所有不完美都可以被原諒。

畢竟，它才剛剛睜開眼睛，而這一切，僅僅只是開始。

dignews.cc

豆包上線視訊通話，AI能睜眼看世界了！

相關文章

免泡豆、免過濾、好清洗，25分鐘喝上熱豆漿！

感覺幾十年的豆漿，白喝了

感覺幾十年的豆漿，白喝了！

當代人的早餐，少不了一杯豆漿

央媽節目點名的宴會豆漿！真的好喝哭了

豆瓣究竟為什麼衰落？因為喜歡跟使用者賭氣

極限測試豆包視訊通話，聊了一天一夜後我發現事情並不簡單

每天一碗“植物奶”，還是它更懂東方人的胃！1杯≈1個雞蛋，喝完馬上戒奶茶

豆瓣二十年，從中心到邊緣

能“攢腎水”的大將，這麼搭配特別潤，孩子的咳嗽聲都少了