豆包上線視訊通話,AI能睜眼看世界了!

大家都知道,我們平時與 AI 的交流大多數都是靠文字對話,或者頂多上傳圖片或檔案就被視為「多模態」互動了。
至於像 Siri、小愛同學也只是語音交流,雖然便捷但仍然侷限於單一感知渠道。
現在 AI 唯獨缺失的就是視覺能力,都說「眼睛是心靈的窗戶」,那什麼時候 AI 能開啟這扇「窗戶」呢?
就在上週五,豆包放了一個大招,可以打影片電話了,簡單說就是豆包 App 能夠透過影片畫面與我們進行即時問答互動。
也就是說,你眼睛看到什麼,它就能同步看到什麼。
直接下載豆包 App ,更新到最新版。
點選對話方塊的 + 號,選擇「打電話」。
點選右側「視訊通話」就可以體驗了。
有了這個影片電話,就相當於 AI 長了一雙眼睛,這個週末我走哪都忍不住拿出手機讓它看看,跟我聊幾句,不得不說,還是挺有意思的。
視訊通話
靜態圖片
首先,先從簡單的開始,我在大門口和它視訊通話,問它看到了什麼?它回答:古銅色的門和對聯。這個沒錯。
然後再問它對聯上寫的什麼,儘管寫的不是標準的字型,還是變形字,它也能準確識別出來。
更妙的是,攝像頭沒有拍到下聯,它居然還知道讓我把攝像頭移一下。
說完下聯之後,還對這幅對聯總結了一番。
這樣以後去什麼景點了,直接和豆包影片聊天,讓它當個導遊介紹景點沒有一點問題。
我又問它,認不認識這是什麼車,其實這僅僅是個不完整畫面,但並不影響它輕鬆識別出來。
然後我又問隨手問它,我手裡拿的什麼?它也能識別出來這是一盒香菸,但是當我問它什麼價格的時候,它卻說錯了,說明對於檢索商品價格的能力還有待提高。
再來,如果外出吃飯選擇困難症不知道怎麼點菜,那就把要求說出來,拍著選單,讓豆包根據選單為你點菜。
你看我一個朋友就是這麼用的,這個就很實用了,我最怕點菜了,往後可以讓它幫忙了。
基於探索 AI 能力邊界的考慮,我又讓它來識別一下人物,比如我們最熟悉的三上老師,豆包對她也不陌生,不僅認得特別清楚,而且講起三上的背景講得頭頭是道,看來平時也沒少看小電影。
動態物件
除了靜態的畫面,我還關心它對連續的動作識別能力如何,於是決定給它上點難度。
我直接在電腦上開啟一場球賽的影片讓它看,這是2024年英格蘭足總盃的決賽。
不得不說,豆包識別得還是挺精準的,開始的比賽和比分都可以從影片左上角看到,這算是基操了。
令我驚奇的是,它居然能識別出來這是那一場比賽,這就牛逼了,我後來還問它,你是怎麼識別出來的,它回答是透過場邊的廣告牌標識看出來的,說明這個理解能力相當強了。
而且根據它給出的回答,還能準確報出比賽比分以及進球球員,我猜測應該是具有聯網功能的。
我還去查了一下,事實證明它說的沒錯。
不過對於高速運動狀態下的即使解說,那就難為它了,它只能識別出一些大概資訊,還做不到同步解說。
不過這個例子,我測試了一下如果把攝像頭橫過來的話,不影響它理解畫面,它會自己調整觀看方向,這樣就拓寬了不同場景的視訊通話,更加實用。
其實對於豆包視訊通話不能完全即時反饋攝像頭看到的畫面,我是有心理準備的,因為這個對算力和網速的要求就太高了,除非將來端側本地大模型具備這一能力。
測試延遲及原理
不過既然它不能即時連續反饋看到的畫面,那麼它是不是以連續截圖的方式去理解畫面呢,如果是這樣,那這個間隔是多大呢?
好奇心一上來,就想試試它的能力邊界。
我在電腦上顯示一個帶秒錶的時間,讓它看到變化就讀出來,這樣就能看出它到底延遲了多少秒。
當它說出 11 點 15 分 05 秒時,此時螢幕已經顯示到 10 秒。說明它大概至少延遲了 5 秒左右。
之後的讀秒更是延遲了 6-7 秒左右。
那會不會是因為讀出數字耗時太長, 它的語速來不及挨個念出來呢?
我就讓 AI 生成一個小程式,每秒重新整理一次,每次就顯示一個各位數字,然後和豆包影片聊天,告訴它:如果有數字變化後,就讀出來,一直讀,不要停,也不準猜。
顯示的數字是從依次是 5、6、78、9、0、1、2、3、4。
但是豆包念出的數字是 0、2、4、68、9,就像是間隔著來唸的。
我嘗試了多次實驗,都沒有辦法讓它逐個數字準確讀出來。
所以我推測它應該以截圖的方式理解影片的,大概是 2 秒的間隔,也就是說,在現階段豆包的眼裡,世界是由一幀幀的畫面組成的。
話說回來,人類觀測到的運動其實也是由一幀幀畫面組成的,只不過現階段的豆包還處理不了這麼高的幀率。
而且,豆包呼叫的攝像頭還壓縮了畫質,不能調整焦距,不管你手機攝像頭有多牛逼,都不管用,不難猜測這些限制都是在控制算力成本。
實際上,在這個週末,我和豆包的對話遠不止這些,我還讓女兒們和它聊天,問問題,英文對話,成語接龍等等,她們也非常喜歡。
該怎麼說這種感受呢,如果說幾年前有個玩具能實現這種功能,怎麼也得大幾千塊吧,現在人人都可以免費使用,這本身就跟科幻一樣。
真的,這進化速度太快了。
共享螢幕通話
還有,豆包還能實現共享螢幕通話,也就是在共享螢幕的同時和豆包進行對話,豆包可以根據你的需求幫你處理螢幕上的一些問題。
這個功能已經有一段時間了,可能有些小夥伴還不知道,今天也順便介紹一下,因為我覺得真的挺好用的。
在電腦上使用這個功能需要下載安裝豆包客戶端。
安裝之後在桌面上會有一個懸浮球,點選這個懸浮球就能進入「共享螢幕語音通話」功能了。
比如開啟一封英文郵件,咱看不懂啊,這時就可以進入這個功能,直接問豆包這郵件什麼意思。
豆包思考片刻就回答出來了,然後我又問它怎麼回覆它呢?豆包也馬上給我寫好了回覆的郵件,最後我還讓它把回覆的郵件翻譯成英文,同樣也很快。
我想起前幾天的文章中還有一道數學題圖片,直接問豆包:這個數學題怎麼解。
它也立馬識別出來並做出瞭解答。
除了共享螢幕,豆包還支援共享一些應用,最後的效果也是和共享螢幕一樣。
這就相當於多了一個全天候的桌面 AI 助理,有任何問題不用再去開啟 AI 網站,還不用再打字輸入問它,直接說出你的問它給豆包,它就能在桌面馬上響應並解決。
結語
現在,你已經親眼見證了豆包的視訊通話功能,這不僅僅是一個新功能的上線,而是 AI 互動方式的一次革命性飛躍。
從簡單的文字對話,到能看能聽的全方位互動,AI 正以驚人的速度走進我們的日常生活。
它能辨認門上的對聯及文字,能看懂足球比賽,甚至能為你即時解說賽事。雖然還有5-7秒的延遲,雖然對價格的判斷還不夠精準,但這些都是成長中的煩惱,是技術進步過程中必然會遇到的小坎。
從根本上說,AI 助理的挑戰已經從「能力」轉向了「互動」。
過去,我們習慣於繁瑣的 GUI 操作——點這兒點那兒,在各種視窗之間來回切換。
而現在,透過語音指令和影片互動,AI 直接理解我們的意圖,就像我向豆包展示英文郵件時的那種流暢體驗,不需要截圖上傳,不需要複製貼上,一切都變得如此自然。
AI 不僅在看,還在理解,在適應,在進化。它變成了我們的第二雙眼睛,隨時準備協助我們理解這個世界。
還記得鋼鐵俠裡面的賈維斯嘛,此時此刻,我覺得離人人擁有一個真正的賈維斯越來越近了。
還有一點別忘了,這個功能可是全量免費使用,就衝這一點,它的所有不完美都可以被原諒。
畢竟,它才剛剛睜開眼睛,而這一切,僅僅只是開始。


相關文章