極限測試豆包視訊通話,聊了一天一夜後我發現事情並不簡單

最近有兩件事,讓我對 AI 的價值有了不一樣的看法。
一件事是前段時間西安一名男子去世後,女兒收拾遺物,在父親的手機裡發現了他在生前和 AI 的對話。
「我要去世了,豆包」,是父親和聊天機器人豆包發出的最後一條資訊。
最近,我在抖音等社交媒體看到流行一種新的 AI 玩法,使用者讓豆包模仿自己的聲音給朋友打電話,讓 AI 代替對話,AI 不時的機械回覆和答非所問,和沒反應過來的朋友,拉滿了節目效果。
這倆事都有一些共同點:沒有感情的 AI ,開始成為越來越多人的情緒價值來源,將它當作可以信賴的生活搭子。
但是你也會發現過程中這些 AI 提供的情緒價值和人還是有差距,它能聽懂你的話,看懂一張圖,但你要它真的理解後做些什麼,往往就露餡了。
因為以前在和 AI 語音聊天時,它還不具備視覺能力。
視覺不僅是人類理解世界的窗戶,對 AI 更是如此,在擁有這個能力後,才能真的像人一樣和我們交流。
現在,豆包終於補上了這塊拼圖,正式上線了視訊通話功能,能讓它「邊看邊聊」,開啟豆包 app 對話方塊的 + 號,選擇「打電話」,點選右側「視訊通話」就能體驗。
APPSO 也第一時間對豆包進行了一系列極限測試,透過大量的實測案例,來看看有了「雙眼」的豆包,到底有什麼不一樣。
極限實測豆包視訊通話,我發現事情並不簡單
昨晚,雷軍正式釋出了小米 YU7。在我們辦公園區,保時捷和小米的車停在一起有時候遠看還真容易弄混。
今天我就在路上偶遇一輛,給豆包「打電話」直接和他聊。豆包從外觀和輪轂樣式就認出這是小米 SU7。
我們接著上點難度,最近明明是五月的廣州,居然像北京一樣有大量飄絮,任誰見了都要問一句「到底是什麼東西?」
植物識別是很常見,但豆包並不是單純地鑑別,而是能補充場外資訊,就顯得非常有活人味。
再來看看這個紅色的大型設施,在生活中並不常見,我邊逛邊給豆包「打電話」,它很快識別出這個物體是「鑄造拋丸除塵器」,還介紹了具體用途。
咱也不知道它是不是在瞎掰,直到我在旁邊找到了介紹的牌子,發現居然完全正確。
更令我意外的是,豆包還猜到了我在一個創意園裡,告訴我這裡過去是一個紡織園區。
視訊通話理解單個物品或許還是太簡單了,我讓豆包跟我聊聊我收藏的手辦。
它依次識別出這些手辦角色,甚至認出了不是常規形態的漩渦鳴人。
其中我跟它聊到科比的比賽,當我提到科比生涯最後一場比賽後,有一句話令人難忘但忘了是什麼,豆包幾乎脫口而出:
Mamba out !
而且語調也隨之提高,顯得更加興奮,讓我真有和一個知音聊天的感覺。
好了,既然這也難不到豆包,我就要上大招了。
看到同事日漸凌亂的桌面(不是),心想這是什麼體質,東西越堆越多——來問問豆包這是什麼 MBTI 好了。
這個測試難度在於,它需要先識別出桌面上的各種隨意擺放的物品,然後還得懂「人性」才能分析出來。
神奇的是,豆包對 MBTI,是按照拼音的發音,而不是英文的發音,一開始還沒有反應過來,以為是網路卡頓。不過,準還是很準的,同事就是一個大 E 人、大 P人。
除了心血來潮的提問,包含更多「隱藏資訊」的場景,也是最能顯示即時通話能力的地方。
比如買咖啡豆,尤其是在咖啡館時嚐到不錯的出品,但沒法像逛電商時那樣慢慢研究,而是需要在短時間內做決定。
記不住產地、海拔到底會對風味有什麼影響。這下不用靠腦子記了,只需要點開豆包,開啟攝像頭。
大大利好 i 人,去咖啡店再也不用跟店員交流,開啟手機就可以弄懂所有術語。
你說怕獨自對著商品唸叨很古怪?低聲些,假裝在跟朋友語音就不會被發現了!
除了識別與理解推理能力,我們還發現了在視訊通話中豆包還有著不錯的創作能力。
我讓它根據語文課本上一個插畫,寫一首 rap。
在沒有任何提示的情況下,豆包迅速辨認出畫面講述的是「岳母刺字」的故事,並準確描繪了其中的場景。但真正讓我感到驚喜的,是它隨即生成的一首 rap。
你別說,聽著還真有點文化底蘊,節奏感與意境拿捏得都挺妙。
我旅遊時隨手看到遠處湖上的一座橋,想即興寫首詩,給我的朋友圈一點特別的文案
注意,我沒告訴它我在西湖,而且這裡的橋不少,造型各異、歷史各有來頭。
但豆包依然在人流如織的景區背景中輕鬆鎖定西湖「斷橋」後,還用一首七言絕句講述這裡的故事。
《西湖遊》
斷橋望處翠湖連,荷葉田田映碧天。
遊客如織橋上過,湖光山色韻綿延。
朋友圈還缺一張好看的圖,與其抱怨閨蜜或男朋友拍不出滿意的照片,不如試一試用豆包生成即時 pose tips。
跟豆包通話後,它就開始觀察周圍的環境,並根據環境中的要素即時反饋攝影師如何構圖效果更好、模特可以擺哪些動作等。
在上面這個場景裡,豆包根據廣州塔以及綠植、石板路、路燈等現場環境,建議我利用景深關係、低視角、傍晚路燈暖光拍攝,可以說兼顧了實際拍攝條件和出圖氛圍感。
並且,豆包給出的拍照姿勢指導話術也比較具體。「側身」、「背對鏡頭」、「站在路中間」等說法一聽就明白應該怎麼做,而不是單薄的一句「多換幾個姿勢吧」。
等豆包接電話後,點選介面左上角的「共享螢幕」選項,你還可以和豆包一起刷影片、逛網上商城、瀏覽帖子。
愛範兒試著邊播放抖音影片,邊和豆包聊天,然後驚喜地發現她不僅能即時描述和評論畫面內容,還會主動丟擲基於影片主題及其相關內容的聊天話題,互動體驗更人性化了。
如果碰巧你分享欲爆棚,說不定能和豆包聊個「3 天 3 夜」。
或許能治好你的選擇困難症。這很大程度上,得益於其背後的視覺理解模型會「看」也會「思考」。
糾結下班後和老友聚餐吃什麼?使喚豆包找出附近500米內的多家同類餐廳,解放雙手也能瞭解到這些店的招牌菜、店鋪風評等資訊。
豆包甚至還能化身首席點菜官,治好你的選擇困難症,還能根據忌口安排妥當。
各大電商折扣活動,讓你看花了眼。現在,你可以直接喊豆包出馬,幫你找到最具價效比的那款脫髮洗髮水。
而一句「30歲左右適用,香味中性風」,豆包便能直接定位店鋪頁面的某款香水產品,並化身專屬客服,為你詳細介紹這款香水的前、中、後調等複雜成分資訊。

如果中途對香水成分中的過敏原有疑問,你隨時打斷豆包提問就行。
給 AI 裝上「眼睛」,不只能做好生活搭子
前段時間和階躍星辰 CEO 姜大昕交流,他認為多模態還沒出現 GPT-4 時刻,其中,理解生成一體化是計算機視覺領域的核心問題
豆包剛上線的視訊通話功能,算是把「理解生成一體化」這個有點複雜的概念玩明白了。別看這詞玄乎,說白了就是要讓 AI 不光能「看懂」你給它瞅的東西,還得能根據看懂的玩意兒,聊出個所以然來。
這就要求這兩件事兒得是一碼事,可現在往往不是。
你讓 AI 認個小貓小狗,或者識別個場景,這算「理解」,可能用的是模型 A;然後你要讓 AI 照貓畫個虎,或者根據你的意思 P個圖,這算「生成」,又得用模型 B。
這就像公司裡兩個部門無法順暢溝通,有大量資訊差,那模型就很難真正「懂」你,生成的東西也可能不著邊際。
給 AI 加上視覺理解能力,就是要將不同部門整合成一個緊密協作的團隊。它看到啥,腦子裡就能立馬明白是啥意思,並且還能直接把這個理解轉化成行動或者回應。
看前面豆包視訊通話的表現,就有點這個意思了。
比方說,你正在廚房裡琢磨一道新菜,對著食譜有點懵圈,不知道某個步驟具體怎麼操作,或者手頭缺個調料,想知道能不能用別的替代。
這時候,你直接把食譜或者你手裡的食材透過影片給豆包看。
這時,豆包的「眼睛」(視覺理解模型)得先「看懂」你給它看的是啥。
它得識別出食譜上的文字、圖片,知道你說的是哪個步驟;或者認出你手裡的那個是醬油還是醋,是蔥還是蒜。
它不是簡單地認出這是「一瓶液體」或者「一根蔬菜」,它得聯絡上下文,知道你是在做菜這個場景下問問題。
在「看懂」的基礎上,豆包才能聊出有用的資訊。
它會跟你說:「哦,這個步驟是讓你把肉醃一下,我看你手邊有料酒和生抽,可以按食譜上的比例來。」或者:「你想用A調料替代B調料是吧?我幫你查查,嗯,理論上可以,但味道可能會有點不一樣,建議你少放一點試試。」
在這個過程中,「理解」和「生成」是無縫銜接的。豆包是在一個更統一的框架裡,邊看邊理解,邊理解邊思考怎麼回應你,這才能實現真正的「邊看邊聊」。
所以說,豆包的視訊通話,就是想讓 AI 的「眼睛」和「嘴巴」能更好地協同工作。它看到的影像資訊,能直接驅動它生成有意義的對話內容。
當 AI 能像人一樣,看到什麼,想到什麼,然後自然而然地表達出來,它已經能成為一個不錯的「生活搭子」,在提供一些情緒和陪伴之外,還能幫你解決一些實際的問題。
但這事兒的意義可能不止如此, AI 在這個方向進化下去,不再是一個只能被動回答問題的工具,而是成為一個能夠主動觀察、深度理解並與我們流暢協作的智慧夥伴。
可以說,這是 AI 朝著 AGI (通用人工智慧),真正融入我們生活與工作的必經之路。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產品,獲取#AI有用功,解鎖更多 AI 新知👇

相關文章