最近有兩件事,讓我對 AI 的價值有了不一樣的看法。一件事是前段時間西安一名男子去世後,女兒收拾遺物,在父親的手機裡發現了他在生前和 AI 的對話。「我要去世了,豆包」,是父親和聊天機器人豆包發出的最後一條資訊。
最近,我在抖音等社交媒體看到流行一種新的 AI 玩法,使用者讓豆包模仿自己的聲音給朋友打電話,讓 AI 代替對話,AI 不時的機械回覆和答非所問,和沒反應過來的朋友,拉滿了節目效果。
這倆事都有一些共同點:沒有感情的 AI ,開始成為越來越多人的情緒價值來源,將它當作可以信賴的生活搭子。但是你也會發現過程中這些 AI 提供的情緒價值和人還是有差距,它能聽懂你的話,看懂一張圖,但你要它真的理解後做些什麼,往往就露餡了。因為以前在和 AI 語音聊天時,它還不具備視覺能力。視覺不僅是人類理解世界的窗戶,對 AI 更是如此,在擁有這個能力後,才能真的像人一樣和我們交流。現在,豆包終於補上了這塊拼圖,正式上線了視訊通話功能,能讓它「邊看邊聊」,開啟豆包 app 對話方塊的 + 號,選擇「打電話」,點選右側「視訊通話」就能體驗。
如果中途對香水成分中的過敏原有疑問,你隨時打斷豆包提問就行。給 AI 裝上「眼睛」,不只能做好生活搭子前段時間和階躍星辰 CEO 姜大昕交流,他認為多模態還沒出現 GPT-4 時刻,其中,理解生成一體化是計算機視覺領域的核心問題。豆包剛上線的視訊通話功能,算是把「理解生成一體化」這個有點複雜的概念玩明白了。別看這詞玄乎,說白了就是要讓 AI 不光能「看懂」你給它瞅的東西,還得能根據看懂的玩意兒,聊出個所以然來。
這就要求這兩件事兒得是一碼事,可現在往往不是。你讓 AI 認個小貓小狗,或者識別個場景,這算「理解」,可能用的是模型 A;然後你要讓 AI 照貓畫個虎,或者根據你的意思 P個圖,這算「生成」,又得用模型 B。這就像公司裡兩個部門無法順暢溝通,有大量資訊差,那模型就很難真正「懂」你,生成的東西也可能不著邊際。給 AI 加上視覺理解能力,就是要將不同部門整合成一個緊密協作的團隊。它看到啥,腦子裡就能立馬明白是啥意思,並且還能直接把這個理解轉化成行動或者回應。
所以說,豆包的視訊通話,就是想讓 AI 的「眼睛」和「嘴巴」能更好地協同工作。它看到的影像資訊,能直接驅動它生成有意義的對話內容。當 AI 能像人一樣,看到什麼,想到什麼,然後自然而然地表達出來,它已經能成為一個不錯的「生活搭子」,在提供一些情緒和陪伴之外,還能幫你解決一些實際的問題。但這事兒的意義可能不止如此, AI 在這個方向進化下去,不再是一個只能被動回答問題的工具,而是成為一個能夠主動觀察、深度理解並與我們流暢協作的智慧夥伴。可以說,這是 AI 朝著 AGI (通用人工智慧),真正融入我們生活與工作的必經之路。