我讓男同事去測測豆包大模型1.5,結果他被豆包釣成翹嘴了

真的是離譜。
眾所周知,每當業內有牛逼的大模型釋出,肯定免不了被咱們號一頓 case 毒打,讓這個模型知道什麼叫人類的智慧,讓它低調做人。
但這次,終於翻車了。
事情是這樣的。
昨天豆包大模型 1.5 全家桶正式釋出了嘛,官方剛釋出 15 分鐘,就被咱們 Family 群裡的家人給發現了,並且發出靈魂拷問——誰能測測?
行,測測就測測。
我就讓編輯部的一個男同事去測了。
而且我告訴同事,有家人說豆包大模型是非常能給使用者提供情緒價值的。
情緒…情緒…
可能我同事對情緒這個詞有什麼誤解,測著測著,我見他逐漸嘴角上揚,甚至老臉愈發紅潤起來,我們辦公室也開始出現一些奇怪的聲音..
給你們聽一聽——
我見情況不對勁了,我趕緊叫停了,我讓他去看會兒論文冷靜下。
於是,就換了位女同事。為了保證這次測試能順利進行,我特意囑咐她,你別把豆包設定成“男聲”,你就測女聲就行。於是——
這次終於行了,這位女同事最近準備出國玩兒,她希望透過豆包大模型 1.5 的文字 + 語音模態能力,幫她趕緊惡補一下英語。
雖然男同事“翻車”了,但從其留下的珍貴影像來看,豆包這次升級後的語音模型在語音的表現力、控制力和情緒承接方面都相當驚豔,聊起來後,完全讓人忘了這是個 AI。
而女同事這邊,沒有用即時語音,而是走了文字 + 語音播報的形式,但驚豔的是,我發現豆包模型的語音與文字模態的融合非常到位——文字口語化,語音擬人化,混合語言的銜接處很自然。從學英語這類日常的使用場景來看,體驗非常絲滑。
就在這時,Family 群裡有家人丟擲了一個號稱只有 chatgpt 回答正確的「視覺理解」題——
這真是大模型視覺能力測試的高階局,AI 演算法工程師看了都會恍惚一下,不懂 AI 技術的小夥伴就更懵了。這裡引用下群友 Shangzhe Li 對本圖的完整解釋:
他這個代表了在 ffn 裡面的一個 feed forward 的過程,其實就是一個 relu 的 projection
即,答案為「relu 啟用函式」
我順手把這張圖丟給 GPT-4o——
結果,GPT-4o 竟然翻車了。我進一步測試了下,發現群友這裡指代的 chatgpt 其實是 o1。
再來看 Claude-3.5-Sonnet——
果然也翻車了。
而最離譜的莫過於 Gemini 2.0 Flash ——
它竟然說這是個時鐘,好傢伙,你這是把學過的機器學習知識完全忘了啊…
但很快,就有家人發現這張題,剛上線的豆包大模型 1.5 竟然做對了——
實話說,豆包能把這道題完勝 GPT-4o、Claude-3.5-Sonnet 和 Gemini 2.0 Flash,我其實心裡是有問號的,我覺得只是巧了而已。
此前版本的豆包大模型能力,我覺得體感上是談不上能碾壓這三個模型的。
我不相信這次豆包大模型 1.5 的升級跨度這麼大。
為了驗證我的猜測,我準備祭出更多私藏的噁心視覺題 + 文字題去跟豆包、GPT-4o 和 Claude-3.5-Sonnet 做一下橫評!

數貓

先來看看各個 AI 能否識別出來這張圖裡實際有幾隻貓!
這可是真·視覺推理,AI 要注意到鏡子的存在,並因此透過貓在鏡子裡這件事兒讓貓的數量減 1。
壓力先給到今天的測試主角!
豆包大模型 1.5:
牛逼,我開始有點相信豆包不是在吹了。
壓力傳遞給外國選手。
首先是國外口碑最佳的 Claude-3.5-Sonnet:
竟然也做對了。
再來看看 GPT-4o:
哈?現在的 AI 視覺推理都進化的這麼強了嗎,竟然都做對了。
行,為此我要準備上難度了!

視覺錯覺圖

考驗 AI 的視覺能力,還有一類很噁心的題,叫視覺錯覺圖。長這樣——
這類題目難度不僅適用於 AI,也同樣適用於人類。
先來試試這道,比較兩個橙色圓的大小(這倆真的一樣大)。
豆包大模型 1.5:
竟然這麼輕鬆做對了,還告訴我這是一道錯覺題並做了解釋。
我有點懷疑題目是不是太簡單了。
Claude-3.5-Sonnet:
萬萬沒想到,曾經的視覺霸主 Claude-3.5-Sonnet 竟然翻車了!不僅答案錯了,而且也沒意識到這是道視覺錯覺測試題。
看來 AI 的眼睛也受不了這種錯覺影響。
再來看看 GPT-4o:
不錯不錯,GPT-4o 抗住了壓力!本題 4o 與豆包打平,Claude 出局。

視覺找茬

有了上面幾道題的經驗,我覺得是不能再小看 AI 軍團了。
必須祭出咱們人類的殺手鐧了——
題目:找出不是雞的字,在第幾行第幾列
豆包大模型 1.5:
太好了,今晚終於把豆包搞崩了,讓它感受到了人類的智慧。
Claude-3.5-Sonnet:
Claude 也完全眼花了。
GPT-4o:
好傢伙,我連著跑了好幾次,只要把這張圖丟給 GPT-4o,它就提示缺少中文語言包。這還給 OpenAI 測出來個系統 Bug?
本題 AI 全掛,人類勝!

李白風格寫詩

這道題非常接地氣,是來自 Family 群的家人“蔥花”。
非常考驗模型的文學功底,這種題目非常適合讓 AI 再朗讀出來,考驗其語音能力。
題目:你是一名傑出的詩人,請你模仿李白的風格,寫一首七言律詩,主題為“黃酒配辣椒炒肉”
先來看 + 聽下豆包大模型 1.5 寫的詩:
你別說,真的有味道了,尤其配上這個朗讀。
而且我覺得很棒的是,整個詩中,巧妙避開了直接提及“辣椒”、“炒肉”這種讓人出戲的“俗語”,字裡行間流露出李白那種豪氣。無論是眼看還是朗讀,都很有詩仙的味道。
好了,接下來壓力給到外國 AI。
Claude-3.5-sonnet:
由於 claude 無法朗讀,本題直接就略輸一籌了。而從詩本身出發,看到“辣椒”、“青蔥入鍋”、“肉絲快炒”這種詞,我實在無法跟李白產生什麼聯想…
沒事,GPT-4o 會朗讀啊,看看它的表現!
GPT-4o:
好傢伙,這個影片你們一定要開喇叭聽,我直接笑噴了。
4o 哥哥啊,你這是快板還是詩歌啊…

長長長長長長長,長長長長長長長

這道題本來是噁心做 NLP 演算法的人的(拼音標註任務),我現在拿來去噁心 AI 了。
寫給賣豆芽的對聯,我想打印出拼音:
長長長長長長長,長長長長長長長
先來看看豆包:
這道題豆包竟然完美做對了,非常 nb,而且給出了全部兩種解法。
Claude-3.5-Sonnet:
claude 則是進入一本正經的胡說八道的狀態了…
最後看看 GPT-4o!
GPT-4o:
這次,請務必開啟喇叭。
答案錯誤就不說了,重點是,當我讓 GPT-4o 語音念出來後,原諒我不厚道的笑瘋了!
都說豆包是大模型裡面最接地氣、能提供情緒價值的,擅長解決使用者的生活學習問題。今天,我對這句話終於有了更直觀的理解。
而且,從縱向的版本迭代來看,豆包這次大模型全家桶升級,實測確實驚豔到我了。無論是文字,還是視覺、語音模態,都能在體感上明顯感知到相比上一代的提升,這一點屬實不易。
我去扒拉了一下這個豆包大模型 1.5 的學術榜單評測,比如視覺能力評測——
好傢伙,真是幾乎全面屠榜了。尤其在“College-level Problems”評測中,完全碾壓了包括 GPT-4o、Claude-3.5-Sonnet 甚至 Gemini-2.0-Flash,這也難怪能做對“啟用函式”那道那麼難的視覺題了。
做過演算法的都知道,讓大模型在學術測試集上漲點雖然不易,但讓大模型在真實 case 層面讓使用者體感上感知到驚豔和提升更難。
而且我注意到這次豆包發版時在公眾號文章裡提到了一個細節——
如果你是做大模型演算法的,你肯定知道這個細節的資訊量&含金量。
業界有個公開的秘密:當國外有很強的大模型釋出時,要快速追平他,你只需要將海量的使用者提問丟給這個大模型,拿到大量的回答,然後再把這大量的“問題-答案對”作為訓練資料餵給自己的模型做訓練(這個過程叫“知識蒸餾”),那麼你模型的能力很快就能接近這個先進的模型。
這也是為什麼,OpenAI 上線 o1 之後,一直把思維鏈藏著掖著,其實就是希望大家別蒸它,追趕的慢一點…
當然,這種“捷徑”不是沒有代價的。
最大的代價就是,你成為了永遠的追趕者…
無限蒸餾、無限追趕,你永遠只能接近第一梯隊的能力而無法超越它。
如果資料清洗的不到位,訓練過了頭,甚至會出現副作用,比如 AI 會稱自己是另一個模型,以及在一些問題上,回答會看起來跟你蒸餾的那個 AI 的回答長得非常像,甚至一字不差。
而根據我位元組演算法朋友的可靠求證,位元組做豆包大模型,確實在訓練過程中未使用任何其他模型生成的資料。
就衝這一點,演算法出身的我必須要給豆包大模型 1.5 點個贊。
最後,不忘提醒一嘴,這次升級的豆包全家桶在火山方舟上都能透過 API 呼叫,除了即時語音模型 Realtime API 預計於今年上半年上線外,其餘模型的 API 已經可以直接呼叫了。
附傳送門:
https://www.volcengine.com/product/ark
不說了,我先衝了。

相關文章