AI是如何看待春晚小品的?DeepSeekR1與OpenAIo1“幽默競賽”

你聽過“AI屆的拼多多”嗎?
DeepSeek,這是一家國產AI公司,不像豆包或者千問等國產AI,它並不是由任何網際網路巨頭投資並孵化的,它的母公司是一家量化基金公司,叫做幻方。
在此之前,他們唯一能和“AI”扯上關係的,就是他們也有著數量級巨大的英偉達計算卡。
2022年底,OpenAI釋出的ChatGPT一經問世就名聲大噪,到如今已經成為全球矚目的AI引領者;而在2024年之前,DeepSeek還是無名之輩。
但DeepSeek的進化速度真的超乎所有人的想象。在2024年5月7日,他們推出第一個模型DeepSeek V2的時候,就已經對整個行業形成了巨大的衝擊,不過那時候更多的是價效比上的,它的體驗和智力水平大致接近LLaMA3-70B,略遜於GPT-4o,但它的API調取價格卻是每百萬 token 僅1元人民幣,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
僅僅在半年之後,12月26日時,DeepSeek再次推出了DeepSeek V3,這時模型的表現已經追上了 GPT-4o和 Claude-3.5-Sonnet,尤其是在數學推理和程式碼生成任務中表現出色,但是成本卻比V2更低了,每百萬Token僅用0.1元人民幣(快取命中),價格僅為 OpenAI o1 的 1/535
這就已經讓Open AI的山姆奧特曼非常崩潰了,連忙跳出來說:跟隨者是容易的,我們才是真正的領導者。
客觀來講,這時候的V3確實在能力上還比不上OpenAI剛剛在12月18日釋出的o1滿血版,但是,誰都沒有想到啊,僅僅一個月之後,2025年1月20日,DeepSeek就再次推出了對標o1的全新模型,DeepSeek R1,並且,仍然是每百萬token僅需1元人民幣。
可能很多人不知道這到底有多便宜,這麼跟你說吧,這還不是最便宜的,因為現在無論是V3還是R1,只要你在官網或者APP使用,它都是完全免費的,不用交任何訂閱費,而且DeepSeek還將所有的模型全部開源放到網上,隨便下載隨便用,還可以用來蒸餾和訓練自己的專用小模型。
這才是真正的開源AI啊,看著我一個月189元訂閱費、續費得找代充、用就得掛梯子、而且還動不動就鎖區封號的閉源AI o1,我不禁流下了眼淚。
AI有“幽默感”嗎?
其實有一個問題一直困擾著我,就是,如何直觀的讓所有人看到不同AI之間的語言能力對比,如果說做數學題,比如AIME 2024這種專門的AI數學題庫,結果倒是很直觀,論文裡也有,只需要看分高低就行了,但是這對我們普通人理解AI沒什麼幫助,直到我看到了這條訊息,一下就給了我靈感。
重點不是B站,而是春晚,準確來說,是春晚裡的語言類節目。一家人一起看春晚曾經是千家萬戶一年中最快樂的時刻之一,但是近幾年卻讓人感覺到如鯁在喉,難以下嚥,其中最大的退步就來自於語言類節目,不僅沒有包袱,還充斥各種尬演和煽情,以及“餃子餃子餃餃子”的各類爛梗。
但曾幾何時,春晚是全國幽默的最高舞臺,而曾經的喜劇大師創作的各種經典作品仍然被全國人民所銘記。
這裡誕生過“配角就只配露半個臉”的陳小二,有“下蛋公雞,公雞中的戰鬥機Oh Yeah”的白雲大媽,有“改革春風吹滿地,中國人民真爭氣”的黑土大叔,有火辣辣的範老師“請你多批評”,有愛問“為什麼呢”的售樓蔡小姐,有大喝著“八十,八十”掄錘的黃大錘,有走著貓步“不差錢”的小瀋陽,有被逼著“按表走”的好人郝建,甚至趙老太太的“宮廷玉液酒,一百八一杯”已經成為了小紅書上區分中國人和外國人的暗號。
我為什麼要提這些喜劇大師的經典作品呢?不是為了鞭屍近些年春晚上《風雪餃子情》和《初見照相館》這種“千古名糞”,而是為了讓大家意識到,你作為一個正常的人類,是能很清楚也很輕鬆地辨別出:哪些是幽默的,哪些是尷尬的。
而這點“理解幽默”的能力,恰恰對AI來說是個相當難的事情,有個經典的難題就是讓AI給你講個笑話,如果你試一下,就知道當AI真的是想逗你的時候,你真的很難笑出來。這是我讓DeepSeek R1給我講一個好笑的笑話的結果。
可以說,我是完全沒有理解,這之中的笑點在哪,而且也不太理解邏輯是什麼,總感覺這不像是中文邏輯的笑話。我們再來看看Open AI o1的表現如何。
這個笑話看底子來說應該是比R1要好的,但是老師說的那句“剩餘5塊錢的快樂”相當突然,而且標點符號有錯誤,讓人不知道這句話到底是誰說的,當然這個笑話裡還是有笑點的,就是“買書等於少了五塊錢的快樂”這一點,但是沒有講好。
光看這兩個很難被稱為”笑話“的生成文字,根本看不出這二者的幽默實力,於是我決定加大難度,讓他們再創作一些複雜的喜劇小品文稿。這是R1的回答。
實話實說,我還挺喜歡這段的,真的很顛,把各種前沿的科技詞彙編進了日常生活中,整段故事很完整連貫,高深詞彙的運用也是恰到好處,我最喜歡的一句是“現在兒子管睡前故事叫「算力充值」!”
再來看o1的。這段寫的就有點一般了,雖然很長,結構也完全符合小品的結構,但就是沒梗。
之後我還測試了一些其他形式,比如相聲,脫口秀,漫才等等,為了大家頭腦不混亂就不給一一放了。總結一下,雖然整體上R1在幽默上要比o1稍好一些,但總的來說,都不咋樣。如果是比抽象的話,這倆AI大神倒是應該能走到決賽。有些地方確實讓人有點氣笑了,但是這不是幽默導致的
AI能正確理解幽默嗎?
也許讓AI來創作喜劇作品有點難為它們倆了,畢竟這對於人類來說也是隻有少數人才能做到的事。那我們不如讓他們來點評一下人類創作的成型作品,測試一下“理解幽默”的能力。於是我選取了一些春晚小品上的名作,將臺詞文字貼上給AI,並讓他們按照滿分一百分的方式給這些作品進行打分
先來看看近兩年來的“經典之作”——《初見照相館》,看看這個被萬眾唾罵的作品在AI看來怎麼樣。結果讓我非常意外,無論是R1還是o1,都給了它很高的分數
值得一提的是,DeepSeek的思考時間每段都要比OpenAI短不少,而且能看到思維鏈更有助於我們分析它的思維過程,比如他對於一個問題是如何分析的,需要考慮到哪些,而o1我們就只能看到結果了。
只要近幾年還看過春晚的朋友應該對《初見照相館》印象深刻,因為這是一部公認的超差小品,如此看來AI和人類的評判確實不太一樣。那麼,我們再測試一下公認好的作品在AI看來是什麼分數。首先是春晚舞臺公認的巔峰之作,朱時茂和陳佩斯的《主角與配角》。
剛剛是DeepSeek R1的回答,我們再來看看OpenAI o1的評價。
這次兩個AI不約而同地都打出了90分,儘管這是個高分,但是我認為對於《主角與配角》這樣一個小品巔峰之作來說,分數還是低了。我又讓AI對比這兩個作品進行評分,結果DeepSeek調低了《初見照相館》的分數,而調高了《主角與配角》,幅度都是3分;而Open AI則還是堅持了原本的判斷,分數沒有修改。
為了獲得儘量全面的AI對於幽默的認知,我繼續給AI投餵了十餘篇春晚小品作品,有些是經典佳作,有些是中等偏上,有些是褒貶不一,有些是一致批評,看看AI分別給他們什麼分數。
為了方便觀看,我讓DeepSeek R1和OpenAI o1在分別評分後,將評分彙總,以下是彙總結果。
>DeepSeek R1總評分
>OpenAI o1總評分
由於我問了不止十個作品,所以兩個AI的排名名單並不相同,Deepseek忽略了《初見照相館》,而OpenAI忽略了《紅高粱模特隊》,在單獨評分時,Open AI給紅高粱模特隊的評分是83-85分。所以這兩部作品如果分別放入榜單之中,分別位列DeepSeek的第8和Open AI的第5,其他向後順延
我們來仔細看一下這個榜單,o1這邊給的分差都很小,最高和最低之間只差十分,而R1這邊有21分,拉開的比較大,這點我認為R1做的更好,因為我不認為這些作品的差值有那麼小。來看看它們的評分,首先兩邊比較一致認可的幾部作品是《主角與配角》《扶不扶》和《紅高粱模特隊》,這三部作品在兩邊都能進前五;
而最差的作品兩個AI都認為是孫濤的《吉祥三保》,避免大家不知道這個作品是什麼,我提醒一下,就是那個“我驕傲”,不過這下孫濤是驕傲不起來了;
而評價差異最大的作品則是黃宏和侯耀文表演的《打撲克》,DeepSeek給出了第二高的92分,而o1則給了和《初見照相館》一樣的80分。我個人認為DeepSeek的評價還是比較接近客觀的,我們來看看。
DeepSeek這個評價過程既流暢又便於觀看,而且還有直觀的表格和與相近得分作品的對比,對於作品的批評也是相當一針見血的,而Open AI的回答就有點太過於冗長了,而且連小品名字都搞錯了,篇幅原因就不放了。
如何評價AI的“幽默感”?
文學作品的評論中經常會出現“文無第一武無第二”的困境,“一千個人心中有一千個哈姆雷特”,每個人對於不同的作品都有一個自己的判斷,但是當差距足夠大時,我們就能得出一個比較公允的結論了。無論如何,o1將《初見照相館》和《打撲克》排在同一分數,這絕對是有點幽默的。
另一個讓我比較疑惑的地方在於,我特意摻進去的近幾年廣受批評的幾部小品,都獲得了AI的很高的評價,比如《風雪餃子情》,賈冰餃子梗的萬惡之源,這部作品兩邊都給了85分的高分,而由於o1整體打分偏低,這部作品居然排在了第三;而去年招致無數批評的《那能一樣嗎》,也獲得了不錯的評價。
儘管我個人也不是很喜歡孫濤的喜劇作品,但是無論怎麼說,他的小品也比《初見照相館》和《風雪餃子情》好得多了吧?孫濤罪不至此啊!
我開始懷疑,是是因為,AI的訓練庫中有趙本山和陳佩斯等喜劇大師的歷史地位評價,所以會給出一個比較合理的分數;而新出的作品則沒有參考,只能做文字分析,所以給出了一個不太合理的分數。
於是我讓他們摒棄人類評價的干擾,只用文字分析的方式評價,在這種情況下,二者幾乎沒有調整排名,DeepSeek調高了前兩名的分數,其他的分數均有所降低,並給出了理由;而Open AI則比較幽默地全部降了幾分。
左側為DeepSeek評價,右側為OpenAI評分
o1的評分無論怎麼看都不合理,按它的評價,《主角與配角》都只有88分了,而《打撲克》這樣的諷刺小品巔峰之作更是隻有74分墊底,而《風雪餃子情》則比《不差錢》更好笑。如果單論搞笑程度的話,《不差錢》也許就是春晚小品之最,絕對的現象級作品。所以我實在很難認可o1的幽默感。
R1的評分就相對合理得多。如果去掉三個新作之外,其他的評價都相當中肯,評分也是符合我的心理預期的,儘管按照純文字的評價它也看低了《不差錢》,但確實那個作品演員的表演佔據了很大程度。
後續我還想繼續問下去,但是兩邊都不能繼續問了,DeepSeek是單個對話的token用完了,需要新建對話,那就不能繼續按照統一標準評價了;而OpenAI更幽默,它告訴我每個月使用o1的次數限制到了,什麼問題都不能問了。
單憑這一點,我就可以宣佈,DeepSeek是更好用的AI了。
聯網後的DeepSeek,找回了“理智”
不過,我還是不甘心,AI就這麼喜歡《初見照相館》嗎?o1我已經問不了了,於是,我開了一個DeepSeek的新會話,又問了一遍它對《初見照相館》的評價。這次的答案讓我非常欣喜,因為《初見照相館》終於回到了它該有的評分。
總分35分的表現才符合它的歷史地位嘛!但為什麼這次它的評價就這麼中肯了呢?仔細看它的評價我發現不對勁,因為裡面出現了許多我沒給過它的作品,比如《昨天今天明天》和《喜帖街》,再仔細看了一下思維過程,我才發現,原來是我點開了聯網搜尋。
在這種情況下,它參考了豆瓣和虎撲得分,就得出了一個比較合理的分數,之後再讓他評價所有作品都相當客觀公允了,非常接近人類的評價。但這樣,還是AI的能力嗎?
我一開始也覺得這屬於是討巧行為,但仔細想想,本來現在AI的所謂“思考”能力也只是一種窮舉,依靠的就是深度學習和推算。我們使用AI,最終還是為了讓它們更好地服務人類。當可以聯網會明顯優於模型自身的回答時,那麼可以提供聯網深度思考的DeepSeek R1,是否就是目前,體驗最好的AI模型呢?
AI會成為春晚的救星嗎?
今天突發奇想,用中美兩家最頂級的AI測試一下AI幽默的能力怎麼樣了,實話說,我還是有點驚喜的。第一個結論就是,在面對中文喜劇語庫的時候,DeepSeek的R1模型確實要比OpenAI的o1的理解能力強。
我們可以看到,無論是自創的喜劇劇本,還是評判人類的喜劇劇本,DeepSeek的回答都是更好的,而且DeepSeek很少犯一些低階錯誤,比如語句不通順,整個對話中只有一次將低分排名在更高分數之上,其他時候都非常嚴謹,排版也要比o1清晰;而o1則有很多胡言亂語的低階錯誤,我嚴重懷疑我這個o1已經被降智了。
第二個讓我比較驚喜的是,AI確實有自己創作喜劇作品的可能。雖然它們現在創作的喜劇作品還不夠搞笑,但是已經能看到一種屬於AI的獨特風格了。
如果能做一些專項訓練。讓AI能吃透一些人類的喜劇技巧,那麼我們曾經認為很難被AI突破的文藝創作,以及最令人類驕傲、也是被認為最難的喜劇能力,也可能會被快速突破。以後的AI于謙,就不再只是個“嗯啊這是”的“捧一切”音訊了,也許他還能夠和AI郭德綱一起,寫一齣全新的爆笑賽博相聲,讓人類社會目前也缺乏喜劇創作能力的問題得到緩解。
後記
馬上春節將至,我打算等今年春晚播出後,再把今年的小品放到DeepSeek裡斷網問一遍,看看AI還會不會統一給出一個較高的評分。雖然也許這麼做會汙染AI的語庫,但也算是給費心費力排練的喜劇演員們一個慰藉吧。
雖然不一定能讓過年的人類都滿意,但還是有一批AI,在默默欣賞著你們的“笑話”。

酷玩實驗室整理編輯
首發於微信公眾號:酷玩實驗室(ID:coollabs)

相關文章