AI是如何看待春晚小品的？DeepSeekR1與OpenAIo1“幽默競賽”

你聽過“AI屆的拼多多”嗎？

DeepSeek，這是一家國產AI公司，不像豆包或者千問等國產AI，它並不是由任何網際網路巨頭投資並孵化的，它的母公司是一家量化基金公司，叫做幻方。

在此之前，他們唯一能和“AI”扯上關係的，就是他們也有著數量級巨大的英偉達計算卡。

2022年底，OpenAI釋出的ChatGPT一經問世就名聲大噪，到如今已經成為全球矚目的AI引領者；而在2024年之前，DeepSeek還是無名之輩。

但DeepSeek的進化速度真的超乎所有人的想象。在2024年5月7日，他們推出第一個模型DeepSeek V2的時候，就已經對整個行業形成了巨大的衝擊，不過那時候更多的是價效比上的，它的體驗和智力水平大致接近LLaMA3-70B，略遜於GPT-4o，但它的API調取價格卻是每百萬 token 僅1元人民幣，約等於Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。

僅僅在半年之後，12月26日時，DeepSeek再次推出了DeepSeek V3，這時模型的表現已經追上了 GPT-4o和 Claude-3.5-Sonnet，尤其是在數學推理和程式碼生成任務中表現出色，但是成本卻比V2更低了，每百萬Token僅用0.1元人民幣（快取命中），價格僅為 OpenAI o1 的 1/535。

這就已經讓Open AI的山姆奧特曼非常崩潰了，連忙跳出來說：跟隨者是容易的，我們才是真正的領導者。

客觀來講，這時候的V3確實在能力上還比不上OpenAI剛剛在12月18日釋出的o1滿血版，但是，誰都沒有想到啊，僅僅一個月之後，2025年1月20日，DeepSeek就再次推出了對標o1的全新模型，DeepSeek R1，並且，仍然是每百萬token僅需1元人民幣。

可能很多人不知道這到底有多便宜，這麼跟你說吧，這還不是最便宜的，因為現在無論是V3還是R1，只要你在官網或者APP使用，它都是完全免費的，不用交任何訂閱費，而且DeepSeek還將所有的模型全部開源放到網上，隨便下載隨便用，還可以用來蒸餾和訓練自己的專用小模型。

這才是真正的開源AI啊，看著我一個月189元訂閱費、續費得找代充、用就得掛梯子、而且還動不動就鎖區封號的閉源AI o1，我不禁流下了眼淚。

AI有“幽默感”嗎？

其實有一個問題一直困擾著我，就是，如何直觀的讓所有人看到不同AI之間的語言能力對比，如果說做數學題，比如AIME 2024這種專門的AI數學題庫，結果倒是很直觀，論文裡也有，只需要看分高低就行了，但是這對我們普通人理解AI沒什麼幫助，直到我看到了這條訊息，一下就給了我靈感。

重點不是B站，而是春晚，準確來說，是春晚裡的語言類節目。一家人一起看春晚曾經是千家萬戶一年中最快樂的時刻之一，但是近幾年卻讓人感覺到如鯁在喉，難以下嚥，其中最大的退步就來自於語言類節目，不僅沒有包袱，還充斥各種尬演和煽情，以及“餃子餃子餃餃子”的各類爛梗。

但曾幾何時，春晚是全國幽默的最高舞臺，而曾經的喜劇大師創作的各種經典作品仍然被全國人民所銘記。

這裡誕生過“配角就只配露半個臉”的陳小二，有“下蛋公雞，公雞中的戰鬥機Oh Yeah”的白雲大媽，有“改革春風吹滿地，中國人民真爭氣”的黑土大叔，有火辣辣的範老師“請你多批評”，有愛問“為什麼呢”的售樓蔡小姐，有大喝著“八十，八十”掄錘的黃大錘，有走著貓步“不差錢”的小瀋陽，有被逼著“按表走”的好人郝建，甚至趙老太太的“宮廷玉液酒，一百八一杯”已經成為了小紅書上區分中國人和外國人的暗號。

我為什麼要提這些喜劇大師的經典作品呢？不是為了鞭屍近些年春晚上《風雪餃子情》和《初見照相館》這種“千古名糞”，而是為了讓大家意識到，你作為一個正常的人類，是能很清楚也很輕鬆地辨別出：哪些是幽默的，哪些是尷尬的。

而這點“理解幽默”的能力，恰恰對AI來說是個相當難的事情，有個經典的難題就是讓AI給你講個笑話，如果你試一下，就知道當AI真的是想逗你的時候，你真的很難笑出來。這是我讓DeepSeek R1給我講一個好笑的笑話的結果。

可以說，我是完全沒有理解，這之中的笑點在哪，而且也不太理解邏輯是什麼，總感覺這不像是中文邏輯的笑話。我們再來看看Open AI o1的表現如何。

這個笑話看底子來說應該是比R1要好的，但是老師說的那句“剩餘5塊錢的快樂”相當突然，而且標點符號有錯誤，讓人不知道這句話到底是誰說的，當然這個笑話裡還是有笑點的，就是“買書等於少了五塊錢的快樂”這一點，但是沒有講好。

光看這兩個很難被稱為”笑話“的生成文字，根本看不出這二者的幽默實力，於是我決定加大難度，讓他們再創作一些複雜的喜劇小品文稿。這是R1的回答。

實話實說，我還挺喜歡這段的，真的很顛，把各種前沿的科技詞彙編進了日常生活中，整段故事很完整連貫，高深詞彙的運用也是恰到好處，我最喜歡的一句是“現在兒子管睡前故事叫「算力充值」！”

再來看o1的。這段寫的就有點一般了，雖然很長，結構也完全符合小品的結構，但就是沒梗。

之後我還測試了一些其他形式，比如相聲，脫口秀，漫才等等，為了大家頭腦不混亂就不給一一放了。總結一下，雖然整體上R1在幽默上要比o1稍好一些，但總的來說，都不咋樣。如果是比抽象的話，這倆AI大神倒是應該能走到決賽。有些地方確實讓人有點氣笑了，但是這不是幽默導致的。

AI能正確理解幽默嗎？

也許讓AI來創作喜劇作品有點難為它們倆了，畢竟這對於人類來說也是隻有少數人才能做到的事。那我們不如讓他們來點評一下人類創作的成型作品，測試一下“理解幽默”的能力。於是我選取了一些春晚小品上的名作，將臺詞文字貼上給AI，並讓他們按照滿分一百分的方式給這些作品進行打分。

先來看看近兩年來的“經典之作”——《初見照相館》，看看這個被萬眾唾罵的作品在AI看來怎麼樣。結果讓我非常意外，無論是R1還是o1，都給了它很高的分數。

值得一提的是，DeepSeek的思考時間每段都要比OpenAI短不少，而且能看到思維鏈更有助於我們分析它的思維過程，比如他對於一個問題是如何分析的，需要考慮到哪些，而o1我們就只能看到結果了。

只要近幾年還看過春晚的朋友應該對《初見照相館》印象深刻，因為這是一部公認的超差小品，如此看來AI和人類的評判確實不太一樣。那麼，我們再測試一下公認好的作品在AI看來是什麼分數。首先是春晚舞臺公認的巔峰之作，朱時茂和陳佩斯的《主角與配角》。

剛剛是DeepSeek R1的回答，我們再來看看OpenAI o1的評價。

這次兩個AI不約而同地都打出了90分，儘管這是個高分，但是我認為對於《主角與配角》這樣一個小品巔峰之作來說，分數還是低了。我又讓AI對比這兩個作品進行評分，結果DeepSeek調低了《初見照相館》的分數，而調高了《主角與配角》，幅度都是3分；而Open AI則還是堅持了原本的判斷，分數沒有修改。

為了獲得儘量全面的AI對於幽默的認知，我繼續給AI投餵了十餘篇春晚小品作品，有些是經典佳作，有些是中等偏上，有些是褒貶不一，有些是一致批評，看看AI分別給他們什麼分數。

為了方便觀看，我讓DeepSeek R1和OpenAI o1在分別評分後，將評分彙總，以下是彙總結果。

>DeepSeek R1總評分

>OpenAI o1總評分

由於我問了不止十個作品，所以兩個AI的排名名單並不相同，Deepseek忽略了《初見照相館》，而OpenAI忽略了《紅高粱模特隊》，在單獨評分時，Open AI給紅高粱模特隊的評分是83-85分。所以這兩部作品如果分別放入榜單之中，分別位列DeepSeek的第8和Open AI的第5，其他向後順延。

我們來仔細看一下這個榜單，o1這邊給的分差都很小，最高和最低之間只差十分，而R1這邊有21分，拉開的比較大，這點我認為R1做的更好，因為我不認為這些作品的差值有那麼小。來看看它們的評分，首先兩邊比較一致認可的幾部作品是《主角與配角》《扶不扶》和《紅高粱模特隊》，這三部作品在兩邊都能進前五；

而最差的作品兩個AI都認為是孫濤的《吉祥三保》，避免大家不知道這個作品是什麼，我提醒一下，就是那個“我驕傲”，不過這下孫濤是驕傲不起來了；

而評價差異最大的作品則是黃宏和侯耀文表演的《打撲克》，DeepSeek給出了第二高的92分，而o1則給了和《初見照相館》一樣的80分。我個人認為DeepSeek的評價還是比較接近客觀的，我們來看看。

DeepSeek這個評價過程既流暢又便於觀看，而且還有直觀的表格和與相近得分作品的對比，對於作品的批評也是相當一針見血的，而Open AI的回答就有點太過於冗長了，而且連小品名字都搞錯了，篇幅原因就不放了。

如何評價AI的“幽默感”？

文學作品的評論中經常會出現“文無第一武無第二”的困境，“一千個人心中有一千個哈姆雷特”，每個人對於不同的作品都有一個自己的判斷，但是當差距足夠大時，我們就能得出一個比較公允的結論了。無論如何，o1將《初見照相館》和《打撲克》排在同一分數，這絕對是有點幽默的。

另一個讓我比較疑惑的地方在於，我特意摻進去的近幾年廣受批評的幾部小品，都獲得了AI的很高的評價，比如《風雪餃子情》，賈冰餃子梗的萬惡之源，這部作品兩邊都給了85分的高分，而由於o1整體打分偏低，這部作品居然排在了第三；而去年招致無數批評的《那能一樣嗎》，也獲得了不錯的評價。

儘管我個人也不是很喜歡孫濤的喜劇作品，但是無論怎麼說，他的小品也比《初見照相館》和《風雪餃子情》好得多了吧？孫濤罪不至此啊！

我開始懷疑，是不是因為，AI的訓練庫中有趙本山和陳佩斯等喜劇大師的歷史地位評價，所以會給出一個比較合理的分數；而新出的作品則沒有參考，只能做文字分析，所以給出了一個不太合理的分數。

於是我讓他們摒棄人類評價的干擾，只用文字分析的方式評價，在這種情況下，二者幾乎沒有調整排名，DeepSeek調高了前兩名的分數，其他的分數均有所降低，並給出了理由；而Open AI則比較幽默地全部降了幾分。

左側為DeepSeek評價，右側為OpenAI評分

o1的評分無論怎麼看都不合理，按它的評價，《主角與配角》都只有88分了，而《打撲克》這樣的諷刺小品巔峰之作更是隻有74分墊底，而《風雪餃子情》則比《不差錢》更好笑。如果單論搞笑程度的話，《不差錢》也許就是春晚小品之最，是絕對的現象級作品。所以我實在很難認可o1的幽默感。

R1的評分就相對合理得多。如果去掉三個新作之外，其他的評價都相當中肯，評分也是符合我的心理預期的，儘管按照純文字的評價它也看低了《不差錢》，但確實那個作品演員的表演佔據了很大程度。

後續我還想繼續問下去，但是兩邊都不能繼續問了，DeepSeek是單個對話的token用完了，需要新建對話，那就不能繼續按照統一標準評價了；而OpenAI更幽默，它告訴我每個月使用o1的次數限制到了，什麼問題都不能問了。

單憑這一點，我就可以宣佈，DeepSeek是更好用的AI了。

聯網後的DeepSeek，找回了“理智”

不過，我還是不甘心，AI就這麼喜歡《初見照相館》嗎？o1我已經問不了了，於是，我開了一個DeepSeek的新會話，又問了一遍它對《初見照相館》的評價。這次的答案讓我非常欣喜，因為《初見照相館》終於回到了它該有的評分。

總分35分的表現才符合它的歷史地位嘛！但為什麼這次它的評價就這麼中肯了呢？仔細看它的評價我發現不對勁，因為裡面出現了許多我沒給過它的作品，比如《昨天今天明天》和《喜帖街》，再仔細看了一下思維過程，我才發現，原來是我點開了聯網搜尋。

在這種情況下，它參考了豆瓣和虎撲得分，就得出了一個比較合理的分數，之後再讓他評價所有作品都相當客觀公允了，非常接近人類的評價。但這樣，還是AI的能力嗎？

我一開始也覺得這屬於是討巧行為，但仔細想想，本來現在AI的所謂“思考”能力也只是一種窮舉，依靠的就是深度學習和推算。我們使用AI，最終還是為了讓它們更好地服務人類。當可以聯網會明顯優於模型自身的回答時，那麼可以提供聯網深度思考的DeepSeek R1，是否就是目前，體驗最好的AI模型呢？

AI會成為春晚的救星嗎？

今天突發奇想，用中美兩家最頂級的AI測試一下AI幽默的能力怎麼樣了，實話說，我還是有點驚喜的。第一個結論就是，在面對中文喜劇語庫的時候，DeepSeek的R1模型確實要比OpenAI的o1的理解能力強。

我們可以看到，無論是自創的喜劇劇本，還是評判人類的喜劇劇本，DeepSeek的回答都是更好的，而且DeepSeek很少犯一些低階錯誤，比如語句不通順，整個對話中只有一次將低分排名在更高分數之上，其他時候都非常嚴謹，排版也要比o1清晰；而o1則有很多胡言亂語的低階錯誤，我嚴重懷疑我這個o1已經被降智了。

第二個讓我比較驚喜的是，AI確實有自己創作喜劇作品的可能。雖然它們現在創作的喜劇作品還不夠搞笑，但是已經能看到一種屬於AI的獨特風格了。

如果能做一些專項訓練。讓AI能吃透一些人類的喜劇技巧，那麼我們曾經認為很難被AI突破的文藝創作，以及最令人類驕傲、也是被認為最難的喜劇能力，也可能會被快速突破。以後的AI于謙，就不再只是個“嗯啊這是”的“捧一切”音訊了，也許他還能夠和AI郭德綱一起，寫一齣全新的爆笑賽博相聲，讓人類社會目前也缺乏喜劇創作能力的問題得到緩解。