大模型:能少說兩句嗎,你到底要幹啥?

上過 AI 課,甚至可能還買過網上提示詞合集的你,是不是還在這樣寫提示詞?

像什麼在提示詞裡一步步拆解思維鏈,才能讓模型學會分步思考;要給幾個例題,幫助模型理解你的問題;還要引導模型 cosplay,讓模型給出更專業的答案等等的小技巧,不少差友應該也早就活學活用了。

沒錯,說的就是火鍋
但,這些曾經讓你事半功倍的神級提示詞,可能已經過時了。

這麼說吧,在不知不覺的中,大模型其實已經分成了兩派:傳統通用大模型和推理大模型。

比如 GPT-o1,它可不是 GPT-4o 的直屬版本升級。4o 屬於通用大模型,o1 已經是推理模型了。
類似的,DeepSeek 預設使用的 V3 版本是通用大模型,點選左下角深度思考按鈕使用的才是 R1 推理模型。

而在推理模型時代,越詳細的提示詞,反而可能會讓 AI 變更蠢。

比如 OpenAI 的官方文件裡,推理模型的專欄下,就明確表示,用過於精確的提示詞,或者是引導思考這類提示詞寫法,反而會讓回答效果下降。
他們甚至還直接建議,讓大家少用思維鏈提問。。。問題直接問就行。實在效果太拉垮了,再發具體例題,讓 AI 學習。

我們還翻了一下 DeepSeek-R1 的官方技術報告,他們在論文裡也這麼說:“DeepSeek-R1 對提示詞很敏感,舉例提示反而會降低模型表現。"

因此,為讓效果更好,他們建議使用者直接描述問題,別舉例子。

除了 GPT 和 DeepSeek,Claude 3.7 Sonnet 也在官方文件中表示,比起那些看似很有邏輯,每一步都詳細列出具體做啥的提示詞,他們更希望你直接使喚它。

總結一下,和大夥們印象中提示詞越詳細,AI 效果就越牛的刻板印象不一樣,目前各大官方對自家推理大模型提示詞的共同建議,就是直接,簡潔,描述準確。

我們也嘗試著做了一個實驗,而最終的實驗結果同樣證明,過去非推理模型的古法提示詞,用到推理模型那裡真的會讓效能下降。

我們從 leetcode 裡面挑選了幾十道各種型別的困難題目,在 ChatGPT 上進行測試。咱們先按老法子寫了一段提示詞,比如暗示它做一名程式設計師、要進行思維鏈思考、還給出了大量示例等等等。。。
結果對於大部分題目,不論提示詞是長是短,推理模型 o1 都能給出正確的程式碼,甚至能擊敗 70% 以上的人,可以說表現已經相當優秀了。

但是在 1147、471、458、1735、1799 這些題目中,o1 在老提示詞下失敗了。其中,有一題更是直接卡死,不想玩啦。

但當我們不讓它 cosplay,也不給例題,去掉思維鏈引導時,o1 這回居然在同樣的問題上又答對了。
所以,到底是啥讓昔日的提示詞小甜甜,在推理模型時代變成了牛夫人?

其實背後最主要的原因,是傳統非推理模型和推理模型的思考問題方式變了,而它們思考方式的變化源於訓練方式的不同。

傳統的大模型一般採用無監督學習和監督微調,也就是給個數據集,讓它自己去找規律。它的終極目標是根據提示詞,一個一個猜對回答裡的所有字。
說人話就是,通用大模型能力很強,但沒啥子主見,這就比較吃使用者的操作了。你給的提示詞越詳細,越能讓大模型按照你的心意去做事。
但推理大模型不一樣,在原來的基礎上,它又加上了強化學習等基於推理的訓練方法。
這樣的訓練過程,會引導大模型儘量給出完整且正確的思維鏈,讓它能夠判斷這麼想是不是對的。

這下模型本身就有很強的 “ 主見 ”,或者說是推理能力。你要是再一步步詳細地去教它做事,反而可能和它本身的推理能力衝突了。

比如我們在實驗中發現,用老提示詞讓 o1 解決一些數學相關的程式設計題目時,翻車機率尤其的高。
這有可能是因為提示詞只讓它做了一名 “ 資深程式設計師 ”,而不是 “ 數學很好的程式設計師”。

我們也翻了不少模型的官方文件,它們給出的建議也基本都是別整花花腸子,提示詞簡單直接,並且準確最好。除此之外,可以強制延長推理時間,提示它 “ 多想想 ”,或者 “ 反思你的結果 ”。

一部分老辦法也還是好用的,比如適當用些符號,把問題的結構分分清楚,或者明確你的最終目標和結果格式。
這些辦法,都能讓推理模型的效果更秀更 6。
所以,適當放下助 AI 情節,講清楚你的需求,雙手插兜尊重 AI 操作,反而可能是最有效率的。
而我覺得隨著大模型能力的不斷進化,寫提示詞這件事的門檻,也肯定會越來越低。
但,要是問提示詞工程這手藝,會不會完全消失?我們也請教了一下曾寫出“漢語新解”等神級提示詞的大神李繼剛老師。
他是這麼回答的:只要我們不同的輸入,還會帶來不同的輸出,那提示詞工程就一直都在。
最後,差評前沿部覺得,對我們這些使用者來說,隨著模型能力的加強,咱也應該更新一下提示詞的彈藥庫了,別在抱著那古早的過時提示詞,當個寶了。
撰文:莫莫莫甜甜
編輯:江江 & 面線
美編:陽光
圖片、資料來源:
OpenAI、DeepSeek、Claude官網
DeepSeek論文原文
各大影片網站


相關文章