為什麼會有人喜歡在老闆面前表演？

前段時間，有位同事找我討論了一個問題。

他說，有一件突發的事，需要跨部門合作。但是，這件事並不是對方的本職工作。所以，他有些不好意思開口，就來找我商量，可不可以設立一筆小的獎金，讓對方能更有動力地做這件原本不在工作範圍內的事。

嗯。承擔額外的工作，拿走額外的獎金。聽上去，非常合理。

但是，我還是制止了。同時，我也強調，千萬不能隨便在公司裡發錢。很多時候，我們希望一個人去做某件事，就很自然會想到用金錢激勵。可是，這種方法其實並不可取。

為什麼？

用現在最流行的人工智慧語言來說，這就相當於是亂設了激勵函式。

什麼意思？

打個比方。小孩子學走路。

爸爸媽媽們是怎麼教小孩子學走路的？不是告訴他如何發力、如何邁腿。因為他還聽不懂。而是給他設定了一個獎懲機制。走得好，爸爸媽媽會抱。這是獎勵。摔倒了，屁股會痛。這是懲罰。有了這套獎懲機制，孩子就會不斷練習，並根據獎勵和懲罰的反饋不斷嘗試調整姿勢，直到在某一個瞬間，突然就“自然而然”地學會了走路。

這種學習方式，就叫做：強化學習。而這套獎懲機制，就叫做：激勵函式。

那一旦設錯了激勵函式呢？得不到玩具，會哭。因為玩具，是哭的獎勵。得不到關注，會叫。因為關注，是叫的獎勵。

就像一個打掃房間的AI，設定了“看不見灰塵”的激勵函式，可能就會學會“關掉房間裡的燈”。醫療診斷的AI，設定了“準確診斷率”的激勵函式，學會“只做籠統的診斷”。棋盤遊戲的AI，設定了“不輸棋”的激勵函式，學會“無限延長遊戲”或是“找方法暫停遊戲”。

這種現象，也叫做：獎勵破譯（Reward Hacking）。發現並利用捷徑和漏洞，從而獲得獎勵。即便這不是設計者的真實意圖。

育兒如此。AI如此。一家公司也是如此。

公司裡的員工們，最終會做出什麼樣的行為，採用什麼樣的協作方式，歸根到底，也都是由激勵函式塑造出來的。

比如，如果真的因為某件事，給某個人發了一筆額外的錢，那他肯定會很高興，可能還會對公司心懷感激，也為公司多爭取一些利益。但是，等過一段時間，又有另外一件計劃之外的事情需要他幫助的時候，他可能也會期待能有一筆額外的錢。對這筆錢的“多少”，也會有自己的衡量標準。上次是300塊錢，這次是多少？什麼。150？這次的事，明明比上次複雜。怎麼著也得是500。怎麼會是150。

最終，公司的內部，就會生長出一套脫離於激勵制度的價格體系。

每一個人，每一種活兒，都明碼標價。但凡不給錢的事，就沒人重視，沒人幹。每件事都得給錢。而且，不能給得“不公平”。

我們曾經講過這麼一個故事。

一位創業者，在一位員工入職5週年的時候，一個高興，就送了一臺當時最新的iPhone 8。第二年，又有幾位員工滿5週年了。接著發。第三年，第四年，第五年。十個人，五十個人，一百個人。接著發吧，100多萬的成本。不發了吧，員工又會憤怒，覺得憑什麼別人有，我沒有。憑什麼到我這兒就停了。

很多公司，在啟動新專案的時候，也會這樣。比如，只要參加新專案，就有1000塊錢的獎金。到最後，名義上的“獎金”，就變成了實質上的“工資”，起不到任何激勵作用了。

所以，請記住，輕易不要在正常的激勵制度之外，再製定任何的獎勵制度。

當然，隨意發放金錢，只是一種設錯激勵函式的情況。有些公司，還存在著另外一種更加麻煩的，由老闆主導的激勵函式。

比如，平時的工作中，一位員工有多大的權力，全看老闆的態度。出了問題，需要承擔多大的責任，全憑老闆的站隊。到了年底，能拿多少錢，全憑老闆的判斷。因為老闆會說，我每次下班都看到小王工作得特別辛苦，一直在幹活兒，我不管，無論如何都得想辦法給他發點獎金。

一旦一家公司的激勵函式，是由老闆的主觀判斷決定的，那員工就會想盡辦法“管理”老闆的判斷。

現在，你可能就能理解，為什麼會有人喜歡在老闆面前表演了。

因為在一家激勵函式取決於老闆的判斷力的公司裡，表演，就是最有效的工作方式。

只要老闆在場，原本工作效率不高的員工，也會表現得格外勤奮。只要老闆還沒下班，那我也不下班，看誰能坐得住。只要老闆參會，那就踴躍發言，平常懶散拖沓一點沒關係。反正演出圓滿了，獎金、晉升、資源分配也就到手了。

而這種職場版的“獎勵破譯”一旦被找到，被允許，很快就會像病毒一樣擴散開來。因為看到“表演者”獲得獎勵，其他員工也會被迫加入表演。就像一個班級裡，老師只獎勵那些舉手發言的學生。那所有學生都會拼命舉手，卻不關心答案是否正確。

直到，公司形成一種“會說比會做重要，表現比產出重要，形式比內容重要”的價值觀。直到，員工失去對真實價值的感知能力，開始相信表演本身就是工作的重要組成部分，甚至是工作的全部。直到，老闆住進了自己“精心編織”的資訊繭房。

PR部門會說，你的所有決策，都是準確無比的。身邊的同事會說，你是偶像，是榜樣。

最終，整個公司只向上負責，卻不帶來實際的市場成果。老闆也感受不到市場上的風浪，反而感覺自己英明神武。

是的。有時，我們會疑惑，為什麼有的人這麼喜歡拍馬屁。其實，這不是“天生”的，而是被老闆的激勵函式所催化出來的。一旦激勵函數出了問題，透過強化學習訓練出來的公司就會出問題。就像訓練AI一樣。

那麼，對於一家公司來說，真正具有價值的激勵函式，到底是什麼？

答案只有一個。那就是：市場。

市場的反應，客戶的反應，使用者的反應，這些資料反饋，才是真正的激勵函式。因為只有這樣，員工的利益才和市場的真實利益是一致的。

盈利多少，給予相應獎勵。客戶數量增長多少，也給予相應獎勵。不應該有人在中間做主觀的判斷，說什麼“他太辛苦了，得多給一點”，或者“雖然他沒完成任務，但是表現出了潛力”。這些都不行。

在真正具有價值的激勵函式下，不斷訓練。假以時日，公司才有機會擁有紮根臨時基地、不斷進取的衝勁。而不是變成一家，所有人都在圍著老闆打轉的公司。

當然，這就意味著，從今往後，老闆得把自己的個人喜好，死死地關在籠子裡了。

即便這極其的反人性。

但請你相信，難而正確的事，往往都是反人性的。

這些思考，與你共勉。

P.S.

很多人相信，人工智慧是未來。卻不知道，該如何擁抱這個未來。

很多人認為，人工智慧是機會。卻不知道，如何才能不錯過機會。

所以今年，我和我的團隊，也正式推出了，2025“進化的力量·劉潤年中大課”。

6月7日，在上海影城，我會用一天的時間，和你好好聊聊人工智慧。

不做現場直播。也不做事後回放。就讓我與你，獨家分享。

6月7日，就讓我們，現場見！

*個人觀點，僅供參考。

觀點 / 劉潤主筆 / 二蔓編輯 / 歌平版面 / 黃靜

這是劉潤公眾號的第2560原創文章

dignews.cc

為什麼會有人喜歡在老闆面前表演？

*個人觀點，僅供參考。

觀點 / 劉潤主筆 / 二蔓編輯 / 歌平版面 / 黃靜

相關文章

使用DeepSeek的GRPO，7B模型只需強化學習就能拿下數獨

從PolicyGradient到REINFORCE++，萬字長文梳理強化學習最新進展

使用A10單卡24G復現DeepSeekR1強化學習過程

SFT並非必需！推理模型僅靠RL就能獲得長思維鏈能力，清華CMU團隊破解黑盒

PPO&GRPO原理，小學生也能看懂！

對話馬也騁：Eureka和DrEureka如何利用LLM解決模擬+RL最重要的難題

DeepSeek-R1技術剖析：沒有強化學習基礎也能看懂的PPO&GRPO

ICLR2025|擴散模型獎勵微調新突破！Nabla-GFlowNet讓多樣性與效率兼得

三張圖速通DeepSeek-R1論文和技術原理

DeepSeek關鍵RL演算法GRPO，有人從頭跑通了，貢獻完整程式碼

*個人觀點，僅供參考。

觀點 / 劉潤 主筆 / 二蔓 編輯 / 歌平 版面 / 黃靜

相關文章

觀點 / 劉潤主筆 / 二蔓編輯 / 歌平版面 / 黃靜