AI跑團就在今天?實測讓100萬詞元的Gemini當守秘人,我發現收穫了這些驚喜 2025-07-08 09:20 APPSO 就在大家還在驚歎於 GPT-4o 模型所帶來的自然語言的震撼,被 GPT-4o「背刺」的 Gemini 被提及的聲量就顯得小了很多。不過,值得關注的驚喜還是有的,比如,宣佈了 Gemini 1.5 擁有一百萬詞元(token)的語境尺寸。 目前,除了 Kimi 和 Google 之外,鮮有其他 LLM 廠商嘗試擴充套件語境尺寸。 包括為 ChatGPT 背書的 GPT-4o 模型,由 ChatGPT 自己宣稱的語境尺寸在 8192 詞元。其他 LLM 可接受的最大語境尺寸也大多在 1000~10000 詞元的範圍中移動。 這也很好理解:更大的語境尺寸會明顯地帶來的額外算力壓力;同時,要在長語境下快速做出響應,也是令調參工程師十分頭疼的問題。 如果單純測試實際環境下的效能,找一篇帶有一百多頁的 PDF 格式論文可能足以勝任 benchmark 任務。 不過,我突然還是有那麼一點對「他們是怎麼做到力大磚飛的百萬尺寸上下文的」這個問題感到好奇。於是,我就開始萌生了給這些大語言模型使點絆子的想法—— 來當守秘人,一起跑個單人 CoC 團吧! 考驗語境尺寸,更考驗模型綜合素質 如果你還不是 TRPG 的玩家,可能對「模組」、「跑團」這些詞彙十分陌生,我們先來快速過一遍基礎概念。(TRPG 分有許多分支,這裡我們簡單介紹《克蘇魯的召喚 [CoC]》分支的規則。) 在 TRPG 的世界裡,可以簡單地將「模組」類比成網路遊戲中的「副本」,即多位玩家在一段預設的故事中展開冒險、尋找真相。遊戲中玩家被分為兩組,分別是由一名玩家組成的守秘人(keeper,通常被簡稱為「kp」)和至少一名玩家的調查員組成。 守秘人在整個故事中的角色是,控制 NPC 的行動,並引導調查員在故事中的行為。如果調查員的行為觸發了故事的某些機制或者設定,守秘人需要向調查員要求投擲骰子,判斷調查員行為是否成功、並根據骰點結果續寫故事,等等。 從上面的描述中,我們大概可以猜到,做 kp 對於大語言模型而言,是一個極其考驗其綜合能力的任務。例如,模型需要理解模組中許多細緻的要求,比如調查員在其中可以做什麼、不可以做什麼;當調查員做了不符合設定或劇情上不允許的事情,應該如何及時引導而不至於影響遊戲體驗。 調查員的回覆中,如果有許多很細緻的動作,模型是否能夠準確無誤地將它們抽象出來;以及在調查員執行特定行為的時候,確定是否需要 roll 點、「成功」與「失敗」的規則是什麼,也是衡量 kp 素質的十分重要的指標。 這些事情,一個人類新手 kp 可能都未必做得十分優秀,對於大語言模型,正好也可以成為一種綜合素質的考驗。 第一小時的完美 在跑團之前,我特地向 Gemini 確認了一下它的模型尺寸。 很好!正兒八經地是一百萬詞元,開啟 AI 跑團之旅的基礎條件有了。接下來,我在網上挑選了一個由輝質撰寫的評分較高的模組《[我的色彩](https://www.dicecho.com/module/6007fcc8bb660b024e5112f1)》,直接發給 Gemini 讓它讀取。 接下來,再花點時間車張卡(建立角色卡,填寫數值、人設等,用於投擲判定和故事發展等),然後也發給 Gemini,一切順利!可以開始跑團了。 (本文之後的內容會有該模組的劇透。我們儘可能地減少劇透量,但不可能完全做到零劇透,敬請注意。) 單從調查員玩家的角色看來,整個冒險的第一小時,Gemini 的表現堪稱完美。 Gemini 不僅很好地營造出了模組中要求的雪山的氛圍,而且很順利地在不同 NPC 角色之間切換,還在開幕的時候順利地要求我進行投擲和 SanCheck,可以說沉浸感十足。 唯一的美中不足,就是 Gemini 目前尚不支援第三方外掛,不然我高低也得給它整一個 roll 點工具。 之後的落差 就在那麼一瞬間,我突然就有了「AI 跑團就在今天」的想法,心想著「一百萬上下文果然就是不一樣」!可正當我興高采烈地和 Gemini 玩得有來有回的時候,我開始發現了許多不對勁的現象。 首先是,Gemini 很難十分完善地處理跑團這種「馬拉松對話」,對話過程越長,質量下降得越明顯,放在跑團這個情境裡,就是「更容易出戲」。 具體表現是,Gemini 會不斷地重複之前進行過的對話,然後反芻到現在的回覆中。如果反芻情況太嚴重,它還會出現故事線錯亂的情況,將它當作「現在的劇情」。 例如,我作為調查員,已經決定從醫院出院後一個人上山而沒有要求警官跟隨。過了很久,Gemini 突然在回覆中認為我是和警官一起上山的。我試圖糾正,結果 Gemini 把我從出院的劇情全部反芻了一遍。 類似的情況在整個過程中比比皆是,也讓我有些好奇為何會出現這樣的情況——因為很明顯,Gemini 對我們之前的劇情還有印象(否則不可能定位到我決定一個人從醫院出來的劇情),但反覆反芻之前的劇情進展也讓我十分疑惑。 我的一個猜想是,Gemini 1.5 可能使用了一種十分獨特的「分包壓縮」和「解壓縮」的方法。 比如,Gemini 可能將歷史的聊天記錄以不同分幕的方式進行切片,並單獨將它們「壓縮」成一個總結「壓縮包」。 當 Gemini 認為需要向我回復的內容需要獲知其中一個或幾個「壓縮包」的內容,就將其「解壓」出來,再把它反芻到當前會話中(因為呼叫過這個記錄,所以預設認為你之後一段時間裡也會使用這段內容),以避免重複進行解壓縮。 這可能也解釋了之後一個十分奇怪的情況。在第一小時裡的遊戲體驗中,Gemini 比較積極地讓我進行 roll 點;但到了劇情後期,Gemini 好像完全忘記了自己作為 kp 的職責,反而跟我玩起了「故事接龍」遊戲。 雖然對話進行過程中,Gemini 反覆地提示它正在看模組檔案和我的任務卡,但 Gemini 完全無法判斷究竟該在什麼時候讓我執行 SanCheck。按照剛才的理論推斷,Gemini 很可能將早期的聊天記錄直接壓縮了,然後忘記了我們其實正在跑團、變成了玩故事接龍。 戰鬥?想都別想了。儘管模組檔案裡對於 NPC 的數值、以及在哪裡能遇到什麼怪物這些寫得十分詳細,但 Gemini 一點都沒有動過想讓我戰鬥的心思。 另外,LLM 對於情景和行為的互動邏輯判斷上還有待加強。例如,情景是我和 A、B 兩個 NPC 在一起,我對 A 說話的時候,顧慮說話對 B 的影響,這種十分細微的心理活動會被 Gemini 當成是在對 B 說話,然後被 Gemini 關聯到十分古早的劇情。 例如,「我只記得,我遇到了一個……」這時候我望向 B,我不想讓她知道這個人就是她的哥哥,然後接著對 A 說,「……很奇怪的人。他像是在那裡欣賞森林裡的雪景一般。你知道的,正常人不可能在這種時候還在欣賞風景。」 如果是人類 kp,其實能很清楚地理解這個心理活動和互動邏輯。但是對於 Gemini 這種 LLM 而言,還是十分容易被理解成「轉向對 B 說話」。 如果說單純只是玩故事接龍,其實還是有可能玩到「截團」的。可惜的是,對話越長,Gemini 反芻的情況越嚴重,最終,連線龍都沒辦法接,這個團也沒有辦法完整進行下去。 跑團可以用,但當 kp 還是不太稱職 為了保證我的體驗比較接近真實玩家的體驗,在和 Gemini 遊玩整個模組之前,我實際上沒有仔細閱讀這個模組檔案。但讀過模組之後,可以發現其中 Gemini 還是因為「幻覺」現象或是其他原因而「放飛自我」。 比如,Gemini 版本的第一幕直接把我「扔」到了雪山之中,而模組檔案要求第一幕是在醫院。另外,從雪山到醫院的過渡,也不是瞬間完成的,而是有一個人為的過渡。檢查過模組檔案之後,可以發現幾乎 40% 的劇情量,Gemini 基本上是自己發揮、沒有跟隨模組的要求撰寫的。 另外,遊戲中的「不可名狀之物」本身的出現應該是整個劇情中的最高潮部分,Gemini 直接在半山腰(字面意義的半山腰)給我來個「大劇透」,讓我以為這玩意兒就是個普通 boss。 當然,模組作者在模組的開頭寫清楚了,這個模組其實帶有許多複雜的互動和融合關係。光是清晰地組織各種 NPC 與調查員之間的身份就已經比其他模組更困難,所以這個模組並不適合新手 kp 來帶團跑(也就是說,其實我在無意間讓 Gemini 帶了一個地獄難度級別的模組)。 但不可否認的是,Gemini 在「編故事」這一環,至少在第一小時,讓我有了十分身臨其境而令人難忘的回憶,彷彿真的身處雪崩現場一般。十分驚喜的是,它還弄清楚了「根據玩家的角色卡條件不同,NPC 可能也有差異」這一點並體現到了故事當中。 也許目前,一個新手 kp 想要在跑團中確保自己的故事可以被潤色一遍,使用 LLM 可能會收穫意外的效果——它可能會幫你在塑造故事這一方面變得更出色,併為新手 kp 提供許多劇情撰寫的幫助。但如果想要讓 LLM 們精通 TRPG、做一個稱職的 kp,看上去要教給它們的東西還有很多。