大語言模型在 Set 紙牌遊戲中表現欠佳，引發對人工智慧推理能力的質疑

BigGo Editorial Team

最近對大語言模型（LLMs）在 Set 紙牌遊戲中的實驗揭示了它們在推理能力方面的有趣侷限性，引發了人們對人工智慧本質和機器思維的討論。雖然這些模型在複雜的程式設計任務中表現出色，但在需要空間和邏輯推理的遊戲場景中卻顯示出令人意外的弱點。

Set 遊戲的挑戰

Set 紙牌遊戲為人工智慧提供了一個引人深思的測試案例。玩家需要從卡牌佈局中識別出三張卡牌的組合，每張卡牌都具有四個屬性——形狀、顏色、數量和陰影。有趣的是，雖然傳統演算法可以輕鬆解決這個遊戲，但即使是像 GPT-4 這樣的高階大語言模型在尋找有效組合時也會遇到困難，或對組合的存在做出錯誤判斷。

超越程式設計能力

在大語言模型處理遊戲相關任務時，出現了一個顯著的模式。社群討論顯示，雖然這些模型可以輕鬆編寫解決井字棋或 Set 遊戲的程式碼，但在實際玩這些遊戲時卻常常失敗。這種程式設計能力與遊戲表現之間的差異引發了人們對人工智慧推理本質的重要思考。

「我一直認為在提示詞中加入使用python這個魔法短語，能讓模型在廣泛的任務中表現出驚人的能力。」

思維機器的爭論

新型推理模型如 DeepThink-R1 和 o3-mini 能夠成功解決 Set 遊戲難題，這引發了關於機器意識的新討論。社群成員注意到，雖然這些模型展示了更強的推理能力，但關於這是否構成某種有意義的思維方式的根本問題仍然存在。有人認為，與其說機器達到了真正的神奇思維能力，不如說人類的思維可能沒有之前認為的那麼神奇。

各模型在集合遊戲上的表現：

GPT-4o ：提出無效的集合，驗證失敗
Sonnet-3.5 ：失敗但承認失敗
Mistral ：使用 Python 程式碼成功完成
o3-mini ：在1分12秒內找到3個集合
DeepThink-R1 ：在10分鐘內找到3個集合

架構限制

討論中提出的一個重要技術考慮是當前大語言模型架構中的退相干問題。與保持思維連續性的人類意識不同，大語言模型目前以離散的響應週期運作，難以維持持續狀態。這種架構限制可能解釋了它們在需要持續推理和狀態跟蹤的遊戲中遇到的一些困難。

對大語言模型在遊戲環境中能力的持續探索，不斷為我們提供關於當前人工智慧技術優勢和侷限性的寶貴見解，同時也挑戰著我們對真正的智慧和推理本質的理解。

參考資料：Let Them Play Set!


" When AI Fails " 的 GitHub 程式碼倉庫頁面展示了關於人工智慧在推理任務中的侷限性的持續討論和發現