研究人員將熱門解謎遊戲 Baba is You 轉化為名為 Baba is Eval 的 AI 基準測試,用來檢驗大型語言模型處理複雜空間推理任務的能力。研究結果顯示,即使是像 Claude 這樣的先進模型,在處理基於網格的解謎任務時,現有 AI 系統仍存在顯著限制。
該專案展現了現代 AI 面臨的根本挑戰:雖然這些系統在語言任務上表現優異,甚至能夠生成程式碼,但在處理人類覺得直觀的空間推理問題時卻表現得相當吃力。這種限制在解謎遊戲中特別明顯,因為理解二維關係和規劃多步驟解決方案是必要的。
Claude 效能結果:
- 成功解決第 0 級關卡(8 步向右移動)
- 在所有後續關卡中均失敗
- 無法可靠地追蹤遊戲規則
- 在識別被阻擋路徑方面有困難
- 多步驟規劃能力不佳
- 難以識別勝利/失敗條件
文字網格表示問題
社群中討論最多的問題之一,集中在 LLMs 如何處理以文字網格形式呈現的空間資訊。目前將遊戲狀態表示為 ASCII 網格的方法,似乎對 AI 理解造成了重大障礙。模型在檢測列方面似乎比檢測行更困難,這可能是因為它們的訓練將所有內容視為連續文字,而非空間排列。
這種架構限制表明,以線性方式處理資訊的標準 transformer 模型,可能在根本上不適合需要真正空間理解的任務。一些研究人員提出了解決方案,例如為 X 和 Y 座標都添加位置資訊的二維文字嵌入,儘管這仍主要處於實驗階段。
空間推理的建議解決方案:
- 2D 文本嵌入(添加 X、Y 位置編碼)
- 基於 JSON 的座標結構
- 基於圖形的表示法
- 語義座標描述
- 空間資料的專門標記化
- 移動抽象工具(例如 move_to() 函數)
記憶與推理的辯論
社群提出的一個重要關切涉及 LLMs 是否真的透過推理來解決謎題,還是僅僅從訓練資料中回憶解決方案。由於 Baba is You 的解決方案在網路上廣泛可得,因此有合理的擔憂認為任何明顯的成功可能反映的是記憶而非真正的問題解決能力。
然而,即使在已知解決方案的關卡上進行測試,像 Claude 這樣的現有模型也無法解決超出最簡單教學關卡的基本謎題。這表明即使是記憶也無法有效運作,突顯了這些系統在處理和應用空間推理方面的更深層問題。
與遊戲專用 AI 系統的比較
討論揭示了通用 LLMs 與專門 AI 系統之間有趣的對比。雖然專門針對解謎遊戲訓練的神經網路可能會大幅超越 Claude 的表現,但目標不僅僅是解決遊戲,而是測試通用智慧能力。
「一個經過充分訓練的簡單前饋神經網路可以比 Claude 更好地解決關卡。」
這個觀察強調了一個關鍵點:挑戰不在於創造能夠擊敗解謎遊戲的 AI,而是開發能夠透過處理多樣化任務而無需專門訓練來展現真正通用智慧的系統。
技術實作細節:
- 透過 Lua 模組鉤子取得遊戲狀態
- 指令執行延遲為 50-150 毫秒
- 使用 MCP (Model Context Protocol)伺服器
- 採用文字網格表示法處理空間資料
- 透過模擬按鍵進行關卡導航
- 遊戲二進位檔案大小:8MB 含 Lua 腳本
對 AI 基準測試的影響
Baba is Eval 專案加入了越來越多旨在測試 AI 能力超越傳統語言任務的基準測試集合。與一些現有基準測試不同,解謎遊戲具有明確定義的規則和清晰的成功標準,使其成為衡量 AI 進展的潛在有價值工具。
社群討論表明,這些空間推理挑戰可能比現有基準測試更能代表智慧的根本測試。理解和操縱空間關係、規劃多步驟解決方案,以及適應變化規則集的能力,反映了許多現實世界的問題解決情境。
這項研究突顯了現有 AI 能力與類人推理之間的關鍵差距。雖然 LLMs 在基於語言的任務上持續改進,但它們在空間推理上的困難表明,實現真正的通用人工智慧可能需要根本的架構改變,而不僅僅是擴展現有方法。
參考資料:Baba is Eval