Microsoft 在 AI 驅動的遊戲領域邁出了大膽的一步,其最新的實驗模型改變了經典遊戲未來可能的渲染方式。這家科技巨頭的新方法展示了生成式 AI 在互動式娛樂中的潛力和當前侷限性。
WHAMM:Microsoft 的新型 AI 遊戲模型
Microsoft 近期推出了 WHAMM(World and Human Action MaskGIT Model,世界與人類行為 MaskGIT 模型),這是一個專為即時遊戲應用設計的生成式 AI 系統。這個新模型相比其前身——二月份釋出的 WHAM-1.6B——有了顯著進步。WHAMM 能力的最令人印象深刻的展示是一個可玩的 28 年曆史的經典遊戲《雷神之錘 II》版本,使用者可以透過 Copilot Labs 直接在網頁瀏覽器中體驗。儘管這項技術仍處於實驗階段,但它展示了 AI 如何最終透過基於玩家互動即時生成視覺內容來改變遊戲體驗。
![]() |
---|
WHAMM AI 在 Quake II 中即時遊戲生成的介面 |
WHAMM 背後的技術創新
WHAMM 的關鍵技術創新在於它摒棄了傳統的自迴歸模型(這類模型按順序生成標記)。相反,WHAMM 採用 MaskGIT 風格的架構,可以並行生成一幀的所有影像標記。這種架構轉變顯著減少了所需的前向傳遞次數,降低了元素之間的依賴性,從而實現更快的視覺輸出,接近即時響應。解析度也從之前模型的 300 x 180 畫素提高到更詳細的 640 x 360 畫素,在保持相同的編碼器-解碼器架構的同時提供更清晰的視覺效果。
![]() |
---|
展示 WHAM 模型創新設計的技術架構圖 |
加速的訓練過程
也許最引人注目的是 WHAMM 所需訓練時間的大幅減少。雖然之前的 WHAM-1.6B 模型需要七年的遊戲資料進行訓練,但開發人員僅使用一週多的精選《雷神之錘 II》遊戲資料就訓練了 WHAMM。這種效率是透過利用專業遊戲測試員專注於遊戲的單一關卡的資料實現的。這代表了 AI 模型訓練效率的重大進步,可能使類似系統在未來更加實用。
當前的侷限性和使用者體驗
儘管有這些進步,WHAMM 仍然處於實驗階段。演示執行的幀率極低,僅達到十幾幀,並且存在明顯的輸入延遲。Microsoft 強調,這個演示應被視為技術展示而非成品遊戲。玩家可以執行基本動作如射擊、跳躍、下蹲和與敵人互動,但體驗受到許多限制的影響。敵人互動看起來模糊,健康追蹤和傷害統計常常不準確,模型的上下文長度有限——如果物體離開玩家視野超過 0.9 秒就會被遺忘。此外,演示僅限於單一關卡,嘗試進一步前進會導致影像生成凍結,因為缺乏記錄的訓練資料。
WHAMM 技術規格:
- 解析度:640 x 360 畫素(從前代模型的300 x 180提升)
- 架構:MaskGIT風格的並行令牌生成
- 訓練資料:一週精選的 Quake II 遊戲畫面(相比前代模型的七年資料減少)
- 當前侷限性:低幀率(低至中等十幾幀每秒),高輸入延遲,有限的上下文記憶(0.9秒),僅限於單一關卡
AI 在創意產業中:增強而非替代
WHAMM 出現在關於 AI 在創意產業中角色的更廣泛討論中。最近的爭議,如 OpenAI 的吉卜力風格 AI 創作,凸顯了公眾對 AI 是否能真正複製人類藝術性的質疑。Microsoft 將 WHAMM 定位為增強人類創造力的工具,而非替代品——這一理念類似於 Nvidia 的 ACE 技術,後者在 inZOI 等遊戲中增強了逼真的 NPC。理想的實施方式是 AI 增強而非替代創意作品,新增動態元素的同時保留使遊戲引人入勝的人類觸感。
對互動式媒體的未來影響
展望未來,Microsoft 設想 WHAMM 和類似技術將能夠實現全新形式的互動式媒體。雖然完全由 AI 生成的遊戲仍然是未來而非眼前的現實,但像 WHAMM 這樣的創新表明它們可能在未來幾年內出現。未來的迭代版本可能會解決當前的缺點,同時賦予遊戲開發者能力,創造由 AI 驅動工具豐富的更身臨其境的敘事。這項技術代表了一個有趣的展望,展示了生成式 AI 最終可能不僅改變遊戲的外觀,還會改變遊戲的基本功能和對玩家行為的響應方式。