Meta 的 V-JEPA 2 在零樣本機器人任務中達到80%成功率,引發商業可行性爭議

BigGo 編輯部
Meta 的 V-JEPA 2 在零樣本機器人任務中達到80%成功率,引發商業可行性爭議

Meta 釋出了 V-JEPA 2,這是一個擁有12億引數的世界模型,代表了機器人智慧的重大飛躍。該模型可以在新環境中對陌生物體執行抓取和放置任務,無需對這些特定場景進行任何預訓練,成功率達到65-80%。這一突破在科技界引發了激烈討論,爭論焦點是這樣的效能水平是否已經準備好進行現實世界部署。

** V-JEPA 2 關鍵規格:**

  • 模型規模:12億引數
  • 訓練資料:100萬+小時影片,100萬張影像
  • 機器人訓練資料:動作調節僅需62小時
  • 成功率:在新環境中抓取和放置任務達到65-80%
  • 動作計算時間:16秒(相比之前方法的4分鐘)

80%成功率爭議

社群對於 V-JEPA 2 的效能指標是代表突破還是凸顯剩餘侷限性存在分歧。雖然80%的成功率乍看之下可能令人失望,但專家指出,這相比之前只能達到15%成功率的方法來說是巨大的改進。更重要的是,這是第一個展示零樣本能力的系統——意味著它可以處理全新的物體和環境,無需額外訓練。

爭論的焦點在於商業可行性。一些人認為80%的成功率可以在工業環境中發揮作用,人類監督員處理20%的失敗案例,潛在地降低整體勞動成本。然而,其他人對 AI 失敗相比人類錯誤的不可預測性表示擔憂,指出雖然人類以可預測的方式失敗,但 AI 系統可能出現災難性和危險的失敗。

效能對比:

  • V-JEPA 2:65-80% 成功率(零樣本學習,新環境)
  • 以往方法:約15% 成功率
  • 人類在物理基準測試中的表現:接近完美準確率
  • 當前 AI 模型在物理基準測試中的表現:接近隨機水平

技術架構和訓練方法

V-JEPA 2 使用聯合嵌入預測架構,包含兩個主要元件:一個將原始影片處理成語義嵌入的編碼器,以及一個預測未來狀態的預測器。訓練過程包括兩個階段——首先從超過100萬小時的多樣化影片內容中學習,然後僅用62小時的機器人互動資料進行微調。

這種方法與傳統語言模型根本不同。V-JEPA 2 不是預測離散標記,而是在連續空間中預測嵌入,這更適合存在無數可能結果的物理世界。該系統可以透過想象後果並選擇通向目標的最佳路徑來規劃行動,類似於人類在行動前心理模擬結果的方式。

聯合嵌入預測架構:一種機器學習方法,學習在抽象表示空間中預測未來狀態,而不是直接預測原始畫素或標記。

效能改進和速度提升

除了成功率,V-JEPA 2 還展示了顯著的效率改進。該系統可以在僅16秒內計算和執行動作,相比之前方法需要的4分鐘大幅縮短。這種速度改進對於需要即時決策的實際應用至關重要。

該模型能夠在不同機器人平臺上工作而無需特定環境訓練,解決了當前機器人系統的一個主要限制。大多數現有的機器人基礎模型需要來自將要部署的特定機器人和環境的訓練資料,使它們在不同設定中缺乏靈活性且實施成本高昂。

物理理解基準測試

Meta 引入了三個新的基準來評估 AI 系統從影片中理解物理的能力。目前的結果顯示人類表現(接近完美分數)與包括 V-JEPA 2 在內的 AI 系統之間存在顯著差距。這些基準測試區分物理上合理與不可能場景、回答因果關係問題以及預測未來結果的能力。

這些基準揭示了雖然 AI 系統在描述影片中發生的事情方面越來越好,但它們在反事實推理方面仍然困難——理解可能發生的事情或接下來可能發生什麼。這一限制指向了當前 AI 系統相比人類直覺在建模物理世界方面的根本差距。

釋出的新基準測試:

  • ImPhys 2:區分物理上合理與不合理的場景
  • Minimal Video Pairs (MVPBench):透過最小變化對的多選題來理解物理現象
  • CausalVidQA:回答關於物理因果關係、反事實和規劃的問題

未來影響和研究方向

V-JEPA 2 的釋出不僅僅代表另一個 AI 模型——它標誌著從純基於語言的 AI 向透過觀察和互動理解物理世界的系統的潛在轉變。Meta 決定將模型和程式碼提供給商業和研究使用,可能會加速整個機器人行業的發展。

「目前在野外沒有任何機器人使用世界模型來處理它們沒有專門訓練過的任務。這是前沿研究,80%的成功率令人驚歎!」

然而,重大挑戰仍然存在。當前系統需要將目標指定為影像而不是自然語言命令,限制了其實際應用。未來版本需要整合語言理解、處理複雜任務的多個時間尺度,並整合視覺之外的額外感官輸入。

社群討論既顯示了對技術成就的興奮,也體現了對剩餘障礙的現實評估。雖然 V-JEPA 2 可能還沒有準備好廣泛商業部署,但它代表了向能夠像人類一樣有效理解和與物理世界互動的 AI 系統邁出的關鍵一步。

參考:Introducing the V-JEPA 2 world model and new benchmarks for physical reasoning