Facebook Research 最近釋出的視覺幾何接地變換器(Visual Geometry Grounded Transformer,VGGT)因其能夠從普通照片快速建立3D場景的能力,在3D重建社群引起了極大的興奮。與需要大量處理時間的傳統攝影測量方法不同,VGGT 可以在幾秒鐘內從幾張影像生成詳細的3D重建。
![]() |
---|
Facebook Research 的視覺幾何接地變換器(VGGT)GitHub 倉庫的截圖,展示了其開源特性 |
基於 Transformer 的3D重建方法
VGGT 代表了與傳統3D重建流程的重大突破。它不依賴於相機位置估計、深度計算和點雲生成的單獨階段,而是透過其 transformer 架構的單次前向傳遞處理所有內容。社群成員指出,這可能會替代行業標準工具 COLMAP,後者雖然準確,但眾所周知速度慢且需要大量高質量影像。
「我猜這將進入許多工作流程中,替代大量臨時拼湊的流程。」
該模型透過使用具有交替幀級和全域性注意力機制的標準 transformer 架構實現這一點,該架構在大量3D標註影像資料集上進行了訓練。特別令人印象深刻的是,VGGT 在其設計中不包含專門的3D歸納偏置,而是純粹從資料中學習這些關係。
VGGT 關鍵特點
- 直接推斷相機引數、深度圖、點圖和3D點軌跡
- 可處理少至1張或多至數百張影像
- 處理時間從毫秒到秒不等
- 不需要專門的3D網路架構
- 在多樣化資料集上訓練,包括 Co3Dv2、BlendMVS、MegaDepth 和合成資料
- 模型大小:10億引數(計劃推出更小版本)
- 訓練成本:64個 A100 GPU 執行九天(約18,000美元)
社群討論中湧現的實際應用
社群討論揭示了 VGGT 的眾多實際應用。建築視覺化作為主要用例脫穎而出,快速3D重建可以大大簡化家居改造設計流程。醫療應用也很有前景,一位評論者描述了一個骨科手術系統的工作,該系統使用 iPhone 等經濟實惠的硬體在空間中跟蹤手術工具。
也許最令人興奮的是 VGGT 與高斯散射(Gaussian Splatting)這一前沿渲染技術的潛在整合。幾位評論者指出,VGGT 可以為高斯散射工作流程提供初始場景結構,可能消除對緩慢的 COLMAP 處理的需求。論文字身提到了用於新視角合成的微調實驗,表明這種整合路徑已經在探索中。
侷限性和訓練成本
儘管結果令人印象深刻,社群成員對 VGGT 在新場景與可能出現在訓練資料中的著名地標之間的表現表示了一些懷疑。演示中展示的埃及金字塔和羅馬鬥獸場的例子引發了關於該模型如何很好地泛化到真正未見過的環境的問題。
訓練 VGGT 所需的計算資源相當可觀。根據論文,最終的十億引數模型在64個 NVIDIA A100 GPU 上訓練了九天,在商業雲平臺上大約需要18,000美元。這代表了一些評論者所稱的現代人工智慧的苦澀教訓——擴大計算和資料規模往往勝過巧妙的演算法設計。
VGGT 效能基準測試
輸入幀數 | 1 | 2 | 4 | 8 | 10 | 20 | 50 | 100 | 200 |
---|---|---|---|---|---|---|---|---|---|
時間(秒) | 0.04 | 0.05 | 0.07 | 0.11 | 0.14 | 0.31 | 1.04 | 3.12 | 8.75 |
記憶體(GB) | 1.88 | 2.07 | 2.45 | 3.23 | 3.63 | 5.58 | 11.41 | 21.15 | 40.63 |
在單個 NVIDIA H100 GPU 上使用 Flash Attention 3 進行基準測試
3D重建的未來
VGGT 的釋出標誌著使3D重建更加普及的重要里程碑。雖然專業攝影測量工具在準確性方面仍有優勢,但 VGGT 的速度和易用性為那些快速結果比完美精度更有價值的應用開闢了新的可能性。
一位評論者建議,理想的方法可能是將 VGGT 與傳統攝影測量相結合,而不是完全替代它——使用人工智慧填補掃描中的空白並增強結果。這種混合方法對於基於手機的3D掃描器特別有價值,因為在這些裝置上捕獲完美資料具有挑戰性。
隨著微調實驗在消費級硬體上開始,我們可以預期在未來幾個月內這一領域將出現快速創新,可能會改變從遊戲和虛擬現實到建築和醫學成像等各行業的工作流程。