在快速發展的3D渲染和計算機視覺領域,一項名為 LiveSplat 的新技術正引起廣泛關注。這種創新演算法能夠利用RGBD相機流實現即時高斯散射,有望徹底改變我們視覺化和互動3D環境的方式。
打破高斯散射的速度壁壘
傳統的高斯散射方法通常需要數小時的處理時間,才能從2D影像創建出逼真的3D場景。由 Mark Liu 開發的 LiveSplat 採用了完全不同的方法,利用深度資料每幀僅需33毫秒就能生成這些表示。這是一個巨大的飛躍,使得之前認為不可能實現的即時應用成為可能。
「我想象我們將能夠在任何現場活動中擁有虛擬前排座位,以及許多我們尚未想到的其他應用。」
該技術透過將最多四個相機的RGBD(RGB + 深度)資料輸入神經網路,生成高斯散射輸出。與傳統的點雲渲染相比,後者常常存在視覺偽影和物體透視問題,LiveSplat 建立了更加連貫的3D視覺化效果,改進了紋理渲染、遮擋處理和視角依賴效果。
為即時效能做出的技術妥協
為了實現其卓越的速度,LiveSplat 與傳統高斯散射方法相比做出了幾項技術妥協。開發者承認,由於計算預算有限,系統在重新調整散射點位置和大小的能力上受到限制,這可能導致一些畫素化效果。
與需要數分鐘或數小時的基於梯度的最佳化程式的傳統方法不同,LiveSplat 使用神經網路直接將RGBD輸入和相機姿態資訊轉換為高斯散射輸出。這透過利用深度通道中已有的幾何資訊,繞過了耗時的最佳化過程。
該神經網路採用了巧妙的監督學習方法進行訓練:在四個可用相機中,三個用作輸入,而第四個作為真實參考。這使系統能夠學習視角依賴效果並在相機視角之間進行插值。
LiveSplat 系統要求
- Python 3.12+
- Windows 或 Ubuntu(其他 Linux 發行版未經測試)
- x86_64 CPU
- Nvidia 顯示卡
- 一到四個 RGBD 感測器
與傳統高斯散射技術的主要技術差異
- 處理時間為33毫秒,而傳統方法需要數分鐘/數小時
- 使用神經網路而非基於梯度的最佳化
- 利用 RGBD 輸入繞過冗長的幾何重建過程
- 閉源實現,提供二進位制分發
- 具備逐幀處理的即時能力
未來影響和應用
社群對 LiveSplat 的反響突顯了它在圖形世界中的潛在重要性。許多人將其視為通向更沉浸式虛擬體驗的墊腳石,應用範圍從VR遠端呈現到現場活動廣播。
雖然目前是閉源的(以 Windows 和 Ubuntu 的二進位制包形式分發),LiveSplat 代表了使先進渲染技術在即時應用中可訪問的重要里程碑。該技術可以透過IP網路工作,開發者指出,雖然RGB壓縮是一個已解決的問題,但深度通道壓縮需要特別考慮。
展望未來,時間累積似乎是下一個合理的發展步驟,這可能會在保持即時效能的同時進一步提高視覺質量。隨著高斯散射技術的不斷成熟,我們可能會看到它們成為新一代互動式3D媒體建立和消費工具的基礎。
參考:LiveSplat