新型影片擴散模型加速框架 FastVideo 的釋出,在技術社群引發了關於開源與閉源AI影片生成模型未來發展的激烈討論。這場討論恰逢各大公司正在競相開發日益複雜的影片生成技術之際。
開源優勢
社群中相當一部分人認為,開源影片模型最終將勝過像 OpenAI 的 Sora 這樣的閉源方案。這一觀點主要基於開源生態系統帶來的優勢,包括可以修改、微調以及將這些模型整合到各種應用中。像 Hunyuan 和 Mochi 這樣可以在本地或自定義雲環境中執行的模型,為開發者和創作者提供了更大的靈活性來構建創新應用。
「開源影片模型將戰勝閉源模型。生態系統和工具至關重要...因為你可以對它們進行程式設計,可以在本地或自己的雲端執行。你可以根據需求進行微調,可以構建聲音響應模型、可控模型、互動藝術牆,幾乎一切你能想到的應用。」
FastVideo 的主要特點:
- 透過 FastHunyuan 和 FastMochi 實現8倍推理加速
- 支援最先進的開源影片 DiTs
- 可擴充套件訓練,最多可線性擴充套件至64個 GPU
- 具備記憶體高效的微調功能
技術限制與挑戰
然而,討論也揭示了開源和閉源模型都面臨的重大技術障礙。當前的硬體限制,特別是GPU記憶體方面的限制,構成了一個主要瓶頸。儘管一些社群成員希望有更大記憶體容量的顯示卡(比如假設的192GB版本),但專家指出,目前基於GDDR的設計使得這種配置在實際中難以實現。該行業似乎正在觸及傳統GPU記憶體架構的物理極限。
FastVideo 的硬體要求:
- 最低配置:2個顯示卡,每個具有40GB視訊記憶體(使用 LoRA)
- 降低配置:2個顯示卡,每個具有30GB視訊記憶體(使用CPU解除安裝和 LoRA)
- 推薦配置:用於推理的顯示卡需具有80GB視訊記憶體
質量與可訪問性的權衡
社群注意到,當前的影片生成模型在物理現實理解和長序列的一致性方面面臨挑戰。雖然這些模型在建立短小精美的影片片段方面表現出色,但在維持較長序列的連貫性或準確表現複雜物理互動方面仍然存在困難。這場討論突顯了不同模型在質量和可訪問性之間做出的不同權衡,有些模型注重高階效果,而其他則優先考慮實用性。
總的來說,儘管這項技術展現出巨大潛力,但社群認識到,要實現下一級別的影片生成能力,可能需要在硬體能力和模型架構方面都取得重大突破。開源和閉源方案之間的持續競爭將繼續推動這一快速發展領域的創新。
參考連結:FastVideo: A Lightweight Framework for Accelerating Large Video Diffusion Models