Google 的 Veo 3 為 AI 影片新增聲音,建立令人毛骨悚然的逼真 Fortnite 遊戲畫面

BigGo Editorial Team
Google 的 Veo 3 為 AI 影片新增聲音,建立令人毛骨悚然的逼真 Fortnite 遊戲畫面

開發日益複雜的 AI 生成影片工具的競賽隨著 Google 最新產品的推出取得了重大進展。這家科技巨頭的新型 AI 影片生成模型不僅建立了非常逼真的視覺效果,現在還整合了同步音訊功能,這既引起了人們的興奮,也引發了對數字內容創作未來的擔憂。

Google 推出具有同步音訊生成功能的 Veo 3

Google 在其年度 I/O 開發者大會上宣佈了 Veo 3,這是其影片生成 AI 模型的最新版本。與許多競爭對手相比,這個模型的獨特之處在於它能夠生成與影片內容同步的音訊。這一突破解決了之前 AI 影片生成器的一個重大限制,因為它們通常只能生成無聲影片。Veo 3 可以建立與視覺場景匹配的環境背景聲音,比如繁忙地鐵車廂的噪音,甚至可以根據使用者提示生成人類聲音。該模型在模擬真實世界物理效果和口型同步方面也表現出色,這使其對電影製作人和創意專業人士具有潛在價值。

Google Veo 3的主要特點:

  • 與影片同步的音訊生成
  • 逼真的環境聲音建立
  • 人聲生成能力
  • 先進的物理模擬
  • 改進的口型同步技術
  • 向美國 Gemini Ultra 訂閱使用者開放
  • 與 Google 的 Flow 電影製作工具整合

音影片同步的技術挑戰

建立能夠生成同步影片和音訊的 AI 模型代表著一項艱鉅的技術挑戰。影片由一系列靜止幀組成,而音訊則以連續波的形式存在,這需要能夠跨越這些不同模式執行的模型。該系統還必須動態考慮材料屬性、距離和速度等變數,以建立逼真的音效。例如,以不同速度行駛的汽車會產生明顯不同的聲音,馬在不同表面上行走也是如此。Google 透過 Veo 3 取得的成就表明在解決這些複雜問題方面取得了重大進展。

可用性和與其他 Google 工具的整合

Veo 3 目前向美國的 Gemini Ultra 訂閱使用者開放。該技術還已整合到 Flow 中,這是 Google 在同一 I/O 活動中推出的新型 AI 驅動的電影製作工具。這種整合表明 Google 有更廣泛的戰略,旨在為創意產業帶來實用的 AI 工具,可能會改變數字內容的生產方式。

對逼真假內容的擔憂

儘管 Veo 3 具有令人印象深刻的功能,但它很快引發了人們對其潛在濫用的擔憂。在推出後的幾天內,使用者已經開始建立幾乎無法與真實畫面區分的 Fortnite 遊戲片段,甚至配有虛假的主播評論。這些 AI 生成的影片非常逼真,以至於在社交媒體上隨意瀏覽的觀眾可能很容易將它們誤認為來自 YouTube 或 Twitch 等平臺的合法內容。

對虛假資訊和版權的影響

建立如此令人信服的假影片的能力引發了關於虛假資訊的嚴重問題,並可能破壞對合法內容的信任。同時也存在重大的版權問題,因為 AI 似乎是在未經 Epic Games 等創作者明確許可的情況下,透過大量現有內容(包括 Fortnite 等影片遊戲)進行訓練的。這引發了一場辯論,討論上傳到 YouTube 等平臺的內容是否正在被用來訓練 AI 系統,儘管有版權保護。

提出的擔憂:

  • 建立具有欺騙性的逼真虛假內容
  • 傳播虛假資訊的潛在可能性
  • 從現有內容進行訓練所帶來的版權問題
  • 削弱對合法影片的信任
  • 對創意產業就業的可能影響

更廣泛的行業趨勢

Google 在這一領域並非孤軍奮戰。Meta 在十月釋出的 Movie Gen 提供了類似的功能,而 Runway 的 Gen-3 Alpha 等其他工具則提供了在後期製作中向影片新增 AI 生成音訊的功能。Microsoft 也透過其 Muse 程式表現出對 AI 生成遊戲畫面的興趣,該公司表示這可能有助於遊戲概念構思和儲存。然而,這些發展引發了關於此類工具是否最終會取代人類創造力或消除創意產業就業機會的辯論。

未來影響

隨著具有同步音訊的 AI 生成影片變得更加複雜和易於獲取,社會將需要解決有關真實性、版權和潛在濫用的問題。雖然這些工具為內容創作者提供了令人興奮的可能性,但它們也需要新的方法來驗證數字媒體的真實性並保護智慧財產權,因為在這個時代,越來越逼真的假內容可以透過簡單的文字提示生成。