Google 揭示 Gemini 2.5 宏偉願景：從 AI 助手到"世界模型"

BigGo Editorial Team

Google 揭示 Gemini 2.5 宏偉願景：從 AI 助手到"世界模型"

隨著 Google 揭示其 Gemini 的長期戰略，該公司的人工智慧野心正在急劇擴張，定位其發展超越簡單的 AI 助手，成為他們所稱的世界模型。這代表了 Google 對 AI 在我們日常生活中角色的設想發生了重大轉變，其能力可能從根本上改變我們與技術的互動方式。

Google 的通用 AI 雄心

Google DeepMind 執行長 Demis Hassabis 為 Gemini 勾勒了一個雄心勃勃的願景，旨在將其轉變為能夠理解和模擬世界各方面的通用 AI。這種世界模型方法將使 Gemini 能夠制定計劃、想象新體驗，並代表使用者在多個裝置上採取符合情境的適當行動。Hassabis 將這種能力與人類認知進行了類比，暗示 Gemini 正在被開發成以更接近人類智慧的方式思考和推理。該公司報告稱，已經在 Gemini 與自然環境的互動中觀察到這種世界理解的早期跡象。

Gemini 2.5 Flash 和 Deep Think 增強功能

Google AI 進步的核心是 Gemini 2.5，它正在接受重大升級。新的 2.5 Flash 模型被 Google 描述為迄今為止最強大的版本，它在推理和多模態方面提供了更好的基準，同時提高了程式碼處理和處理長上下文的效率。這些改進透過應用程式向所有 Gemini 使用者提供，同時也透過 Vertex AI 向企業使用者和透過 Google AI Studio 向開發者提供。

此外，Google 正在引入一種名為 Deep Think 的新推理模式，旨在推動 Gemini 2.5 Pro 在提供回應之前考慮多種假設。該功能目前正在進行廣泛測試，包括前沿安全評估和專家諮詢，然後計劃進行更廣泛的釋出。這些思考能力也將應用於 Live API，提高 Gemini 處理複雜任務的能力。

Gemini 2.5 主要更新：

2.5 Flash：改進了推理能力、多模態處理、程式碼處理和長文字處理
Deep Think：新的推理模式，可以考慮多種假設（目前處於測試階段）
原生音訊輸出控制：可自定義語調、口音和語音風格
實驗性音訊功能：情感對話和主動音訊
增強的安全保護，防止提示注入攻擊


在 Samsung Galaxy S25 Ultra 上展示的 Gemini AI 增強功能，反映了先進功能的整合

專案整合：Mariner 和 Astra

Google 的戰略涉及將兩個關鍵專案整合到 Gemini 中，以實現其世界模型願景。Project Mariner 於 12 月首次揭示，已經發展到能夠同時處理多達十個任務。其代理可以同時研究資訊、預訂活動和探索主題，帶來 Google 認為對 Gemini 發展至關重要的強大多工處理能力。

Project Astra 於 3 月宣佈與 Gemini 整合，它提供了影片理解、螢幕共享和記憶功能。Google 一直在吸收 Astra 在 Gemini Live 中實施的反饋，以增強 Gemini Live、Search 和 Live API 的體驗。Mariner 的多工處理和 Astra 的視覺理解的結合代表了 Google 通用 AI 目標的重要一步。

專案整合：

Project Mariner ：多工處理能力（可同時處理多達10個任務）
Project Astra ：影片理解、螢幕共享和記憶功能
MCP（Model Context Protocol）支援，便於整合開源工具

增強的音訊和安全功能

Gemini 2.5 還獲得了原生音訊輸出控制，允許開發者透過改變 AI 的語調、口音和語音風格來定製其說話方式。此更新帶來了實驗性功能，包括情感對話（Affective Dialogue），使 Gemini 能夠檢測使用者聲音中的情緒並適當回應，以及主動音訊（Proactive Audio），幫助 Gemini 在等待適當時機回應時忽略背景聲音。

在安全方面，Google 正在加強 Gemini 2.5 的保護，防範惡意嵌入指令和間接提示注入攻擊，解決對 AI 漏洞日益增長的擔憂。

開發者工具和支援

認識到開發者生態系統的重要性，Google 提供了有見地的摘要，幫助開發者理解 Gemini 的思考過程和行動，便於更輕鬆地除錯。透過思考預算進行成本控制的功能將在未來幾周內應用於 Gemini 2.5 Pro，同時還將提供一個普遍可用的模型。

此外，Gemini 2.5 正在新增模型上下文協議（Model Context Protocol，MCP）支援，簡化了將開源工具整合到 Gemini 專案中的過程。Google 表示正在探索 MCP 伺服器和額外的託管工具，以進一步支援開發者社群。

隨著 Google 繼續推進 Gemini 的能力，該公司似乎在快速創新與謹慎測試和安全評估之間保持平衡，特別是對於像 Deep Think 這樣更復雜的功能。這種方法反映了 AI 競賽中的高風險，Google 正努力保持其競爭優勢，同時解決有關 AI 安全和責任的擔憂。