Google 在 I/O 2024 展示 Gemini 先進多模態 AI
Google 在其 I/O 2024 開發者大會上大放異彩,將 Gemini AI 模型置於中心舞臺。這家科技巨頭展示了 Gemini 令人印象深刻的多模態能力,將其定位為新時代 AI 驅動產品和服務的基礎。
多模態理解
本次展示的亮點是 Gemini 能夠同時處理和理解多種型別的輸入,包括文字、影象、音訊和視訊。這種多模態功能使 Gemini 能夠以更自然和直觀的方式與世界互動。
Google CEO Sundar Pichai 將此稱為 Gemini 時代的開端,標誌著公司在其產品線中整合 AI 方式的重大轉變。
Project Astra:未來的一瞥
最引人入勝的演示之一是 Project Astra,Google 將其描述為一個先進的視覺和對話響應代理。在受控演示中,Gemini 展示了以下能力:
- 實時理解和描述物體
- 根據視覺提示進行創意故事講述
- 玩簡單的遊戲,如你畫我猜
- 記憶並回憶它曾見過的物體的資訊
雖然令人印象深刻,但值得注意的是,這些功能仍在開發中,尚未向消費者開放。
跨 Google 產品的 AI 整合
Google 宣佈了 Gemini 將增強現有產品的幾種方式:
- 搜尋:由 Gemini 驅動的全新 Google 搜尋體驗,提供更個性化和上下文感知的結果。
- Circle to Search:這項功能之前僅限於特定裝置,現在將擴充套件到 1 億臺 Android 手機。它現在可以協助解決複雜任務,如解決數學方程。
- AI 概覽:在 Gmail 和 Docs 等 Google 產品中提供簡潔的資訊摘要。
- Google Assistant:雖然沒有明確說明,但似乎 Google Assistant 正在被逐步淘汰,取而代之的是 Gemini 整合。
展望未來
Google 承諾,Gemini 的一些新功能將於今年晚些時候向使用者開放。然而,這些功能在受控演示之外的實際場景中表現如何,還有待觀察。
公司對多模態 AI 的關注及其在生態系統中的整合,標誌著我們與技術互動方式可能在不久的將來發生重大變化。隨著 Google 繼續開發和完善 Gemini,我們可以期待在日常生活中看到越來越複雜的 AI 應用。