Google 的 Gemini AI 助手正在快速發展,不斷推出重要的新功能。最近的發現揭示了即將推出的影片分析功能和聊天曆史搜尋功能,而最新的 Gemini 2.5 Pro 模型已經給使用者留下了深刻印象,成為值得訂閱的付費 AI 工具之一。
Gemini 即將推出影片分析功能
透過對 Android 版 Gemini(版本 16.15.38.sa.arm64 測試版)的 APK 拆解分析,發現 Google 正準備為其 AI 助手新增影片分析功能。開發人員已經啟用了這一尚未釋出的功能,允許使用者上傳影片並向 Gemini 詢問有關影片內容的問題。該功能似乎可以處理長達五分鐘的影片內容,AI 能夠準確分析視覺元素,根據建築特徵識別位置,並提供關於影片內容的上下文資訊。
這一功能可能對於總結已錄製的會議、透過螢幕錄影解決技術問題或出於各種目的分析視覺內容非常有用。該功能似乎正處於最終測試階段,這表明官方公告可能很快就會發布,可能會在 Google 即將舉行的 I/O 活動上宣佈。
即將推出的 Gemini 功能
- 影片分析功能,上傳限制為5分鐘
- 聊天曆史搜尋功能
- 改進的文件分析能力
聊天曆史搜尋功能
在同一測試版本中發現的另一個顯著改進解決了 Gemini 在可用性方面的一個重大缺陷。目前,雖然 AI 儲存了過去對話的完整歷史記錄,但沒有有效的方法來搜尋它們。這一遺漏對於試圖從之前的互動中找到特定資訊的重度使用者來說特別令人沮喪。
APK 拆解分析發現了與 SEARCH_CHAT_HISTORY 相關的字串,表明 Google 正在開發解決這一問題的方案。雖然該功能似乎處於早期開發階段,尚未看到功能性實現,但它代表了一項重要的生活質量改進,與 Google 在搜尋技術方面的核心能力相符。
Gemini 2.5 Pro 給使用者留下深刻印象
除了這些即將推出的功能外,Google 最近釋出的 Gemini 2.5 Pro 在 AI 愛好者中引起了轟動。該模型比之前的版本有了顯著提升,其功能包括複雜推理、程式設計和分析大型文件。它擁有高達 100 萬 tokens 的大型上下文視窗(計劃擴充套件到 200 萬),使其能夠一次處理和理解比早期版本多得多的資訊。
與 Gemini 2.5 Pro 一起,Google 還推出了 Gemini 2.5 Flash,該版本針對客戶服務等高容量應用進行了速度和成本效率的最佳化。兩種模型都支援跨文字、影像、音訊和影片的多模態輸入,具有手動推理控制等功能,可以調整模型思考問題的深度。
這些改進已經足夠顯著,甚至那些通常限制付費訂閱的挑剔 AI 使用者也將 Gemini 新增到了他們的工具箱中。充分利用這些高階模型的關鍵似乎在於使用者如何與它們互動——清晰的溝通、具體的提示,以及對其能力和侷限性的合理期望。
Gemini 2.5 Pro 功能特點
- 上下文視窗高達 100 萬個標記(即將支援 200 萬)
- 多模態輸入支援(文字、影像、音訊、影片)
- 手動推理控制,用於調整模型思考過程
- Canvas:用於文件和程式碼編輯的互動式空間
- Live API,支援跨模態即時流式傳輸
不斷發展的 AI 格局
雖然 Gemini 2.5 Pro 代表了 Google AI 產品的重大進步,但使用者注意到,在 Google 生態系統內的整合在切換不同功能時仍然感覺有些脫節。該模型在處理細微的寫作、更深入的思考和偶爾的幻覺方面仍然面臨挑戰——這些是大型語言模型普遍存在的問題。
隨著 AI 工具不斷成熟,它們之間的區別不再是原始能力,而是使用者如何有效地將它們用於特定工作流程。憑藉這些即將推出的功能和最近的改進,Google 正將 Gemini 定位為日益競爭激烈的 AI 助手領域中的強勁競爭者,特別是對於重視多模態分析能力和與 Google 生態系統深度整合的使用者而言。