隨著 Elon Musk 的 xAI 為其 Grok 平臺引入重要新功能,AI 聊天機器人競賽繼續升溫。這一舉措使其更接近 OpenAI 的 ChatGPT 和 Google 的 Gemini 等競爭對手,Grok 現在提供視覺能力和增強的語音功能,標誌著向更具互動性和響應性的 AI 助手邁出了又一步。
Grok Vision 進入視覺 AI 領域
Grok 已加入能夠透過裝置攝像頭看見的 AI 系統行列。新推出的 Grok Vision 允許聊天機器人即時分析並響應透過智慧手機攝像頭捕捉的視覺資訊。這項功能由 xAI 開發者 Ebby Amir 於2025年4月22日宣佈,使使用者只需將攝像頭對準物體或場景,就能向 Grok 詢問它所看到的內容。這種視覺功能類似於 Google 的 Gemini 和 OpenAI 的 ChatGPT 已有的功能,表明即時視覺正迅速成為高階 AI 聊天機器人的標準功能。
多語言語音支援擴充套件可訪問性
除了視覺能力外,此次更新還為 Grok 帶來了擴充套件的語音支援。聊天機器人現在可以用多種語言進行語音對話,包括西班牙語、法語、土耳其語、日語和印地語。這種多語言能力顯著擴大了 Grok 對非英語使用者的可訪問性,並將其定位為更具全球相關性的 AI 助手。語音模式允許與 AI 進行自然對話,儘管與其他支援語音的聊天機器人一樣,大多數使用者仍能注意到語音的合成特性。
平臺可用性和高階功能
目前,這些新功能僅對使用標準 Grok 計劃的 iOS 使用者開放,遵循 xAI 首先向 iPhone 使用者推出更新的模式。Android 使用者只有訂閱每月30美元的高階 SuperGrok 計劃才能訪問這些新功能。高階套餐還包括語音模式中的即時搜尋等附加功能,為付費訂閱者提供超出標準服務的增強功能。
新 Grok 功能:
- Grok Vision:基於攝像頭的即時視覺分析
- 多語言語音支援:西班牙語、法語、土耳其語、日語、印地語
- 即時語音搜尋(僅限 SuperGrok 訂閱使用者)
平臺可用性:
- iOS:標準計劃可使用所有功能
- Android:功能需要每月 30 美元的 SuperGrok 訂閱
最近 xAI 更新:
- 文件和應用建立工具
- 用於保留對話上下文的記憶功能
向代理型 AI 發展的更廣泛趨勢
Grok 的最新更新與行業向所謂的代理型 AI 發展的趨勢一致——這些系統能夠感知環境、設定目標、規劃行動並在最少人類指導下做出決策。這代表了早期 AI 模型的重大演變,早期模型僅響應特定提示或基於訓練資料生成內容。Google 的 Gemini 2.0 和 OpenAI 的 ChatGPT 及其任務功能就是這一趨勢的例證,提供了將原始資訊轉化為可操作洞察的能力,並允許使用者設定提醒和安排重複任務。
xAI 的快速功能開發
近幾個月來,xAI 的開發速度明顯加快。就在視覺和語音更新之前,Grok 獲得了建立文件和應用程式的工具,以及允許聊天機器人記住之前對話細節的記憶功能。這種記憶能力使 AI 能夠隨著時間的推移提供更具情境相關性的回應,因為它能建立與個別使用者互動的歷史記錄。
對話式 AI 的未來
隨著 Grok、ChatGPT 和 Gemini 等 AI 聊天機器人不斷獲得感知能力和代理能力,它們逐漸接近2013年電影《她》中描繪的科幻 AI 助手願景。雖然當前的實現仍然明顯顯示其人工特性,但發展軌跡表明,AI 伴侶將變得越來越自然和有用,能夠理解我們所說的話、我們所看到的內容以及我們所處的環境。對使用者而言,這意味著更直觀、更有幫助的 AI 輔助,它需要更少的明確指令,並提供更相關的支援。