Opera 推出瀏覽器操作員:首個直接內置於網路瀏覽器的主動式人工智慧助手

BigGo Editorial Team
Opera 推出瀏覽器操作員:首個直接內置於網路瀏覽器的主動式人工智慧助手

Opera 推出了網路瀏覽技術的突破性進步——瀏覽器操作員功能,使其在人工智慧驅動的網路導航領域處於領先地位。這一創新代表了使用者與瀏覽器互動方式的重大轉變,將瀏覽器從被動顯示引擎轉變為能夠獨立完成複雜任務的主動助手。

主動式瀏覽的新時代

Opera 的瀏覽器操作員標誌著主動式人工智慧首次直接在主流網路瀏覽器中實現。與 OpenAI 的 Operator 或 Rabbit R1 的 LAM Playground 等競爭對手的類似產品不同,Opera 的解決方案在瀏覽器本身內原生執行,而不是透過虛擬機器。這種整合允許人工智慧直接與網頁元素互動,從而帶來顯著更快的效能和增強的安全性。

瀏覽器操作員的工作原理

這一新功能與 Opera One R2 和 Opera Air 中現有的 Aria AI 覆蓋層無縫整合。使用者可以透過命令列介面或側邊欄啟用瀏覽器操作員,輸入描述所需任務的自然語言提示,然後觀看 AI 代表他們導航網站並完成操作。系統在整個過程中提供透明的反饋,顯示其決策的每一步,並允許使用者隨時干預。

效能優勢

根據 Opera 的說法,瀏覽器操作員在速度方面顯著優於競爭對手的主動式人工智慧解決方案。由於截圖分析和 LLM 處理,其他系統通常每次互動需要 8-10 秒,而瀏覽器操作員可以在約 4-6 秒內完成操作。這種效率源於其直接訪問 DOM 樹和瀏覽器佈局資料,消除了檢視和理解螢幕畫素或使用滑鼠指標導航的需要。

Opera 瀏覽器操作員的主要特點:

  • 原生瀏覽器整合(無需虛擬機器)
  • 平均響應時間為4-6秒(而競爭對手為8-10秒)
  • 直接訪問DOM樹和瀏覽器佈局資料
  • 透明的逐步過程視覺化
  • 在任何時間點進行使用者干預的能力
  • 自然語言命令處理

實際應用

瀏覽器操作員的演示展示了其在日常線上任務中的多功能性。例如包括購買具有特定引數的服裝(如 Nike 12 號尺碼的襪子),預訂考慮多種因素的活動門票(如價格、座位位置和可用性),以及可能比較酒店價格或安排雜貨訂單。這些用例突顯了該技術如何在重複或複雜的網路活動上為使用者節省大量時間。

使用者控制和隱私

Opera 強呼叫戶在瀏覽器操作員的活動中保持完全控制。當需要使用者輸入敏感資訊(如支付詳情或登入憑證)時,系統會自動暫停。使用者還可以隨時手動中斷該過程。此外,Opera 表示,當 AI 代理工作時,不會向外部傳輸個人或敏感資料,從而解決了潛在的隱私問題。

未來可用性

目前作為預覽版提供的瀏覽器操作員預計將在不久的將來作為 Opera AI 功能釋出計劃的一部分更廣泛地推出。這種漸進式部署方法表明 Opera 正在對該技術進行微調,然後再使其廣泛可用。

行業影響

Opera 的執行副總裁 Krystian Kolondra 將瀏覽器操作員描述為朝著將瀏覽器從顯示引擎轉變為主動式應用程式併為使用者執行任務的第一步。這一願景將瀏覽器定位為主動助手而非被動工具,可能會在競爭對手響應 Opera 創新的過程中觸發整個行業的類似發展。

代理人工智慧能力:

  • 自主性
  • 感知能力
  • 決策能力
  • 行動執行
  • 學習與適應

挑戰和限制

雖然這一概念顯示出前景,但瀏覽器操作員的實際效用最終將取決於其準確遵循指令並導航現代網路複雜且不斷變化的環境的可靠性。如果系統經常出錯或在某些網站上遇到困難,儘管有潛在的時間節省,使用者可能會迴歸到手動瀏覽。

結論

Opera 的瀏覽器操作員代表了瀏覽器技術的重大進步,展示了網路導航變得越來越自動化和個性化的未來。透過將主動式人工智慧直接整合到瀏覽器環境中,Opera 創造了一個比現有替代方案更快、更安全、更使用者友好的解決方案。隨著這項技術的成熟,它可能會從根本上改變使用者與線上內容和服務的互動方式。