新型網頁評估代理自動化瀏覽器測試助力開發者

BigGo Editorial Team

開發者一直在尋找簡化工作流程並減少重複任務所花費時間的方法。手動瀏覽器測試和除錯就是一項經常消耗寶貴開發時間的任務。來自 operative.sh 的一款新工具旨在透過人工智慧驅動的代理來自動化瀏覽器測試過程，從而解決這一痛點。

具有類人互動的自主瀏覽器測試

來自 operative.sh 的 web-eval-agent MCP Server 使開發者能夠將瀏覽器測試任務交給一個像人類一樣與網路應用互動的人工智慧代理。該代理可以瀏覽網站、點選按鈕、填寫表單，執行復雜的使用者流程，同時收集有價值的除錯資訊。這個工具的獨特之處在於它能夠使用視覺識別來識別介面元素，即使這些元素在程式碼中沒有明確標記，模仿人類測試人員的測試方法。

「這裡的強大之處在於編碼代理具有視覺測試能力，就像人類一樣。所以如果按鈕不可見，瀏覽器代理會使用視覺來檢測它是否缺失。它有點像'就像人類一樣測試'，以確保實現的流程按照預期工作。」

operative.sh web-eval-agent 的主要特點

使用 BrowserUse 進行自主導航（據稱使用 operative 後端速度提高2倍）
智慧網路流量捕獲和過濾
控制檯錯誤和日誌收集
端到端測試能力
視覺元素識別（能像人類一樣識別UI元素）

安裝選項

macOS/Linux：提供自動安裝指令碼
Windows：透過 Cline 進行手動安裝，並提供具體步驟
macOS/Linux 使用者的前提條件包括 brew、npm 和 jq

當前侷限性

每次啟動時都是全新的瀏覽器狀態（無永續性 cookies/localStorage）
每次測試會話都必須進行身份驗證
複雜應用可能存在擴充套件性問題

全面的除錯資訊

MCP Server 不僅僅執行操作，它還收集和組織有價值的除錯資料，幫助開發者快速識別問題。每次測試執行都會生成一份詳細報告，包括代理步驟、控制檯日誌、網路請求和事件的時間順序。這種全面的檢視使開發者能夠精確定位問題發生的位置，而無需手動重現問題或篩選日誌。

瀏覽器狀態管理挑戰

目前，該工具的一個限制是它每次啟動時都會使用全新的瀏覽器狀態，這要求使用者在每次測試會話中重新認證。開發者承認這一限制，並正在開發瀏覽器狀態持久化功能，以允許代理在測試執行之間維持登入會話。這一改進將顯著提升需要認證的應用程式的測試體驗。

基準測試和評估考慮

社群討論顯示，人們對評估瀏覽器測試代理有效性的基準測試很感興趣。operative.sh 團隊最初基於瀏覽器使用技術構建，因為其強大的評估指標，但正在考慮遷移到 Laminar 的瀏覽器代理，他們認為這能提供更好的效能。這突顯了人工智慧驅動測試工具的不斷發展，以及標準化評估方法的重要性。

對於那些厭倦了透過點選應用程式來驗證功能的開發者來說，這種自主測試方法有望節省大量時間，同時提供更全面的測試覆蓋。正如一位社群成員所指出的，消除重複點選和檢查對開發者的生產力來說是一個巨大的勝利。雖然關於該系統如何擴充套件到複雜應用程式的問題仍然存在，但這個方向對於人工智慧輔助開發工作流程的未來似乎很有前景。

參考：operative.sh web-eval-agent MCP Server