開發者對基於大語言模型的瀏覽器自動化工具 Playwright MCP 表示熱情

BigGo Editorial Team
開發者對基於大語言模型的瀏覽器自動化工具 Playwright MCP 表示熱情

微軟的 Playwright MCP(Model Context Protocol)伺服器正在獲得尋求將大型語言模型與瀏覽器自動化功能整合的開發者的青睞。社群反饋揭示了令人興奮的使用案例,展示了這一工具如何彌合人工智慧助手與網路互動之間的差距。

大語言模型作為質量保證工程師

開發者社群中出現的最引人注目的應用之一是使用 Playwright MCP 自動化測試和驗證工作流程。開發者報告稱,他們成功地使用該工具與 Claude 等模型自動驗證程式碼更改。該過程涉及大語言模型啟動開發伺服器,導航到具有最近更改的頁面,並驗證修改是否按預期工作。當檢測到問題時,人工智慧甚至可以自行糾正問題。

「我只需在 CLAUDE.md 中留下使用 Playwright 驗證更改的指令。它會自動啟動開發伺服器,導航到剛剛進行更改的頁面,並驗證其更改是否生效。如果有任何意外情況,它會自我糾正。」

這代表了開發者生產力的重大進步,有效地建立了一個能夠驗證自己工作的人工智慧驅動的質量保證工程師。

社群使用案例

  • 程式碼變更的自動測試和驗證
  • 從 JIRA 工單復現錯誤
  • 與 Claude 等 LLM 整合實現自我糾正工作流
  • 透過自然語言提示控制瀏覽器

錯誤重現自動化

另一個正在探索的創新應用是將 Playwright MCP 與 JIRA MCP 結合使用來自動化錯誤重現。開發者正在研究大語言模型是否可以讀取工單中的重現步驟部分,並將這些指令轉換為實際的瀏覽器操作。這可能會大大減少工程師在開始除錯工作之前手動重現報告問題所花費的時間。

技術實現選項

Playwright MCP 在如何向語言模型提供瀏覽器控制方面提供了靈活性。預設的快照模式(Snapshot Mode)利用 Chrome 的可訪問性樹以獲得更好的效能和可靠性,而替代的視覺模式(Vision Mode)則利用截圖進行基於視覺的互動。後一種方法特別適用於具有計算機視覺能力的模型,這些模型可以基於提供的截圖使用 X,Y 座標定位與元素進行互動。

該工具還適應不同的操作環境,提供無頭瀏覽器操作(無 GUI)和客戶端-伺服器配置,適用於沒有顯示功能的系統。這種多功能性使其能夠適應各種開發和生產場景。

Playwright MCP 工具模式

  • 快照模式(預設)

    • 使用可訪問性快照以獲得更好的效能和可靠性
    • 為 LLM 互動提供結構化資料,無需使用視覺模型
    • 工具包括:browser_navigate、browser_click、browser_type、browser_snapshot 等
  • 視覺模式

    • 使用螢幕截圖進行基於視覺的互動
    • 適用於可以處理 X,Y 座標空間的模型
    • 工具包括:browser_screenshot、browser_move_mouse、帶座標的 browser_click

擴充套件的人工智慧聯結器生態系統

對 Playwright MCP 的熱情反映了開發者社群中更廣泛的趨勢——正如一位評論者所稱的人工智慧系統聯結器的寒武紀大爆發。開發者正在比較 Playwright MCP 與社群建立的 fetch-mcp 等替代方案,評估它們的相對能力和用例。

一些開發者已經在設想將這種方法擴充套件到其他測試框架,要求為 Capybara 等工具實現類似的 MCP,以使大語言模型能夠編寫和除錯 Rails 系統測試。

隨著人工智慧聯結器生態系統的不斷擴充套件,像 Playwright MCP 這樣的工具正在改變開發者與大型語言模型互動並在其工作流程中利用它們的方式。賦予人工智慧助手對瀏覽器互動的直接控制能力,為以前難以實現的自動化、測試和使用者體驗改進開闢了新的可能性。

參考:Playwright MCP