一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

网页控制新范式:阿里开源 Page Agent 让大模型读懂 DOM

时间:2026-07-03 10:08:59 编辑:袖梨 来源:一聚教程网

在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。

image.png

尽管 Page Agent 在易用性上表现亮眼,但开发团队也强调了其技术边界:目前该库聚焦于单页面范围内的交互。同时,出于安全性考量,基于提示词的权限管控(如“禁止自动支付”)属于引导性限制,而非硬性逻辑隔离。因此,对于涉及资金划拨或数据修改等高风险操作,开发者仍需在服务端保留严格的校验机制。

目前,Page Agent 已在 GitHub 以 MIT 协议开源。对于希望快速在自有应用中内嵌 AI 操作能力,又不愿投入高昂多模态模型成本的团队来说,这无疑提供了一个高效且务实的工程选择。

热门栏目