最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
网页控制新范式:阿里开源 Page Agent 让大模型读懂 DOM
时间:2026-07-03 10:08:59 编辑:袖梨 来源:一聚教程网
在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。

尽管 Page Agent 在易用性上表现亮眼,但开发团队也强调了其技术边界:目前该库聚焦于单页面范围内的交互。同时,出于安全性考量,基于提示词的权限管控(如“禁止自动支付”)属于引导性限制,而非硬性逻辑隔离。因此,对于涉及资金划拨或数据修改等高风险操作,开发者仍需在服务端保留严格的校验机制。
目前,Page Agent 已在 GitHub 以 MIT 协议开源。对于希望快速在自有应用中内嵌 AI 操作能力,又不愿投入高昂多模态模型成本的团队来说,这无疑提供了一个高效且务实的工程选择。
相关文章
- hive外部表的维护方式有哪些 07-03
- hive外部表适用于哪些业务场景 07-03
- 《心动小镇》海洋餐具配方位置介绍 07-03
- hive外部表数据一致性如何保障 07-03
- hive外部表如何优化查询 07-03
- hbase大数据数据生命周期管理如何实现 07-03