一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

Ego Lite - 专为AI Agent设计的浏览器:实现人与AI协同工作

时间:2026-07-05 08:57:47 编辑:袖梨 来源:一聚教程网

Ego Lite是什么

Ego Lite 是 Citro Labs 开发的专为 AI Agent(人工智能智能体)设计的 Chromium 浏览器。解决传统浏览器自动化工具(如 Playwright、Puppeteer)在驱动浏览器时面临的登录态丢失、资源占用高、干扰用户正常浏览等痛点,实现人类用户与 AI Agent 的协同工作。通过 CLI 暴露 Node.js 运行时,Agent 可在独立的”任务空间”中静默驱动浏览器,执行页面读取、点击、API 探测、截图验证等操作,同时继承用户登录态且不干扰正常浏览窗口。

Ego Lite的主要功能

  • 语义快照提取:通过 snapshotText() 获取页面文本、按钮、链接和可点击元素的语义化结构。
  • 元素交互操作:支持 clickfillInput 等指令,Agent 可精准点击按钮、填写表单。
  • 底层脚本执行:通过 js() 在页面上下文中执行 JavaScript,直接读取 DOM 状态与前端数据。
  • 浏览器协议调用:通过 cdp() 调用 Chrome DevTools Protocol,实现网络请求拦截与深度调试。
  • 截图视觉验证captureScreenshot 支持视觉工作流,用于富文本、地图、白板等非标准 DOM 场景验证。
  • 网络请求抓取browserFetch 可直接发起或拦截浏览器内部请求,获取前端真实 API 返回数据。
  • 任务空间隔离:每个任务拥有独立的 task space(标签页组),复用登录态且互不干扰。

Ego Lite的技术原理

  • 基于 Chromium 的 Agent 驱动层:Ego Lite 在 Chromium 内核之上构建了一套面向 Agent 的 CLI 操作层。安装时系统暴露 Node.js 运行时,Agent 通过 ego-browser nodejs 执行预置脚本,脚本中封装了 snapshotTextclickjscdpbrowserFetch 等 helper 函数。
  • 三层工作流架构
    • 语义工作流:优先使用 snapshotText() 提取页面可交互元素的语义信息,适合标准网页结构。
    • 视觉工作流:当 DOM 与真实界面不一致时(如 Canvas、SVG、地图),退回到截图 + 坐标 + 键盘动作验证。
    • 底层工作流:通过 js() 注入页面上下文执行代码,或通过 cdp() 直接调用 Chrome DevTools Protocol,读取前端状态、探测隐藏 API 接口、解析前端 bundle。
  • Task Space 隔离机制:每个任务空间是独立的浏览上下文,拥有专属标签页,默认继承当前用户的 Cookie 与登录态。Agent 可在需要登录的站点内操作,不会抢占用户正在使用的浏览器窗口控制权。

微信关注回复“开源”,加入AI开源项目交流群

如何使用Ego Lite

  • 下载安装:访问官网 https://lite.ego.app/ 下载 Ego Lite 应用,安装后一键迁移 Chrome 数据(书签、扩展、Cookie、登录态)。
  • 安装 Agent 技能包:在 Agent 工具中运行 npx skills add citrolabs/ego-lite,自动安装 ego-browser CLI 技能。
  • 重启 Agent:安装完成后重启 Agent,确保技能包被正确加载。
  • 下发浏览器任务:在 Agent 对话中输入 @ego lite 或直接输入 ego-browser 开头的指令,描述需要浏览的网页与操作目标。
  • Agent 静默执行:Agent 自动创建 task space,打开目标页面,读取语义快照或执行 JavaScript,获取数据后关闭任务空间并返回结果。
  • 人工介入(可选):当任务需要人工确认时,Agent 可暂停并交还控制权,用户确认后继续执行。

Ego Lite的核心优势

  • 不干扰用户窗口:Agent 在独立 task space 中运行,不会抢占用户当前浏览器标签页或触发前台弹窗。
  • 继承登录态:无需额外配置账号密码,Agent 可直接访问需要登录的站点(如邮箱、内部系统)。
  • 三层工作流覆盖:语义 + 视觉 + 底层协议,适配从标准网页到复杂富媒体页面的全场景。
  • 前端状态可读:通过 js() 直接读取 React/Vue 等框架的内部状态,探测真实 API 接口,突破传统爬虫限制。
  • 现场验证能力:Agent 可执行真实操作并读取真实返回,将模型判断与浏览器现场校准结合,减少幻觉。

Ego Lite的项目地址

  • 项目官网:https://lite.ego.app/
  • GitHub仓库:https://github.com/citrolabs/ego-lite

Ego Lite的同类竞品对比

对比维度Ego LiteBrowser-use定位基于 Chromium 的 Agent 专用浏览器,浏览器本身即基础设施基于 Playwright 的 AI 网页自动化库,是 Agent 的浏览器工具包架构方式独立浏览器应用 + CLI 技能包,安装后 Agent 通过 ego-browser 调用Python 库,开发者通过 API 调用,需自行搭建运行环境登录态处理一键迁移 Chrome 数据,自动继承用户登录态(Cookie、书签、扩展)需手动配置 Cookie 或独立登录流程,无浏览器数据迁移能力用户干扰Task Space 隔离,Agent 在后台静默运行,完全不抢占用户标签页通常作为独立进程运行,无原生用户界面,但需开发者管理浏览器实例视觉理解内置三层工作流(语义/视觉/底层),captureScreenshot 原生支持视觉验证支持截图 + 多模态模型理解,但需额外配置视觉模型 API使用门槛非技术人员通过 Agent 自然语言即可驱动(如 Codex、Claude Code)面向开发者,需编写 Python 代码并理解 Playwright 基础底层协议原生暴露 cdp()js(),可直接调用 Chrome DevTools Protocol通过 Playwright 封装间接访问,底层可控性较弱

Ego Lite的应用场景

  • 信息聚合与监控:Agent 定时访问多个订阅站点,提取最新文章标题、链接与摘要,生成日报。
  • 竞品动态追踪:自动访问竞品官网、应用商店、社交媒体,抓取版本更新、定价变动、用户评论等信息。
  • 内部系统自动化:在继承登录态的前提下,Agent 操作企业内部后台,查询数据、填写报表。
  • Web 应用验收测试:Vibe Coding 场景下,Agent 自动打开开发中的 Web 应用,执行功能点击流并截图验证 UI 状态。
  • 深度资料调研:访问需要登录的学术数据库、付费内容站点,Agent 读取页面结构、探测 API、下载或整理资料。

热门栏目