最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
SaaS-Bench实测:Claude等大模型全自动办公通过率不足4%
时间:2026-05-30 11:06:01 编辑:袖梨 来源:一聚教程网
UniPat AI 发布 SaaS-Bench 评测,Claude 等主流大模型在真实办公任务中完全通过率最高仅 3.8%。这一结果直接撕碎了计算机使用(Computer-Use)的“全自动办公”幻想——原来 AI 全自动办公远未落地,目前只是纸上谈兵。
SaaS-Bench 到底测了什么?它并非像传统基准测试那样只考核模型问答或简单指令,而是专门针对真实 SaaS 办公场景设计了多步骤任务链。模型必须自主操作界面、填写表单、跨平台沟通,全程不能被人类打断。结果令ren大跌眼镜:Claude 的通过率不到 4%,市面上其他大模型的表现也基本在同一水平线。咱们以为 AI 已经能当助理了,其实它还停留在“认得按钮但按不准”的阶段。

你真的相信大模型能替你上班吗?看看这套测试里的典型任务——从 CRM 系统导出客户名单,再到 Slack 上发周报,中间涉及登录验证、字段筛选、复制粘贴。Claude 往往在第一步“找到导出按钮”就卡壳了,它更像一个对着键盘发呆的新手,挺无助的。可以说,现在的“全自动办公”更像是宣传层面的漂亮话。
这组数据其实揭示了行业长期隐藏的问题:模型在封闭的聊天框里很聪明,一旦进入开放的浏览器环境,面对格式不一的网页和动态加载的控件,其规划与执行能力立刻崩盘。3.8% 的通过率意味着什么?这意味着每完成 100 个办公任务,有 96 个半途而废——这怎么行?企业一旦部署这种模型,效率恐怕不升反降。

SaaS-Bench 的价值在于它撕掉了遮羞布。之前各厂商争相推出 Computer-Use 功能时,都强调“模型会自己点击、浏览”,却没人公开失败率。现在 UniPat AI 的评测给出了真实答案:远未成熟。这对行业其实是个好消息——它逼着开发者放弃幻想,回头打磨基础能力,而不是急着宣传“即将实现全自动办公”。
从目前来看,大模型进办公室干活?确实还早。那面对这个不到 4% 的通过率,企业到底该继续投钱还是先观望呢?答案或许很明确:别急着让 AI 替你上班,它连“导出表格”都没学明白呢。
相关文章
- 无限轮回法器强度排行说明 05-30
- 大众点评怎么取消预约 05-30
- 2026广播剧免费收听软件精选:热门高口碑APP下载指南 05-30
- 阿里千问3.7编程能力超GPT/Gemini,全球第二仅次Claude 05-30
- 我的世界暮色森林-米诺陶迷宫寻找方法 05-30
- 蓝色星原旅谣 元素克制关系一览 属性克制对照表 05-30