最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
EntSQL基准:面向长上下文企业知识的Text-to-SQL评估
时间:2026-06-05 14:48:01 编辑:袖梨 来源:一聚教程网
EntSQL基准正式发布,填补企业级Text-to-SQL评估空白
一项全新的企业级Text-to-SQL评估基准——EntSQL(面向长上下文企业知识的Text-to-SQL评估)——日前正式亮相。它专门测试大语言模型(LLM)在理解企业内部私有知识后生成SQL查询的能力。说白了,就是看AI能不能读懂公司内部的各种指标定义、报表习惯和组织规则,然后准确写对数据库语句。

现有基准不接地气,企业场景被忽视
看看已有的Text-to-SQL基准:Spider、BIRD、Spider 2.0,它们测的是数据库结构泛化、大规模数据处理和真实工作流。说实话,这些跟企业实际需求脱钩了。企业里写SQL,往往先得翻一堆内部文档——比如“客户活跃度”的定义是“过去30天登录超过5次”,数据库里根本没有这个字段。私有商业知识才是真正的拦路虎,可之前没有一个评估基准去碰它。
EntSQL怎么测?长上下文是关键
EntSQL把企业知识塞进长上下文里。什么意思呢?它要求模型在生成SQL前,先读一大段企业内部文档——报表规范、考核规则、业务术语表,少则几千字,多则上万字。模型得从中找到和问题相关的部分,再推理出SQL。这不正是咱们企业数据团队每天干的事吗?翻查文档,理解业务逻辑,然后写查询。EntSQL就是把这个过程标准化了。
基准设计:真实场景,私有知识
- 私有业务指标:比如“月度复购率”怎么定义,不同部门可能不同。
- 内部报告惯例:比如销售日报的统计口径是订单时间还是发货时间。
- 组织规则:比如只有经理级才能看某个数据,对应的SQL要加权限过滤。
这些细节在现有基准里完全找不到。EntSQL专门为它们设计了评估任务,测试模型能否从长篇文档中准确提取知识并推理。可以说,它逼着模型去理解企业那些“潜规则”。
对企业来说意味着什么?
其实挺直白的:如果模型在EntSQL上拿高分,说明它真能理解企业特有的业务知识,自动写SQL的可靠性就大大提升。这对很多想用AI做数据分析的公司来说,确实是个好消息。反过来说,如果连公司内部指标定义都搞不清,你敢让它直接查数据库吗?显然不敢。
一个更接地气的标尺
可以说,EntSQL把Text-to-SQL的研究拉回了现实。企业级应用不能只靠通用知识,私有知识和长上下文理解才是硬骨头。这个基准一出,开发者终于有了明确的标尺,不用再拿Spider那种通用测试去赌企业场景的效果了。