最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
如何使用SQL中的GROUP BY子句配合多字段实现复杂去重
时间:2026-06-20 09:44:57 编辑:袖梨 来源:一聚教程网
GROUP BY多字段分组本质是归并而非删重,每组仅返回一行且非聚合字段须在GROUP BY中或用聚合函数处理;需避免分组过细,并根据需求选择聚合函数、窗口函数等方案。
GROUP BY 多字段去重的本质是分组,不是删重
GROUP BY 本身不删除数据,它只是把相同值的行归到同一组,每组返回一行结果。所以当你写 SELECT a, b FROM t GROUP BY a, b,看起来像“去重”,其实只是按 a 和 b 的组合切分组,再从每组里挑出一行——但挑哪一行,MySQL 默认不保证。
常见错误现象:执行 SELECT code, cdate, ctotal FROM tt GROUP BY code 报错 Expression #2 of SELECT list is not in GROUP BY clause,这是 MySQL 8.0+ 默认开启 ONLY_FULL_GROUP_BY 模式导致的。
- 必须确保 SELECT 中每个非聚合字段都出现在 GROUP BY 列表里,否则报错
- 如果只想按
code分组,又想带出cdate和ctotal,就得用聚合函数包裹它们,比如MAX(cdate)、ANY_VALUE(ctotal) -
ANY_VALUE()是 MySQL 提供的“我明确知道这组值一样/无所谓选哪个”的绕过方式,但它不承诺稳定性,不同版本或执行计划下可能返回不同行
用 MIN/MAX 等聚合函数控制“留哪一条”
当你要保留每组中某个字段值最小或最大的那条记录(比如最早时间、最小 ID),MIN() 和 MAX() 是最常用也最可控的方式。
例如,要对 students 表按 name 和 class 去重,并保留每组 id 最小的那条完整记录:
SELECT MIN(id) AS id, name, classFROM studentsGROUP BY name, class;
注意:这里 name 和 class 是分组字段,MIN(id) 是聚合结果;不能写成 SELECT id, name, class GROUP BY name, class,因为 id 未聚合也未分组。
- 如果原始表有
created_at字段,想留最新的一条,就用MAX(created_at),再配合子查询或 JOIN 拿回对应整行 - 聚合函数会丢失原始行的其他字段(如
email、phone),若需保留,得用窗口函数或关联子查询 - 性能上,
GROUP BY在有复合索引(如(name, class, id))时能走索引,避免临时表和文件排序
MySQL 8.0+ 推荐用 ROW_NUMBER() 实现精确逻辑去重
当你需要“每个 code 只取 cdate 最大的那条,并带上整行所有字段”,GROUP BY + MIN/MAX 就不够用了——它只能返回聚合后的值,无法原样返回某一行的全部列。
这时窗口函数是唯一干净解法:
WITH ranked AS ( SELECT *, ROW_NUMBER() OVER (PARTITION BY code ORDER BY cdate DESC, id ASC) AS rn FROM tt)SELECT code, cdate, ctotal, other_colFROM rankedWHERE rn = 1;
ROW_NUMBER() 保证每组内严格编号,PARTITION BY code 定义分组粒度,ORDER BY cdate DESC, id ASC 决定优先级(先按日期倒序,日期相同时按 ID 升序防歧义)。
- 必须用 CTE 或子查询包装,不能直接在 WHERE 中用窗口函数
- ORDER BY 里一定要有确定性排序字段(比如加
id),否则同cdate下的行顺序不可控 - 如果只想要去重后的字段子集,可以省略
other_col,但别在SELECT *后盲目删列,容易漏掉业务关键字段
别在 GROUP BY 里混入高粒度字段
一个常被忽略但致命的问题:在 GROUP BY 子句里误加唯一或近似唯一的字段(如 order_id、created_at、uuid),会导致分组过细,结果看似“没去重”。
比如写 SELECT user_id, COUNT(DISTINCT product_id) FROM orders GROUP BY user_id, order_id,由于每条订单 order_id 都不同,实际是按每一行分组,COUNT(DISTINCT product_id) 永远是 1。
- 检查 GROUP BY 列表是否只包含真正代表“业务维度”的字段(如
user_id、date、region) - 用
SELECT COUNT(*)和COUNT(DISTINCT target_col)对比,如果两者接近,大概率是分组太细了 - 需要保留明细又想粗粒度统计?先用子查询按目标维度聚合,再对外层结果做计算
真正难的不是语法,而是厘清“我要按什么逻辑定义重复”——字段组合语义不清,再漂亮的 SQL 也救不回来。
相关文章
- 明末渊虚之羽防具有哪些排名 07-02
- 如何获取和平精英皮肤照片 07-02
- 空洞骑士丝之歌如何获取制造金属 07-02
- 鱼骨头螃蟹阵容如何搭配 07-02
- 战魂旅人玩法是什么 07-02
- 无限暖暖祝你幸福发饰如何获取 07-02