一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

如何使用SQL中的GROUP BY子句配合多字段实现复杂去重

时间:2026-06-20 09:44:57 编辑:袖梨 来源:一聚教程网

GROUP BY多字段分组本质是归并而非删重,每组仅返回一行且非聚合字段须在GROUP BY中或用聚合函数处理;需避免分组过细,并根据需求选择聚合函数、窗口函数等方案。

GROUP BY 多字段去重的本质是分组,不是删重

GROUP BY 本身不删除数据,它只是把相同值的行归到同一组,每组返回一行结果。所以当你写 SELECT a, b FROM t GROUP BY a, b,看起来像“去重”,其实只是按 ab 的组合切分组,再从每组里挑出一行——但挑哪一行,MySQL 默认不保证。

常见错误现象:执行 SELECT code, cdate, ctotal FROM tt GROUP BY code 报错 Expression #2 of SELECT list is not in GROUP BY clause,这是 MySQL 8.0+ 默认开启 ONLY_FULL_GROUP_BY 模式导致的。

  • 必须确保 SELECT 中每个非聚合字段都出现在 GROUP BY 列表里,否则报错
  • 如果只想按 code 分组,又想带出 cdatectotal,就得用聚合函数包裹它们,比如 MAX(cdate)ANY_VALUE(ctotal)
  • ANY_VALUE() 是 MySQL 提供的“我明确知道这组值一样/无所谓选哪个”的绕过方式,但它不承诺稳定性,不同版本或执行计划下可能返回不同行

用 MIN/MAX 等聚合函数控制“留哪一条”

当你要保留每组中某个字段值最小或最大的那条记录(比如最早时间、最小 ID),MIN()MAX() 是最常用也最可控的方式。

例如,要对 students 表按 nameclass 去重,并保留每组 id 最小的那条完整记录:

SELECT MIN(id) AS id, name, classFROM studentsGROUP BY name, class;

注意:这里 nameclass 是分组字段,MIN(id) 是聚合结果;不能写成 SELECT id, name, class GROUP BY name, class,因为 id 未聚合也未分组。

  • 如果原始表有 created_at 字段,想留最新的一条,就用 MAX(created_at),再配合子查询或 JOIN 拿回对应整行
  • 聚合函数会丢失原始行的其他字段(如 emailphone),若需保留,得用窗口函数或关联子查询
  • 性能上,GROUP BY 在有复合索引(如 (name, class, id))时能走索引,避免临时表和文件排序

MySQL 8.0+ 推荐用 ROW_NUMBER() 实现精确逻辑去重

当你需要“每个 code 只取 cdate 最大的那条,并带上整行所有字段”,GROUP BY + MIN/MAX 就不够用了——它只能返回聚合后的值,无法原样返回某一行的全部列。

这时窗口函数是唯一干净解法:

WITH ranked AS (  SELECT *,         ROW_NUMBER() OVER (PARTITION BY code ORDER BY cdate DESC, id ASC) AS rn  FROM tt)SELECT code, cdate, ctotal, other_colFROM rankedWHERE rn = 1;

ROW_NUMBER() 保证每组内严格编号,PARTITION BY code 定义分组粒度,ORDER BY cdate DESC, id ASC 决定优先级(先按日期倒序,日期相同时按 ID 升序防歧义)。

  • 必须用 CTE 或子查询包装,不能直接在 WHERE 中用窗口函数
  • ORDER BY 里一定要有确定性排序字段(比如加 id),否则同 cdate 下的行顺序不可控
  • 如果只想要去重后的字段子集,可以省略 other_col,但别在 SELECT * 后盲目删列,容易漏掉业务关键字段

别在 GROUP BY 里混入高粒度字段

一个常被忽略但致命的问题:在 GROUP BY 子句里误加唯一或近似唯一的字段(如 order_idcreated_atuuid),会导致分组过细,结果看似“没去重”。

比如写 SELECT user_id, COUNT(DISTINCT product_id) FROM orders GROUP BY user_id, order_id,由于每条订单 order_id 都不同,实际是按每一行分组,COUNT(DISTINCT product_id) 永远是 1。

  • 检查 GROUP BY 列表是否只包含真正代表“业务维度”的字段(如 user_iddateregion
  • SELECT COUNT(*)COUNT(DISTINCT target_col) 对比,如果两者接近,大概率是分组太细了
  • 需要保留明细又想粗粒度统计?先用子查询按目标维度聚合,再对外层结果做计算

真正难的不是语法,而是厘清“我要按什么逻辑定义重复”——字段组合语义不清,再漂亮的 SQL 也救不回来。

热门栏目