如何使用SQL中的GROUP BY子句配合多字段实现复杂去重

时间：2026-06-20 09:44:57 编辑：袖梨来源：一聚教程网

GROUP BY多字段分组本质是归并而非删重，每组仅返回一行且非聚合字段须在GROUP BY中或用聚合函数处理；需避免分组过细，并根据需求选择聚合函数、窗口函数等方案。

GROUP BY 多字段去重的本质是分组，不是删重

GROUP BY 本身不删除数据，它只是把相同值的行归到同一组，每组返回一行结果。所以当你写 SELECT a, b FROM t GROUP BY a, b，看起来像“去重”，其实只是按 a 和 b 的组合切分组，再从每组里挑出一行——但挑哪一行，MySQL 默认不保证。

常见错误现象：执行 SELECT code, cdate, ctotal FROM tt GROUP BY code 报错 Expression #2 of SELECT list is not in GROUP BY clause，这是 MySQL 8.0+ 默认开启 ONLY_FULL_GROUP_BY 模式导致的。

必须确保 SELECT 中每个非聚合字段都出现在 GROUP BY 列表里，否则报错
如果只想按 code 分组，又想带出 cdate 和 ctotal，就得用聚合函数包裹它们，比如 MAX(cdate)、ANY_VALUE(ctotal)
ANY_VALUE() 是 MySQL 提供的“我明确知道这组值一样/无所谓选哪个”的绕过方式，但它不承诺稳定性，不同版本或执行计划下可能返回不同行

用 MIN/MAX 等聚合函数控制“留哪一条”

当你要保留每组中某个字段值最小或最大的那条记录（比如最早时间、最小 ID），MIN() 和 MAX() 是最常用也最可控的方式。

例如，要对 students 表按 name 和 class 去重，并保留每组 id 最小的那条完整记录：

SELECT MIN(id) AS id, name, classFROM studentsGROUP BY name, class;

注意：这里 name 和 class 是分组字段，MIN(id) 是聚合结果；不能写成 SELECT id, name, class GROUP BY name, class，因为 id 未聚合也未分组。

如果原始表有 created_at 字段，想留最新的一条，就用 MAX(created_at)，再配合子查询或 JOIN 拿回对应整行
聚合函数会丢失原始行的其他字段（如 email、phone），若需保留，得用窗口函数或关联子查询
性能上，GROUP BY 在有复合索引（如 (name, class, id)）时能走索引，避免临时表和文件排序

MySQL 8.0+ 推荐用 ROW_NUMBER() 实现精确逻辑去重

当你需要“每个 code 只取 cdate 最大的那条，并带上整行所有字段”，GROUP BY + MIN/MAX 就不够用了——它只能返回聚合后的值，无法原样返回某一行的全部列。

这时窗口函数是唯一干净解法：

WITH ranked AS (  SELECT *,         ROW_NUMBER() OVER (PARTITION BY code ORDER BY cdate DESC, id ASC) AS rn  FROM tt)SELECT code, cdate, ctotal, other_colFROM rankedWHERE rn = 1;

ROW_NUMBER() 保证每组内严格编号，PARTITION BY code 定义分组粒度，ORDER BY cdate DESC, id ASC 决定优先级（先按日期倒序，日期相同时按 ID 升序防歧义）。

必须用 CTE 或子查询包装，不能直接在 WHERE 中用窗口函数
ORDER BY 里一定要有确定性排序字段（比如加 id），否则同 cdate 下的行顺序不可控
如果只想要去重后的字段子集，可以省略 other_col，但别在 SELECT * 后盲目删列，容易漏掉业务关键字段

别在 GROUP BY 里混入高粒度字段

一个常被忽略但致命的问题：在 GROUP BY 子句里误加唯一或近似唯一的字段（如 order_id、created_at、uuid），会导致分组过细，结果看似“没去重”。

比如写 SELECT user_id, COUNT(DISTINCT product_id) FROM orders GROUP BY user_id, order_id，由于每条订单 order_id 都不同，实际是按每一行分组，COUNT(DISTINCT product_id) 永远是 1。

检查 GROUP BY 列表是否只包含真正代表“业务维度”的字段（如 user_id、date、region）
用 SELECT COUNT(*) 和 COUNT(DISTINCT target_col) 对比，如果两者接近，大概率是分组太细了
需要保留明细又想粗粒度统计？先用子查询按目标维度聚合，再对外层结果做计算

真正难的不是语法，而是厘清“我要按什么逻辑定义重复”——字段组合语义不清，再漂亮的 SQL 也救不回来。

推荐专题

最新下载

热门教程

如何使用SQL中的GROUP BY子句配合多字段实现复杂去重

GROUP BY 多字段去重的本质是分组，不是删重

用 MIN/MAX 等聚合函数控制“留哪一条”

MySQL 8.0+ 推荐用 ROW_NUMBER() 实现精确逻辑去重

别在 GROUP BY 里混入高粒度字段

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程