一聚教程网:一个值得你收藏的教程网站

热门教程

怎样使用pt-table-checksum检测MySQL主从数据一致性?

时间:2026-07-04 10:46:02 编辑:袖梨 来源:一聚教程网

pt-table-checksum必须在主库执行,不能直连从库;它通过binlog复制将校验语句同步至从库,由从库本地重算CRC32并写入percona.checksums表,再比对master_crc与this_crc是否一致。

pt-table-checksum 必须在主库执行,不能直连从库——它不是“连接从库去比对”,而是靠 binlog 复制把校验逻辑同步过去,再由从库本地重算并写入 percona.checksums 表。你若强行 --host=从库IP,大概率卡在 Waiting for replica mysql2 或报 Cannot connect to host

为什么必须在主库运行,且不能跳过 replication 链路

工具设计决定了它必须依赖复制流:它在主库生成形如 REPLACE INTO percona.checksums SELECT db, tbl, chunk, CRC32(CONCAT(...)), COUNT(*) FROM ... WHERE id BETWEEN ? AND ? 的语句,这些语句会写入 binlog,并被从库 SQL 线程重放。从库不是被“查询”,而是被动执行同一逻辑、用自己的数据再算一遍 this_crc

常见误操作:

  • --host=从库IP --user=chkuser 直连从库:工具会尝试在从库上查 SHOW PROCESSLIST、改 binlog_format,但权限和配置不满足,直接 hang 住
  • 误以为 “命令行输出 Diffs = 0 就代表一致”:这只是说主库没写差异记录,不代表从库的 percona.checksums 表已同步或内容正确
  • 忽略 replicate_ignore_db=percona:导致从库压根没收到 percona.checksums 的变更,表为空,自然比不出差异

执行前必须确认的三件事(缺一不可)

否则结果无效,或工具启动即失败:

  • Seconds_Behind_Master = 0,且 Slave_IO_Running = YesSlave_SQL_Running = Yes(用 SHOW SLAVE STATUSG 确认)
  • 主库已显式配置 report_hostreport_portSHOW SLAVE HOSTS 已废弃,不能依赖)
  • 校验账号(如 chkuser)已在每个从库执行授权:GRANT SELECT, REPLICATION CLIENT ON *.* TO 'chkuser'@'%';MySQL 8.0+ 还需确认认证插件兼容,老版本 pt-table-checksum(如 3.1.x)不支持 caching_sha2_password

关键参数怎么设才不踩坑

默认参数在生产环境基本不可用。以下组合是经过验证的最小安全集:

  • --replicate=percona.checksums:指定校验结果写入哪张表,确保该表在所有从库存在、结构一致
  • --recursion-method=dsn=D=percona,t=dsns:避免自动发现失败,提前在主库建好 percona.dsns 表,填入各从库 host/user/port
  • --no-check-binlog-format:绕过 ROW 模式下对 binlog_format 的检查(MySQL 5.7+ 默认 ROW,但工具旧版本仍会报错)
  • --max-lag=1:从库延迟超 1 秒自动暂停,防止校验“追着延迟跑”
  • --chunk-size=1000:大字段或慢索引易触发 Skipped,调高可减少跳过,但别设太大(如 50000),否则单块锁表时间长

示例命令:

pt-table-checksum --host=192.168.10.100 --user=chkuser --password='xxx' --databases=myapp --replicate=percona.checksums --no-check-binlog-format --recursion-method=dsn=D=percona,t=dsns --max-lag=1 --chunk-size=1000

怎么看结果才算真正一致?别信命令行输出

执行完后,立即登录从库查表,这是唯一可信依据:

  • 在从库执行:SELECT * FROM percona.checksums WHERE this_crc != master_crc OR is_bad = 1
  • 若返回空结果,才说明当前校验范围内数据一致
  • 若返回记录,重点关注 dbtblchunk 字段,配合 pt-table-sync --sync-to-master 定位并修复

容易被忽略的点:如果从库上 SELECT * FROM percona.checksums 返回空,不是“一致”,而是复制中断、被过滤、或表根本没同步过去——此时校验本身已失效,得先解决复制问题,再重跑。

热门栏目