代码执行与自然推理：LLM应对数学变体问题的鲁棒性差异

时间：2026-05-29 18:39:02 编辑：袖梨来源：一聚教程网

一篇发表于arXiv的研究论文直面LLM数学推理的脆弱性，发现代码执行比自然推理更抗干扰，但两者结合未必更优。

研究揭示的鲁棒性短板

大型语言模型（LLM）在标准化数学测试上表现抢眼，但当题目把“小明买苹果”改成“小红买梨”，正确率就往下掉。这种对照明变化（比如不同名字或数字）的敏感，暴露了自然推理的脆弱。该研究从一项公开数据集抽取1000道数学题，系统评估了三种不同策略应对变体问题的能力。

三种方法的正面较量

研究者对比了纯自然语言推理、代码执行方法，以及两者混合的管线。代码执行方法让模型生成并运行Python代码，而不是直接写推理步骤。结果挺有意思：代码执行确实更稳健，面对变体时性能波动更小。

为什么代码执行更抗打？因为它把数学逻辑“固化”为程序，计算机算数字总比人类猜数字稳定。但让人没想到的是，自然推理与代码执行结合后，鲁棒性并没有显著提升，这算是一盆冷水——模型在“什么时候该写代码、什么时候该推理”上未必把握得好。

自然推理的局限与反思

自然推理方法在原始问题上准确率颇高，但一旦上下文被修改就大跳水。这种“换汤不换药”的失败，难道不是模型在机械记忆而非真正理解数学逻辑吗？代码执行方法虽然弥补了浮点数、大数运算的缺陷，但整体性能提升有限，说明鲁棒性差异并非单一维度的技术问题。

事实上，该研究为开发更可靠的LLM提供了明确方向：学术圈不应只追求基准分数，更要关注自然推理对变体的适应力。毕竟，用户不会只问标准题，而现实世界的数学问题总是千变万化的。