FOAM提出分块状态折叠法降低LLM训练内存占用

时间：2026-05-31 15:30:02 编辑：袖梨来源：一聚教程网

FOAM提出分块状态折叠法，以降低LLM训练内存占用。该方法直接针对大语言模型在训练时遭遇的内存瓶颈，尤其是使用Adam等内存密集型优化器所带来的高消耗问题。

现有方案并不完美

现有内存高效方法往往依赖奇异值分解、投影或权重冻结等技术。这些手段虽然能在一定程度上缓解内存压力，但它们要么引入大量额外计算，要么需要额外内存来存储投影矩阵，甚至可能损害模型性能。说白了，这些折中办法并不理想。

分块状态折叠法的核心思路

FOAM的思路确实不一样——它不对状态矩阵做整体压缩，而是将优化器状态分块后分别折叠处理。这样一来，内存占用大幅降低，同时保留了必要的精度，避免了SVD那种复杂的计算开销，也不用去冻结权重。可以说，这是一个更优雅的工程方案。

为什么要对内存占用如此较真呢？因为LLM的参数规模动辄百亿甚至千亿，训练时的优化器状态本身就是一个巨大的内存负担。FOAM的方法算是给出了一个新的平衡点——它不额外占用投影内存，也不拖慢训练速度。

效果与意义

从arXiv上的论文来看，FOAM避免了现有技术的诸多痛点。它不依赖投影矩阵，不需要冻结权重，也不引入额外的计算开销。这就挺有意思了：一个更干净的方法，解决了多个棘手问题。

如今大规模模型训练已成为行业主流，内存效率的提升直接影响到模型能否顺利训练。FOAM的分块状态折叠法为LLM训练提供了一个可行方向。它能否在实际大规模训练中全面落地？这当然需要后续工程验证，但至少思路清晰、方向明确，算是给行业打了个样。