学习GLM-5.2 ：专注 Coding 与长程任务

时间：2026-07-04 11:34:47 编辑：袖梨来源：一聚教程网

深度技术

GLM-5.2 上线并开源：专注 Coding 与长程任务

对标 Claude Opus 4.7-4.8 · MIT 开源协议

本文拆解三篇关键开源项目，还原智谱 AI 的真实技术路线与能力边界。GLM-5.2 于 2026 年 6 月正式发布，官方定位「与 Claude Opus 4.7-4.8 处于可比区间」，专注 Coding 与长程任务，采用 MIT 开源协议。

— CloudMesh 技术团队

01 · slime：GLM 全系列背后的 RL 训练基础设施

GitHub: github.com/THUDM/slime（6,700 stars）|论文: 无独立论文，框架本身即文档

slime 是智谱开源的大模型 RL 后训练框架。GitHub README 明确标注它是 GLM-5.2、GLM-5.1、GLM-5、GLM-4.7、GLM-4.6、GLM-4.5 全六代产品背后的训练框架。

核心设计

目标：解决 RL 训练大规模部署的工程效率问题

创新：异步生成-训练流水线，显著提升训练吞吐量和效率，支持多次精细化的后训练迭代

GitHub 原文：a novel asynchronous RL infrastructure that substantially improves training throughput and efficiency

技术判断

slime 的存在意味着 GLM-4.5 → 5 → 5.1 → 5.2 的迭代路径不是每次重新训练，而是在同一套 RL 基础设施上持续优化。这是智谱能够快速迭代的核心工程资产。

02 · AgentRL：多轮 Agent RL 的完整框架

arXiv: 2510.04206（2025 年 10 月）|GitHub: github.com/THUDM/AgentRL

论文标题《Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework》。

问题定义

可扩展基础设施缺失 — 多轮 RL 需要异步生成-训练流水线，现有框架缺乏稳定多任务支持

训练稳定性问题 — 多任务场景下 reward 方差大，跨任务优势归一化缺失，容易导致策略崩溃

核心创新

三池架构 — Rollout Worker Pool / Actor Worker Pool / Reference Worker Pool，Ray Cluster 统一调度

Cross-Policy Sampling — 多轮设置中考虑多个策略分布，对被忽略的行动路径给予额外探索权重

Task Advantage Normalization — 对不同任务的优势函数归一化，解决 reward scale 差异导致的训练不稳定

实验结果（arXiv 原文）

论文原文：「AgentRL, trained on open LLMs across five agentic tasks, significantly outperforms GPT-5, Clause-Sonnet-4, DeepSeek-R1, and other open-source LLM agents. Multi-task training with AgentRL matches the best results among all task-specific models.」

注：arXiv 原文为 Clause-Sonnet-4，非 Claude-Sonnet-4

AgentRL 的算法和框架已被直接用于构建智谱自主 Agent 产品 AutoGLM（autoglm.zhipuai.cn）。

03 · DeepDive：知识图谱驱动的深度搜索 Agent

arXiv: 2509.10446（2025 年 9 月）|GitHub: github.com/THUDM/DeepDive

论文标题《Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL》，解决开源 LLM 在深度搜索任务上落后于闭源模型的问题。

数据合成管线

步骤一：知识图谱随机游走

从 KILT 和 AMiner 知识图谱随机游走生成多跳路径（k=5-9），k 越大推理复杂度越高

步骤二：实体模糊化

LLM 自动生成需要深度搜索才能还原的「模糊实体」，无需人工标注

步骤三：难度筛选

只保留前沿模型全部失败的题目，确保训练数据难度足够

核心算法

GRPO with Normalized Advantages — reward 归一化后计算优势函数，解决稀疏 reward 场景的梯度问题

Redundancy Penalty — 对相似重复查询施加惩罚，鼓励探索多样性

实验结果（arXiv 原文）

论文原文：「DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1.」

技术判断

DeepDive 验证了一条关键路径：知识图谱随机游走多轮 RL = 可在特定场景（深度搜索）上系统化超越闭源模型。这对构建垂直领域 Agent 有直接参考价值。

04 · GLM-5.2 核心能力：GitHub README 核实数据

模型规格

参数量：744B 总参数，40B 激活参数（GLM-5 规格，GLM-5.2 为其升级版）

预训练数据量：28.5T tokens，较 GLM-5 的 23T 提升

上下文窗口：1M Token 无损上下文，最大输出 128K tokens

开源协议：MIT，可自由下载、部署与商用

Coding 能力（GitHub README 原文）

Terminal-Bench 2.1 — GLM-5.2 得分 81.0，GLM-5.1 得分 62.0，提升 17.5%

对照：Claude Opus 4.8 得分 85.0，差距约 4%；超越 Gemini 3.1 Pro

SWE-bench Pro — GLM-5.2 得分 62.1，GLM-5.1 得分 58.4

官方结论：「On standard coding benchmarks, GLM-5.2 is the strongest open-source model, improving on GLM-5.1 by a wide margin.」

架构创新：IndexShare（arXiv:2603.12201）

GitHub 提到的 IndexShare 对应论文《Accelerating Sparse Attention via Cross-Layer Index Reuse》（arXiv:2603.12201）。论文名 IndexCache，产品名 IndexShare，底层技术一致。核心发现：稀疏注意力每层 indexer 计算高度相似，跨层复用可大幅降低 FLOPs。

方案：Layer 分组为 Full layers（有独立 indexer）和 Shared layers（复用上一 Full layer 的 top-k indices）

效果：1M 上下文下单 token FLOPs 降至 2.9 倍；30B DSA 模型可移除 75% indexer 计算，Prefill 加速 1.82x，Decode 加速 1.48x

MTP 改进：投机解码接受长度最多提升 20%

核心洞察

GLM-5.2 的核心差异化：① Coding 能力通过 Terminal-Bench 2.1 验证（81.0，开源最强），差距已进入 Claude Opus 4.8 可比区间；② IndexShare 让 1M 无损上下文从「理论上可支持」变成「工程上可高效部署」。

05 · 对研究者和开发者的实际价值

如果你是 AI 研究员

第一优先级：AgentRL（arXiv:2510.04206）

多轮 RL 基础设施论文，「多任务联合训练达到各任务最优」对未来 Agent 多任务学习路径有直接参考价值

第二优先级：DeepDive（arXiv:2509.10446）

知识图谱随机游走多轮 RL 的组合，对垂直领域 Agent 有直接参考价值

第三优先级：IndexCache（arXiv:2603.12201）

稀疏注意力跨层索引复用，对超长上下文推理优化有直接参考价值

第四优先级：slime（GitHub）

Megatron SGLang 方案的 RL 后训练框架，多模型验证的生产级基础设施

如果你是应用开发者

Coding 场景

Terminal-Bench 2.1 实测 81.0，开源最强，适合项目级代码生成和复杂代码任务

长程 Agent 场景

1M 无损上下文 slime RL 基础设施，适合需要持续执行数百轮的工具调用场景

本地部署

支持 vLLM / SGLang / Transformers / KTransformers / Unsloth 等主流推理框架

三个核心判断

① RL Scaling 是智谱这代模型的核心主线，slime AgentRL DeepDive 三篇开源构成完整技术链路。② Coding 长程任务是 GLM-5.2 的核心差异化定位，Terminal-Bench 2.1 差距 4% 是 GitHub README 原文数据。③ IndexShare/IndexCache 是 GLM-5.2 最值得关注的工程创新，它让 1M 上下文从理论变成可高效部署的产品。

行动建议

本周实测 GLM-5.2 在 Coding 任务上的实际表现，对照 Terminal-Bench 2.1 数据评估

本月评估 1M 无损上下文在项目级开发场景的实用性

永远区分「预训练 Scaling」和「RL Scaling」两条技术路线，工程资源聚焦 RL Scaling

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2026-06-25，如有侵权请联系[email protected] 删除

推荐专题

最新下载

热门教程

学习GLM-5.2 ：专注 Coding 与长程任务

GLM-5.2 上线并开源：专注 Coding 与长程任务

01 · slime：GLM 全系列背后的 RL 训练基础设施

02 · AgentRL：多轮 Agent RL 的完整框架

03 · DeepDive：知识图谱驱动的深度搜索 Agent

04 · GLM-5.2 核心能力：GitHub README 核实数据

05 · 对研究者和开发者的实际价值

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程