最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
学习GLM-5.2 :专注 Coding 与长程任务
时间:2026-07-04 11:34:47 编辑:袖梨 来源:一聚教程网
深度技术
GLM-5.2 上线并开源:专注 Coding 与长程任务
对标 Claude Opus 4.7-4.8 · MIT 开源协议
本文拆解三篇关键开源项目,还原智谱 AI 的真实技术路线与能力边界。GLM-5.2 于 2026 年 6 月正式发布,官方定位「与 Claude Opus 4.7-4.8 处于可比区间」,专注 Coding 与长程任务,采用 MIT 开源协议。
— CloudMesh 技术团队
01 · slime:GLM 全系列背后的 RL 训练基础设施
GitHub: github.com/THUDM/slime(6,700 stars)|论文: 无独立论文,框架本身即文档
slime 是智谱开源的大模型 RL 后训练框架。GitHub README 明确标注它是 GLM-5.2、GLM-5.1、GLM-5、GLM-4.7、GLM-4.6、GLM-4.5 全六代产品背后的训练框架。
核心设计
目标:解决 RL 训练大规模部署的工程效率问题
创新:异步生成-训练流水线,显著提升训练吞吐量和效率,支持多次精细化的后训练迭代
GitHub 原文:a novel asynchronous RL infrastructure that substantially improves training throughput and efficiency
技术判断
slime 的存在意味着 GLM-4.5 → 5 → 5.1 → 5.2 的迭代路径不是每次重新训练,而是在同一套 RL 基础设施上持续优化。这是智谱能够快速迭代的核心工程资产。
02 · AgentRL:多轮 Agent RL 的完整框架
arXiv: 2510.04206(2025 年 10 月)|GitHub: github.com/THUDM/AgentRL
论文标题《Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework》。

问题定义
可扩展基础设施缺失 — 多轮 RL 需要异步生成-训练流水线,现有框架缺乏稳定多任务支持
训练稳定性问题 — 多任务场景下 reward 方差大,跨任务优势归一化缺失,容易导致策略崩溃
核心创新
三池架构 — Rollout Worker Pool / Actor Worker Pool / Reference Worker Pool,Ray Cluster 统一调度
Cross-Policy Sampling — 多轮设置中考虑多个策略分布,对被忽略的行动路径给予额外探索权重
Task Advantage Normalization — 对不同任务的优势函数归一化,解决 reward scale 差异导致的训练不稳定
实验结果(arXiv 原文)
论文原文:「AgentRL, trained on open LLMs across five agentic tasks, significantly outperforms GPT-5, Clause-Sonnet-4, DeepSeek-R1, and other open-source LLM agents. Multi-task training with AgentRL matches the best results among all task-specific models.」
注:arXiv 原文为 Clause-Sonnet-4,非 Claude-Sonnet-4
AgentRL 的算法和框架已被直接用于构建智谱自主 Agent 产品 AutoGLM(autoglm.zhipuai.cn)。
03 · DeepDive:知识图谱驱动的深度搜索 Agent
arXiv: 2509.10446(2025 年 9 月)|GitHub: github.com/THUDM/DeepDive
论文标题《Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL》,解决开源 LLM 在深度搜索任务上落后于闭源模型的问题。
数据合成管线
步骤一:知识图谱随机游走
从 KILT 和 AMiner 知识图谱随机游走生成多跳路径(k=5-9),k 越大推理复杂度越高
步骤二:实体模糊化
LLM 自动生成需要深度搜索才能还原的「模糊实体」,无需人工标注
步骤三:难度筛选
只保留前沿模型全部失败的题目,确保训练数据难度足够
核心算法
GRPO with Normalized Advantages — reward 归一化后计算优势函数,解决稀疏 reward 场景的梯度问题
Redundancy Penalty — 对相似重复查询施加惩罚,鼓励探索多样性
实验结果(arXiv 原文)
论文原文:「DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1.」
技术判断
DeepDive 验证了一条关键路径:知识图谱随机游走 多轮 RL = 可在特定场景(深度搜索)上系统化超越闭源模型。这对构建垂直领域 Agent 有直接参考价值。
04 · GLM-5.2 核心能力:GitHub README 核实数据
模型规格
参数量:744B 总参数,40B 激活参数(GLM-5 规格,GLM-5.2 为其升级版)
预训练数据量:28.5T tokens,较 GLM-5 的 23T 提升
上下文窗口:1M Token 无损上下文,最大输出 128K tokens
开源协议:MIT,可自由下载、部署与商用
Coding 能力(GitHub README 原文)
Terminal-Bench 2.1 — GLM-5.2 得分 81.0,GLM-5.1 得分 62.0,提升 17.5%
对照:Claude Opus 4.8 得分 85.0,差距约 4%;超越 Gemini 3.1 Pro
SWE-bench Pro — GLM-5.2 得分 62.1,GLM-5.1 得分 58.4
官方结论:「On standard coding benchmarks, GLM-5.2 is the strongest open-source model, improving on GLM-5.1 by a wide margin.」
架构创新:IndexShare(arXiv:2603.12201)
GitHub 提到的 IndexShare 对应论文《Accelerating Sparse Attention via Cross-Layer Index Reuse》(arXiv:2603.12201)。论文名 IndexCache,产品名 IndexShare,底层技术一致。核心发现:稀疏注意力每层 indexer 计算高度相似,跨层复用可大幅降低 FLOPs。
方案:Layer 分组为 Full layers(有独立 indexer)和 Shared layers(复用上一 Full layer 的 top-k indices)
效果:1M 上下文下单 token FLOPs 降至 2.9 倍;30B DSA 模型可移除 75% indexer 计算,Prefill 加速 1.82x,Decode 加速 1.48x
MTP 改进:投机解码接受长度最多提升 20%
核心洞察
GLM-5.2 的核心差异化:① Coding 能力通过 Terminal-Bench 2.1 验证(81.0,开源最强),差距已进入 Claude Opus 4.8 可比区间;② IndexShare 让 1M 无损上下文从「理论上可支持」变成「工程上可高效部署」。
05 · 对研究者和开发者的实际价值
如果你是 AI 研究员
第一优先级:AgentRL(arXiv:2510.04206)
多轮 RL 基础设施论文,「多任务联合训练达到各任务最优」对未来 Agent 多任务学习路径有直接参考价值
第二优先级:DeepDive(arXiv:2509.10446)
知识图谱随机游走 多轮 RL 的组合,对垂直领域 Agent 有直接参考价值
第三优先级:IndexCache(arXiv:2603.12201)
稀疏注意力跨层索引复用,对超长上下文推理优化有直接参考价值
第四优先级:slime(GitHub)
Megatron SGLang 方案的 RL 后训练框架,多模型验证的生产级基础设施
如果你是应用开发者
Coding 场景
Terminal-Bench 2.1 实测 81.0,开源最强,适合项目级代码生成和复杂代码任务
长程 Agent 场景
1M 无损上下文 slime RL 基础设施,适合需要持续执行数百轮的工具调用场景
本地部署
支持 vLLM / SGLang / Transformers / KTransformers / Unsloth 等主流推理框架
三个核心判断
① RL Scaling 是智谱这代模型的核心主线,slime AgentRL DeepDive 三篇开源构成完整技术链路。② Coding 长程任务是 GLM-5.2 的核心差异化定位,Terminal-Bench 2.1 差距 4% 是 GitHub README 原文数据。③ IndexShare/IndexCache 是 GLM-5.2 最值得关注的工程创新,它让 1M 上下文从理论变成可高效部署的产品。
行动建议
本周实测 GLM-5.2 在 Coding 任务上的实际表现,对照 Terminal-Bench 2.1 数据评估
本月评估 1M 无损上下文在项目级开发场景的实用性
永远区分「预训练 Scaling」和「RL Scaling」两条技术路线,工程资源聚焦 RL Scaling
本文参与腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2026-06-25,如有侵权请联系[email protected] 删除