T*通过轨迹感知强化学习实现渐进式块缩放提升解码并行度

时间：2026-06-04 14:04:01 编辑：袖梨来源：一聚教程网

T*通过轨迹感知强化学习实现渐进式块缩放提升解码并行度

近日，一项来自arXiv的新研究提出了一种名为T*的方法，通过轨迹感知强化学习（TraceRL）让掩码扩散语言模型能实现渐进式块缩放，从而提升解码并行度。简单说，这种方法能让AI在生成文字时，一次处理更多内容，速度更快，而且效果还挺稳。

从自回归到扩散：为什么需要渐进式块缩放？

现在不少语言模型用的是自回归（AR）方式，一个字一个字地往外蹦，速度慢但准确。而掩码扩散模型（MDM）可以一次预测多个被遮住的词，并行度更高。但问题是，如果一开始就用大块的预测，模型容易迷糊，输出质量会打折扣。T*的思路就挺聪明——它从一个自回归初始化的小块模型开始，然后通过强化学习慢慢把块的尺寸放大，让模型逐步适应更高的并行度。

T*到底是怎么工作的？

研究团队把整个过程设计成一条训练课程：

第一步：模型先从AR模式出发，预测单个词，相当于入门级别。
第二步：随着训练推进，模型开始尝试一次性预测2个、4个甚至更大的词块。
第三步：最终过渡到更大的块尺寸，实现高速并行解码，同时数学推理的准确率几乎不掉。

这确实是一步巧妙的棋。你可能会问，凭什么说这样做就一定有效？因为实验结果显示，T*在多个数学推理基准上的表现与传统小模型接近，但解码速度翻了好几倍。更重要的是，论文里还提到，T*训练出的模型最终可能收敛到一种完全不同的解码策略，效果和原来的方法一样好。这何尝不是一种新的解法呢？

解码并行度提升，到底意味着什么？

说白了，更高的并行度意味着更快的生成速度。现在很多AI助手在写长文章、算复杂题目时，用户往往需要等上好一会儿。如果模型能把一次生成的词块从1个扩大到4个甚至8个，那等待时间就直接缩短到四分之一。T*的渐进式训练机制，让这个过程既平滑又可靠，避免了质量骤降的尴尬。

这项研究对未来有什么启发？

其实，T*的出现给模型优化提供了一个新思路——不是一步到位追求并行，而是让模型在学习过程中自己“找到节奏”。这种轨迹感知的强化学习框架，未来也可以应用在其他需要平衡速度和精度的场景，比如实时翻译、代码生成等等。咱们不妨继续关注，看看这项技术会不会落地到实际产品中去。

推荐专题

最新下载

热门教程

T*通过轨迹感知强化学习实现渐进式块缩放提升解码并行度

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程