一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

Nemotron-Labs-TwoTower - 英伟达开源的双塔架构扩散语言模型

时间:2026-07-03 09:03:47 编辑:袖梨 来源:一聚教程网

Nemotron-Labs-TwoTower是什么

NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下文塔处理干净token,可训练的扩散去噪塔通过交叉注意力精炼噪声块。模型基于Nemotron-3-Nano-30B-A3B构建,训练约2.1T tokens,保留自回归基线98.7%质量,生成吞吐量提升2.42倍,支持Mask Diffusion、Mock-AR与AR-only三种推理模式。

Nemotron-Labs-TwoTower的主要功能

  • 双塔分离推理:将上下文编码与去噪生成分解为两个独立模块,避免单一网络”身兼两职”的性能瓶颈。
  • 三种推理模式切换:单一检查点支持 Mask Diffusion、Mock-AR与 AR-only,灵活适配不同场景需求。
  • 高质量文本生成:在保留自回归基线 98.7% 聚合基准质量的前提下,实现可并行的迭代生成。
  • 高吞吐生成加速:2×H100 环境下生成吞吐量提升 2.42 倍,显著降低推理延迟与计算成本。
  • 商用级开源部署:用NVIDIA Nemotron Open Model License 开源权重,支持企业商用与二次开发。

Nemotron-Labs-TwoTower的技术原理

  • 核心思想:传统扩散语言模型使用单一网络同时承担”上下文理解”和”迭代去噪”两个角色,导致两者互相掣肘。TwoTower 将这两个职责解耦为双塔架构:
    • 上下文塔(Context Tower):冻结的 Nemotron-3-Nano-30B-A3B,采用因果注意力因果处理干净 token,负责高质量的上下文表示编码。
    • 去噪塔(Denoiser Tower):可训练模块,采用双向块注意力处理带噪声的 token 块,通过交叉注意力从上下文塔获取语义指导,逐步精炼去噪。
  • 训练方式:基于 30B 混合 Mamba-Transformer MoE 骨架,在约 2.1T tokens 上训练,用 MoE 稀疏激活实现高效计算。
  • 推理优势:扩散模型的并行迭代特性天然支持加速解码,双塔分离后去噪塔无需重复编码上下文,在保证质量的同时大幅提升 wall-clock 吞吐量。

微信关注回复“开源”,加入AI开源项目交流群

如何使用Nemotron-Labs-TwoTower

  • 访问 HuggingFace 模型页:打开 Nemotron-Labs-TwoTower-30B-A3B-Base-BF16 官方仓库页面。
  • 阅读模型卡与许可:确认 NVIDIA Nemotron Open Model License 商用条款,了解模型架构与硬件要求。
  • 克隆/下载权重:用 git lfs 或 HuggingFace transformers 库下载模型权重与配置文件。
  • 配置运行环境:准备至少 2×H100 GPU 环境,安装 PyTorch 及依赖库(参考仓库 requirements.txt)。
  • 加载模型与分词器:通过 AutoModelForCausalLMAutoTokenizer 加载模型,选择 Mask Diffusion / Mock-AR / AR-only 推理模式。
  • 执行推理生成:输入 prompt,调用模型生成接口,利用双塔架构完成高效并行去噪生成。
  • 微调适配:基于自有数据对可训练的去噪塔进行进一步微调,冻结上下文塔保持不变。

Nemotron-Labs-TwoTower的核心优势

  • 双塔解耦,各司其职:将上下文编码与去噪生成分离为两个独立塔,避免单一网络角色冲突导致的性能瓶颈。
  • 质量几乎无损:保留自回归基线 98.7% 的聚合基准质量,扩散生成不再以牺牲输出质量为代价。
  • 推理速度翻倍:在 2×H100 环境下实现 2.42 倍 wall-clock 生成吞吐量,显著降低延迟与算力成本。
  • 一模型三模式:单一检查点支持 Mask Diffusion、Mock-AR、AR-only 三种推理方式,灵活适配不同延迟与质量需求场景。
  • 开源可商用:用 NVIDIA Nemotron Open Model License 发布权重,支持企业自由部署与商业二次开发。

Nemotron-Labs-TwoTower的项目地址

  • HuggingFace模型库:https://huggingface.co/collections/nvidia/nemotron-labs-twotower
  • arXiv技术论文:https://arxiv.org/pdf/2606.26493

Nemotron-Labs-TwoTower的同类竞品对比

对比维度Nemotron-Labs-TwoTowerLLaDA发布机构NVIDIAMIT架构设计双塔分离:冻结AR上下文塔 + 可训练扩散去噪塔(交叉注意力连接)单塔统一:单一Transformer同时承担上下文编码与掩码去噪总参数量~60B(活跃3B,MoE稀疏)8B(稠密)基座模型Nemotron-3-Nano-30B-A3B(Mamba-Transformer MoE)自研Transformer训练数据~2.1T tokens~2T tokens基线质量保留98.7%(相对自回归基线)~95%(相对同等规模AR模型)吞吐提升2.42×(2×H100,wall-clock)~1.5×(标准GPU环境)推理模式三种:Mask Diffusion / Mock-AR / AR-only单一:掩码扩散(随机/半自回归采样)注意力机制上下文塔:因果注意力;去噪塔:双向块注意力 + 交叉注意力统一双向注意力 + 位置编码处理核心创新角色解耦:避免单一网络”身兼两职”的性能瓶颈简单 scalable:证明扩散模型可scale至8B并逼近GPT-4质量

Nemotron-Labs-TwoTower的应用场景

  • 高并发在线服务:2.42倍吞吐提升使其适合搜索引擎、智能客服等需要低延迟、高并发的实时文本生成场景。
  • 长文档生成:扩散模型的并行迭代特性适合长文本续写、报告生成、代码补全等需要多步 refine 的任务。
  • 多模式灵活部署:三种推理模式切换让企业可根据成本/质量权衡,在边缘端用 AR-only、在云端用 Mask Diffusion。
  • 商用产品开发:模型可商用许可支持企业将模型集成至写作助手、营销文案生成器、代码辅助工具等商业化产品。
  • 科研与二次创新:开源权重与论文细节便于研究者探索扩散语言模型架构、训练策略及跨模态扩展方向。

热门栏目