NVIDIA 为 Nemotron 3 Ultra 引入了 NVFP4 检查点,以最小的精度权衡提供 5.9 倍的推理吞吐量。以下是您需要了解的内容。
NVIDIA 推出了 Nemotron 3 Ultra NVFP4 检查点,这是 AI 模型优化方面向前迈出的重要一步。该公司报告称,通过利用其 NVFP4 量化格式(Blackwell GPU 架构的一部分),与传统 FP4 模型相比,解码繁重任务的推理吞吐量提高了 5.9 倍,同时在几乎所有基准测试中保持 BF16 级精度。
量化是将模型权重压缩为更小的数据格式的过程,是这一突破的核心。 NVIDIA 的模型优化器工具是将 5500 亿参数的 Nemotron 3 Ultra 模型转换为 NVFP4 的关键,将其占用空间从 1,121 GB 减少到 352.3 GB,尺寸减少了 3.2 倍。这种优化不仅降低了硬件要求,还提高了 NVIDIA Hopper 和 Blackwell GPU 架构的部署灵活性。例如,在 Hopper 上,模型动态切换到 W4A16(4 位权重,16 位激活),而 Blackwell GPU 利用本机 W4A4 来实现最大效率。
NVFP4 检查点的独特之处在于其精确管理。与常见假设相反,并非每个层都存储在 NVFP4 中。像注意力线性这样的敏感层保留在 BF16 中以保持准确性。同时,其他组件,例如专家混合 (MoE) 路由专家,根据其精度要求被量化为 NVFP4 或 FP8。这种选择性量化策略可确保模型保持高性能,同时最大限度地减少资源需求。
技术创新和行业背景
NVFP4 量化格式引入了独特的缩放策略来优化权重表示。 NVIDIA 测试了多种方法,包括最大缩放、均方误差 (MSE) 缩放以及新颖的“四比六”缩放方法。事实证明,后者有助于最大限度地减少权重的重建误差,显着提高下游任务的准确性,而不会增加模型的存储大小。例如,六分之四方法在 Nemotron 3 Ultra 的 48 个 MoE 专家层中实现了中值重建 MSE 降低了 16.4%。
NVIDIA 的进步与其主导 AI 硬件和软件生态系统的更广泛战略相一致。 Nemotron 3 Ultra NVFP4 检查点受益于与 NVIDIA Model Optimizer 的集成,NVIDIA Model Optimizer 是一个旨在压缩和加速 AI 模型的开源库。随着企业采用更大的代理人工智能、多模式任务和机器人模型,该工具变得至关重要。最近推出的 Nemotron 3 Super 和 Vera Rubin GPU 平台等产品突显了 NVIDIA 对实现高效、可扩展的 AI 部署的承诺。
为什么这很重要
对于企业来说,在不牺牲准确性的情况下压缩 Nemotron 3 Ultra 等模型的能力意味着更低的推理成本、更高的吞吐量和更低的能耗。随着人工智能用例扩展到自然语言处理、代理人工智能和机器人技术等资源密集型领域,这些优化尤其重要。 NVFP4 检查点使 NVIDIA 能够正面满足这些需求,提供平衡性能和效率的解决方案。
截至 2026 年 6 月 26 日,NVIDIA 的市值超过 4.7 万亿美元,继续巩固其作为人工智能创新领导者的地位。 Nemotron 3 Ultra NVFP4 检查点可以加速 NVIDIA Blackwell 和 Hopper 架构的采用,从而巩固该公司在人工智能硬件和软件市场的主导地位。
开发人员和企业可以通过将于 7 月发布的 Model Optimizer 0.46 开始试验 NVFP4 格式。随附的技术报告和 GitHub 上的开源配方提供了复制 NVIDIA 结果的详细指导。
来源:NVIDIA 开发者博客、NVIDIA 模型优化器 GitHub、截至 2026 年 6 月 26 日的市场数据
