NVIDIA 推出 Nemotron 3 Ultra 的 NVFP4 检查点

NVIDIA 为 Nemotron 3 Ultra 引入了 NVFP4 检查点，以最小的精度权衡提供 5.9 倍的推理吞吐量。以下是您需要了解的内容。

NVIDIA Unveils NVFP4 Checkpoint for Nemotron 3 Ultra

NVIDIA 推出了 Nemotron 3 Ultra NVFP4 检查点，这是 AI 模型优化方面向前迈出的重要一步。该公司报告称，通过利用其 NVFP4 量化格式（Blackwell GPU 架构的一部分），与传统 FP4 模型相比，解码繁重任务的推理吞吐量提高了 5.9 倍，同时在几乎所有基准测试中保持 BF16 级精度。

量化是将模型权重压缩为更小的数据格式的过程，是这一突破的核心。 NVIDIA 的模型优化器工具是将 5500 亿参数的 Nemotron 3 Ultra 模型转换为 NVFP4 的关键，将其占用空间从 1,121 GB 减少到 352.3 GB，尺寸减少了 3.2 倍。这种优化不仅降低了硬件要求，还提高了 NVIDIA Hopper 和 Blackwell GPU 架构的部署灵活性。例如，在 Hopper 上，模型动态切换到 W4A16（4 位权重，16 位激活），而 Blackwell GPU 利用本机 W4A4 来实现最大效率。

NVFP4 检查点的独特之处在于其精确管理。与常见假设相反，并非每个层都存储在 NVFP4 中。像注意力线性这样的敏感层保留在 BF16 中以保持准确性。同时，其他组件，例如专家混合 (MoE) 路由专家，根据其精度要求被量化为 NVFP4 或 FP8。这种选择性量化策略可确保模型保持高性能，同时最大限度地减少资源需求。

技术创新和行业背景

NVFP4 量化格式引入了独特的缩放策略来优化权重表示。 NVIDIA 测试了多种方法，包括最大缩放、均方误差 (MSE) 缩放以及新颖的“四比六”缩放方法。事实证明，后者有助于最大限度地减少权重的重建误差，显着提高下游任务的准确性，而不会增加模型的存储大小。例如，六分之四方法在 Nemotron 3 Ultra 的 48 个 MoE 专家层中实现了中值重建 MSE 降低了 16.4%。

NVIDIA 的进步与其主导 AI 硬件和软件生态系统的更广泛战略相一致。 Nemotron 3 Ultra NVFP4 检查点受益于与 NVIDIA Model Optimizer 的集成，NVIDIA Model Optimizer 是一个旨在压缩和加速 AI 模型的开源库。随着企业采用更大的代理人工智能、多模式任务和机器人模型，该工具变得至关重要。最近推出的 Nemotron 3 Super 和 Vera Rubin GPU 平台等产品突显了 NVIDIA 对实现高效、可扩展的 AI 部署的承诺。

为什么这很重要

对于企业来说，在不牺牲准确性的情况下压缩 Nemotron 3 Ultra 等模型的能力意味着更低的推理成本、更高的吞吐量和更低的能耗。随着人工智能用例扩展到自然语言处理、代理人工智能和机器人技术等资源密集型领域，这些优化尤其重要。 NVFP4 检查点使 NVIDIA 能够正面满足这些需求，提供平衡性能和效率的解决方案。

截至 2026 年 6 月 26 日，NVIDIA 的市值超过 4.7 万亿美元，继续巩固其作为人工智能创新领导者的地位。 Nemotron 3 Ultra NVFP4 检查点可以加速 NVIDIA Blackwell 和 Hopper 架构的采用，从而巩固该公司在人工智能硬件和软件市场的主导地位。

开发人员和企业可以通过将于 7 月发布的 Model Optimizer 0.46 开始试验 NVFP4 格式。随附的技术报告和 GitHub 上的开源配方提供了复制 NVIDIA 结果的详细指导。

来源：NVIDIA 开发者博客、NVIDIA 模型优化器 GitHub、截至 2026 年 6 月 26 日的市场数据

书签