NVIDIA 的 TensorRT 11 引入了多设备推理,使 AI 模型能够跨 GPU 扩展,这对于生成 AI 需求至关重要。
NVIDIA 正式推出 TensorRT 11.0,引入对多设备推理的原生支持。此次升级使AI模型能够跨多个GPU进行扩展,满足视频和图像生成等生成式AI任务不断增长的计算需求。 TensorRT 基于 NVIDIA 集体通信库 (NCCL) 构建,现在使开发人员能够跨 GPU 分配工作负载,从而提高性能和内存效率。
TensorRT 11 的亮点是其通过分布式通信原语的多 GPU 推理能力。开发人员现在可以利用 IDistCollectiveLayer 和上下文并行性等功能来划分工作负载,从而可以处理远远超出单个 GPU 处理能力的大规模 AI 模型。这对于生成人工智能中的长序列变压器模型和基于扩散的管道尤其重要,其中内存瓶颈一直是一个持续的挑战。
为什么它对生成人工智能很重要
生成式 AI 工作负载(例如为高分辨率图像和多帧视频的扩散模型提供支持的工作负载)是众所周知的资源密集型工作负载。 NVIDIA 新的上下文并行策略(例如 AllGather KV、Ring Attention 和 DeepSpeed Ulysses)旨在优化这些工作负载。通过在 GPU 之间分割输入数据和计算,TensorRT 降低了内存使用量并减少了处理时间,尽管会带来一些额外的 GPU 间通信开销。
例如,使用 NVIDIA Cosmos 3(多模式生成模型)和 Flux.1(图像生成器)进行的基准测试显示,部署这些策略时可以明显提高性能。值得注意的是,DeepSpeed Ulysses 成为处理极长序列最高效的工具,可提供更快的推理时间并在最多 8 个 GPU 上实现更好的扩展。
与 NVIDIA 更广泛的人工智能生态系统集成
TensorRT 11 并不是孤立运行的。它与 NVIDIA 更广泛的 AI 堆栈无缝集成,包括 Torch-TensorRT,这是一种将 PyTorch 模型转换为优化的 TensorRT 引擎的工具。这使得开发人员可以在模型开发过程中保留 PyTorch 的灵活性,然后部署高性能 TensorRT 引擎进行生产。
新的多 GPU 功能还补充了今年早些时候发布的 NVIDIA Dynamo 1.0,该版本旨在跨企业和云环境扩展 AI 推理。这些工具共同巩固了 NVIDIA 在研究和企业应用推理优化方面的领导地位。
多 GPU 扩展方面的技术进步
TensorRT 11 利用 NCCL 来实现高性能集体操作,包括 AllReduce、Broadcast 和 Gather。这些分布式通信层对于跨 GPU 扩展模型至关重要,同时又不影响 TensorRT 众所周知的内核融合、量化和内存规划的优化。
两种并行策略脱颖而出:
- 张量并行:在 GPU 之间分割模型权重,减少每个 GPU 的内存使用量,对于大规模变换器层特别有用。
- 上下文并行:跨 GPU 拆分输入序列,非常适合扩散和 DiT 模型等长序列工作负载,其中注意力操作在计算成本中占主导地位。
对于视频生成等工作流程,Ring Attention 等新方法重叠通信和计算,进一步减少延迟和内存开销。
市场影响
截至 2026 年 6 月,NVIDIA 在 TensorRT 11 方面的进步符合为现实世界应用扩展生成式 AI 的更广泛市场趋势。 NVIDIA 的市值高达 4.75 万亿美元,其 GPU 为大多数人工智能工作负载提供动力,此次发布巩固了其在快速发展的人工智能领域的地位。对于大规模部署生成式 AI 的企业来说,TensorRT 11 提供了现成的解决方案来优化成本和性能。
开发者可以从 NVIDIA 开发者门户下载 TensorRT 11。随着人工智能模型变得越来越复杂,NVIDIA 的工具可能会在研究和生产用例中发挥关键作用。
