NVIDIA 推理软件将 AI 代币成本削减 5 倍

Blackwell GPU 上的 NVIDIA 软件堆栈将代币成本降低了 5 倍，从而提高了 Baseten 和 Deep Infra 等主要参与者的 AI 推理效率。

NVIDIA's Inference Software Slashes AI Token Costs by 5x

NVIDIA 的综合推理软件堆栈正在改变 AI 生产经济学，在短短一个月内将其 Blackwell GPU 平台上的代币成本削减了多达 5 倍。这一突破是随着公司将注意力从峰值硬件规格转向提供每美元、每瓦特和延迟目标最有用的代币而实现的。

这一性能飞跃的核心是 NVIDIA 的全栈方法，集成了 TensorRT-LLM 库、Dynamo 推理框架和 CUDA 优化的运行时。例如，主要推理提供商 Baseten 利用 NVIDIA 的工具将长上下文工作负载的令牌吞吐量提高了 50%。与此同时，Deep Infra 和 Together AI 也取得了类似的成果，利用 NVIDIA 开源支持的生态系统大规模部署复杂的大型语言模型。

Blackwell GPU（包括支持 NVLink 的系统）正在成为人工智能推理的支柱。通过将分类服务、大型专家并行性和 NVFP4 等精度增强功能相结合，NVIDIA 堆栈在组合各个优化时可将吞吐量提高高达 20 倍。这种分层系统可确保在生产运营、应用程序加速和硬件访问方面提高效率。

代理人工智能需要新的推理解决方案

与传统的 Web 和 SaaS 工作负载不同，代理 AI 涉及跨多个大型语言模型、工具和内存系统的分布式、有状态的工作流程。每个请求都可以触发数百个子代理和数千个任务，使得推理本身就很复杂。 NVIDIA 的 Triton 推理服务器是其堆栈的一部分，通过优化跨异构环境（从 Kubernetes 集群到云原生设置）的部署来解决这个问题。

对于开发者来说，开源生态系统放大了这些好处。像 PyTorch 这样的框架本身就针对 CUDA 进行了优化，可以立即部署推测性解码或多令牌预测等创新。这意味着生产人工智能系统可以更快地采用突破并降低代币成本。

战略意义和市场影响

NVIDIA 在人工智能推理领域的主导地位符合更广泛的市场趋势。截至 2026 年第一季度，NVIDIA 引领着价值 154 亿美元的数据中心以太网交换市场。随着企业从训练人工智能模型过渡到大规模部署推理系统，其集成堆栈为其提供了竞争优势。 AI 工厂现在优先考虑成本和效率，而 NVIDIA 的垂直优化能力（从芯片到软件）使其成为领导者。

交易者应注意，NVIDIA 对推理经济学的关注可能对其 4.84 万亿美元的市值（截至 2026 年 6 月 30 日）产生长期影响。随着代币效率成为人工智能采用的关键指标，NVIDIA 在降低成本方面的作用可能会巩固其在企业人工智能基础设施中的主导地位。

展望未来，NVIDIA 的路线图包括对 Blackwell 和下一代 GPU 平台的进一步优化。大规模部署人工智能的开发者和企业可能会继续依赖 NVIDIA 的软件，从而确保对其硬件和生态系统解决方案的稳定需求。

书签