每日微信报
人物专访监管
制造芯片
6G 运营
大数据物联网
移动互联网量子
云计算互联网
报告卫星

重新思考 AI TCO：为何每 Token 成本才是唯一重要的指标

2026年5月7日 14:05CCTIME飞象网

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式AI与代理式AI时代，这些设施已演变为AI Token工厂。随着AI推理成为其核心工作负载，它们的主要产出已转变为以Token形式制造的智能。

这一转变也需要对包括总体拥有成本（TCO）在内的AI基础设施的经济效益评估的方式相应地进行调整。然而，在评估AI基础设施时，企业仍过于关注芯片峰值规格、计算成本，或每美元所能获得的浮点运算性能，即每美元FLOPS。

关键区别在于：

•算力成本是企业为AI基础设施所支付的费用，无论是从云服务提供商租用，还是在本地自建部署。

•每美元FLOPS衡量的是企业每投入一美元所获得的原始算力，但原始算力并不等同于现实世界中的Token产出。

•每Token成本指的是企业生成并交付每一个Token的综合成本，通常以每百万Token成本来表示。

前两者仅是投入指标。但当业务围绕产出运转时，只针对投入优化，本质上是一种根本性的错配。

每Token成本决定了企业能否实现AI的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标，而NVIDIA在这一指标上实现了行业最低的每Token成本。

能够降低每Token成本的因素有哪些？

要理解如何优化每Token成本，首先需要了解用于计算“每百万Token成本”的计算公式。

在这个公式中，许多评估AI基础设施的企业往往只关注分子项，即每GPU每小时成本。对于云部署而言，这对应支付给云服务提供商的小时费用；而对于本地部署，则是通过摊销自有基础设施得到的等效小时成本。然而，降低每Token成本的关键在于分母，即最大化实际交付的Token产出。

这个分母传递了两层商业含义：

•最小化每Token成本：当Token产出增加被代入公式时，将降低每Token成本，从而提升每一次交互服务的利润空间。

•最大化收入：每秒交付更多Token，也意味着每兆瓦产出更多的Token，这将带来更高的智能供给能力，使AI驱动的产品与服务能够在相同基础设施投入下创造更高收入。

因此，如果只关注分子，就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”：分子位于水面之上，直观可见且易于横向比较；而分母则隐藏在水面之下，那才是决定实际Token产出的关键因素。对AI基础设施的准确评估，应从探究水面之下的部分开始。

•表层问题：

○每GPU小时的成本是多少？

○峰值PetaFLOPS性能和高带宽内存容量是多少？

○每美元可获得多少FLOPS？

•深度成本分析：

○每百万Token的成本是多少？尤其是针对大规模混合专家（MoE）推理模型（当前部署最广泛的一类AI模型），其每百万Token成本是多少？

○每兆瓦可交付多少Token产出？尤其是对本地部署而言，由于在土地、电力与基础设施上的资本投入较大，最大化每兆瓦所产生的智能产出至关重要。

○纵向扩展（scale-up ）互连是否能够支撑MoE模型所需的“all-to-all”通信模式？

○是否支持FP4精度？推理栈是否能够在保持高精度的同时充分利用FP4？

○推理运行时是否支持投机解码或多Token预测，以提升用户交互体验？

○服务层是否支持解耦服务、KV感知路由、KV缓存卸载以及其他优化？

○平台是否支持代理式AI的独特工作负载需求，包括超低延迟、高吞吐以及长输入序列长度等？

○平台是否支持从训练、后训练到大规模推理的完整生命周期，并覆盖所有模型架构，从而实现基础设施可互换性与高利用率？

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的，否则分母项将无法成立。一块看似“更便宜”的GPU，如果其每秒Token产出数量明显更低，反而会导致更高的每Token成本。能够做到全栈真正优化的AI基础设施，才能够确保每项优化都相互增强，从而持续提升整体效率。

为什么每Token成本比每美元FLOPS更重要？

以下DeepSeek-R1 AI模型的数据展示了理论指标与实际商业结果之间的差异。

仅从算力成本来看，NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍，但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元FLOPS进行分析，相较于NVIDIA Hopper架构，NVIDIA Blackwell仅有约2倍优势。然而，实际结果却呈现出数量级差异：Blackwell每瓦的Token产出量是Hopper的50倍以上，每百万Token的成本降低至其1/35左右。

指标	NVIDIA Hopper（HGX H200）	NVIDIA Blackwell（GB300 NVL72）	Blackwell相较Hopper
GPU每小时成本（美元）	$1.41	$2.65	2x
每美元FLOPS（PFLOPS）	2.8	5.6	2x
每GPU每秒Token产出	90	6,000	65x
每兆瓦Token产出	54K	2.8M	50x
每百万Token成本（美元）	$4.20	$0.12	降为1/35

注：数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2基准测试。

这一悬殊差异表明，相较于上一代Hopper，NVIDIA Blackwell在商业价值上实现了巨大的跃迁，其提升幅度远超系统成本的增加。

如何选择合适的AI基础设施？

仅凭算力成本或每美元理论FLOPS来比较AI基础设施，不仅是不充分的，也无法真实反映推理经济学。正如数据所展示的，要准确评估AI基础设施的营收潜力与盈利能力，需将衡量维度从输入指标转向每Token成本和实际Token产出量。

NVIDIA通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计，实现了业内最低的Token成本与最高的Token吞吐量。此外，诸如vLLM、SGLang、NVIDIATensorRT-LLM以及NVIDIA Dynamo等基于NVIDIA平台构建的开源推理软件的持续优化，意味着在现有NVIDIA基础设施部署后，Token产出仍可不断提升，每Token成本会持续下降。

领先的云服务提供商与NVIDIA云合作伙伴，已在规模化部署中充分体现这一优势。包括CoreWeave、Nebius、Nscale与Together AI在内的合作伙伴，已部署NVIDIA Blackwell基础设施，并对其技术栈进行了优化，为企业提供当前最低的Token成本，同时充分发挥NVIDIA在硬件、软件与生态系统协同设计方面的全部优势，使每一次AI交互的处理都建立在这一完整体系之上。

编辑：魏德龄

飞象网版权及免责声明:
1.本网刊载内容，凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有，未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载，请必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和飞象网来源。
2.凡注明“来源：XXXX”的作品，均转载自其它媒体，在于传播更多行业信息，并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题，请在相关作品刊发之日起30日内与本网联系，我们将第一时间予以处理。
本站联系电话为86-010-87765777，邮件后缀为cctime.com，冒充本站员工以任何其他联系方式，进行的“内容核实”、“商务联系”等行为，均不能代表本站。本站拥有对此声明的最终解释权。