必读视频专题飞象趣谈光通信人工智能低空经济5G手机智能汽车智慧城市会展特约记者

重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

2026年5月7日 14:05CCTIME飞象网

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式AI与代理式AI时代,这些设施已演变为AI Token工厂。随着AI推理成为其核心工作负载,它们的主要产出已转变为以Token形式制造的智能。

这一转变也需要对包括总体拥有成本(TCO)在内的AI基础设施的经济效益评估的方式相应地进行调整。然而,在评估AI基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元FLOPS。

关键区别在于:

•算力成本是企业为AI基础设施所支付的费用,无论是从云服务提供商租用,还是在本地自建部署。
•每美元FLOPS衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的Token产出。
•每Token成本指的是企业生成并交付每一个Token的综合成本,通常以每百万Token成本来表示。

前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。

每Token成本决定了企业能否实现AI的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标,而NVIDIA在这一指标上实现了行业最低的每Token成本。

能够降低每Token成本的因素有哪些?

要理解如何优化每Token成本,首先需要了解用于计算“每百万Token成本”的计算公式。

在这个公式中,许多评估AI基础设施的企业往往只关注分子项,即每GPU每小时成本。对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。然而,降低每Token成本的关键在于分母,即最大化实际交付的Token产出。

这个分母传递了两层商业含义:

•最小化每Token成本:当Token产出增加被代入公式时,将降低每Token成本,从而提升每一次交互服务的利润空间。
•最大化收入:每秒交付更多Token,也意味着每兆瓦产出更多的Token,这将带来更高的智能供给能力,使AI驱动的产品与服务能够在相同基础设施投入下创造更高收入。

因此,如果只关注分子,就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”:分子位于水面之上,直观可见且易于横向比较;而分母则隐藏在水面之下,那才是决定实际Token产出的关键因素。对AI基础设施的准确评估,应从探究水面之下的部分开始。

•表层问题:
○每GPU小时的成本是多少?
○峰值PetaFLOPS性能和高带宽内存容量是多少?
○每美元可获得多少FLOPS?

•深度成本分析:
每百万Token的成本是多少?尤其是针对大规模混合专家(MoE)推理模型(当前部署最广泛的一类AI模型),其每百万Token成本是多少?
每兆瓦可交付多少Token产出?尤其是对本地部署而言,由于在土地、电力与基础设施上的资本投入较大,最大化每兆瓦所产生的智能产出至关重要。
纵向扩展(scale-up)互连是否能够支撑MoE模型所需的“all-to-all”通信模式
○是否支持FP4精度?推理栈是否能够在保持高精度的同时充分利用FP4?
○推理运行时是否支持投机解码或多Token预测,以提升用户交互体验?
○服务层是否支持解耦服务、KV感知路由、KV缓存卸载以及其他优化?
○平台是否支持代理式AI的独特工作负载需求,包括超低延迟、高吞吐以及长输入序列长度等?
○平台是否支持从训练、后训练到大规模推理的完整生命周期,并覆盖所有模型架构,从而实现基础设施可互换性与高利用率?

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的,否则分母项将无法成立。一块看似“更便宜”的GPU,如果其每秒Token产出数量明显更低,反而会导致更高的每Token成本。能够做到全栈真正优化的AI基础设施,才能够确保每项优化都相互增强,从而持续提升整体效率。

为什么每Token成本比每美元FLOPS更重要?

以下DeepSeek-R1 AI模型的数据展示了理论指标与实际商业结果之间的差异。

仅从算力成本来看,NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元FLOPS进行分析,相较于NVIDIA Hopper架构,NVIDIA Blackwell仅有约2倍优势。然而,实际结果却呈现出数量级差异:Blackwell每瓦的Token产出量是Hopper的50倍以上,每百万Token的成本降低至其1/35左右。

指标

NVIDIA Hopper(HGX H200)

NVIDIA Blackwell(GB300 NVL72)

Blackwell相较Hopper

GPU每小时成本(美元)

$1.41

$2.65

2x

每美元FLOPS(PFLOPS)

2.8

5.6

2x

每GPU每秒Token产出

90

6,000

65x

每兆瓦Token产出

54K

2.8M

50x

每百万Token成本(美元)

$4.20

$0.12

降为1/35

注:数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2基准测试。

这一悬殊差异表明,相较于上一代Hopper,NVIDIA Blackwell在商业价值上实现了巨大的跃迁,其提升幅度远超系统成本的增加。

如何选择合适的AI基础设施?

仅凭算力成本或每美元理论FLOPS来比较AI基础设施,不仅是不充分的,也无法真实反映推理经济学。正如数据所展示的,要准确评估AI基础设施的营收潜力与盈利能力,需将衡量维度从输入指标转向每Token成本和实际Token产出量。

NVIDIA通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计,实现了业内最低的Token成本与最高的Token吞吐量。此外,诸如vLLM、SGLang、NVIDIATensorRT-LLM以及NVIDIA Dynamo等基于NVIDIA平台构建的开源推理软件的持续优化,意味着在现有NVIDIA基础设施部署后,Token产出仍可不断提升,每Token成本会持续下降。

领先的云服务提供商与NVIDIA云合作伙伴,已在规模化部署中充分体现这一优势。包括CoreWeaveNebiusNscaleTogether AI在内的合作伙伴,已部署NVIDIA Blackwell基础设施,并对其技术栈进行了优化,为企业提供当前最低的Token成本,同时充分发挥NVIDIA在硬件、软件与生态系统协同设计方面的全部优势,使每一次AI交互的处理都建立在这一完整体系之上。

编 辑:魏德龄
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐阅读
  • 2026十大科技趋势

    2026 十大科技趋势,定义新一年的每一次突破。祝大家马年大吉,马到成功!初八启新程,万事皆顺遂!

    [详细]

精彩视频

精彩专题

关于我们广告报价联系我们隐私声明本站地图

CCTIME飞象网 CopyRight © 2007-2026 By CCTIME.COM

京ICP备08004280号-1 电信与信息服务业务经营许可证080234号 京公网安备110105000771号

公司名称: 北京飞象互动文化传媒有限公司

未经书面许可,禁止转载、摘编、复制、镜像