重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标
传统数据中心过去主要用于数据的存储、检索与处理。但在生成式AI与代理式AI时代,这些设施已演变为AI Token工厂。随着AI推理成为其核心工作负载,它们的主要产出已转变为以Token形式制造的智能。
这一转变也需要对包括总体拥有成本(TCO)在内的AI基础设施的经济效益评估的方式相应地进行调整。然而,在评估AI基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元FLOPS。
关键区别在于:
前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。
每Token成本决定了企业能否实现AI的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的TCO指标,而NVIDIA在这一指标上实现了行业最低的每Token成本。
能够降低每Token成本的因素有哪些?
要理解如何优化每Token成本,首先需要了解用于计算“每百万Token成本”的计算公式。
在这个公式中,许多评估AI基础设施的企业往往只关注分子项,即每GPU每小时成本。对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。然而,降低每Token成本的关键在于分母,即最大化实际交付的Token产出。
这个分母传递了两层商业含义:
因此,如果只关注分子,就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”:分子位于水面之上,直观可见且易于横向比较;而分母则隐藏在水面之下,那才是决定实际Token产出的关键因素。对AI基础设施的准确评估,应从探究水面之下的部分开始。
这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的,否则分母项将无法成立。一块看似“更便宜”的GPU,如果其每秒Token产出数量明显更低,反而会导致更高的每Token成本。能够做到全栈真正优化的AI基础设施,才能够确保每项优化都相互增强,从而持续提升整体效率。
为什么每Token成本比每美元FLOPS更重要?
以下DeepSeek-R1 AI模型的数据展示了理论指标与实际商业结果之间的差异。
仅从算力成本来看,NVIDIA Blackwell平台的成本似乎约为NVIDIA Hopper的2倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元FLOPS进行分析,相较于NVIDIA Hopper架构,NVIDIA Blackwell仅有约2倍优势。然而,实际结果却呈现出数量级差异:Blackwell每瓦的Token产出量是Hopper的50倍以上,每百万Token的成本降低至其1/35左右。
|
指标 |
NVIDIA Hopper(HGX H200) |
NVIDIA Blackwell(GB300 NVL72) |
Blackwell相较Hopper |
|
GPU每小时成本(美元) |
$1.41 |
$2.65 |
2x |
|
每美元FLOPS(PFLOPS) |
2.8 |
5.6 |
2x |
|
每GPU每秒Token产出 |
90 |
6,000 |
65x |
|
每兆瓦Token产出 |
54K |
2.8M |
50x |
|
每百万Token成本(美元) |
$4.20 |
$0.12 |
降为1/35 |
注:数据来源于NVIDIA分析报道及SemiAnalysis InferenceX v2基准测试。
这一悬殊差异表明,相较于上一代Hopper,NVIDIA Blackwell在商业价值上实现了巨大的跃迁,其提升幅度远超系统成本的增加。
如何选择合适的AI基础设施?
仅凭算力成本或每美元理论FLOPS来比较AI基础设施,不仅是不充分的,也无法真实反映推理经济学。正如数据所展示的,要准确评估AI基础设施的营收潜力与盈利能力,需将衡量维度从输入指标转向每Token成本和实际Token产出量。
NVIDIA通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计,实现了业内最低的Token成本与最高的Token吞吐量。此外,诸如vLLM、SGLang、NVIDIATensorRT-LLM以及NVIDIA Dynamo等基于NVIDIA平台构建的开源推理软件的持续优化,意味着在现有NVIDIA基础设施部署后,Token产出仍可不断提升,每Token成本会持续下降。
领先的云服务提供商与NVIDIA云合作伙伴,已在规模化部署中充分体现这一优势。包括CoreWeave、Nebius、Nscale与Together AI在内的合作伙伴,已部署NVIDIA Blackwell基础设施,并对其技术栈进行了优化,为企业提供当前最低的Token成本,同时充分发挥NVIDIA在硬件、软件与生态系统协同设计方面的全部优势,使每一次AI交互的处理都建立在这一完整体系之上。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
2026十大科技趋势
2026 十大科技趋势,定义新一年的每一次突破。祝大家马年大吉,马到成功!初八启新程,万事皆顺遂!
[详细]
手机电脑内存过度焦虑?个人设备找到平衡点即可
随着内存的价格上涨,以及预测显示此轮上涨至2027年底可能都不会有好转,从而引发了很多消费者在当下时间点进行消费电子产品选购时的内存焦虑。
无论是手机或电脑,此前内存的预设配置基..[详细]中国电信打造五位一体智能云,发力Token经济
当前,人工智能技术迭代持续提速,智能体应用加速普及,Token成本不断下降、需求呈爆发式增长,Token经济已成为智能时代经济发展的新引擎,为数据要素价值释放与AI产业规模化落地开辟全新路..[详细]
FTTR用户逆势增长,AI成为宽带价值升级核心引擎
随着数字经济向纵深发展,千兆光网普及进入攻坚阶段,FTTR(光纤到房间)正加速突破家庭组网边界,向园区、政企、城市光网等多场景延伸,成为全光接入网络升级的核心载体。而AI技术的深度融..[详细]
495.8万基站背后:中国数字基建如何从“有”到“优”?
作为新型数字基建核心抓手,全国“信号升格”行动持续纵深推进,并取得丰硕成果。4月21日,在国务院新闻办公室举行的新闻发布会上,工信部副部长张云明介绍了2026年一季度我国工业和信息化的..[详细]
28年后愿望已成的蓝牙,战略布局四大发展方向
1998年5月,爱立信、IBM、英特尔、诺基亚以及东芝达成一个共同愿景,成立如今的蓝牙技术联盟,以便能够在全球实施一个互联互通、低成本的无线技术愿景。当时他们的想法是,如果想建立一个全..[详细]
6G现场亮“绝活” 解锁未来新惊喜!
人形机器人“守门员”精准扑球、全息投影实时直播互动、人形机器人与机器狗精彩“热舞”……如果你还觉得6G是遥远的未来概念,走进 2026 全球 6G 技术与产业生态大会打造的沉浸式 6G “黑科..[详细]
华为ICT大赛十年:让每一颗ICT“种子”都能长成参天大树
当前全球围绕AI、云计算、5G、大数据等科技的竞争不断加剧,而科技竞争的根本是人才的竞争,因此中国一直提倡产学研用紧密结合,通过学科知识竞赛、企业出题高校揭榜等方式培养ICT创新型、实..[详细]
预算缩减与 AI 期许, CIO 如何在不确定性高点下应对
“砍预算了。”这可能是近年来,经常听到的一话。Gartner的数据也印证了这点,自2014年开始,中国企业的IT预算占比基本维持在10%左右,但在2018年开始逐步下跌,2025年甚至达到最低点-0.8%,..[详细]
从构想走向现实,6G迈入产业实战新阶段
作为下一代移动通信核心技术,6G正从概念走向现实,其技术突破、产业布局与全球竞争格局牵动业界神经,成为数字经济领域最受关注的赛道。当前,6G正处于从理论与技术研究向面向产业的技术创..[详细]













