阿里发布千问最强推理模型Qwen3-Max-Thinking,性能媲美GPT-5.2、Gemini 3 Pro
阿里巴巴1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项权威评测中刷新全球纪录,成为迄今最接近国际顶尖模型的国产AI大模型。这标志着中国大模型从“追平”到“领跑"的关键突破。
据阿里云发布的信息,该模型总参数量超万亿,预训练数据量达36T Tokens,是目前阿里规模最大、能力最强的千问推理模型。在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent能力等19项公认基准测试中,Qwen3-Max-Thinking整体性能可媲美GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro等国际顶尖模型。
该模型采用全新的测试时扩展机制,实现推理性能大幅提升的同时更具经济性。在启用工具的HLE(Humanity's Last Exam)评测中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8,录得当前所有模型的最高分。
阿里巴巴同日宣布,根据Hugging Face数据,Qwen衍生模型数量突破20万,成为全球首个达成此目标的开源大模型。Qwen系列模型累计下载量突破10亿次,被开发者日均下载110万次,稳居全球开源大模型首位。
推理技术实现代际突破
Qwen3-Max-Thinking的核心创新在于测试时扩展机制的应用。阿里云表示,这种机制可对此前推理的结果进行"经验提取"式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算。
这一技术路径区别于业界普遍采用的推理计算方式。阿里云指出,传统方法只会简单增加并行推理路径,重复推导已知结论的情况常见,导致冗余推理效率低下。而千问新模型通过"经验提取"机制,可识别并剪枝冗余的逻辑路径,确保算力被用于探索最有价值的分支。
该模型进行了更大规模的强化学习后训练。阿里云数据显示,在此前预览版Qwen3-Max-Thinking斩获数学推理AIME 25和HMMT 25国内首个双满分的基础上,通义团队进一步提升了正式版性能,在多项基准测试中刷新最佳表现纪录。
在HLE这一被称为"人类最后的测试"的评测中,千问得分58.3,较GPT-5.2-Thinking和Gemini 3 Pro分别高出12.8分和12.5分。在AI评测领域,超过10分的差距通常意味着代际级的领先。
原生Agent能力大幅增强
面向智能体时代,Qwen3-Max-Thinking大幅增强了自主调用工具的原生Agent能力。该模型可在对话过程中自主选用搜索、个性化记忆和代码解释器等核心工具功能,提供更符合用户需求的智能回答。
阿里云介绍,这种能力源自通义团队专门设计的训练流程。在完成初步的工具使用微调后,团队对模型在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使Qwen3-Max-Thinking能够更智能地结合工具进行思考。
这一能力的提升带来实际应用价值的改变。模型不再是单纯的"大脑",需要外挂工具导致指令遵循不稳定,而是可以自主判断何时搜索互联网、何时编写代码、何时查阅知识库,并根据反馈动态调整计划。阿里云表示,这种机制大幅降低了模型幻觉,为企业级应用提供了必要的可靠性保障。
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务。普通用户可通过千问PC端和网页端试用模型,千问APP也即将接入新模型。
开源生态确立全球领先地位
Qwen系列在开源生态的表现展现了中国大模型的全球影响力。根据Hugging Face数据,基于Qwen的衍生模型数量突破20万个,成为全球首个达成此目标的开源家族。其累计下载量突破10亿次,日均下载量达110万次。
这一数据意味着Qwen已完全超越此前被视为开源大模型默认标准的Meta Llama系列。据此前报道,Meta内部代号“牛油果”的秘密项目,在训练新模型时采用了“蒸馏”技术向包括Qwen在内的多方开源模型学习,在技术层面间接承认了Qwen在特定能力上的领先。
Qwen的全球采用份额持续扩大。阿里巴巴采用"全尺寸、全模态"策略,从0.5B到480B的全参数段覆盖,以及对119种语言的支持,使其在东南亚、中东等新兴市场迅速成为首选。
这一开源战略正在转化为实际的市场优势。千问APP上线首周下载量突破1000万,两个月月活突破1亿。该应用全面接入淘宝、支付宝、飞猪、高德等生态,用户可通过语音指令完成订机票、叫外卖等全流程,将AI价值从信息层推向交易层。
全栈布局构建竞争护城河
阿里巴巴在AI领域的布局覆盖算力、模型、应用全栈。在底层算力方面,平头哥研发的PPU在特定推理任务上的性能已与英伟达H20相当,配合倚天710服务器芯片,构建了"一云多芯"的异构算力体系。据市场消息,阿里巴巴已决定支持平头哥未来独立上市。
阿里云已构建起中国最完整的AI基础设施。据摩根士丹利预测,阿里云收入将在三年内翻倍,从2025财年的1180亿元增长至2028财年的2400亿元。其目标是在2026年拿下中国AI云市场增量的80%。
阿里CEO吴泳铭去年宣布,未来三年将投入超过3800亿元用于建设云和AI硬件基础设施。这一投入规模与谷歌、Meta和亚马逊等美股科技巨头的AI资本开支处于同一量级,体现了阿里对AI长期竞争力的战略判断。
Qwen3-Max-Thinking的发布标志着阿里巴巴在AI算法上的顶级实力得到验证,配合其在算力、应用层面的全栈能力,为中国大模型从"追平"到"领跑"的转变提供了关键案例。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
盘点2025|光纤光缆:周期性放缓之下,确定性开始凸显
在2025年,光纤光缆厂商们习惯于用“周期性”一词来描述当前的困难,相比于宽带普及、4G升级换代带来的流量需求猛增这一巨大业务增长。可如今在刷着短视频、看着带货的新日常生活常态下,尽..[详细]
盘点2025|人工智能:破局前行、以智启新,同赴人机共生新未来
2025年,人工智能行业迎来技术迭代与价值落地的双重关口。这一年里既延续着近年来的高速增长态势,也迎来从野蛮生长向规范提质的深刻转型。 [详细]
盘点2025|算力行业:量质齐升的进阶之路
在数字经济加速渗透全球经济社会各领域的今天,算力已成为继电力、水资源之后的关键生产要素,是支撑数字中国建设、推动高质量发展的核心基础设施。算力的规模与质量直接决定了数字经济的发..[详细]
盘点2025|芯片:AI依旧是挖潜点,应用进一步多样化
时至2025年年底,人们已经开始渐渐习惯,有事听听AI给出的参考意见。其背后的算力支撑也在逐步加强,像是更先进的制程,以及向更多端侧设备的拓展。另一方面,AI又一石激起千层浪,机遇与需..[详细]
盘点2025 | 从5G到6G:深耕与突破并行,开启智能连接新纪元
2025年,全球通信产业站在了一个关键的历史交汇点。这一年既是“十四五”规划的收官年,5G建设成果全面转化的验收年,也是“十五五”规划启幕,6G布局从技术探索迈向工程落地的奠基之年,更..[详细]
盘点2025|量子信息:三大领域技术持续演进,产业发展未来可期
以量子计算、量子通信和量子精密测量为代表的量子信息技术是挑战人类调控微观世界能力极限的世纪系统工程,是对传统技术体系产生冲击、进行重构的重大颠覆性创新,将引领新一轮科技革命和产..[详细]
盘点2025|2025年智能终端趋势洞察:AI重构体验,超级终端时代加速到来
2025年,全球智能终端行业站在了技术革新与生态重构的十字路口。AI技术的规模化渗透、折叠屏形态的成熟落地、跨设备协同的深度演进,正在重塑终端产品的价值逻辑与市场格局。[详细]
82:1 的身份数量比挑战,AI普及下的网络安全风险格局
刚刚过去的2025年,很多人的日常工作开始习惯于偷点懒,让AI给出更多参考,以节省几十分钟的思考或检索时间。在近期派拓网络给出2026 年 AI 与网络安全六大预测中,给出了82:1这样一个数字,..[详细]
人形机器人市场爆发:中国厂商领跑,四大场景落地提速
国际数据公司(IDC)近日发布的《全球人形机器人市场分析》报告显示,2025年全球人形机器人出货量约1.8万台,同比增长约508%。中国厂商在规模化商用进程中表现强劲,全球人形机器人市场销量..[详细]
6G 技术演进关键一跃:从理论研究走向系统验证
2025年,5G演进技术5G-A在中国实现了规模商用,全球通信行业开始越来越多地把注意力聚焦在下一代移动通信技术6G上。作为最早实现5G和5G-A规模商用的电信运营商之一,中国移动不仅拥有全球规..[详细]













