九章云极缪旭:强化学习云将成为群体智能的放大器
近日,在2025算力生态大会上,九章云极DataCanvas宣布升级旗下强化学习云平台Agentic RL。此次升级以Agentic强化学习(RL,Reinforcement Learning)技术为核心,直指千行百业构建专业级专家智能体的需求,旨在推动群体智能规模化落地。

九章云极首席科学家缪旭介绍,新一代强化学习云搭载的Agentic RL,是一种可精准适配各行业需求的强化学习技术,能让通用AI模型快速升级为行业专家级智能体。该技术框架与传统强化学习方案存在本质差异,其核心优势在于目标设计的多样性与聚焦性,通用智能转化为具备领域专长的专家智能,再以动态组合放大群体智能,为产业智能化提供高效解决方案。例如,通过集成自动推理工具,可助力数学家解决复杂数学问题;借助3D引擎,能辅助设计师优化工业设计。
缪旭表示,人工智能训练范式已从预训练阶段迈入后训练的全新阶段。自2024年9月,OpenAI发布的o1模型通过深度思考模型和Test time scaling技术重新恢复scaling Law效应,标志着强化学习驱动的后训练范式崛起。2025年初,DeepSeekR1的发布进一步验证了强化学习在加速大模型进化方面的巨大潜力。尤其是依赖强推理能力的智能体,强化学习在长规划过程中展现出卓越性能。
他介绍,大量的行业实践验证表明,Agentic RL已在专业属性强的领域展现出不可替代的赋能价值。比如在供应链优化领域,通过九章云极蒸馏强化技术,在R1基模型上训练出的32B小模型表现力超越R1本身;在深度研究智能体方面,开源模型经九章云极强化学习云训练后,能够达到与闭源模型相当的效果;端到端优化,则使表现力大幅提升。
这些成功得益于九章云极强化学习的三大核心特点:一是高效率奖励函数设计,支持规则型与多维度奖励函数,为强化学习提供精准高效的反馈机制;二是全异步系统架构,通过任务策略推演与N+T模型更新技术,将GPU使用率稳定维持在99%以上,大幅提升训练效率;三是大规模存储支撑体系,可实现频繁高效的模型版本管理,保障强化学习过程的稳定性与自动化水平。
实测数据显示,九章云极强化学习云端到端训练效率较行业平均水平提升500%,综合成本直降60%,核心性能指标实现行业领先。在应用场景落地层面,产品已在金融、医疗、制造、零售、农业等多个垂直领域完成标杆验证,展现出强劲的产业适配能力。
在金融风控领域,通过Agentic RL构建的智能风控系统,可实时分析海量交易数据并动态调整风险评分模型。某股份制银行应用后,欺诈识别准确率提升40%,误报率下降25%,为信贷审批筑牢安全防线。
在医疗诊断场景,某三甲医院借助强化学习云训练影像识别智能体,通过持续学习百万级病例数据,在CT影像分析中达到主任医师专业水平,诊断效率提升3倍,同时成功发现传统方法遗漏的早期病灶特征。
在智能制造领域,汽车零部件厂商部署的智能排产系统,通过强化学习优化生产调度,将设备利用率从65%提升至82%,订单交付周期缩短30%,实现产能、库存与客户优先级的动态平衡。
在零售优化场景,连锁超市的智能定价系统依托强化学习,整合天气、客流、竞品价格等数百维数据实现小时级价格调整,试点门店毛利率提升5个百分点,滞销品周转率提高2倍。
在智慧农业领域,温室种植环境控制智能体通过学习历史气候数据与作物生长曲线,自动调节温湿度、光照参数,使草莓产量提升20%,同时降低能耗15%。
多领域落地成果引发专家广泛关注。中国工程院院士、浙江大学农业生命环境学部常务副主任喻景权表示,算力与AI是激活农业生态价值的关键,AI专家智能体有望是践行“两山”理论的数字化解法。
针对强化学习“样本使用率低、现实场景探索难”等行业挑战,缪旭公布了九章云极的攻坚方案。他介绍,采用基于回放的离线PPO强化学习方法,能够实现5倍训练速度提升;同时,可以与高校、科研院所合作研发世界模型,为智能体提供虚拟环境进行探索,避免现实世界中的高风险行为。
缪旭强调,此次强化学习云的升级,是AI基础设施向“智能体原生云”转型的一次重要探索,也是九章云极在先进普惠智算技术的进一步深耕。依托Agentic RL核心技术与全栈式服务能力,既降低企业AI落地的技术与成本门槛,又能推动人工智能从通用能力走向专业深耕,促进群体智能的加速形成,赋能千行百业的智能化转型。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
AI营销不攻自破,没人关心AI PC里的AI
近两年来,无论是电脑、手机,还是任何商业服务,可谓言必称AI。其中电脑产品在宣传之中,还要在PC之前再冠以AI二字,以凸显其不同于以往的身份,为AI在胸膛中央的事做证。然而,就在刚刚落..[详细]
智能眼镜扎堆亮相CES 中国厂商解锁“物理AI”新可能
曾经,CES的核心焦点始终围绕手机、电视、笔记本等传统消费电子品类,但随着人工智能技术的落地深化,智能眼镜成功接棒成为新的主角。[详细]
昇思MindSpore:解锁超节点时代的AI框架新范式
近年来,各行各业逐渐开始全面拥抱AI,各国对AI算力基础设施的投资也持续扩张,AI框架作为AI技术及其应用的重要基石,迎来了关键的发展机遇。为超节点而生的昇思MindSpore AI框架以其突出的..[详细]
具身智能的大规模落地仍处于早期阶段
近两年,具身智能无疑是最热门的赛道之一。据中国信息通信研究院副总工程师许志远介绍,当前,具身智能已经取得认知智能与物理智能的双线突破,但模型路线、数据范式以及最佳机器人形态仍未..[详细]
潮涌亨通,智领未来:交上辉煌答卷在2026续写奋进华章
2025年是“十四五”收官与“十五五”蓄力的关键节点。在这一年里,国内新型工业化加速推进,“AI+制造”成为产业升级核心引擎;全球AI技术爆发式增长,海洋及清洁能源转型浪潮交织,整个国际..[详细]













