登顶SWE-Bench,快手KAT-Dev-72B-Exp刷新开源SOTA
大规模强化学习作为关键路径,能够有效激发大模型的复杂推理能力并显著提升其任务泛化性。近期,快手Kwaipilot团队重磅发布的KAT-Dev-72B-Exp,在软件开发能力评测基准 SWE-Bench Verified上取得了74.6%的卓越表现,创下开源模型领域新纪录。KAT-Dev-72B-Exp 是 KAT-Coder 模型强化学习的实验版本,我们借助这一开源模型揭秘 KAT-Coder 在大规模强化学习方向上的技术创新。

在 SWE-Bench Verified 上,和全尺寸开源模型对比,KAT-Dev-72B-Exp 以74.6%的卓越性能创下新纪录
作为Kwaipilot在端到端复杂强化学习领域的前沿探索成果,该模型基于自研 SeamlessFlow 工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与 Agent 的完全解耦,成功支持多智能体和在线强化学习等复杂场景。针对复杂 Agent 场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,并结合基于开源仓库构建的大规模端到端可验证软件工程任务,KAT-Dev-72B-Exp 在编程领域展现出强大的能力。
免费试用KAT-Coder:https://www.streamlake.ai/product/kat-coder
KAT-Dev-72B-Exp开源地址:https://huggingface.co/Kwaipilot/KAT-Dev-72B-Exp
在agentic RL训练过程中,模型训练的成功离不开高效、可扩展的数据环境支撑。传统方法往往局限于单一数据集和固定框架,导致模型在面对复杂现实场景时表现欠佳。通过持续的实践探索,Kwaipilot 团队逐渐意识到大规模 scaling 数据环境的重要性。这不仅是数据量的堆积,更是构建一个动态、灵活的生态系统,让模型能够从海量且多样化的数据中汲取营养,实现从“实验室玩具”到“实战高手”的跃升。
为此,Kwaipilot 团队正积极投入建设一套大规模数据环境管理系统。这套系统的核心在于实现训练数据、训练沙盒(sandbox)以及训练框架的完全解耦。通过这种设计,数据源可以独立扩展,而不会受限于特定框架的约束;沙盒环境则提供安全的隔离测试空间,避免干扰主流程;训练框架也能灵活切换,支持多种算法迭代。这种解耦机制极大提升了系统的模块化程度,让开发团队能够更高效地协作,避免了以往“牵一发而动全身”的瓶颈。
更重要的是,该系统显著加速了训练数据的扩充过程。我们的数据环境管理系统采用统一的数据协议,可以快速整合开源的以及各种多源数据环境。数据环境涵盖代码、数学、游戏、博弈等多个领域。在这样的环境中,模型可以通过 RL 反复迭代,逐步适应各种复杂情境,进一步增强其泛化能力。模型不再局限于单一的环境,而是能在跨领域的环境中自适应,也更能在没有见过的环境中有更好的表现,提升其鲁棒性和实用性。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
5G-A赋能机器人火炬接力:中国移动以技术革新点亮全运科技盛宴
2025年11月,第十五届全国运动会将在粤港澳三地盛大启幕。这场赛事不仅是体育健儿的竞技场,更是前沿科技落地应用的“试验田”。其中,11月2日的机器人火炬接力作为本次全运会的核心创新亮点..[详细]
轻薄机型出师未捷身先死,长使业绩泪满襟
当iPhone Air宣布上市当天,随着各路评测内容解禁,一个显眼的标题也随之出现,那就是“注定停产”。轻薄机型的出现一方面让人们看到厂商正在挖掘全新市场空间,另一方面也勾起了小尺寸机型..[详细]
智能未来:宇宙为你闪烁
未来十年,你家的电表可能再也不用换电池,自动驾驶汽车能"看到"几公里外的路况,甚至海洋深处的传感器都能实时传回数据。这些不是科幻,而是刚刚在无锡物博会上发布的《2025全球..[详细]
智能IP广域网成为筑牢智算产业发展根基的关键一环
随着国家加速推动智算产业高质量发展,网络支撑能力已成为产业进阶的核心抓手,而作为关键基础设施的智能IP广域网,正凭借其在算力调度、数据传输中的核心作用,成为筑牢智算产业发展根基的..[详细]
大中华区市场失守 苹果寄望AI驱动未来增长
苹果公司公布的2025 财年第四季度财报呈现“冰火两重天”态势:全球营收1024.66亿美元同比增长 8%,净利润274.66亿美元同比激增86.4%,毛利率攀升至 47.18%。但作为第三大市场的大中华区却成..[详细]













