Check Point旗下公司Lakera推出面向AI代理的大型语言模型开源安全基准测试
Check Point旗下公司Lakera推出面向AI代理的大型语言模型开源安全基准测试
2025年11月, 网络安全解决方案的先驱与全球领导者Check Point软件技术有限公司(纳斯达克股票代码:CHKP)与行业领先、专注于AI代理应用安全的AI原生安全平台Lakera,联合英国人工智能安全研究所(AISI)的研究人员,近日发布专为AI智能体中大型语言模型(LLM)安全设计的开源安全评估工具——骨干破坏基准测试(backbone breaker benchmark )b3。
b3 基于“威胁快照”的新理念构建,不再模拟人工智能代理从始至终的完整过程,而是聚焦于大语言模型最易暴露漏洞的关键节点。通过在这些精确时刻测试模型,开发者和模型供应商无需构建复杂的完整代理工作流,即可评估其系统在更真实对抗挑战中的抗压能力。
“我们创造b3基准测试,是因为当今人工智能代理的安全性完全取决于其背后的LLM模型,”Check Point旗下公司Lakera的联合创始人兼首席科学家Mateo Rojas-Carulla表示。“威胁快照功能让我们能够系统性地揭示那些至今仍隐藏在复杂代理工作流中的漏洞。通过向全球开放该基准测试,我们希望为开发者和模型供应商提供一种切实可行的方法,来衡量并提升其安全态势。”
该基准测试结合了10个具有代表性的代理“威胁快照”,以及通过红队对抗测试Gandalf: Agent Breaker收集的19,433个高质量众包对抗攻击数据集。它评估了系统对各类攻击的易受攻击性,包括系统提示泄露、钓鱼链接植入、恶意代码注入、拒绝服务攻击以及未授权工具调用等。
该项目现已通过开源许可证发布,地址为https://arxiv.org/abs/2510.22620
Gandalf: Agent Breaker是一款黑客模拟游戏,挑战玩家在真实场景中破解并利用AI代理的能力。游戏内置的十款通用人工智能应用程序模拟了现实世界中AI代理的行为模式。每款应用均设有不同难度等级、分层防御机制及创新攻击面,旨在考验从提示工程到红队对抗等全方位技能。部分应用基于聊天交互,其余则需运用代码级思维、文件处理、内存操作或外部工具使用等能力。
Gandalf: Agent Breaker的初始版本诞生于Lakera内部的黑客马拉松竞赛,当时蓝队与红队试图为持有秘密密码的大型语言模型构建最强大的防御与攻击体系。自2023年发布以来,它已成为全球规模最大的红队对抗社区,累计生成逾8000万条数据点。这款最初作为趣味游戏开发的工具,通过揭示生成式AI应用中的现实漏洞,有效提升了人们对“AI优先安全”重要性的认知。
关于 Check Point 软件技术有限公司
Check Point 软件技术有限公司(www.checkpoint.com)是数字信任领域的领先保护者,通过 AI 驱动的网络安全解决方案,保护全球超过 100,000 家组织与机构免受网络威胁。Check Point 通过其 Infinity 平台与开放生态系统,坚持“预防为先”的理念,在提升安全效能的同时降低企业风险。依托以 SASE 为核心的混合网格架构,Infinity 平台实现了本地、云端及办公环境的统一管理,为企业及服务提供商带来灵活、简洁、可扩展的网络安全能力。
关于Lakera
Lakera是面向智能代理AI应用的领先原生AI安全平台,致力于保护《财富》500强企业及顶尖科技公司免受新兴AI网络风险威胁。依托全球顶尖红队社区Gandalf及其专有AI技术,Lakera的防御体系能实时进化,为企业抵御新兴威胁。Lakera由David Haber、Mateo Rojas-Carulla博士与Matthias Kraft博士于2021年联合创立,总部位于苏黎世与旧金山双城。了解更多信息,请访问Lakera.ai,体验Gandalf及Gandalf:Agent Breaker,并通过领英关注我们。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
智能IP广域网成为筑牢智算产业发展根基的关键一环
随着国家加速推动智算产业高质量发展,网络支撑能力已成为产业进阶的核心抓手,而作为关键基础设施的智能IP广域网,正凭借其在算力调度、数据传输中的核心作用,成为筑牢智算产业发展根基的..[详细]
大中华区市场失守 苹果寄望AI驱动未来增长
苹果公司公布的2025 财年第四季度财报呈现“冰火两重天”态势:全球营收1024.66亿美元同比增长 8%,净利润274.66亿美元同比激增86.4%,毛利率攀升至 47.18%。但作为第三大市场的大中华区却成..[详细]
你好,6G
6G是什么?是比5G多1G的通信技术吗?在“十五五”规划里,6G和量子科技、生物制造、氢能核聚变这些“黑科技”并列,是国家重点培育的新经济增长点。它就像数字经济的"新引擎",未..[详细]
集采频现、部署提速,G.654.E与AI浪潮
近一段时间以来,关于G.654.E集采的消息不断。7月,中国移动于官网发布2025年至2027年G.654E光纤光缆产品集中采购项目中标信息,从采购量上看,集中采购约2.29万皮长公里,折合313.86万芯公..[详细]
更多、更快、更强:曙光存储以先进存力支持中国移动智能算力建设
随着中国数智经济的持续高速发展,各行各业涌现了大量创新的数字化、智能化业务,每时每刻都会产生海量数据,而数据在各个平台上高速流转,并借助先进的大数据、AI等技术进行深入分析、挖掘..[详细]













