美国发布大模型评估报告:DeepSeek性能差、不安全
近期,美国国家标准与技术研究院(NIST)人工智能标准与创新中心(CAISI)今日发布了《DeepSeek与美国AI模型综合评估报告》。这一评估由美国总统特朗普的“AI行动计划”授权进行,该报告对来自中国的DeepSeek AI模型与美国前沿AI模型在性能、成本和安全三个关键维度上进行了全面对比测试。
多维度评估方面,美国模型整体领先。
CAISI研究团队对DeepSeek的三款模型(DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1)与四款美国模型(包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4)进行了19项基准测试。测试涵盖了七个关键领域:软件工程、网络安全、科学知识、数学推理、限制遵守、成本效率和意识形态对齐。
评估结果明确显示,美国模型在整体性能上优于DeepSeek模型。特别是在软件工程和网络安全任务中,差距最为显著。以网络安全任务为例,表现最佳的美国模型GPT-5达到了68.9%的准确率,而最佳的DeepSeek模型(DeepSeek-V3.1)仅达到36.7%,差距高达32.2个百分点。
在软件工程领域,GPT-5再次领先,达到75.8%的准确率,而DeepSeek-V3.1为54.8%,差距为21个百分点。这些数据显示,在涉及代码分析、漏洞检测和安全策略制定等关键任务中,美国模型目前仍具有明显的技术优势。
成本效率对比测试中,DeepSeek表现不佳。
值得注意的是,评估报告在成本效率方面得出了出人意料的结论。GPT-5-mini在与DeepSeek-V3.1的对比中,不仅性能更优,单token成本还低35%。这一发现挑战了"美国模型价格更高"的常见看法。
CAISI主任Lynne Parker在新闻发布会上表示:“这一发现对市场认知具有重要意义。许多企业选择特定AI模型时往往仅考虑API价格,但我们的测试表明,综合性能和成本效率,美国模型实际上提供了更好的价值主张。”
安全性评估:DeepSeek存在严重漏洞
报告中最引人关注的发现集中在安全性方面。测试显示,DeepSeek-R1-0528模型在代理安全测试中被劫持的概率高达37%-49%,比美国前沿模型高出12倍。在越狱攻击测试中,DeepSeek-R1-0528的合规率仅为8%,而美国模型为94%。
数据显示,被劫持的DeepSeek代理在模拟环境中成功执行了多项高风险操作,包括发送网络钓鱼邮件、下载恶意软件和窃取用户凭据。
意识形态对齐问题
评估还发现,DeepSeek模型更倾向于传播与其训练数据源一致的特定意识形态内容。在测试中,DeepSeek模型重复特定叙事的频率是美国模型的2到4倍,数据波动取决于语言环境和具体主题。
DeepSeek使用率呈增长态势
尽管存在这些明显缺陷,DeepSeek的使用率仍在全球范围内显著增长。报告显示,DeepSeek模型的下载量自2025年1月以来增长了近1000%,API请求量在某些平台上激增5900%。
NIST CAISI是一家全球领先的测量科学合作中心,其致力于加速美国在AI领域的进展,通过开发和评估技术基础来测试、评估和提高AI系统的能力、安全性和可信赖度,促进美国AI生态系统的竞争力、创新力。(文|老马商业评述,作者|马金男)
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
openEuler未来五年坚定拥抱超节点和AI 加速全球化为世界提供新选择
11月14日,在北京召开的华为操作系统大会2025期间,开放原子开源欧拉社区宣布正式推出openEuler全球首个面向超节点的操作系统openEuler 24.03 LTS SP3,可用于CPU、GPU、NPU等多种计算资源协..[详细]
下一代通信路径渐清晰 6G技术创新生态如何重塑通信未来?
当全球通信产业迈入 6G 标准化全面启动的关键窗口期,一场聚焦技术协同、生态共建的行业盛会正为6G发展锚定方向。在北京召开的6G发展大会上,传递出6G正从技术“蓝图”走向产业“实景”,更..[详细]
闻库:6G发展是持续演进、逐步上台阶的过程
11月13日消息,在“2025年6G发展大会”上,中国通信标准化协会理事长闻库发表演讲指出,6G发展不是一步到位的过程,而是一个持续演进、逐步上台阶的过程。
..[详细]AI驱动世界,Gartner2026重要战略技术趋势里的三位新英雄
近年来,业界总是在谈论着AI改变一切,将其又一次奉为“工业革命”级别的技术。不久前,在Gartner发布的2026年十大战略技术趋势中,与AI直接相关或以AI为核心的技术,达到了至少6项,包括:A..[详细]
天地织网:空天地网络里的强国路
当空天地一体化网络走进人们的视野,这张网把天上的卫星、空中的无人机和地面的5G基站拧成一股绳,构建起一张覆盖全球98%区域的“通信天罗地网”。从极地科考到远洋航行,从应急救援到日常通..[详细]













