合成数据走向实用:企业 AI 隐私保护的新路径
Cloudera大中华区技术总监刘隶放
随着AI日益深入地融入企业日常运营,企业向模型输入的数据量已达到前所未有的规模。大语言模型(LLMs)如今已广泛应用于客户支持、数据分析、开发者效率提升以及知识管理等场景。与此同时,AI智能体(AI Agent)则开辟了新的应用维度,支持系统能够跨工具和工作流检索信息、进行推理并执行操作。
然而,这也给消费者带来了一个令人不安的现实,用于提升AI性能的高价值数据往往也较为敏感。支持记录、案例备注、交易历史以及操作日志中,时常包含个人身份信息(personally identifiable information, PII)、受监管属性或专有业务背景。即便企业主观上高度重视隐私保护,在快速构建和扩展AI应用的过程中,敏感字段仍然很容易混入训练语料库、评估数据集或提示词库中。
正因如此,合成数据(Synthetic Data)重新获得了关注。简单地说,合成数据是通过算法生成的数据,其目的是在不复现真实记录的前提下,反映真实数据集中的关键模式。理论上,它为加速AI开发提供了一条可行路径,同时降低了接触高度敏感信息的风险。但问题在于,合成数据究竟是减小了风险,还是仅仅转移了风险?
在大语言模型与智能体时代,为什么隐私风险不断上升?
传统分析工作流往往具有更清晰的边界。数据经过整理、汇总、屏蔽处理,用于明确的用途。然而,基于大型语言模型的开发模糊了这些边界。大量输入数据缺乏结构化特征,敏感内容常隐藏于看似普通的文本中,评估过程也越来越依赖规模庞大且类型多样的测试数据集。而由于智能体能够直接访问数据系统,其风险暴露面将进一步扩大。如果企业缺乏数据可见性,个人数据往往会以更不可预测的方式分散在这些系统中。
随着企业不断扩大AI项目的规模,它们需要大量数据用于监督式微调、测试和迭代。然而,许多原本极具潜力的项目,往往因为无法安全地共享或使用这些数据,在推进过程中被迫放缓。
合成数据是否是企业可依赖的替代方案?
遗憾的是,合成数据不是万能的。如果生成结果质量欠佳,这类数据集可能会泄露敏感信息,例如保留了罕见属性的组合,或在无意中与真实样本过于相似。反之,如果合成数据过于“干净”、过于通用或单一,基于这些数据训练的模型虽能在受控测试中表现优异,却可能在真实环境中难以发挥作用。
更现实的看法是将合成数据视作一种降低风险的工具。在规范管理的前提下,它可以在支持模型开发与评估持续推进的同时,减少对个人敏感数据的依赖。合成数据还能解决一个常被忽视的实际问题,即便不考虑隐私因素,许多企业本身也缺乏足够高质量、可标注的训练数据。
如今,合成数据的生成已超越基础表格测试数据集的范畴。企业能够生成模拟真实工作流结构的合成指令数据、合成对话、合成事件工单及合成问答对,在不依赖原始记录的情况下,复现真实业务流程的结构。这对于以下几类AI开发需求尤为重要:
1.监督式微调与领域适配
企业通常希望模型能在特定领域内运行,使用企业内部的术语体系、政策规则、产品目录结构和升级逻辑。微调可以实现这一目标,但所需的训练样本往往高度敏感。合成数据集可以提供更安全的提示-响应样本,既能反映真实意图模式和任务格式,又能减少对实际客户或员工数据的依赖。
2.AI模型的大规模评估
在企业AI项目中,评估往往是最常见的瓶颈之一。团队需要在多种场景下测试模型表现,包括常规问题、边缘案例、故障模式以及合规敏感话题。合成任务生成技术可以比人工方式更快地构建广泛、可重复的评估体系。如果方法得当,该技术不仅能在模型上线前提升对模型行为的信心,还能减少测试过程中对原始敏感数据的处理需求。
3.面向RAG与智能体的定制化数据整理
检索增强生成(Retrieval-augmented generation,RAG)和智能体工作流高度依赖知识库与测试提示的质量。合成数据能够生成真实的查询、变体及多轮交互场景,用于对检索效果和工具调用行为进行压力测试,从而降低使用真实敏感对话作为输入的频率。
Cloudera Synthetic Data Studio等工具正体现出一种趋势,将合成数据生成作为AI生命周期中的一个可操作环节,用于支持微调、对齐、蒸馏以及定制化数据构建等多种场景。
在实践中,合成数据如何实现“隐私安全”?
要让合成数据有效降低隐私风险,企业必须将其视为一项具备管控措施的系统性工作,而不是临时应急方案。首先,企业需要明确数据集的用途,是用于训练、评估、红队演练,还是系统测试。不同的目标将直接影响数据生成方式和质量标准。此外,企业还需遵循其他防护措施,例如:
●采用数据最小化原则,将粒度数据(GranularData)进行泛化处理,从而从源数据中移除不必要的敏感字段和异常值,并在生成开始前缩小处理范围。
●评估合成数据是否保留了模型性能所需的模式,而不仅仅是“看起来真实”。
●检查是否存在记忆风险,以及是否包含过于独特、可被重建的样本。
●记录所生成的内容、生成方法及预期用途。这对于治理和可追溯性至关重要,尤其在受监管的环境中。
合成数据并不能完全取代真实数据,也无法消除对治理的需求。在实践中,让合成数据既实用又安全,本身就是一项运营挑战。内部团队需要一个能够大规模生成合成数据集的环境,将其与微调或评估等特定的AI任务关联,并实施治理控制,确保输出结果能在企业中被可靠地使用。总体而言,合成数据在数据稀缺或失衡的环境中,用于构建传统机器学习模型,依然具有非常重要的价值。
随着企业扩大大型语言模型和智能体的部署规模,合成数据正成为一条切实可行的发展路径,帮助企业有效降低对敏感个人数据的依赖。这凸显了构建统一、受治理的数据与AI平台的必要性,平台应支持团队将合成数据生成与验证纳入端到端AI生命周期中,从而在保障隐私安全的前提下,加速创新进程。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
盘点2025|光纤光缆:周期性放缓之下,确定性开始凸显
在2025年,光纤光缆厂商们习惯于用“周期性”一词来描述当前的困难,相比于宽带普及、4G升级换代带来的流量需求猛增这一巨大业务增长。可如今在刷着短视频、看着带货的新日常生活常态下,尽..[详细]
盘点2025|人工智能:破局前行、以智启新,同赴人机共生新未来
2025年,人工智能行业迎来技术迭代与价值落地的双重关口。这一年里既延续着近年来的高速增长态势,也迎来从野蛮生长向规范提质的深刻转型。 [详细]
盘点2025|算力行业:量质齐升的进阶之路
在数字经济加速渗透全球经济社会各领域的今天,算力已成为继电力、水资源之后的关键生产要素,是支撑数字中国建设、推动高质量发展的核心基础设施。算力的规模与质量直接决定了数字经济的发..[详细]
盘点2025|芯片:AI依旧是挖潜点,应用进一步多样化
时至2025年年底,人们已经开始渐渐习惯,有事听听AI给出的参考意见。其背后的算力支撑也在逐步加强,像是更先进的制程,以及向更多端侧设备的拓展。另一方面,AI又一石激起千层浪,机遇与需..[详细]
盘点2025 | 从5G到6G:深耕与突破并行,开启智能连接新纪元
2025年,全球通信产业站在了一个关键的历史交汇点。这一年既是“十四五”规划的收官年,5G建设成果全面转化的验收年,也是“十五五”规划启幕,6G布局从技术探索迈向工程落地的奠基之年,更..[详细]
盘点2025|量子信息:三大领域技术持续演进,产业发展未来可期
以量子计算、量子通信和量子精密测量为代表的量子信息技术是挑战人类调控微观世界能力极限的世纪系统工程,是对传统技术体系产生冲击、进行重构的重大颠覆性创新,将引领新一轮科技革命和产..[详细]
盘点2025|2025年智能终端趋势洞察:AI重构体验,超级终端时代加速到来
2025年,全球智能终端行业站在了技术革新与生态重构的十字路口。AI技术的规模化渗透、折叠屏形态的成熟落地、跨设备协同的深度演进,正在重塑终端产品的价值逻辑与市场格局。[详细]
82:1 的身份数量比挑战,AI普及下的网络安全风险格局
刚刚过去的2025年,很多人的日常工作开始习惯于偷点懒,让AI给出更多参考,以节省几十分钟的思考或检索时间。在近期派拓网络给出2026 年 AI 与网络安全六大预测中,给出了82:1这样一个数字,..[详细]
人形机器人市场爆发:中国厂商领跑,四大场景落地提速
国际数据公司(IDC)近日发布的《全球人形机器人市场分析》报告显示,2025年全球人形机器人出货量约1.8万台,同比增长约508%。中国厂商在规模化商用进程中表现强劲,全球人形机器人市场销量..[详细]
6G 技术演进关键一跃:从理论研究走向系统验证
2025年,5G演进技术5G-A在中国实现了规模商用,全球通信行业开始越来越多地把注意力聚焦在下一代移动通信技术6G上。作为最早实现5G和5G-A规模商用的电信运营商之一,中国移动不仅拥有全球规..[详细]













