随着人工智能大模型的不断涌现,“以数据为中心的人工智能”(Data-centric AI)越来越成为行业共识。数据作为新的生产要素,真正成为人工智能的“石油”,有效赋能企业“AI+”发展。中国信通院人工智能研究所平台与工程化部主任曹峰围绕企业推动 “AI+” 发展中数据的核心价值、高质量数据集构建路径及企业“AI+”发展中的数据问题破解策略等展开深度解读。
企业推动“AI+”发展中数据的重要性
一是数据成为人工智能发展的核心驱动要素。80%的高质量数据与20%的模型训练构成了更好的模型。DeepSeek V3等主流基座大模型的训练阶段均使用了10万亿token以上、经过严格清洗和标注的高质量数据。通用人工智能对数据的需求量还将持续级数增长,训练数据的数量和质量对模型能力的决定性作用越来越高。
二是数据成为模型场景部署和深度应用的基础。Deep Seep R1模型开源以来,包括44家央企在内的200多家企业完成了DeepSeek R1模型的适配和集成部署。在这个过程中,模型与场景的适配过程需要使用高质量行业数据进行监督微调或知识增强,才能适应行业应用需求。
三是企业构建“AI+”发展的先决条件。企业是推动AI+应用的主体,是推动高价值行业应用场景落地关键力量。拥有海量高质量数据积累的企业,能够率先在垂直行业训练出性能优异的模型,推动人工智能的行业应用。同时,在大模型应用、研发迭代过程中采集到更多高质量数据集资源,形成“数据飞轮”,进一步提升模型性能,进而带动智能化水平的持续提升。
企业推动“AI+”发展中构建高质量数据集的方法
什么是高质量数据集?我们总结,高质量数据集应该具备“三高”的特征:一是高价值应用,高质量数据集面向高价值的领域场景,带来更高的收益。二是高知识密度,高质量数据集应包含更多的专业知识和技能,具备多学科融合特征。三是高技术含量,通过智能化、人机协同标注和合成数据等技术显著提升数据质量。
企业在推动高质量数据集建设中存在以下几方面问题:
一是目标定位模糊化。企业经常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升,未能形成“数据采集-模型训练-业务反馈-数据迭代”的闭环优化机制。
二是实施路径碎片化。从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。
三是技术底座薄弱化。缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率受阻,行业特性适配工具链的缺失等问题导致现有数据处理技术难以应对复杂人工智能场景需求。
破解企业“AI+”发展中的数据问题
面向人工智能的新一代数据工程,涵盖数据采集、预处理、标注、评估、合成与共享等全生命周期,既强调数据的规模与多样性,也重视质量、有效性与合规性。
一是高水平数据标注提升数据集供给能力。自动化与智能化标注工具创新成为焦点,多模态数据标注技术的融合逐渐成为趋势,持续学习与反馈机制引入促进数据标注质量和效率双重提升。中国信通院作为国家数据局人工智能专班组长单位,全力支撑国家级数据标注基地建设工作,推动企业数据标注能力提升。
二是评估和反馈机制推动数据质量提升。质量评估与反馈机制深度融合,多模态数据质量评估框架快速发展,动态数据质量监控体系逐步完善。中国信通院共推出5项人工智能数据相关行业标准,搭建国内首个人工智能全周期数据工程评估体系。目前,已正式发布人工智能数据集质量评估体系(ADAQ)。目前,招商局集团、中国建筑集团、中国物流集团已经通过ADAQ质量评估,部分央企正在洽谈后续的深入合作。
三是积极探索使用合成数据等新技术解决大模型数据瓶颈。合成数据在增加数据量、提高数据质量、增强数据多样性、保护隐私和安全等方面,形成了对大模型训练数据的有效补充,并已经被应用于自动驾驶和金融服务领域。中国信通院编制形成《人工智能合成数据生成和管理能力要求》行业标准,面向数据服务方提供人工智能合成数据生产和应用能力建设指导,同时也为数据应用方和需求方提供选型规范。
数据赋能企业“AI+”发展,将逐步形成“数据-算法-应用”的生态协同,以标准化体系破解跨域协作难题,以智能化工具提升数据生产效能,以合规可信框架保障数据要素安全流通。高质量数据集不仅是技术竞争的 “硬实力”,更将成为产业升级的 “催化剂”,为“人工智能+”场景落地开辟无限可能,助力我国在全球智能产业变革中抢占先机、引领未来。