信通院曹峰:数据赋能企业“AI+”发展
随着人工智能大模型的不断涌现,“以数据为中心的人工智能”(Data-centric AI)越来越成为行业共识。数据作为新的生产要素,真正成为人工智能的“石油”,有效赋能企业“AI+”发展。中国信通院人工智能研究所平台与工程化部主任曹峰围绕企业推动 “AI+” 发展中数据的核心价值、高质量数据集构建路径及企业“AI+”发展中的数据问题破解策略等展开深度解读。
企业推动“AI+”发展中数据的重要性
一是数据成为人工智能发展的核心驱动要素。80%的高质量数据与20%的模型训练构成了更好的模型。DeepSeek V3等主流基座大模型的训练阶段均使用了10万亿token以上、经过严格清洗和标注的高质量数据。通用人工智能对数据的需求量还将持续级数增长,训练数据的数量和质量对模型能力的决定性作用越来越高。
二是数据成为模型场景部署和深度应用的基础。Deep Seep R1模型开源以来,包括44家央企在内的200多家企业完成了DeepSeek R1模型的适配和集成部署。在这个过程中,模型与场景的适配过程需要使用高质量行业数据进行监督微调或知识增强,才能适应行业应用需求。
三是企业构建“AI+”发展的先决条件。企业是推动AI+应用的主体,是推动高价值行业应用场景落地关键力量。拥有海量高质量数据积累的企业,能够率先在垂直行业训练出性能优异的模型,推动人工智能的行业应用。同时,在大模型应用、研发迭代过程中采集到更多高质量数据集资源,形成“数据飞轮”,进一步提升模型性能,进而带动智能化水平的持续提升。
企业推动“AI+”发展中构建高质量数据集的方法
什么是高质量数据集?我们总结,高质量数据集应该具备“三高”的特征:一是高价值应用,高质量数据集面向高价值的领域场景,带来更高的收益。二是高知识密度,高质量数据集应包含更多的专业知识和技能,具备多学科融合特征。三是高技术含量,通过智能化、人机协同标注和合成数据等技术显著提升数据质量。
企业在推动高质量数据集建设中存在以下几方面问题:
一是目标定位模糊化。企业经常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升,未能形成“数据采集-模型训练-业务反馈-数据迭代”的闭环优化机制。
二是实施路径碎片化。从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。
三是技术底座薄弱化。缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率受阻,行业特性适配工具链的缺失等问题导致现有数据处理技术难以应对复杂人工智能场景需求。
破解企业“AI+”发展中的数据问题
面向人工智能的新一代数据工程,涵盖数据采集、预处理、标注、评估、合成与共享等全生命周期,既强调数据的规模与多样性,也重视质量、有效性与合规性。
一是高水平数据标注提升数据集供给能力。自动化与智能化标注工具创新成为焦点,多模态数据标注技术的融合逐渐成为趋势,持续学习与反馈机制引入促进数据标注质量和效率双重提升。中国信通院作为国家数据局人工智能专班组长单位,全力支撑国家级数据标注基地建设工作,推动企业数据标注能力提升。
二是评估和反馈机制推动数据质量提升。质量评估与反馈机制深度融合,多模态数据质量评估框架快速发展,动态数据质量监控体系逐步完善。中国信通院共推出5项人工智能数据相关行业标准,搭建国内首个人工智能全周期数据工程评估体系。目前,已正式发布人工智能数据集质量评估体系(ADAQ)。目前,招商局集团、中国建筑集团、中国物流集团已经通过ADAQ质量评估,部分央企正在洽谈后续的深入合作。
三是积极探索使用合成数据等新技术解决大模型数据瓶颈。合成数据在增加数据量、提高数据质量、增强数据多样性、保护隐私和安全等方面,形成了对大模型训练数据的有效补充,并已经被应用于自动驾驶和金融服务领域。中国信通院编制形成《人工智能合成数据生成和管理能力要求》行业标准,面向数据服务方提供人工智能合成数据生产和应用能力建设指导,同时也为数据应用方和需求方提供选型规范。
数据赋能企业“AI+”发展,将逐步形成“数据-算法-应用”的生态协同,以标准化体系破解跨域协作难题,以智能化工具提升数据生产效能,以合规可信框架保障数据要素安全流通。高质量数据集不仅是技术竞争的 “硬实力”,更将成为产业升级的 “催化剂”,为“人工智能+”场景落地开辟无限可能,助力我国在全球智能产业变革中抢占先机、引领未来。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
5G-A赋能机器人火炬接力:中国移动以技术革新点亮全运科技盛宴
2025年11月,第十五届全国运动会将在粤港澳三地盛大启幕。这场赛事不仅是体育健儿的竞技场,更是前沿科技落地应用的“试验田”。其中,11月2日的机器人火炬接力作为本次全运会的核心创新亮点..[详细]
轻薄机型出师未捷身先死,长使业绩泪满襟
当iPhone Air宣布上市当天,随着各路评测内容解禁,一个显眼的标题也随之出现,那就是“注定停产”。轻薄机型的出现一方面让人们看到厂商正在挖掘全新市场空间,另一方面也勾起了小尺寸机型..[详细]
智能未来:宇宙为你闪烁
未来十年,你家的电表可能再也不用换电池,自动驾驶汽车能"看到"几公里外的路况,甚至海洋深处的传感器都能实时传回数据。这些不是科幻,而是刚刚在无锡物博会上发布的《2025全球..[详细]
智能IP广域网成为筑牢智算产业发展根基的关键一环
随着国家加速推动智算产业高质量发展,网络支撑能力已成为产业进阶的核心抓手,而作为关键基础设施的智能IP广域网,正凭借其在算力调度、数据传输中的核心作用,成为筑牢智算产业发展根基的..[详细]
大中华区市场失守 苹果寄望AI驱动未来增长
苹果公司公布的2025 财年第四季度财报呈现“冰火两重天”态势:全球营收1024.66亿美元同比增长 8%,净利润274.66亿美元同比激增86.4%,毛利率攀升至 47.18%。但作为第三大市场的大中华区却成..[详细]













