必读视频专题飞象趣谈光通信人工智能低空经济5G手机智能汽车智慧城市会展特约记者

高质量数据集驱动AI模型突破与创新

2025年6月12日 14:36通信信息报作 者:叶菁

高质量数据集,简而言之,就是那些具有高价值、高密度且标准化的数据。在人工智能领域,它扮演着至关重要的角色。北京公开征集行业高质量数据集需求和建设成果的通知;国务院国资委发布了首批包含10余个行业30项的央企人工智能高质量数据集建设成果。随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。

高质量数据是AI应用可靠性的保障

数据集的质量直接影响着人工智能的“智商”。

政策层面的举措充分体现了高质量数据的重要性。国家数据局等17部门已联合印发《数据要素×三年行动计划(2024—2026年)》,鼓励科研机构和龙头企业共同打造行业共性数据资源库。

而在第八届数字中国建设峰会上,国务院国资委更是发布了首批涵盖多个行业的高质量数据集,为人工智能产业注入了新的活力。这不仅展示了央企在人工智能领域的积极探索和实践,更体现了高质量数据集对于推动行业发展的关键作用。这些高质量数据集为AI模型在相关行业的应用提供了坚实的基础,使得AI模型能够更准确地理解和处理复杂的业务场景,从而保障了AI应用在实际生产中的可靠性。

高质量数据集建设正处于探索阶段

《全国数据资源调查报告(2024年)》预测,2025年全国数据生产总量将突破50ZB。当前,高质量数据集主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱三重挑战。

许多企业和机构在建设高质量数据集时,缺乏明确的目标和定位。这导致在数据采集过程中出现盲目性,收集了大量无关或低质量数据。

高质量数据集建设涉及多个环节,包括数据采集、清洗、标注等。目前,这些环节之间缺乏有效的协同和整合,导致实施路径碎片化。

高质量数据集建设需要先进的技术支持,如数据存储、处理和分析技术等。然而,一些企业和机构的技术底座相对薄弱,无法满足大规模、高复杂度数据处理的需求。

系统推进高质量数据集建设

国家数据局副局长夏冰强调,数据集的质量和效率提升对于人工智能赋能实体经济的推动作用不容忽视。因此,需要从多个维度系统推进高质量数据集建设工作。

首先,产业合作是推进高质量数据集建设的重要途径。不同企业和机构在数据资源、技术能力和专业知识等方面存在差异。通过合作,他们可以共享数据资源,整合各方优势,共同打造高质量数据集。

其次,数据标注是高质量数据集建设的关键环节。数据标注的质量直接影响到AI模型的学习效果。建立专业的数据标注基地,能够提供标准化、规范化的数据标注服务。

最后,建设数据平台是整合数据资源、提高数据管理效率的重要手段。数据平台可以将各个部门和系统中的数据进行整合和集中存储,采用先进的存储技术和安全机制,保证数据的安全性和可靠性。

编 辑:章芳
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐阅读

精彩视频

精彩专题

关于我们广告报价联系我们隐私声明本站地图

CCTIME飞象网 CopyRight © 2007-2025 By CCTIME.COM

京ICP备08004280号-1 电信与信息服务业务经营许可证080234号 京公网安备110105000771号

公司名称: 北京飞象互动文化传媒有限公司

未经书面许可,禁止转载、摘编、复制、镜像