近期,以“数聚产业动能智启发展新篇”为主题的中国国际大数据产业博览会在贵阳圆满落幕。大会公布了多个高质量数据集建设相关的重要成员单位名单,中国移动成功入选第一批国家标准/技术文件验证试点单位,并入选中国信息协会数据标注专业委员会副主任单位、高质量数据集领航计划代表单位。同时,大会发布了高质量数据集的一系列关键建设成果并启动高质量数据集建设先行先试工作,中国移动成功上榜6个高质量数据集典型案例、获批2个高质量数据集建设先行先试项目,充分彰显了中国移动在高质量数据集建设领域的领军地位。

在此次国家数据局公布的首批104个具备高水平推广示范价值的数据集典型案例中,中国移动入选了6个案例,覆盖商务、公共服务与城市治理、低空经济、智能驾驶、文化旅游、研发创新等多个重要领域。这些案例不仅体现了技术的前瞻性,更具备极高的产业推广价值和实践示范意义:
在商务领域,中国移动构建了涵盖治理架构、标注产能、平台集群全方位能力的“数据飞轮”体系,形成涵盖226 个通用数据集与 151 个行业数据集的“数据飞轮体系打造行业高质量数据集”,有力支撑了中国移动九天系列通专大模型研发。当前,“数据飞轮”体系产生的数据集已赋能客服、政务、工业安监、办公、营销、出行、审计等各类场景应用充分激活数据资产价值,在经济效益和社会效益方面成效显著。
在公共服务领域,针对原始信令数据质量低、语义缺失、开发利用不足等痛点,中国移动打造“人时空三元组高质量数据集”,将其应用于出行大模型,以及交通、应急、文旅等行业相关下游任务推理。该数据集将数据完整度提升至100%,线路拟合精度提升至90%,标注自动化程度提升至70%以上。当前,相关出行分析能力已在北京、上海、东莞等城市用于对城市出行人群、外卖员、快递员、网约车司机等人群进行精准识别,为交通规划、出行管理决策、就业分析等需求提供精准支撑。
在低空经济领域,为切实解决港口监管、渔业执法及生态自然保护领域对智能化监管的迫切需求,中国移动通过整合多源低空数据,研发智能标注技术,构建“采集-标注-管理”全链条闭环体系,打造“低空经济领域高质量数据集”,构建20,000+ 高质量低空图像样本,覆盖50余种多维目标类别,相较传统人工标注效率提高超过300%,模型开发周期从数月缩短至2周内,助力低空算法研发成本大幅度降低。同时,依托该方案实现对海上违规捕捞、河道污染、基础设施等目标的识别与预警,为多个国家级和省级自然保护地的监测、土地资源管理、生态保护、灾害评估和应急救援提供数据支撑和决策支持。
在智能驾驶领域,中国移动紧密围绕城市治理与智能驾驶的核心需求,成功构建了“通导融合的高质量人车物时空行为与状态数据集”。该数据集依托中国移动自研的高精度时空信息云服务系统,融合厘米级定位技术与脱敏处理后的人、车、物轨迹及图像视频数据,构建出标准化、易复用的高质量时空行为与状态数据集,有效攻克了车路协同应用中的关键数据瓶颈。目前,该数据集已广泛应用于城市治理、交通优化、智能驾驶、低空经济及智慧农业等多个跨行业应用,为相关领域的数字化升级提供坚实数据支撑。
在文化旅游领域,中国移动依托自研多模态数据处理工具链,并引入行业专家协同完成数据标注,成功构建“文体文旅高质量数据集”。以此为基础,训练出专用于文体文旅行业的大模型,赋能多项创新应用。基于该大模型研发的AI智能解说系统,在咪咕视频应用中累计为1432场直播赛事提供精准、智能的实时解说服务;同时,依托大模型强大的内容生成能力,开发出AI文旅定制游助手,当前已成功部署于国资委“和美乡途”项目及全运会虚拟空间智能助手应用,有效提升了用户体验和服务智能化水平。
在研发创新领域,为进一步提升研发大模型在研发测试场景的性能,满足生产实际需求,中国移动构建“数据采集-数据处理-数据质量评估”高质量数据处理引擎,形成研发大模型数据集,并据此训练出具备代码补全、单元测试等能力的研发大模型,支撑研发全流程赋能需求。
此外,在国家数据局启动的高质量数据集建设先行先试工作中,中国移动两个项目入选首批名单。其中,“中国移动以‘四试’驱动体系化、工程化、场景化行业高质量数据集建设先行路径”项目,致力于通过技术融合提升数据生产效率,以场景支持赋能行业应用,以标准验证推动规范制定,以机制建设构建开放共享的治理框架,全面支撑行业数据基础设施建设与服务创新。“喀斯特地貌下智能煤矿行业高质量数据集”项目,围绕“1张专网+1个平台+N应用+AI”整体架构,针对煤矿智能化中数据、模型与决策割裂的核心痛点,聚焦数据资产化、生产智能与决策精准化,形成可复制的智能矿山解决方案及高质量多模态数据集,助力能源行业数智化升级和产业链融合发展。
未来,中国移动将持续为国家高质量数据集的发展贡献力量,与各方携手共同推动高质量数据集建设,为人工智能产业发展注入更多动能。