
在人工智能需求和政策持续推动下,高质量数据集建设已成为各行业关注重点,部分行业正涌现具有示范性的数据集建设成果,中央企业在供给能力、工程化体系和应用落地方面展现出引领效应。
与此同时,数据交易市场加速活跃,各地数据交易机构上架及成交的高质量数据集产品数量持续增长。
配套的标准体系、技术工具、行业生态在加速形成,行业高质量数据集的建设路径和建设模式逐渐清晰。为梳理行业高质量数据集建设现状,中国电子数据产业集团、中国信通院云大所联合二十余家企业共同编写《重点行业高质量数据集建设调研报告》,通过分析智慧能源、工业制造、绿色低碳、金融服务、交通物流、医疗卫生、现代农业、移动通信、应急管理、文化旅游的特点与实践,为后续形成可落地的建设方法论打造基础。

中国信通院云计算与大数据研究所姜春宇主任
《高质量数据集建设观察》演讲,聚焦十大重点行业,系统阐述了政策支持下高质量数据集建设的技术与应用进展,剖析了当前面临的制度、标准、技术、生态等层面挑战,展望了中短期技术普及与长期协同生态的发展趋势。
传统模式下,数据反哺业务,形成“数据飞轮”。AI兴起后,“数据飞轮”升级为“数据-智能-业务”三维飞轮,数据需通过智能环节实现对业务的精准赋能。
随着智能算力、模型训推等对数据集依赖的日益加深,高质量数据集的重要性愈发凸显。在此背景下,我国政府通过一系列措施,着力推动高质量数据集建设,从“人工智能+”行动的顺利发布,到《高质量数据集建设指引》对外亮相,政策层面已形成多层次的支撑体系。
伴随高质量数据集的建设,各类交易平台已开始上架高质量数据集,以央国企等行业龙头为建设主体,成为推动建设工作的核心力量。
为进一步推动重点行业高质量数据集建设,中国信通院在国资委支持下开展了专项调研,覆盖10个重点行业、20家重点央企,通过实践调研、专家访谈等,全面掌握行业高质量数据集建设情况。
十大行业的数据特点:
- 在智能能源领域,石油天然气数据具有碎片化特点,电网运行数据具有高保密特征;在工业制造领域,数据具有多源性、强时序性、高价值性等特征;
- 在绿色低碳领域,数据涉及范围广、来源丰富、跨领域性强、国际化程度高;
- 在金融服务领域,存在结构化、半结构化、非结构化等多种数据;
- 在交通物流领域,细分领域较多,数据模态较为丰富;在农业农村,数据来源广泛,时间依赖性和季节属性强,部分领域存在噪声多、缺失多、来源分散的问题;
- 在医疗卫生领域,数据具有高敏感、专业性和格式多样的特点,在隐私性、完整性和安全合规方面要求严格;
- 在应急管理方面,数据分散在多部门、多区域、多系统之间,存在采集标准不统一、数据互通不畅的问题;
- 在移动通信领域,数据规模庞大、实时性强、关联度高;
- 在文化旅游领域,数据具有多模态、多来源、长尾分布明显、情感表达丰富、审美标准多元、依赖文化语境的特点。
行业高质量数据集建设存在四大挑战:制度机制不健全、标准体系未完善、技术能力较薄弱、数据生态较局限。
中国信通院制定了一系列标准体系,指导企业构建研发、交付、运维、运营一体化的生产流程;搭建了全方位服务能力,涵盖质量评价、建设运营评估、技术支撑等;形成了平台工具的技术规范,明确数据处理与管理的技术要求;构建了高质量数据集标准体系,为业界提供参考。
展望未来,高质量数据集建设工作刚刚起步,后续需在制度、标准、技术、生态等方面形成合力,充分发挥数据、智能与业务的飞轮效应,形成繁荣、可持续的产业生态,持续赋能各行业智能化转型。

基于企业实践和调研反馈,报告基本明确了中央企业作为国家战略科技力量的重要组成部分,在高质量数据集体系建设中所发挥的必不可少的示范引领作用。
当前行业在制度机制、标准建设、技术能力和生态协同等方面仍存在问题挑战,如跨域流通授权等机制尚未完善,行业级标注规范和质量评价等标准仍在构建,多模态处理、数据迭代、全流程贯通等能力仍需增强,数据产品的服务化运营体系尚未成熟。
整体来看,未来的发展方向将更加聚焦制度完善、技术增强与生态共建的协同推进,中央企业的实践经验与开放合作有望进一步推动建设能力的规模化提升,促进高质量数据在可信流通、持续运营和价值转化方面发挥更大的支撑作用。
以下为现场部分PPT内容:












来源:中国信通院云计算与大数据研究所

