广东省作为全国交通数据资源最为密集的地区之一,丰富多样的交通场景、复杂多变的交通状况,为高速公路高质量数据集建设提供了真实且宝贵的素材,使得基于这些数据所构建的数据集更具代表性和实用性,能够为交通行业的数字化转型提供有力支撑。
一、政策锚定:高质量数据集成为交通强国的“数字基石”
2025年,一系列国家级政策明确了高质量数据集建设的战略方向:国务院提出“打造开放共享的高质量科学数据集”,国家数据局将交通领域列为重点,强调加强数据标注与行业数据集建设,交通运输部进一步规划到2030年底建成一批服务多场景的高质量数据集,形成数据集驱动的模型应用案例,满足世界领先模型训练需求。这标志着高质量数据集建设已从行业自发行为升级为国家战略布局的核心内容。
交通运输行业拥有公路网通行、气象、施工围蔽等全链条数据,但长期存在“分散存储、价值沉睡”的困境。高质量数据集建设的核心目标是打破数据壁垒,将碎片化数据整合为标准化产品,为人工智能技术规模化应用提供支撑。例如,通过整合高速公路实时通行、历史流量、沿线气象等多源数据,可实现交通流量实时预测与精准调控,通过情报板、导航软件等渠道引导车辆分流,有效缓解拥堵。
二、建设方案:高速公路高质量数据集建设方案
(1)顶层设计规划:体系化布局与标准引领
基于物联网、数据中台、流媒体中台及高精度数字底图,打破数据壁垒,实现多源数据统一汇聚与治理,构建高效数据流转体系和“行业通识+专识场景”双层数据集体系,兼顾基础数据标准化建设与场景化数据深度挖掘,明确了清晰的建设路线图。

图1- 高质量数据集建设架构
标准建设方面,2025年6月广东省交通运输厅发布国内首部聚焦“纵向到底、横向到边”的《广东交通数字底座暂行技术规定》与《广东交通数字底座公路数据接入暂行技术要求》。
该规范明确了数字底座功能架构、数据接入方式、质量标准及传输协议,创新构建海量设备物联体系,整合收费网、监控网、电子政务网、互联网四网资源,形成跨域数据联网架构。
通过“本域统一服务交付+跨域可信数据空间交付”双轨机制,实现交通数据安全高效流通,为数据要素市场化配置提供标准化实施路径。
(2)数据汇聚治理:跨域融合与质量提升
跨域数据融合方面,交通数据涵盖域内(收费、监控、养护、电子政务等)与域外(手机信令、异常停车、气象、路政交警等)多源数据,格式与标准差异显著。
广东省依托交通数字底座数据中台,打破组织与数据域界限,整合分散异构数据,构建全景式数据视图,为数据集建设奠定全面的数据基础。

图2- 跨域数据融合汇聚
数据质量提升方面,引入机器学习智能清洗技术,自动识别重复、缺失或错误数据;采用半自动化标注工具结合专家知识,实现数据精准标注(如路面病害检测中图像算法自动标注+专家复核)。同时构建“技术规则(数据质量维度六性)+业务规则(业务逻辑校验)”双驱动质量管控体系,全方位保障数据质量。

图3 -多源异构数据清洗与标注流程

图4 -数据质量管控体系
(3)数据集分类分级:科学治理与目录导航
遵循 “业务导向 + 风险适配” 原则,先按业务属性分类,再依据数据敏感程度、影响范围,结合《数据安全法》及行业规范,分为一般、重要、核心三级(核心数据含涉密信息、关键运营数据等)。
关键步骤包括全面梳理数据资产、明确分类分级标准、建立动态调整机制,同步与数据治理、安全防护联动,既支撑跨部门数据共享,又保障数据全生命周期安全。通过构建结构清晰的数据集目录,直观呈现数据资产及分布情况,提升数据查找与管理效率,为数据资产管理提供支撑。

图5- 构建高质量数据集目录
(4)数据集订阅使用:多元通道与精准服务
搭建智能化数据门户,提供个性化推荐与场景导航功能,其中热门推荐区基于用户角色、历史行为及行业热点,动态推荐高价值数据集,如向养护人员推送“路面病害智能检测数据集”,向路网监测人员推送“交通流时空特征分析数据集”;场景导航区围绕“智慧调度”、“出行服务”等典型业务场景,聚合所需的多模态数据集、相关算法模型及典型应用案例,提供开箱即用的场景化数据包;一键搜索支持自然语言检索与条件筛选,用户可输入“元旦期间高速公路拥堵路段”、“桥梁裂缝图像样本”等业务语言,快速定位相关数据集,并可在线预览数据样本、查看数据说明与统计报告。
提供多样化订阅方式,并支持“定制化导出”与“实时流推送”,满足按需交付与灵活集成需求,定制化导出允许用户按需选择字段、筛选范围、设定格式,适配离线分析、报告编制等场景;实时流推送则基于Kafka技术,为AI中台、实时监控系统提供低延迟数据推送,频率可调。此外,针对不同用户,提供个性化适配服务:业务人员享有可视化界面、简易导出工具及操作手册;技术人员可获取完整API文档、SDK开发包及技术支持;AI中台获得标注数据集、批量获取通道及格式适配;行业数据空间则享有跨域共享接口、可信传输协议及权限映射机制。

图6- 高质量数据集订阅门户
三、建设成效:行业特色的“行业通识+专识场景”的双层体系
项目组基于前期承担的交通运输部课题《高速公路全周期高精数字化与治理技术及标准研究》,发布了《高速公路全生命周期地理要素高精度表达规范》与《高速公路交通流数字化表达技术规范》,并以此为指引开展落地应用,建设高速公路行业高质量数据集。
(1)通识数据集一次建设、多方复用
高速公路地理要素基础数据集:以《高速公路全生命周期地理要素高精度表达规范》为指导,聚焦高速公路全生命周期的地理要素。该数据集不仅涵盖了路线走向、沿线地形地貌、周边环境等基础地理信息数据,还纳入了高速公路在建设、运营、维护等不同阶段产生的地理相关数据,能够为高速公路的规划、设计、管理以及分析等环节提供坚实可靠的决策依据。
基础交通流特征数据集:以车流数字化为例,遵循统一的技术规范与数据结构标准,采用《高速公路交通流数字化表达技术规范》中明确的数据项定义、代码编码规则及接口要求,通过毫米波雷达、视频识别、ETC短程通信等感知设备连续采集车辆位置、速度、轨迹及交通事件等数据。结合数字孪生与高精度底图,实现交通流状态的精细化展示与数值化分析,形成涵盖车辆轨迹、交通事件、路网状态等核心要素的标准化数据集,为路网监测、预测预警提供支撑。
(2)专识数据集精准赋能、垂直突破
车路协同专识数据集:深度融合车辆感知数据、路侧雷达 / 摄像头数据、交通信号数据及路网拓扑数据,精准匹配高速场景核心需求。依托数据集实现超视距碰撞预警(适配高速高车速特性)、快速道龟速异常行驶提醒、匝道出口提前导航预警,同时提供服务区实时车位查询、充电桩使用状态指引等服务,支撑车辆与道路基础设施实时信息交互。该数据集不仅能优化高速行驶路线规划,大幅提升通行效率与安全防护水平,更能为高速场景自动驾驶技术研发提供真实、丰富的多源异构数据支撑,加速高阶自动驾驶在高速公路领域的规模化落地。
四、结语
高速公路高质量数据集建设以政策为引领、技术为支撑、场景为驱动,将碎片化数据转化为标准化数据产品,为人工智能技术在交通领域规模化应用提供核心支撑。其顶层设计的体系化布局与标准引领、数据采集与处理的多模态融合与自动化清洗、创新点的精准突破,为高速公路高质量数据集建设提供可借鉴参考的行业方案。

