2025年8月28日下午,在2025中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》正式发布。
《高质量数据集建设指引》是在国家数据局指导下,由中国信息通信研究院、国家数据发展研究院、中国电子技术标准化研究院、国家信息中心、国家发展和改革委员会创新驱动发展中心、中国电子信息产业发展研究院等单位联合编制。
中国信通院院长余晓晖围绕高质量数据集建设背景、应用需求、建设成效、建设方法与实践、建设运营体系、建设推进思路等话题进行了解读。
【核心观点】
党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。随着“人工智能+”行动的深入推进,高质量数据集已成为训练高效人工智能模型的关键支撑。
回顾过去十年,我国与全球共同推进数据链建设,逐步打通生产、商业等多环节,有效促进了制造智能、产业智能与商业智能的发展。当前,以大模型技术为代表的新浪潮正推动数据与场景更深层次融合,持续驱动模型的优化与迭代。在这一进程中,高质量数据集肩负关键使命——它不仅是突破“数据墙”的核心支撑,更在提升智能水平、深化对物理世界理解与智能涌现方面发挥着不可替代的作用。
那么,何为高质量数据集?在国家数据局的指导下,我们对这一概念进行了梳理。高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。
数据集的高质量体现在规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等方面,可以用规范性、完整性、合规性、多样性等十多个通用指标来量化评价。
高质量数据集的应用需求呈现出层次化与专业化特征。
从建立世界基本认知,到解析复杂场景关系,再到规划执行具体行动,每一层都承载着不同的学习目标和能力要求。
数据质量的定义需与人工智能发展的不同阶段相契合,这背后需要大量细致的匹配工作。例如,国家数据局最新发布的一百多个高质量数据集典型案例,正是基于不同行业和领域的实际需求,既要涵盖规范性、准确性、完整性等通用质量要求,也需融入行业特有的质量指标,体现出显著差异化和定制化的特点。
在党中央、国务院的统筹部署下,我国高质量数据集建设取得显著成效。目前全国已建成超过3.5万个高质量数据集,每日Token消耗量实现高速增长,总体呈现出“统筹规划、分层推进、多元协作”的鲜明特点。刚发布的高质量数据集典型案例也是非常有代表性的,反映中国在这个领域所做的一些重要的进展,这些数据可以用于人工智能大模型的开发,有非常重要的意义。
虽然高质量数据集建设已取得初步成就,但在实践中仍面临数据供给、技术工具、标准规范、安全合规、商业模式等多方面挑战。
为解决这些问题,《高质量数据集建设指引》旨在凝聚行业共识、破解发展瓶颈,为推进高质量数据集建设提供方向性指引与行动参考。
《高质量数据集建设指引》提出“1+1”参考路径,即1套建设方法论和1套建设运营体系。该路径系统梳理了典型模式、核心环节、关键技术与质量评价等内容,为企业提供清晰可行的实践指南。
建设方法论聚焦多个核心环节和关键技术,并构建起可衡量、可优化的数据集质量体系,助力企业高效推进高质量数据集建设。
建设运营体系也非常重要。我们不光是能够规范地进行数据收集,在形成数据集后,从运营管理、工程建设,怎么形成完整、可持续的应用体系,也是需要进一步探索和解决的问题。
高质量数据集建设是一项需要各界协同的系统性工程,更是我国面临的重要战略机遇。我们期待与政府、企业、科研机构等各方凝聚共识、形成合力,共同从制度设计、技术攻关与生态培育等多方面推进工作!
力争以体系化思维优化高质量数据集建设布局,以设施化手段促进高质量数据集流通利用,以生态化环境保障高质量数据集可持续发展,构建覆盖全流程、贯通各环节的高质量数据集建设格局。
报告核心目录
目录
一、高质量数据集建设背景
(一) 高质量数据集的发展背景
(二) 高质量数据集的概念内涵
(三) 高质量数据集的分类
二、高质量数据集应用需求
(一) 基础认知层数据集需求——建立世界的基本认知
(二) 场景理解层数据集需求——解析复杂场景关系.
(三) 行动规划层数据集需求——规划执行具体行动
三、高质量数据集建设现状
(一) 全球高质量数据集建设现状
(二) 我国高质量数据集建设现状
(三) 高质量数据集建设困难与挑战
四、高质量数据集建设方法与实践
(一) 典型建设模式
(二) 建设核心环节
(三) 建设核心技术
(四) 数据集质量评价
五、高质量数据集建设运营体系
(一) 高质量数据集体系规划
(二) 高质量数据集工程建设
(三) 高质量数据集运营管理
六、高质量数据集建设推进思路
(一) 体系化布局高质量数据集建设
(二) 设施化推进高质量数据集应用
(三) 生态化赋能高质量数据集发展
下载方式

2.加入下方知识星球 ↓【数字科技专题报告】享受多量超值更多方案与报告
www.smartcity.team