2025年8月,中国信息通信研究院人工智能研究所联合清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟数据委员会,共同发布《人工智能高质量数据集建设指南》,旨在为业界建设高质量数据集提供有实操价值的指导和参考。
随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升AI模型性能的关键,也是推动“人工智能+”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用高效落地。指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。
报告主要内容
1. 高质量数据集的定义与顶层设计。高质量数据集是指用于训练、验证和优化人工智能大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动信息的数据资源集合。国家部委、地方政府加力出台人工智能和数据要素相关政策,通过试点示范、工程项目、资金补贴等多种形式推动高质量数据集的建设、流通和开发应用。2. 高质量数据集的特征与挑战。高质量数据集具有高价值应用、高知识密度、高技术含量的“三高”特征。当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊、实施路径碎片化与技术底座薄弱三重挑战。3. 人工智能数据工程的核心要素。面向人工智能的数据工程核心旨在提升模型数据集管理与运营效率、提升数据集质量和数量、充分挖掘数据资源价值、保障模型数据安全可信,涵盖管理体系、开发维护、质量控制、资源运营、合规可信等五大核心要素(参考行业标准《大模型数据集开发管理能力分级及评估方法》),涵盖5个一级能力、21个二级能力和253项能力子项。
4. 高质量数据集建设“三步走”战略。首先,开展数据集体系规划,构建高质量数据集认知框架。其次,推动数据集工程建设,打造高质量数据集认知框架。最后,强化数据集质量检测,建立高质量数据集全流程管控机制。
5. 高质量数据集的建设流程。高质量数据集建设需经历数据设计和采集、治理、标注、质检、运营等流程类似石油“炼化”过程中的勘采、粗炼、精炼、质检、运营等流程,推动原始数据资源迈向智能应用。6. 对高质量数据集建设的展望。随着人工智能大模型应用从初步探索迈向更为复杂、智能的高阶阶段,对高质量数据集的规模、多样性、时效性以及处理速度的要求将会快速增长。展望未来,数据集工程、技术创新、质量评估、版权合规以及基础制度建设是推进人工智能高质量数据集建设的关键。
报告目录 一、高质量数据集成为人工智能应用升级的核心要素 (一)政策层面:“人工智能+数据要素”政策协同布局 (二)技术层面:人工智能技术演进重构数据工程范式 (三)产业层面:数据成为人工智能行业应用的护城河 二、高质量数据集建设的现状和难点 (一)高质量数据集的“三高”特征 (二)高质量数据集分类维度 (三)高质量数据集建设主体 (四)高质量数据集建设难点 三、搭建人工智能数据工程能力核心要素 (一)管理体系 (二)开发维护 (三)质量控制 (四)资源运营 (五)合规可信 四、高质量数据集建设路径设计 (一)体系规划阶段——构建高质量数据集认知框架 (二)工程建设阶段——打造高质量数据集生产体系 (三)质量监测阶段——构建高质量数据集全流程管控机制 五、高质量数据集“炼化”流程和技术 (一)数据设计和采集 (二)数据治理 (三)数据标注 (四)数据质检 (五)数据运营 六、总结展望和建议 (一)建立AI数据工程体系 (二)推动AI数据技术创新 (三)搭建全流程AI数据质量管理体系 (四)加快AI数据开发利用机制突破
主要专家简介
中国信通院人工智能研究所平台与工程化部副主任、高级工程师
李荪
中国人工智能产业发展联盟数据委员会主任。主要从事人工智能政策、标准、产业研究,聚焦多模态感知、数据可信治理等领域方向研究,参与国家部委产业研究和规划项目,牵头参与起草多项人工智能技术服务国际和行业标准,累计申请发表学术论文、专利、软著10余项。
中国信通院人工智能研究所平台与工程化部主任、高级工程师
曹峰
中国通信标准化协会互联网应用总体及人工智能工作组组长。长期支撑工业和信息化部、国家发展改革委、国家数据局等部委,参与多个国家层面人工智能政策和产业报告的起草、制定和推动落实,牵头人工智能国际、行业、团体标准60余项。
中国信通院人工智能研究所高级工程师
樊威
中国人工智能产业发展联盟数据委员会副主任。长期从事人工智能、高质量数据集、数据标注相关政策、标准、产业研究,聚焦人工智能数据治理等领域方向研究,牵头多项部委政策文件起草支撑工作,完成多项人工智能领域课题研究和研究报告撰写,累计发表学术论文30余篇,获得北京市科学技术奖1项。
来源:中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟
文件点击链接下载:人工智能高质量数据集建设指南.pdf
公众号“智慧城市行业分析”回复关键字“高质量数据集”获取更多高质量数据集相关文件