清华孟庆国教授解读国家数据局行业高质量数据集行动方案:推动行业高质量数据集建设,实现与”人工智能+”同频共振

推动行业高质量数据集建设,实现与”人工智能+”同频共振——《关于推进行业高质量数据集建设行动的实施方案》解读

文 | 清华大学计算社会科学与国家治理实验室执行主任、教授 孟庆国

2587c68bae6fd6327e97e37b2714d0a5数据是人工智能发展的”燃料”,更是行业智能化应用的关键变量。近日,国家正式发布《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》),部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,明确了行业高质量数据集建设的重点任务和发展思路,推动数据集建设与”人工智能+”行动同频共振、互促共进。

一、推进行业高质量数据集建设的重大意义

(一)顺应AI技术跃迁的趋势

当前,人工智能正处于范式跃迁的关键窗口。人工智能正从大语言模型向多模态模型、从基础模型向行业模型、从内容生成向智能体自主决策、从数字智能向具身智能演进,对数据集的供给规模、质量和形态提出了更高要求。《方案》明确提出要面向预训练、指令微调、强化学习、测评等各阶段,推进多模态高质量数据集建设;面向智能体应用,加强知识库、知识图谱、本体等数据集及复杂任务规划、长程推理、决策执行等数据集建设;面向具身智能,加快物理交互、环境感知、运动控制等真机交互数据集建设,并积极布局世界模型等前沿方向。

(二)破解行业智能化发展需求

当前,我国行业数据集建设存在明显短板:高质量行业数据供给不足,行业专识数据匮乏,标注质量参差不齐,多模态数据集稀缺,数据集与模型训练需求之间的适配度不高。模型”通识有余、专识不足”,无法有效支撑人工智能在工业制造、医疗卫生、金融法律等领域的深度应用。数据集的短板,已经成为制约”人工智能+行业”落地的关键瓶颈。《方案》聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生等18个重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等5个创新领域,以需求牵引、急用先行的原则,系统推进高质量数据集建设,正是破解行业智能化发展的战略之举。

(三)加快数据要素市场化的需求

数据要素市场化面临供给方不愿供、需求方不会用、定价机制不清晰等核心难题,而行业高质量数据集天然具备需求明确、应用场景清晰、价值可量化等特征。《方案》在价值释放行动中,明确提出探索以词元(Token)为基础的价值体系,构建可量化、可定价的数据集价值体系;推动数据集在数据交易所挂牌交易,发展订阅模式、商场模式、定制模式等多元服务形态;鼓励数据集质押融资、作价入股、资产证券化等资产化创新,以行业高质量数据集为切入点,探索数据要素市场供给、需求和价格等市场化有效方案,为数据要素从”资源”走向”资产”提供了可行路径。

二、加快推进行业高质量数据集建设的路径

(一)以聚焦重点行业应用为指引,为行业高质量数据集指明方向

《方案》提出要”需求牵引、急用先行”原则推进行业高质量数据集建设。行业高质量数据集建设应精准锚定最具应用价值和经济带动力的行业领域,集中力量突破,形成可复制、可推广的示范经验,再梯次推广。强基扩容行动明确聚焦18个重点领域和5个创新领域,建立数据资源清单和数据集需求清单,以应用为牵引推进先行先试。发挥链主单位牵引作用,通过产业链上下游协同共建,将分散的行业数据资源转化为体系化的高质量供给,赋能行业智能化建设。

(二)以布局数据标注创新试验区为抓手,推动数据标注向专业化、智能化、体系化跃升

数据标注正从劳动密集型向知识和技术密集型跃升,标注人才也需从”量”的供给走向”质”的提升。《方案》提出要实施数标注攻坚行动,推动数据标注向知识密集型和技术密集型转变。推动标注从”以人为主”向”人机协同、专家深度参与”的多层次标注模式转变,发展”模型预标注+人工校准””人工标注+模型检验””模型预标注+模型检验”等智能化标注服务,并建立行业专家认证注册机制,推动专家深度参与指令微调、强化学习等专业知识标注。有序引导具备条件的地区因地制宜开展试验区建设,避免一哄而上,防止同质化、低水平重复建设。面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区,推动数据标注向知识密集型和技术密集型方向转变。培育一批数据标注龙头企业、独角兽企业、瞪羚企业,壮大数据标注产业。促进数据标注产业链上下游紧密协同,形成产业集聚效应。

(三)以数据应用赋能为着力点,提升行业高质量数据应用效能

数据集建设的最终目的是”用”,要能有效提升大模型质量。《方案》提出打造”数据飞轮“应用闭环——以模型应用牵引数据供给、以数据驱动模型迭代,形成”场景—数据—模型”协同发展的良性循环。将”以用促建”与”以建促用”有机统一:一方面,以”人工智能+”场景牵引数据供给精准匹配,用实际需求吸引更多数据资源汇聚;另一方面,以”数据要素×”行动深化数据集建设,利用模型应用产生的动态交互数据驱动模型能力持续提升。

(四)以数据全生命周期为锚点,提升行业高质量数据集管理和服务水平

管理服务行动贯穿数据采集、清洗、加工、标注、质检、测评、迭代、审计等全生命周期,依托数据科技技术,强化隐私保护计算、区块链等技术应用,确保数据可管、可控、可追溯。强调”物理分散、逻辑集中”的国家数据集管理平台建设,实现数据集目录、供需等信息的互联互通。按照数据持有权、使用权、经营权三权分置原则,明确数据集产权配置方案,在保障合法权益前提下适度拓展版权合理使用边界,探索弹性监管体系,打造权责清晰、合规包容的制度环境。坚持有益社会的价值导向,防范数据偏见与歧视,确保数据集建设成果惠及全民。

(五)以推动人工智能及产业发展为落脚点,壮大数据产业规模

行业高质量数据集建设核心就是要释放数据要素价值,促进人工智能产业发展,壮大数据产业规模。《方案》从三个层面部署价值释放:一是应用价值,推动数据集与模型精准适配,鼓励”以数换数””数模互换””数据托管””数算一体”等多种应用模式;二是商业价值,发展多元服务形态,探索词元交易等新型交易模式,构建可量化、可定价的数据集价值体系;三是资产价值,推进数据集资产盘点、登记、评估等试点,探索质押融资、作价入股、资产证券化等创新路径。同时,培育”为数据付费”的市场共识,推动数据采买纳入预算编制,构建健康可持续的数据市场生态,催生智能经济新增长点。

三、建设行业高质量数据集的重要保障

首先,要明确建设需求。行业高质量数据集建设必须从场景出发,从行业智能化应用的实际需求出发。脱离场景谈数据集建设,必然会造成浪费,难以可持续运营。应当深入各行业生产运营一线,系统梳理智能化应用的真实痛点,建立”场景—模型—数据”的需求反哺机制,让行业高质量数据集建设始终围绕真实需求展开,从破解行业发展痛点入手,从发展壮大人工智能产业为落脚点。

其次,要培育行业高质量数据集市场。当前数据集市场面临供需信息不对称、商业模式不成熟、付费意识薄弱等突出问题。要打通供需对接渠道,常态化举办供需对接活动,提升匹配效率。创新新商业模式,发展订阅、商场、定制等多元服务形态,探索词元交易等新型定价机制,让数据集的价值”看得见、算得清、付得出”。培育付费意识,发挥政府部门、国有企业、模型企业的示范引领作用,推动数据采买纳入预算编制,以”头雁效应”带动市场共识形成。

三是推动制度创新。数据集建设的深层次障碍,很多源于制度供给不足。要解决”数据有动力供出”的问题,需在数据权益确认、收益分配机制上取得突破,让数据持有方愿意供、放心供;要解决”安全高效流动”的问题,需在隐私保护计算、可信数据空间等技术保障和三权分置、弹性监管等制度保障上协同发力;要解决”高效利用”的问题,需在标准互认、质量测评、版权合理使用等方面形成制度合力。

来源|国家数据局

孟庆国教授简介

B88E223E7E507EA29338FF6D2E0_B40CEA71_8193

清华大学 长聘教授

清华大学博士

邮箱: meng@tsinghua.edu.cn

电话:010-62773827

清华大学公共管理学院教授、博士生导师,曾入选国家高层次人才计划,国务院政府特殊津贴专家。现任清华大学中国电子数据治理工程研究院院长、清华大学国家治理研究院执行院长、清华大学互联网治理研究中心主任、清华大学国际人工智能研究院首席专家、清华大学计算社会科学与国家治理实验室执行主任,中央党校(国家行政学院)兼职教授。

1997年毕业于清华大学,获工学博士学位,后入清华大学管理科学与工程流动站从事博士后研究。1999年留校,在清华大学公共管理学院从事教学和科研工作,先后聘为讲师(1999年)、副教授(2000年)、教授(2006年)。期间,2003-2004年在哈佛大学肯尼迪政府学院做访问学者。自2001年,还先后担任清华大学文科建设处副处长、清华大学公共管理学院副院长、党委书记、清华大学文科建设处处长等职务。

目前还兼任国家数据专家咨询委员会委员、国家电子政务专家委员会委员、中国-欧盟数字经济与网络安全专家工作组成员、中国电子信息行业联合会数据与治理专业委员会会长、中国行政体制改革研究会常务理事兼学术委员会委员、中国行政体制改革研究会行政文化委员会副会长、中国机构编制管理研究会常务理事、中国信息协会大数据专家委员会副主任委员、中关村大数据产业联盟副理事长,以及北京市大数据工作推进专家组副组长、浙江省政府数字化转型专家委员会委员等10余个省的电子政务或大数据专家委员会委员等社会职务。

【研究领域】

数字时代的政府治理、电子政务与数字政府、政府数据治理与智慧治理等。

近年来围绕研究领域,先后主持或参与国家社科基金重大招标项目、国家社科基金特别委托项目、国家自然科学基金重点项目、国家高端智库课题等纵向项目10余项,承担国务院办公厅、中央网信办等国家部门与北京市、浙江省等地方委托课题研究50余项。

围绕研究领域,累计出版相关论、编、译著7部;在《管理世界》《政治学研究》《社会学研究》、Government information Quarterly等国内外学术期刊发表中、英文学术论文160余篇;被《新华文摘》《人大报刊复印资料》全文转载20余篇;在《人民日报》《光明日报》《经济日报》发表署名文章10余篇。

主要成果曾获清华大学优秀教学成果奖、教育部中国高校人文社科研究优秀成果奖、全国党建研究会优秀成果奖、清华大学优秀博士论文指导教师称号,入选清华大学“学术新人”奖(优秀青年教授奖)、清华大学“良师益友”特别奖,以及北京市社科“百人工程”、北京市“四个一批”理论人才等荣誉或称号。

www.smartcity.team

为您推荐

发表回复