从政策引领到价值落地:“模数共振”的实践与思考

模数共振

引言:一项关乎AI赋能制造业的关键政策

2026年1月,工业和信息化部等八部门联合发布《“人工智能+制造”专项行动实施意见》,明确提出到2027年,推动3至5个通用大模型在制造业深度应用,打造100个工业领域高质量数据集,推广500个典型应用场景。在这份勾勒未来两年中国制造业智能化转型蓝图的政策文件中,“模数共振”被列为创新筑基阶段三大核心任务之一,与强化人工智能算力供给、开发高水平行业模型并列。

何为“模数共振”?政策文件给出明确阐释:推动建立企业首席数据官制度,夯实企业数据治理基础;梳理适配行业模型需求的数据资源清单,将基础数据转化为高质量行业数据集,实现“以模引数”;加强数据工程能力建设,促进数据开发与模型建设深度融合,实现“用数赋模”。

这一政策设计直击行业长期痛点:数据与模型割裂的困境。在制造业等领域,海量零散数据无法直接用于模型训练,而模型迭代又对数据质量提出严苛要求。作为深耕人工智能训练数据领域二十余年的专业企业,海天瑞声亲历了数据产业的演进历程,也在一线实践中深刻体会到“模数共振”从政策理念走向落地实施的关键路径。本文将从政策解读视角出发,结合企业自身探索,探讨“模数共振”的深层内涵与实践方向。

一、政策解码:“模数共振”的顶层设计逻辑

1.1 从“割裂”到“共振”:政策设计的针对性

《“人工智能+制造”专项行动实施意见》对“模数共振”的界定,体现了政策制定者对产业痛点的精准把握。长期以来,企业在推进智能化转型过程中面临两难:一方面,数据部门采集存储的海量数据,因缺乏明确的模型应用导向,往往沦为“沉睡资产”;另一方面,算法部门训练模型时,又苦于找不到高质量、标准化的数据集,不得不从零开始清洗标注,效率低下且成本高昂。

“模数共振”的政策设计,正是要打破这一困局。它以模型训练需求和场景化应用为牵引,倒逼企业数据治理升级,将零散、低价值的数据转化为可用于模型训练的高质量标准化数据集;同时,以高质量工业数据反哺模型的迭代优化,让模型深度匹配制造业实时性、可靠性、安全性的核心要求。这种双向闭环的设计逻辑,体现了从“有什么用什么”到“要什么产什么”的思维跃迁。

1.2 数据治理:政策落地的第一块基石

政策特别强调“夯实企业数据治理基础”,提出推动建立企业首席数据官制度,持续推进数据管理能力成熟度国家标准贯标。这一安排的深层考量在于:没有扎实的数据治理,再先进的模型也是空中楼阁。

制造业场景的复杂性决定了数据治理的难度。工业数据来源多样、格式各异、质量参差不齐,从设备运行的时序数据到质检环节的图像数据,从供应链的文本记录到研发设计的图纸文件,多模态数据并存且标准不一。要实现“以模引数”,首先必须让数据“说得清、管得住、用得好”。这正是数据治理的核心使命。

1.3 一体化机制:政策创新的亮点

政策提出“探索建立‘数据协同、模型训练、应用开发、安全保障’一体化机制”。这一表述蕴含着对传统线性模式的超越。过去,数据、模型、应用、安全往往是不同部门、不同阶段、不同供应商的“分段作业”,协同成本高、迭代周期长。一体化机制的提出,意味着政策鼓励企业构建贯通数据全生命周期与模型迭代全流程的闭环体系,让数据与模型在持续互动中共同进化。

二、理论筑基:理解“模数共振”的深层逻辑

2.1 数据的新角色:从“燃料”到“教官”

在传统认知中,数据常被比喻为人工智能的“燃料”——提供能量,但不参与动力系统的设计。然而,“模数共振”赋予了数据更积极的角色。数据不仅是模型的“燃料”,更是模型的“教官”。它通过标注、反馈、校验等方式,引导模型理解行业规则、掌握专业逻辑、规避认知偏差。

这一角色转变的深层含义在于:数据的价值不再仅由规模决定,更由质量和对模型进化贡献度决定。一条精准标注的边缘案例数据,对模型性能的提升可能胜过千条常规数据。这要求数据供给方从“批量交付”思维转向“价值共创”思维,深度理解模型需求,持续优化数据质量。

2.2 模型的新角色:从“消费者”到“筛选者”

相应地,模型也从被动的数据消费者,转变为主动的数据筛选者甚至生成者。在训练过程中,模型可以识别自身不确定性高的样本,反馈给数据团队进行针对性标注;在数据稀缺的场景,模型可以辅助生成合成数据,反哺自身迭代;通过持续评估自身输出,模型可以发现认知盲区,引导数据采集方向。

这种角色转换,使模型与数据的关系从单向投喂变为双向互动。模型告诉数据团队“我需要什么”,数据团队告诉模型“你应该学会什么”,二者在持续对话中共同成长。

2.3 双向闭环:共振的核心机制

“模数共振”的核心,是构建“数据治理—数据集建设—模型训练—场景落地—数据反哺—模型升级”的良性循环。这一闭环包含两个方向的作用:

“以模引数”:模型需求牵引数据治理。模型在场景落地中暴露的短板、识别出的边缘案例、反馈的不确定性样本,成为数据采集、标注、治理的优先级指引。数据团队不再盲目作业,而是聚焦于对模型进化最有价值的数据。

“用数赋模”:高质量数据反哺模型升级。经过治理的高质量数据集,用于模型训练、微调、对齐,提升模型在特定场景的性能表现。模型能力的提升,又使其能更精准地识别自身不足,开启新一轮共振循环。

三、实践落地:“模数共振”探索

3.1 夯实治理基础:多模态数据智能标注与管理平台

践行“模数共振”,首先需要具备扎实的数据治理能力。海天瑞声自主研发的多模态数据智能标注与管理平台,正是这一能力的集中体现。该平台构建起覆盖“采集—清洗—标注—质检—训练—回流”的全生命周期管理体系,具备多模态数据处理及智能管理能力。

在技术能力层面,平台已建成涵盖智能语音、自然语言处理、计算机视觉等领域的专业化数据处理工具200余种,智能化算法自动标注模型100余种。在视觉数据领域,创新融合3D/4D点云连续帧平滑算法,显著提升自动驾驶等场景的数据处理效率与精度;在语音数据领域,建立基于元学习的自适应语音偏误检测和诊断模型,提高语音数据库质量;在文本数据领域,构建多样态数据到文本数据的对齐方法,解决语料库构建中的内容可控与个性化问题。

在规模化供给层面,平台已面向超1000家国内外人工智能研发企业及机构累计提供约7500次高价值数据产品/服务,在大模型训练、自动驾驶、内容生成等22个领域成功应用。生产系统入驻企业达1700家,汇聚数据工程师60万余人,建立覆盖全球200余种语言的工业化数据生产资源网络。这一基础设施为“以数赋模”提供了坚实的底座支撑。

3.2 探索一体化机制:从数据到模型的闭环服务

政策提出探索“数据协同、模型训练、应用开发、安全保障”一体化机制。海天瑞声在服务实践中,正朝着这一方向持续探索。

在数据协同层面,团队深入理解客户的模型训练目标与性能瓶颈,设计针对性的数据采集与标注方案。例如,在为某头部车企提供自动驾驶数据服务时,团队分析其模型在复杂路口场景下的识别短板,定向采集相关路况数据,使模型在该场景下的识别准确率提升超过15个百分点。这正是“以模引数”的微观体现。

在安全保障层面,海天瑞声高度重视数据安全合规治理。公司申报的《DOTS一体化数据服务平台下的数据安全合规标注治理实践》入选数据安全合规治理实践与创新优秀案例,构建了覆盖数据采集、标注、存储、使用与流转的合规治理机制,实现安全管控与业务效率的协同提升。这为“模数共振”的合规开展提供了重要保障。

3.3 布局前沿领域:具身智能数据训练场

随着人工智能向物理世界延伸,具身智能成为前沿方向。2025年8月,海天瑞声具身智能数据训练场正式揭牌成立,汇聚元客视界、艾欧智能、知行机器人等10多家产业链上下游企业,联合构建覆盖感知、决策、执行各环节的产业生态矩阵。具身智能数据训练场将实现“数据采集—模型训练—场景验证”的全流程闭环,加速机器人技术从实验室走向应用。海天瑞声联合创始人、CEO李科表示,未来将与更多具身智能企业落地训练场,发挥头部数据公司在人工智能数据资源、项目以及技术上的优势,夯实产业发展基础,破解数据发展“瓶颈”。这一布局,正是“模数共振”理念在新兴领域的延伸。具身智能对数据的需求更为复杂——不仅需要静态的标注数据,更需要动态的交互数据、场景数据、多模态融合数据。通过构建数据训练场,让机器人在真实或仿真的场景中采集数据、训练模型、验证能力,形成“应用—数据—智能—应用”的正循环,这正是“模数共振”在物理世界的生动实践。

四、生态共建:迈向“模数共振”的协同之路

4.1 企业层面的内生能力建设

“模数共振”的落地,首先需要企业自身具备相应的内生能力。政策提出推动建立企业首席数据官制度、推进数据管理能力成熟度国家标准贯标,正是着眼于夯实企业数据治理基础。

对制造业企业而言,这意味着需要将数据治理从“后台”成本中心提升为“前台”战略职能。建立专门的数据治理团队,明确数据权责,制定数据标准,打通数据孤岛,让数据真正成为可治理、可运营、可赋能的资产。同时,需要加强数据工程能力建设,培养既懂数据又懂模型、既熟悉业务又掌握技术的复合型人才。

4.2 行业层面的协同机制创新

“模数共振”不能仅靠单个企业的单打独斗,更需要行业层面的协同创新。政策鼓励龙头企业联合建设面向特定行业的“人工智能+制造”应用中试基地与共性技术平台。在化工、高端装备等优势产业,可以牵头制定细分领域工业数据标准,共建国家级高质量行业数据集。

海天瑞声的实践表明,数据服务商在行业协同中可以发挥独特价值。通过平台汇聚产业资源,推动数据标注从“劳动密集型”向“知识密集型”转型;通过参与标准制定,推动高质量数据集建设的规范化、体系化;通过生态合作,让数据要素的价值真正实现高效释放、充分流转。

4.3 政策层面的持续引导与保障

“模数共振”从政策理念走向广泛实践,离不开政策的持续引导与保障。当前政策已在多个层面做出部署:在资金支持方面,鼓励地方给予企业“算力券”“模型券”等支持,降低企业开发应用成本;在标准引领方面,推动基础标准、通用标准、赋能应用标准研制;在人才引育方面,支持高校院所设置交叉学科,培养既懂人工智能又懂制造业应用的复合型人才。

未来,期待政策在以下方面持续发力:一是推动公共数据分类分级开放,让更多高质量公共数据依法合规赋能产业发展;二是支持数据安全合规治理技术创新,为“模数共振”提供坚实的安全底座;三是培育一批懂行业、懂数据、懂模型的赋能服务商,形成专业化、体系化的产业服务能力。

五、结语

“模数共振”的政策提出,标志着产业界对数据与模型关系的认识进入新阶段。它不是简单的“数据+模型”物理叠加,而是二者深度融合、双向赋能的化学反应。从政策设计到企业实践,从数据治理到模型迭代,从通用能力到垂直行业,“模数共振”正在成为人工智能赋能新型工业化的关键支点。

作为这一进程的参与者与见证者,海天瑞声深刻体会到:践行“模数共振”,需要夯实数据治理之基,探索一体化协同机制,布局前沿应用领域,更需要与产业伙伴携手共建开放协同的生态体系。唯有如此,才能让数据真正“活”起来,让模型真正“懂”行业,让人工智能在千行百业落地生根、开花结果。

面向未来,海天瑞声将继续深耕数据智能领域,以扎实的工程化能力服务产业智能化转型,以开放的合作心态参与生态协同创新,为“模数共振”从政策理念走向广泛实践贡献企业力量。

信通院人工智能研究所【专栏介绍】

模数共振行动是打造“以模引数、用数赋模”的双向闭环共振体系 ,打破长期存在的“数据与模型两张皮”困境:以模型训练需求和场景化需求为牵引,倒逼企业数据治理升级,将零散、低价值的数据,转化为可用于模型训练的高质量标准化数据集,实现“以模引数”;以高质量工业数据反哺AI模型的迭代优化、场景适配与规模化落地,让模型深度匹配制造业实时性、可靠性、安全性的核心要求,实现“用数赋模”;最终形成“数据治理-数据集建设-模型训练-场景落地-数据反哺-模型升级”的良性循环,让数据与模型双向赋能、协同共振。

有鉴于此,本专栏将邀请行业专家、政策制定参与专家、工信部智库权威学者、高校科研院所学者、企业高管等行业顶尖力量,以“政策解码-理论筑基-实践落地-生态共建-前瞻探索”为核心脉络,层层递进展开深度专业分享。

作者简介

黄宇凯 北京海天瑞声科技股份有限公司CTO、副总经理,长期从事人工智能数据领域,具备丰富的行业经验,参与多项数据核心技术授权发明专利的申请,参与多项数据标注能力相关的国家及行业标准研制。北京市科学技术进步奖二等奖获奖人,曾带领团队承接工信部第一二期人工智能揭榜挂帅项目并取得优胜单位,2025年带领团队承接数字经济中央预算内投资专项项目。

来源:信通院人工智能

www.smartcity.team

为您推荐

发表回复