2025年11月28日,中国电信研究院大数据与人工智能研究所技术负责人苏明兰,在2025数据要素发展大会上发表题为《高质量数据集建设方法及应用实践》的主题演讲,系统性介绍了中国电信“3阶段-10步骤”高质量数据集建设方法论,打造覆盖全生命周期的数据飞轮机制,实现从“数据沉淀”到“智能反哺”的正向循环。
苏明兰介绍,方法论第一阶段,主要为规划设计阶段。该阶段的目标是分析业务场景,以及明确不同业务场景下数据建设的目标,根据数据建设的目标进行技术的选型和基础算力设施的规划;第二阶段,数据集构建。聚焦语料、知识库、提示词等3大类数据,通过粗加工、中加工及精加工不同的数据处理手段,来提高数据质量,更好地赋能模型应用;第三阶段,应用落地阶段。围绕着大模型训练,大模型知识库构建,Agent构建,以及提示词等多个不同场景构建应用,同时也构造了数据回流机制,形成数据飞轮。该方法论的目的就是为了确保数据建设与应用精准匹配,从而更好地推动大模型应用的落地。
基于方法论,同步打造了配套的海翠大模型数据工具链。依托工具链平台,中国电信研究院已建成覆盖文本、图像、音视频等多模态数据的统一处理能力,支持从数据采集、清洗、标注到模型训练的端到端闭环管理,为集团内外部客户提供一站式数据生产解决方案。













来源:中国信通院-数据要素智库
www.smartcity.team
