中国电信研究院高质量数据集建设方法及应用实践:系统性介绍了中国电信“3阶段-10步骤”高质量数据集建设方法论(附PPT与讲解视频)

640-105

2025年11月28日,中国电信研究院大数据与人工智能研究所技术负责人苏明兰,在2025数据要素发展大会上发表题为《高质量数据集建设方法及应用实践》的主题演讲,系统性介绍了中国电信“3阶段-10步骤”高质量数据集建设方法论,打造覆盖全生命周期的数据飞轮机制,实现从“数据沉淀”到“智能反哺”的正向循环。

苏明兰介绍,方法论第一阶段,主要为规划设计阶段。该阶段的目标是分析业务场景,以及明确不同业务场景下数据建设的目标,根据数据建设的目标进行技术的选型和基础算力设施的规划;第二阶段,数据集构建。聚焦语料、知识库、提示词等3大类数据,通过粗加工、中加工及精加工不同的数据处理手段,来提高数据质量,更好地赋能模型应用;第三阶段,应用落地阶段。围绕着大模型训练,大模型知识库构建,Agent构建,以及提示词等多个不同场景构建应用,同时也构造了数据回流机制,形成数据飞轮。该方法论的目的就是为了确保数据建设与应用精准匹配,从而更好地推动大模型应用的落地。

基于方法论,同步打造了配套的海翠大模型数据工具链。依托工具链平台,中国电信研究院已建成覆盖文本、图像、音视频等多模态数据的统一处理能力,支持从数据采集、清洗、标注到模型训练的端到端闭环管理,为集团内外部客户提供一站式数据生产解决方案。

640-106
cb1e435c4671dffb4aa81ab1b71286b8
dea4edc2dda4d22e382b20043a4fd767
7cbc517a6d49053f8c66681be9e7bbc4
4a85a3718e5b6bb45b25058e30e284cd
f3fc979ea165598a46b4334b9a33f3de
640-108
640-111640-109
640-113
640-112
640-114

d2c57113ef41d31d2e7198ca60127da7

> 详细内容请参考演讲视频 

来源:中国信通院-数据要素智库

www.smartcity.team

为您推荐

发表回复