面向灾害天气场景的强对流天气人工智能应用训练数据集
推荐单位:中国气象局
申报单位:国家气象信息中心
一、背景
强对流天气突发性强、发展快、致灾性强,其准确预报是世界公认难题,传统预报方法在捕捉强对流天气局地性和瞬时性方面存在局限性。
“风清”等预报模型表明人工智能在天气预报领域具有较好潜力,但中小尺度强对流天气预报场景,缺乏高质量、有标注的数据集。
本案例基于多源、长序列、高时空分辨率的多维变量数据,自主研发了数据清洗、标签标注和特征因子提取算法,整编研发了与强对流天气尺度匹配的分钟和公里尺度数据集,标注样本量超157万个,构建了良好循环的“产学研用”协作生态,有效支撑强对流天气监测及预报模型应用和快速发展。

总体框架图
二、方案和成效
一是数据筑基,建成了高质量、有标注、可直接用于模型的强对流天气人工智能训练数据集。聚焦中小尺度强对流天气智能应用场景,整编了中国区域10年时序长度、超33.2万个事件的强对流天气历史个例库。研制了8年时序长度、超过157万个样本的短时强降水、雷暴大风和冰雹3种人工智能训练数据集,成果通过了中国气象局高价值产品准入,入选了中国气象局“十三五”科技成果,有效支撑上海“雨师”等强对流天气预报模型落地应用。
二是破解中小尺度天气标注难题,自主研发了强对流天气标签标注、特征提取技术及自动化工具。研发了基于多源数据交叉验证的数据清洗、基于机器学习的智能标注及融入专家知识的特征提取技术及自动化工具,数据处理和标注环节自动化率超85%,解决了数据量大、人工标注难等痛点问题,保证数据集持续迭代更新。
三是赋能应用,建立了“场景驱动—数据研发—模型研发—示范应用”的协同联动机制。依托项目合作、创新团队及工作组等方式,建立了“预报场景驱动—数据研发—模型研发—示范应用—反馈改进”的多领域协同发展模式,数据集有效赋能局地强对流天气智能预报及人工影响天气防雹作业等典型应用场景,支撑预报评分提升近10%。
三、创新点
一是构建了良好循环的“产学研用”训练数据集研发生态。聚焦预报应用场景,自主研发并提供统一的强对流天气训练数据集,与上海气象局、上海人工智能实验室等联合研发强对流天气预报算法,支撑“雨师”等示范应用。获批国家自然科学基金项目、发明专利并发表论文,“数据支撑—模型研发—示范应用”多向赋能,实现技术自主、算法共研、人才共育的良性循环。
二是填补了国内强对流天气人工智能应用训练数据集空白。通过专家经验和AI标注结合的方式,形成了包含强对流天气发生强度或落区标签及天气过程生消演变多尺度表征因子的数据集,可直接用于强对流天气智能预报模型训练,支撑局地强对流天气预报评分提升近10%,打造智能应用赋能示范。
来源:国家数据局

2.加入下方知识星球 ↓【数字科技专题报告】享受多量超值更多方案与报告
www.smartcity.team