大模型时代的石油化工行业高质量数据集：挑战与机遇

罗梦杰赵云鹏张梦轩石孝刚蓝兴英

（中国石油大学（北京）重质油全国重点实验室，北京 102249）

DOI：10.11949/0438-1157.20250806

摘要：通用大模型性能的提升与开源生态的完善，正推动人工智能迈入行业深度赋能的新阶段。石油化工行业作为典型的流程工业，长期运行中积累了海量原始数据。然而，这些数据普遍存在碎片化、非结构化和标注不足等问题，难以直接用于大模型训练。因此，通用大模型在石化专业知识的理解和应用上仍存在局限，幻觉问题频出，制约了其在石化行业的应用。聚焦大模型在石化行业应用的关键——行业高质量数据集，系统梳理了石化行业高质量数据集建设面临的挑战与机遇。结合行业数据特征，提出了一个面向石化行业高质量数据集建设与应用的通用框架，旨在为石化行业构建适用性强、可扩展的高质量数据集体系，最后探讨了数据集赋能行业应用的前景与发展方向，以促进大模型与石化行业的深度融合与应用。

关键词石油化工；高质量数据集；大语言模型；人工智能；过程系统；模型；化学反应器

引用本文：罗梦杰, 赵云鹏, 张梦轩, 石孝刚, 蓝兴英. 大模型时代的石油化工行业高质量数据集：挑战与机遇[J]. 化工学报, 2026, 77(1): 435-447(LUO Mengjie, ZHAO Yunpeng, ZHANG Mengxuan, SHI Xiaogang, LAN Xingying. High-quality datasets for petrochemical industry in era of large language models: challenges and opportunities[J]. CIESC Journal, 2026, 77(1): 435-447)

引言

石油化工行业是能源和基础原材料的重要支柱产业，主要生产燃料油品、化工基本原料和精细化学品等产品，典型流程如图1所示。据中国石油和化学工业联合会统计，2024年石化行业产值占国内规模工业总份额的11.8%，同比增长2.1%^[1-2]，在保障国家能源安全和支撑实体经济发展中具有重要地位^[3]。当前，石油化工行业正面临着结构性改革、降本增效和绿色低碳转型的多重压力，推动行业数字化转型、智能化改造是行业突破瓶颈、高质量发展的必然路径^[4]。

图1 石油化工行业典型流程与产品示意图Fig.1 Schematic diagram of typical processes and products in the petrochemical industry

近年来，以大模型为代表的新一代人工智能技术正在深刻重塑全球产业范式和经济形态^[5-6]。然而，由于工业的复杂特性，大模型在工业领域的应用呈现出显著的非均衡性：在电子制造、航空和汽车制造等离散工业中，大模型已实现初步规模化应用，如在卫星管理、智能驾驶和工业质检等多个场景有较多应用报道^[7-9]。相较之下，流程工业，尤其是石油化工行业的大模型应用目前仍处于探索阶段^[4,10-11]。尽管昆仑大模型^[12]、智能化工大模型^[13]和天枢智研大模型^[14]等行业大模型已在石化领域进行了初步的应用探索，但实际使用中，上述工业大模型产品仍存在生成内容深度浅、指令遵循能力差、生成内容幻觉多等问题，工业数据在模型的训练和应用中也存在较大安全风险^[5,15-17]。

大模型在工业领域应用的非均衡性，本质上源于不同类型工业在系统结构与数据特征上的差异。离散工业通常具有任务边界明确、模块化程度高、生产过程相对独立等特性^[18]，从而形成了结构化程度高、接口规范、变量间依赖性弱的数据特征，有利于大模型的快速落地与推广应用。然而，以石油化工行业为代表的流程工业数据则具有强时滞性、强非线性、高度耦合等特点^[19-20]。同时，石油化工行业的数据采集设备“万国造”现状，加剧了企业数据孤岛问题^[21]，增大了以大模型为目标的数据治理难度^[22]。此外，工业领域的多模态数据，包括时序信号、文本、图像、视频等，存在多源异构、维度复杂、变量耦合程度高的问题，语义对齐和数据标注难度极大，需要专家深度参与。上述数据问题显著增加了石油化工行业大模型训练和部署的复杂度。在高复杂、高风险的工业场景中，模型能力受限或幻觉现象的出现可能导致输出结果偏差、决策失误，甚至引发生产事故，这些因素严重限制了大模型在石油化工行业的安全应用。

行业高质量数据集是解决上述问题的关键^[23]。近年来，航空和材料等领域在高质量数据集建设方面取得了显著进展。例如，西北工业大学发布了“AeroFlowData”数据集，集成了近40个标准模型及500余组典型工况的科研数据，有效支撑了航空领域AI+科学研究和工程应用；北京科技大学和苏州人工智能实验室联合打造了“材料基因组”数据集，为新材料的智能设计研发提供了强大助力。相较而言，石化行业在高质量数据集建设方面进展较为滞后，行业缺乏数据集质量体系和标准化建设路径共识。为满足石化行业大模型在预训练、后训练、搜索增强和智能体建设中的数据需求，亟需一套覆盖行业通识和专识数据集的高质量数据体系。

基于此，本文系统性地分析了石化行业数据集建设中面临的核心挑战，提出一个面向石油化工行业高质量数据集构建与应用的通用框架，进一步明确石油化工行业高质量数据集的实用价值，并对石油化工行业高质量数据集未来的发展方向进行展望，旨在推动以大模型为代表的人工智能技术在石化行业的有效落地和安全应用，提高行业智能化水平，促进行业高质量发展。

1 石化行业高质量数据集建设面临的挑战

由于石油化工行业工艺流程复杂、数据来源多样，高质量行业数据集建设过程中面临资源梳理、数据汇聚、安全流通、建设路径、质量检测、标准规范等一系列有待突破的关键难题。当前石化行业高质量数据集面临的问题可划分为通用层面与行业层面两类。

在通用层面，高质量数据集构建的难点主要包括以下八大方面。

1.1 数据资源汇聚难

石油化工行业数据呈现“碎片化分布、壁垒化管理”的态势，石油化工企业内部固有的“装置中心制”生产模式，导致数据被装置边界和异构传感器系统分割，跨部门的数据流通存在系统性阻碍，企业内部的“数据烟囱”、“数据孤岛”现象严重^[17,21,24]；催化剂配方、关键设备参数与工艺流程设计等内容属于核心商业/技术内容，涉及商业机密与知识产权，供应链企业出于数据安全和技术壁垒等方面的考虑，相关数据相对封闭^[25-26]。此外，石化企业、科研院所、高等院校的数据存储架构相互独立，数据接口协议差异较大，难以实现多源异构数据的有效汇聚^[27-28]。

1.2 数据资源转化难

石油化工行业的数据具有较强的多来源、学科交叉和异构特性。其结构化数据主要来自传感器实时监测的温度、压力、流量等时序信号数据；非结构化数据包括工艺图纸、设备故障日志、检修报告、工艺操作流程等各类文档；多模态数据则包括安监视频、红外、雷达影像等设备数据^[29]。目前已有学者围绕工业数据资源转化开展了研究和应用^[27,30-31]，但石化生产过程的机理高度复杂，涉及到化学反应工程、传质传热与过程控制等多个学科，具有多场耦合与多尺度交互特性。因此数据资源的转化不仅需要大规模的数据清洗、结构化与标注，更需要对工艺机理、生产过程的深度理解。然而，行业内长期存在人工智能从业者不具备行业知识，行业专家不具备数据加工和模型训练能力的问题，在从数据资源向高质量数据集转化时具有较大的难度^[32-33]。

1.3 应用场景深入难

石油化工行业人工智能应用场景具有明显的多尺度、多场耦合、多维度融合特性^[34]，数据集建设与工业实际需求存在“场景断层”，难以支撑复杂场景需求下的智能决策。以流化催化裂化工艺中装置的结焦智能监控为例^[35]，需要汇集包括装置分散式控制系统（distributed control system, DCS）、实验室信息管理系统（laboratory information management system, LIMS）、装置模型、设备图纸、工艺说明书、检维修报告等行业专识数据，此外还需要汇集装置模拟仿真、结焦实验、原料性质分析等行业通识数据，数据集建设跨度和难度极大^[21]，且对于结焦异常工况数据获取和标注难度大^[36]，此类问题均阻碍了建立深入场景下的人工智能应用。

1.4 质量机理不明确

目前，人工智能数据集的建设缺乏系统、科学和标准化的指引，质量影响因素不明确，导致“垃圾数据进、垃圾模型出”，亟需形成一套全面、科学、可量化的数据集质量评价指标体系。尽管有学者围绕具体类型和场景的数据集质量评价方法开展了研究^[37-39]，但主要是针对离散工业过程，对于石油化工行业高度耦合复杂且连续性强的数据而言，难以直接成体系地套用。此外，对于石化行业数据集的质量评估不能仅停留在数据自身的完整性、一致性等通用维度，更需要深入挖掘石化设备、场景应用与数据集质量之间的耦合关系，抽象并定义能够反映石化行业机理的质量维度，如工艺机理一致性、时序数据的准确性、工况覆盖度与异常状态的标注准确性等。当前，形成一套具有较高抽象程度和行业适配性的数据集质量指标体系，对石油化工高质量数据集建设形成有效指导，并切实提高下游人工智能模型应用性能，仍具有较大的挑战。

1.5 全面程度保障难

整体而言，石油化工人工智能应用研发所需高质量数据集包括行业通识数据集、行业专识数据集两大类。在实践和研究中发现，当前石化行业的数据以传感器时序数据、设备状态数据等宏观流程数据为主，但对于揭示过程本质的微观机理数据严重缺失，如催化剂稳定性、反应动力学、装置内部多相流动特征以及分子物性数据等。数据集的行业覆盖广度与技术深度难以兼顾，存在“重生产、轻研发”“重流程、轻机理”的倾向。数据生态的不完善导致人工智能无法有效支撑石化工艺的核心创新，限制了从基础研究到工程应用的闭环设计，制约了“自下而上”行业级人工智能产品的研发。

1.6 建设路径不清晰

石油化工行业在实现从数据资源到人工智能应用有效赋能路径上，需进行数据采集、预处理、数据标注、模拟仿真与数据合成等核心建设步骤^[40-42]。然而，石油化工行业场景复杂度高、来源广，数据来源横跨分子级物性分析、装置级运行监控和全厂级优化控制多个尺度，其高质量数据集的建设涉及跨系统、跨部门、跨企业甚至是跨行业的数据流通。同时，第三方企业、高等院校和科研院所也参与其中，多方汇建主体在人工智能解决方案、数据集设计（包括数据类型、格式规范、标注规则以及质量要点等）尚未达成明确共识^[43-44]。在如此庞大复杂的体系下，难以在行业范围内形成统一且清晰的数据集建设路径，致使从数据采集到模型应用的全流程缺乏标准化作业流程。

1.7 标准规范不明确

目前，石油化工行业缺少覆盖数据集存储、数据集加工、数据集应用、数据资产管理和安全保障的高质量数据集标准体系，对跨主体协同与技术推广形成制约，突破石化行业标准体系建设，可有效促使行业从“数据孤岛”到“智能生态”的根本性跨越。在数据集存储方面，需重点围绕海量时序数据与非结构化数据的混合存储架构、存储格式，以及针对分子结构、工艺流程与生产资料等多模态数据的融合存储规则和接口规范、（图）向量数据库建设规范等方面形成适配石化行业的标准；在数据集加工方面，需重点围绕数据采集、数据预处理、数据标注、数据增强合成、数据集产品封装、数据集质量等方面形成标准，特别针对石化过程的工艺机理数据、异常事件标注等核心环节，建立相应的加工标准，确保数据成品能够反映石化生产过程真实状态；在数据集应用方面，需紧密贴合从实验室研发、中试放大到工业应用、生产优化的全规模场景链条，重点围绕石油化工行业研发设计、生产制造、运维服务、经营管理和中试实验等环节形成标准。此外，应加快制定石油化工行业应用场景价值评价标准，以有效指导数据集建设和价值评定；在数据集资产管理方面，需重点围绕数据资源分层分类、数据集资源目录、数据确权与共享等方面形成标准；在数据安全保障方面，需加快结合石油化工行业特点，形成数据资产分级规则，针对涉密工艺、催化剂配方、关键参数与敏感经营数据等不同级别的数据制定防护和流通要求，形成数据加密传输、访问控制等的标准规范，以应对在石油化工高质量数据集建设过程中数据跨域流动、多方协作带来的全新安全挑战。

1.8 数据安全保障难

石油化工行业高质量数据集建设需要多方主体参与，但数据安全保障面临复杂挑战。在数据跨域流通、跨行业流通以及供应链数据交互过程中，数据不可避免地在公有云、私有云、边缘计算节点间传输，易遭受恶意攻击、数据窃取与非法篡改，客观存在较大数据安全隐患^[45-46]。由于石化行业的固有属性以及产业链的深度耦合，使得数据安全与装置安全深度绑定，在石油化工大模型应用场景下，对抗样本攻击带来的风险被急剧放大，例如恶意攻击者可通过精心构造的异常数据样本，无需攻击工业控制系统，即可诱导工业控制系统做出错误决策，进而引发安全生产事故，严重危害装置长周期安全平稳运行；各类型污染样本风险同样不容忽视，单一样本的污染会通过连续高度耦合的流程被放大，如工艺参数、原料成分等数据若存在错误标注或污染，同样可能引发生产事故或产品质量问题。此外，在多方主体数据汇聚过程中，产权界定模糊导致数据权属纠纷频发，联合研发、供应链协同产生的高质量数据集难以明确各参与方权益，阻碍数据共享进程。

在石油化工行业层面，高质量数据集构建的难点主要包括以下四大方面。

1.9 传感器繁杂难统一

石化生产装置的监测系统涵盖温度、压力、流量、分率及产物分布等多维度数据，所依赖的传感器系统类型多样、型号繁杂。不同传感器在测量精度、采样频率以及数据输出与存储格式上差异显著^[47-48]，导致数据标准化与融合难度较大。同时，随着装置数字化升级推进，部分仍采用模拟信号输出的老旧传感器与新型数字传感器在接口协议和通信标准上存在兼容性问题，进一步加剧了数据采集、传输与集成的复杂性。

1.10 数据时空对齐难

石化行业人工智能建模依赖多源异构数据^[36]，不仅包括生产过程数据，还涉及实验室研发数据和中试放大实验数据。例如，在催化裂化装置的催化剂失活监测建模中，既需实验室层面的催化剂反应活性、原油残炭值及产品分布等理化指标，也需结合工业装置的反应器温度、压力等运行数据。然而，不同来源数据在采集频率上存在显著差异^[49]，DCS系统通常1~10 s为采样周期，而实验检测数据往往以小时或天为单位记录。在空间维度上，不同单元装置的测点分布不均^[50]，导致局部区域数据稀疏。此外，石化装置规模庞大、工艺路径复杂，系统响应存在显著滞后，参数调整与装置状态的因果关系往往出现较大时空错位，难以精确对齐。上述时间与空间尺度的不匹配，使得多源数据难以实现一致对齐，导致数据完整性受限、融合标准难以统一，从而成为制约石化行业高质量数据集建设的关键难题之一^[51-52]。

1.11 因果解耦难度大

石化生产过程是化学反应、传热、传质等多物理场高度耦合的连续过程，系统状态受多个因素的共同影响。例如，再生器温度变化不仅取决于反应放热，还受气固流态分布、催化剂循环速率及操作条件扰动等因素影响。石化过程的非线性耦合特征与时序滞后性共同作用，使系统对局部扰动表现出高度敏感性，扰动信号在传递中不断叠加放大，最终导致数据间存在复杂而延时的强相关特征。行业人工智能模型往往采用有监督学习方法训练，需要较多的因果对（x–y）数据，传统的统计分析方法难以有效分离多因素耦合效应，导致关键物理因果链条难以识别与验证。这种机理与数据层面的复杂耦合，显著增加了石化行业高质量数据集建设中样本筛选与标注的一致性难度^[53-55]。

1.12 工艺经验难量化

石化生产过程高度依赖操作人员的经验认知与感知判断，诸多关键工艺参数的调节与安全状态的判断，仍取决于长期积累的经验与多模态现场感知。例如，在催化裂化装置运行中，操作人员常通过观察再生器火焰的亮度与颜色定性判断燃烧是否充分，或通过辨识反应器气流声噪、设备振动频率等细微特征，识别结焦、积炭及催化剂循环异常等潜在故障。这类经验性知识虽极具工艺价值，却具有显著的主观性与模糊性，难以被传统传感器或控制系统直接捕获与量化，导致数据记录与实际工况语义之间存在明显“信息断层”。如何将操作人员与专家的经验判断转化为可量化、可复用的数据标签，并实现其与工况参数、声学信号、视觉信息等多模态数据的融合表征，已成为石化行业高质量数据集建设与智能化发展面临的关键挑战之一。

综上所述，石油化工行业高质量数据集建设面临资源分散、数据加工困难、场景适配不足及行业复杂特征导致的多重挑战，严重制约了行业大模型的深度应用与推广。

2 石化行业高质量数据集建设的机遇

尽管在石油化工行业中构建高质量数据集仍面临诸多挑战，但在国家战略支持与技术需求的双重驱动下，其发展正迎来重要机遇。一方面，国家高度重视行业高质量数据集建设工作，国家发展和改革委员会、国家数据局、工业和信息化部等部门相继发布了相关政策文件，为行业数据基础设施的完善与高质量数据集的建设提供了顶层设计与宏观指引^[56-60]。另一方面，随着大模型技术的不断突破，石化行业对智能化应用的需求日益增强，对高质量数据集的需求日益迫切，行业数据集的建设已经成为解决大模型与石化行业深度融合与技术落地的关键环节。

在此背景下，建立一套系统化、可落地的高质量数据集建设与应用的方法，成为推动大模型在石油化工行业实现规模化应用的关键路径。基于此，本文构建了一个面向石油化工行业的高质量数据集建设与应用通用框架，如图2所示。该框架主要包含基础层、质量层、协同层三个核心层级，旨在为石油化工甚至其他流程工业领域专用大模型的开发提供系统性的指导与实践范例。

图2 石油化工行业高质量数据集建设应用框架

Fig.2 Framework for the application and construction of high-quality datasets in the petrochemical industry

2.1 基础层

基础层是石油化工行业高质量数据集建设应用的根基，涵盖标准体系与保障体系两大核心部分。

标准体系为石油化工行业高质量数据集提供统一标准规范。针对石化行业装置中心制的生产模式与跨装置、跨系统的数据流通需求，加快制定围绕石油化工领域数据资源流通、质量评估、价值评价等方面构建覆盖全产业链的数据标准，为石油化工行业海量异构数据提供统一的“语言”规则，有效打破数据壁垒、破除跨主体协同障碍，以标准化手段促进石油化工行业高质量数据集的汇聚、建设、流通和应用。

保障体系为数据集建设应用提供全方位支撑。在基础设施保障方面，加快打造石油化工领域可信数据空间、数链网等新型数据基础设施，凝聚包括政府、企业、高校、科研院所等主体的共识，促进石化行业各环节各来源的数据资源安全有效供给。在组织保障上，成立由设备、工艺和生产等业务部门共同参与的数据管理委员会，统筹协调数据相关工作；人才保障方面，培养石油化工-数字科技-人工智能交叉人才；资金保障确保数据采集设备购置、数据中心建设、技术研发等工作顺利开展。此外，通过建立完善的法律法规与政策制度，确保数据建设应用符合国家与行业最佳实践和标准要求，保障数据合法合规使用。

在石化高质量数据集建设过程中，保障体系着眼于战略规划与资源分配层面的设计，通过确立发展目标、明确职责分工并提供资源支持，为数据治理提供战略与组织保障；标准体系则聚焦于方法实施层面，通过制定统一的技术规范与质量标准，确保数据集建设过程的规范性与可操作性。二者在战略层与执行层形成协同联动，保障体系为标准体系提供方向与制度环境，标准体系则将保障体系的战略意图落地为具体实践，实现从数据资源到智能应用的有序转化。

2.2 质量层

质量层是确保石油化工行业数据集高质量的关键，包括数据元素质量、数据标注质量、数据集成质量和数据安全水平四个维度。数据元素质量强调数据资源本身的可用性，指标包括准确性、完整性与一致性等。在数据元素质量保障方面，可通过严格的数据校验机制，对采集到的石油化工生产数据进行实时验证，剔除错误数据；运用数据补全技术，填充缺失数据，保证数据完整性；建立数据质量监控体系，定期检查数据一致性，确保不同来源的同一数据元素保持一致。数据标注质量直接影响加工后数据在人工智能模型侧的应用效果。针对石油化工行业复杂的业务场景，需制定详细的标注规范和质量评估准则，确保标注人员与业务人员对数据标注过程的理解一致。在数据标注质量保障方面，可采用多人交叉标注与专家审核相结合的方式，提高标注准确性；利用主动学习算法，优先标注关键数据，提升标注效率与质量；数据集成质量主要关注数据元素汇聚形成整体数据集的数学分布合理性，主要指标包括全面性、均衡性、一致性等。运用数据清洗技术，去除噪声数据；采用语义映射与本体匹配方法，解决数据语义冲突问题；通过数据转换与标准化处理，将不同格式、结构的数据统一集成到数据仓库中，形成完整的数据集。数据安全水平是数据集建设应用的重要保障。从数据存储、传输、使用等环节构建全方位安全防护体系。采用加密技术保护存储数据的机密性，运用访问控制机制限制用户对数据的访问权限，通过数据备份与恢复策略防止数据丢失，同时建立数据安全审计机制，实时监控数据操作行为，确保数据安全。

2.3 协同层

协同层实现数据资源的高效利用与价值最大化，最终形成“数据-加工-场景-应用”四位一体的数据集建设应用范式，以应用需求指导数据资源汇聚加工，以场景实效验证和提升数据集建设应用方案。协同层主要包括数据资源、加工、应用和场景四个方面。

数据资源包含行业通识数据与行业专识数据。行业通识数据涉及石油化工行业通用知识、标准规范等；行业专识数据则聚焦企业特定生产工艺、设备参数等专有数据。通过整合企业内部生产、研发、管理等多部门数据，以及外部行业数据、市场数据，形成丰富的数据资源池。

数据加工是对原始数据进行深度处理的过程。在数据采集后，进行数据预处理，包括数据清洗、转换、归一化等操作；运用数据挖掘技术，提取数据中的潜在模式与规律；通过数据标注为数据赋予语义信息，为后续应用提供高质量数据。同时，利用机器学习算法对数据进行模型训练，构建场景应用模型。

数据应用是将加工后的数据应用于石化行业各个领域。在研发设计环节，利用数据模型辅助新产品开发，优化产品配方；生产制造中，实现生产过程优化控制，提高产品质量与生产效率；运维服务时，通过数据分析进行设备故障预测与健康管理；经营管理方面，为企业决策提供数据支持，优化资源配置与市场策略。

数据场景是将数据应用与实际业务相结合。针对石油化工行业不同业务需求，构建研发设计场景、生产制造场景、运维服务场景和经营管理场景等。在研发设计场景中，利用数据进行虚拟仿真实验；生产制造场景实现智能生产调度；运维服务场景开展设备远程诊断；经营管理场景进行市场趋势分析与风险评估，实现数据驱动的业务创新与发展。

上述三个核心层级相互支撑、逐层递进，形成了从基础保障到质量控制再到智能赋能的框架。其中基础层作为制度基石，确立数据标准体系与保障机制，为高质量数据建设提供统一规范与资源支撑。质量层在此基础上构建全过程质量控制体系，围绕数据元素、标注、集成与安全四个维度，确保数据的准确、一致与可靠，为协同应用提供高质量的数据支撑。最终的协同层以高质量数据为核心驱动力，通过“数据-加工-场景-应用”四位一体的数据集建设应用范式，实现数据、模型与场景的深度融合，将高质量数据集转化为具体石化场景中的智能决策能力。最终形成“以标准促质量，以质量促协同，以协同显价值”的协同体系。

此外，该架构通过三个层级间多层次反馈联动，可实现体系的持续优化与增强。其中，协同层的应用需求与新增数据反向驱动质量层改进治理机制；质量层在吸收与验证中发现标准适用性问题并反馈至基础层；基础层依据反馈迭代标准体系与保障机制，从而持续优化整个数据建设体系的有效性与适应性。该技术架构既确保了数据集建设过程的规范性与可重复性，又保持了体系面对行业复杂需求时的演进能力，为石化行业的数据集建设与价值转化提供了切实可行的解决方案。

3 石化高质量行业数据集的应用场景

3.1 智能研发设计：以机理数据驱动创新迭代

石油化工行业新产品的研发设计需融合产品结构参数、仿真实验数据、工艺和设备说明书、运维记录、用户需求反馈等多源数据，构建覆盖全生命周期的设计优化数据集。例如在工艺流程智能设计场景，需收集CAD图纸、CAE仿真结果、材料物性参数、用户使用日志等原始数据，通过标注关键设计节点、跨模态对齐仿真与实测数据，形成可训练生成式设计模型的高质量数据集；在新产品研发场景，需收集聚合反应动力学数据、催化剂活性衰减曲线、分子结构模拟结果、产品性能测试报告与验证对比数据等原始数据，通过标注关键工艺参数变化节点、跨模态对齐理论计算与实验性能测试数据，形成覆盖从材料分子设计到应用验证全流程的高质量数据集。基于上述高质量数据集训练生成式设计与性能校验大模型，根据性能目标需求自动生成候选分子结构，并利用大模型驱动虚拟性能校验，在仿真环境中模拟产品的性能，预测其寿命与失效模式，实现从“经验驱动”到“数据-模型双轮驱动”的范式转变，加速新型催化剂与高性能材料的研发与创新迭代进程。

3.2 智能生产制造：以实时数据优化制造效能

作为石油化工行业的核心环节，生产制造的智能化转型依赖于装置运行数据、工艺控制参数、化验分析和质量检测等海量数据的整合，进而构建具备动态优化特性的智能制造数据集，为行业大模型提供覆盖全工况的高质量训练数据。例如在乙烯裂解装置的优化场景中，需实时采集裂解炉温度压力曲线、急冷系统运行参数、产品组分分析数据等海量原始数据，通过标注异常工况特征、建立原料性质与裂解产物收率的因果关联标签，构建动态优化的智能制造数据集，支撑裂解深度自适应调节与能耗智能管控智能模型的训练。面对海量的实时数据流及敏感性、专用性强的工业数据，大模型强大的并行计算架构可快速挖掘海量数据中隐含的复杂非线性关系，并通过强大的迁移学习能力将在一个装置上学到的优化策略快速迁移到相似工艺装置，显著降低模型重复训练成本。这种对海量实时数据的高效处理与知识迁移能力，使大模型能够突破传统优化方法的计算瓶颈，根据实时工况动态生成兼顾能效、质量与安全的多目标优化策略，推动生产系统从单点优化向全局智能决策升级。

3.3 智能运维服务：以全息数据提升服务价值

石油化工装置的智能运维需汇聚设备健康监测数据、故障历史档案、操作维护规程等信息，构建智能诊断与具有语义基础的决策数据集。基于这类数据训练的运维大模型，不仅可以识别设备异常，还能够生成包含故障根源分析与维修建议的决策报告，支持从“预警”到“自治维护”的运维模式升级，大幅提升设备可靠性与维修资源利用效率。例如在大型压缩机组运维场景中，需整合振动频谱数据、润滑油理化指标、启停记录、历史故障报告等原始数据，由领域专家标注故障因果链条（如喘振故障链：流量波动→管网阻力异常→防喘振控制失效），构建维护策略与备件需求的关联图谱。依托大模型的知识理解与推理能力，可在此图谱基础上实现关键设备的故障超前预警与维修资源精准调配决策。

3.4 智能经营管理：以生态数据重塑决策体系

石油化工企业的智能化经营管理需打通原油采购、产品销售、库存管理等全产业链数据，通过标注市场波动特征与业务关联规则，构建支持全局优化的决策智能数据集。基于该数据集构建的大模型，能够深度融合数值型业务数据与文本型市场情报，准确预测供需变化趋势并评估决策风险。模型支持自然语言交互的决策推演，可生成多场景下的优化方案，实现供应链全链条的协同优化与动态调整，显著提升企业在复杂市场环境下的决策质量与响应速度。例如在成品油供应链优化场景中，需汇聚原油价格波动数据、炼厂生产排产计划、加油站销量预测、物流运输成本等原始数据，通过标注供需失衡风险特征、建立市场价格与生产计划的动态响应大模型，实现资源配置、生产调度与市场销售的协同优化，提升企业在复杂市场环境下的决策效率与盈利能力。

石油化工行业人工智能应用场景以及对高质量数据集的需求情况如图3所示，可见研发设计场景对数据集的需求以通识数据为主，经营管理场景对数据集的需求以专识数据为主，而生产制造和运维服务场景对通识数据和专识数据的需求较为均衡，既需要工业系统提供工艺、设备、物流等的实时状态数据，又需要相关通识数据确保AI模型的推理过程符合石油化工第一性原理。

图3 石油化工行业高质量数据集的应用

Fig.3 Application of high-quality datasets in the petrochemical industry

虽然各应用场景的数据需求有所侧重，但均依赖高质量数据集的系统支撑。高质量数据集通过提供可靠的知识基础，可降低大模型“幻觉”，并推动石化行业从数据积累向智能认知决策的跃迁，从而有效赋能研发设计、生产制造、运维服务和经营管理等场景。基于此，本文提出了石化行业高质量数据集支撑大模型赋能的总体技术路线，如图4所示。

图4 高质量数据集赋能石化场景技术路线

Fig.4 Technical roadmap for empowering petrochemical applications through high-quality datasets

在上述应用场景中产生的多源异构数据，经收集、预处理、标注、增强与封装后，可构建覆盖全流程的高质量行业数据集。该数据集为行业大模型的预训练、微调与对齐优化提供高可信的知识基础与语义支撑，使大模型能够系统地学习石化专业知识，增强领域语义理解与因果推理能力，从源头上降低“幻觉”。此外，为提高模型在动态场景下的可靠性，引入检索增强生成机制，基于最新工况数据与技术标准构建动态知识库，实现知识的持续更新与模型对复杂场景的自适应能力。通过“高质量数据集—行业大模型—场景赋能”的多层次技术路径，石化行业大模型在保持通用语义能力的同时，能够显著提升行业适配性与认知可靠性，实现对研发设计、生产制造、运维服务及经营管理等场景的有效支撑与深度赋能。

下面以生产和运营环节的场景为例，详细介绍石油化工领域高质量数据集的建设和应用路径，如图5所示。

图5 生产制造与运营管理场景高质量数据集建设与应用路径

Fig.5 Pathway of high-quality dataset construction and application in production and operation scenarios

生产制造场景以石化工艺优化环节为例。首先采集石化装置运行过程中的多源异构传感器数据，经预处理与特征提取后，利用工况识别实现工况划分与高维时序语义标注，构建结构化的工艺知识表达，最终打造出涵盖关键工艺参数、操作变量及产物指标的高质量工艺优化数据集。依托该数据集，可训练具备跨工况、跨装置认知能力的工艺优化大模型，并针对具体场景构建轻量化小模型，实现多层级工艺建模与优化分析，形成从全局认知到生产工况决策的闭环优化体系，显著提升石化工艺优化的智能化与精细化水平。

运营管理场景以市场经营风险预警环节为例。通过汇聚企业内外部多源异构及非结构化经营数据，涵盖企业经营数据、财务指标、市场动态、供应链与舆情信息等，经清洗、解析与特征提取后，构建涵盖宏观态势与微观运营的高质量经营风险数据集。在此基础上，训练具备跨周期、跨领域认知能力的风险预警大模型，并在其基础上针对价格波动、供应中断与财务异常等关键场景构建专项评估模型，实现多层次、细粒度的风险建模与推演分析。依托高质量数据集驱动的大模型体系，可形成从全局风险感知到精准预警、再到经营方案优化的智能决策闭环，为石化企业在复杂市场环境下的风险防控与决策优化提供坚实的数据支撑。

4 石化高质量数据集建设和应用展望

从行业发展态势来看，石油化工行业的人工智能数据集建设正朝着核心技术突破、标准体系完善与生态协同创新的方向演进。

在技术创新层面，针对多源异构数据融合、长尾场景数据缺失等行业痛点，工业深度思维链数据集构建、智能标注算法优化等关键技术研发持续加速。国际前沿研究已呈现将生成式人工智能与工业第一性原理、仿真引擎深度融合的趋势，通过三位一体的数据合成技术攻克稀缺工况数据瓶颈，推动先进自主可控的数据集工具链研发与要素融合。此外，A2A协议（agent‑to‑agent）^[61]和模型上下文协议（model context protocol, MCP）技术^[62]可以让大模型与各类工业数据系统、工业软件、人工智能专用模型协同，将有效打破石油化工行业数据孤岛，加速大模型与业务的深度融合。

标准体系建设方面，首先应综合考虑石油化工行业人工智能应用场景的技术成熟度^[11]、数据利用率^[63]、场景共性度^[64]、效果效益率等影响因素，形成石油化工行业数据集价值识别模型，有效指导石油化工行业开展高质量数据集建设和应用推广。此外，石油化工行业亟待形成质量与安全双轨并行的数据集标准体系，需围绕数据全生命周期管理，质量评估、分层分类分级及安全保障等方面持续推进标准工作。目前，行业内已出现模型企业、数据企业与工业企业协同开展标准研制的案例，通过质量评估与提升行动，加速构建覆盖数据集开发利用全流程的标准化体系。

在生态体系构建方面，产学研用协同的创新模式成为主流发展方向。工业企业与模型企业、科研机构、高校等主体合作共建创新载体与技术“测试场”，加快形成“数据-加工-场景-应用”四位一体的数据集建设应用范式，以场景应用实效验证数据集与模型方案。此外，石油化工行业数据集开源生态建设稳步推进，数据集开放共享程度正在逐步提升。

当下，国际人工智能竞争格局加速演变，欧美等发达国家持续加强对我国资源和技术的封锁，石油化工行业高质量数据集已成为突破“卡脖子”、构建自主可控行业人工智能的核心要素。面对当前挑战，亟需石油化工行业多方主体凝聚共识，构建政产学研用深度融合的协同创新生态，共同推动石油化工行业高质量数据集建设与数智融合一体化发展，提升我国石油化工产业的国际竞争力。

High-quality datasets for petrochemical industry in era of large language models: challenges and opportunities

LUO Mengjie ZHAO YunpengZHANG MengxuanSHI XiaogangLAN Xingying

（State Key Laboratory of Heavy Oil Processing, China University of Petroleum, Beijing 102249, China）

Abstract: The improved performance of general-purpose large language models and the development of the open-source ecosystem are propelling artificial intelligence into a new stage of deep industry empowerment. As a typical process industry, the petrochemical industry has accumulated vast amounts of raw data over long-term operations. These data are often fragmented, unstructured, and poorly labeled, making them difficult to use directly for training large language models. Such limitations constrain large language models’ ability to understand and apply specialized petrochemical knowledge, leading to frequent hallucinations that hinder their deployment. Focused on the key to applying large language models in the petrochemical industry —high-quality industry datasets, a systematic review is presented on the challenges and opportunities in constructing such datasets. Based on the characteristics of industry data, a general framework is proposed for building and applying high-quality datasets in the petrochemical industry, aiming to establish a scalable and practical dataset system. The prospects and development directions of dataset-driven industrial applications are also discussed to promote the deep integration of large language models with the petrochemical industry.

Keywords: petrochemical industry；high-quality datasets；large language model；artificial intelligence；process systems；model；chemical reactors

第一作者：罗梦杰（1997—），女，博士研究生，17864260625@163.com

通讯作者：蓝兴英（1977—），女，博士，教授，lanxy@cup.edu.cn

来源：化工学报

大模型时代的石油化工行业高质量数据集：挑战与机遇——分析通用和行业12个挑战，提出了一个面向石化行业高质量数据集建设与应用的通用框架

大模型时代的石油化工行业高质量数据集：挑战与机遇

引言