day17
今天是第17天,昨日主要讲解了工业上算法分析的思路,主要包含了通用时序特征、典型征兆特征、工业上时序分析的问题,今日主要阐述生产质量数据分析算法-PQM
概述
PQM可以从质量要素、生产活动两个视角进行分析:
- 质量要素:研究物料不确定性、人工操控行为、设备运维、工艺参数、环境变化对质量的影响和分析模型
- 生产活动:探究工业大数据在设计、生产、检测、调试、后服务等环节中,如何实现质量管理的实时化、精细化、智能化、系统化、闭环化
此外也可从价值创造来看:
- 自动化:该业务规则通常比较清楚但比较烦琐,依靠大数据的运算能力和数据整合能力,来提高效率
- 洞察类:主要是提供更全面、更深入的信息,辅助决策,以统计报表、非监督学习的技术为主
- 预知类:预期未来的质量水平,将事后修正变成事前预防
- 决策化:主要是中长期的工艺参数、运维周期优化设计,综合优化质量与产能水平
按照如此讨论可以把PQM问题转换为4类,基础分析算法和时空模式挖掘为质量异常预警和工艺参数优化提供了基本规律和特征变量,在质量管控中,异常预警属于预测性响应的策略,而工艺参数优化则是预设性消除的策略。
基础算法
过程稳定性监控
在生产过程中,因为外部干扰、设备异常等因素,工艺参数或质量指标会存在波动,生产过程稳定性监控是一个基本的分析问题,常用的方法有:单变量SPC、多变量Hotelling-T²或Q分析、以及Run-to-Run的分析方法。
- 单变量SPC(统计过程控制):这种方法通过监控一个单一的工艺参数或质量指标的变化,来评估生产 过程是否处于控制状态。SPC通常使用控制图来判断过程是否偏离了预定的标准。
- 多变量Hotelling-T²或Q分析:这些方法用于分析多个工艺参数或质量指标的同时波动。Hotelling-T²是多变量控制图的一种,用于检测多个相关参数的异常;Q分析则是另一种多变量方法,主要用于识别生产过程中复杂的质量问题或潜在故障。
- Run-to-Run分析方法:这种方法主要用于分析连续生产过程中的每次操作(或“运行”)对下一次操作的影响,通常应用于周期性生产或批量生产过程。它帮助检测生产过程中变量的偏差或趋势,进而进行调整。
业界也有其他算法,比如针对均值跃变/漂移的CUMSUM图、EWMA图
时空模式分析
时空模式分析主要是探索和理解质量问题的时空规律和基本面。从算法角度来看分为三个部分:
- 单变量的时空分布规律分析:比如获取多个批次的数据叠加,计算每个点位的缺陷率和缺陷次数,采用可视化/密度聚类进行分析,如果严格些,也可使用统计检验的方式来判断质量指标与因素间是否存在关系
- 多变量间影响关系:类别变量可采用关联规则挖掘(这是基于频度的思路),决策树/随机森林等可解释性很强的模型可以给出清晰的区间划分,对于一般变量可以使用贝叶斯网络算法构建变量间的概率关系,也可基于因果推断或结构方程建立或检验变量间的因果关系
- 时空插值:表示利用有限电为测值去估计整个区域的数值。比如使用Kriging算法去估计温场
连续流程生产
比如要做一个优化控制的算法,首先是将工况进行划分,工况划分有两种方式
- 多变量子序列聚类方法:滑动窗口提取子序列,然后对子序列进行时序聚类
- 单变量序列分割:对每个变量时序进行时序分割,提取分割后的特征量进行聚类,这样就可将单变量时序转换为带起止时间的标签序列,也就是离散化了。多个变量的标签序列在统一时间轴展开,形成组合标签序列
之后使用操作参数优化,有2种:
- 静态控制曲线优化:即在给定工况下,质量较好的时候,通常是采用什么样的控制曲线
- 动态控制策略优化:给定工况下,采用什么样的控制策略,可以将当前不好的状态变好
在工况、控制策略、结果序列离散情况下,这2种优化都可以采用关联规则算法求解。当变量都为连续变量,对于静态控制曲线优化,选择质量好的若干子序列,采用LOESS回归拟合每个控制量的曲线。对于动态控制可以建立回归模型,构建一个合适的质量评价模型,提取控制、状态和序列的特征量,通过回归算法建立模型,也可以考虑强化学习的方式,也可以建立目标和决策量的RNN模型
最后,有很多简单非监督学习对现场运行也有一定价值,比如
- 调整后效果评估,可以用方差分析的方法,对比前后差异
- 过程检索,采用时序相似度匹配算法,从历史中查找与当前类似的过程,供操作人员参考研判其后续走势,了解不同控制策略效果
某个工艺过程优化整体分析流程:
离散生产模型下的操作参数优化