基于核主成分分析-半监督极限学习机的钻井溢流诊断方法

时间：2022-12-09 22:55:02　来源：柠檬阅读网本文已影响人

李仙琳，左信，高小永，岳元龙

（中国石油大学（北京）信息科学与工程学院，北京 102249）

钻井过程中，由于井下情况复杂多变，存在极大的随机性与不确定性，钻井事故发生频繁，极大程度上增加了钻井非生产时间，影响整个钻井过程的进度、建井质量和勘探效益［1］。钻井事故种类繁多，溢流事故当属其中对于安全钻井作业威胁最大的事故之一。若侵入井筒的油气未被及时发现并得到有效控制，不仅会严重减缓钻井开发速度，甚至可能引发卡钻、井塌、井喷等其他井下一系列安全事故，将严重威胁到人身、设备、环境及地下油气资源的安全，同时也会给企业带来恶劣的社会影响和巨大的经济损失［2］。因此，实时有效的钻井溢流诊断至关重要。

近年来，人工智能、大数据、物联网等新技术的快速发展，以及学科交叉、跨界融合，引发了油气行业的巨大变革［3-9］，钻井过程的数字化与信息化极大提升了钻井效率［10-12］。在溢流诊断方面，司孟菡对钻井溢流发生前后的表征参数提出了基于改进的BP 神经网络的溢流事故监测方法与溢流发展趋势模型［13］；
张禾等将钻井专家的知识经验与溢流发生后的参数变化相结合构建了基于专家系统的溢流智能预警技术［14］；
涂曦予等将钻井过程看作时间序列分析，建立了基于大规模时间序列分析的钻井事故预警方法［15］；
史肖燕等提出了基于随机森林的溢漏实时判断方法，利用随机森林对初选的特征进行重要性分析［16］；
王茜等根据溢流发生前后的表征规律，定义2 个分别与钻井工程参数和钻井液参数相关的监测指标，通过时间序列分析算法实现实时监测溢流发生时的异常趋势从而识别溢流［17］。

尽管在溢流事故诊断方面已有大量成果，但大多忽视了钻井数据中大量未标记数据的价值。在现有的基于机器学习的溢流诊断方法研究中，均建立在假设有足够多的训练样本且数据标签已知的情况下。而模型的建立通常需要由具有丰富经验的专家根据现场日志或钻井数据来完成数据标记工作。获取数据标签往往需耗费大量额外的人力、物力。而半监督学习可以实现未标记的数据和有标记的数据同时提供关于数据分布的更有价值的信息。如果在钻井过程中可以利用少量的有标签样本和大量的无标签样本来提高溢流诊断性能，可以使机器学习方法在钻井溢流事故诊断领域得到更好的应用。另外，模型的输入均聚焦于总池体积、钻井液出入口流量等溢流发生后的显著特征，其余数据均被抛弃，造成很大的数据浪费。挖掘钻井数据隐含的信息、利用少量的标记样本和大量的未标记样本来提升溢流诊断性能是本文的主要出发点。

笔者以真实的钻井溢流数据为基础，首先通过核主成分分析方法对钻井各参数进行核心信息提取，然后利用半监督极限学习机算法在标记数据较少的情况下，充分挖掘无标记数据所包含的信息训练模型，建立基于核主成分分析-半监督极限学习机（KPCA-SSELM）的钻井溢流诊断方法。实例应用结果表明所提算法利用大量的无标签样本进行辅助学习，能够在故障标记样本比较少的情况下达到较高的故障诊断率。

1.1 核主成分分析算法

核主成分分析（KPCA）算法是在主成分分析算法基础上提出的一种非线性特征提取理论［18-19］，其主要优点就是引入了核方法思想，使算法对非线性数据的处理能力得到了很大程度的提高。钻井各大系统的各特征彼此耦合，所产生的各种数据之间具有极强的相关性及复杂的非线性，因此可以利用KPCA 方法来进行钻井数据的信息整合，提取主成分反映核心信息。

1.2 极限学习机算法

极限学习机（ELM）算法是应用于训练单隐层神经网络的算法［20-21］。假设训练样本有N个任意的样本(xi,yi)，对于一个有个隐层节点的单隐层前馈神经网络可以表示为：

ELM 算法旨在学习一个基于训练数据的近似函数或决策规则来估计yi的值，也就是意味着存在对应的矩阵形式表示为：

区别于传统的函数逼近，要求求解出隐层参数，极限学习机的网络结构中，在训练过程中仅需设置合适的隐层节点个数，隐层参数可以通过某一概率分布来随机分配，并且在学习过程中，一旦隐层参数被随机确定，隐层输出矩阵H就可以保持不变，只需要优化隐层神经元个数。那么训练单隐层神经网络就转化成求解一个线性系统‖Hβ-Y‖的最小二乘解。

1.3 半监督极限学习机算法

半监督学习方法综合了有监督的学习方法和无监督的学习方法，旨在考虑利用少量的标记样本和大量的未标记样本共同参与训练分类器，在减少标记代价的同时提供有效的分类器，弥补有监督学习和无监督学习的不足［15］，学习方法示例如图1所示。

图1 半监督学习方法示例Fig.1 An example of semi-supervised learning

半监督学习有多种实现方法，本文选择基于图的半监督分类方法［22-24］，该方法基于流形假设和光滑性假设，通过对输入的样本建立一个图，样本代表图上的每个顶点。如果图上的样本之间的权值越大那么它们的预测标记应该相似的可能性就越大。流形正则化是属于基于图的半监督方法中常见的方法之一。半监督极限学习机（SSELM）算法将流形正则化和极限学习机相结合，充分利用大量无标签数据，减少标记数据的工作量，同时继承了极限学习机无需迭代、模型执行高效的优点。因此基于流形正则化的SSELM被描述为：

通过对不平衡样本中的不同类赋予不同的惩罚参数，缓解过拟合等问题。比如说样本xi标签为类yi，同时类yi有Nyi个样本数，取Ci=C0/Nyi。

（3）式可以写成：

通过求解（4）式，当梯度为0时，可得：

提出了一种基于KPCA-SSELM 的钻井溢流诊断方法，其流程如图2所示。在模型训练过程中，主要包括以下步骤：①钻井数据预处理。受传感器测量等因素影响在现场会收集到部分无效数据，同时存在部分测量噪声，这些数据无法为溢流的诊断提供有效的信息，因此需要对数据进行清洗和质量优化。针对部分缺失数据利用相邻的数据平均值代替，将无效的数据剔除。针对存在噪声与离群点数据采用滑动窗平滑滤波以及3σ准则进行处理。特征缩放对于将每个特征权重推广到机器学习算法中是至关重要的。钻井原始数据具有不同的尺度，在训练时会导致过长的训练时间及过度拟合，因此需要对输入数据进行标准化处理，消除各个钻井参数之间的量纲影响。②核主成分分析。利用KPCA法对归一化处理后的数据进行特征提取，首先选择高斯径向基核函数计算核矩阵，然后计算核矩阵对应的特征值和特征向量，最后计算得分主元，选择累积贡献率大于90%的各主成分建立新的模型样本。③模型输入。将经过核主成分分析后的新集合划分为训练集、验证集和测试集。其中训练集包含有标签样本与无标签样本两部分，验证集用于SSELM 中的超参数选取，测试集用于模型评估。④模型训练。利用SSELM 算法进行模型训练，分为2个阶段。第一阶段生成随机隐层；
在第二阶段，取相似性度量函数建立图拉普拉斯矩阵，训练模型。其中在SSELM 算法中寻找最优超参数C0和λ过程中是基于验证集性能评估从指数序列进行优选，并通过（5）式计算β，模型输出为⑤模型评估。利用测试集对训练的最优SSELM模型进行性能评估。

图2 基于KPCA-SSELM的钻井溢流诊断模型建立Fig.2 Kick diagnosis process based on KPCA-SSELM

3.1 数据获取

选用中国某油田同一区块的钻井现场数据，其中收集到的数据涉及到正常钻进、起下钻、接单根等操作变化。在事故报告中发现所获溢流事故数据大都发生于钻进过程中，因此通过比较井深与钻头深度、钻压和转速大于零等条件分析钻进状态和停钻状态。仅与钻进状态对应的样本数据记录在数据集中，供本研究进行进一步分析。通过整理，最终将同区块的4 口井共计6 次发生在钻进过程的溢流事故的当日录井数据作为原始数据集，4 次事故数据用于训练模型，2次事故数据用于验证模型。

实时监测的钻井过程数据主要来自传感器或测量工具，反映钻井作业的安全状态。所获数据包括：井深、钻头深度、钻压、转速、钻速、扭矩、立管压力、大钩载荷、大钩高度、泵冲、钻井液出入口流量、钻井液出入口温度、钻井液出入口电导率、钻井液出入口密度、总池体积等共19维。

由于钻井正常样本远远多于溢流样本，容易造成模型过拟合问题，取溢流发生前后半小时之内的数据作为数据集，整个数据集由4部分组成：有标签与无标签样本的训练集、验证集和测试集。有标签和无标签数据集用于训练模型，验证集用于模型参数的选择，在训练出最优模型之后，测试集用于最终的验证。最终训练集样本数为6 000，验证集样本数为1 800，测试集样本数为3 000。

3.2 实验设计与模型评估

将溢流的诊断问题建模为钻井测量数据为自变量、是否发生溢流为结果的分类模型，数据的分类结果为离散值，0 表示无溢流发生，1 表示溢流发生。综合录井数据不包含溢流标签信息，但是现场事故记录报告记录了溢流发生时间和结束时间。考虑到人工坐岗监测的滞后性，以事故记录报告作为参考，通过观察相关数据在该时间段前后的变化来进行重新标注，其中主要关注钻井液出入口流量差、总池体积、钻速、钻压等参数的变化。

为了验证KPCA-SSELM 方法在溢流事故诊断上的有效性，设置了2 组实验，分别与SSELM 和KP⁃CA-ELM 等进行对比。其中SSELM 中输入数据选用溢流表征参数，包括总池体积、钻井液出入口流量、立管压力、钻压、钻速等6个参数，用来对比验证KPCA 特征提取的有效性。同时为了验证针对钻井过程中少量有标签样本，半监督学习方法用于溢流诊断的有效性，在相同的有标签样本下与有监督学习方法KPCA-ELM 进行对比。

模型性能评估一般通过分类准确率来评价，但针对钻井样本中存在正常数据与溢流数据不平衡的问题，分类准确率不具有太大说服力。因此另外选择精确率、召回率、F1值来评估模型性能优劣，各评价指标计算公式为：

3.3 模型训练与结果分析

首先对选取的样本数据进行标准化处理，然后采用KPCA 对处理后的数据进行主元分析，按照经验确定累积贡献率为90%。核函数选取高斯径向基核函数，其中参数σ设置为100，分析处理后得到的钻井各参数特征值及对应的贡献率（表1）。经过KPCA处理后，前5个核主成分的累积贡献率达到了90.78%，也就是说，所获的钻井数据集中的19 个特征指标所携带的信息量经KPCA 处理后大部分集中在前面的5 个核主成分上；
并且获得的主成分的贡献率比较集中，较好地保存了原始数据的绝大部分信息，也很好地达到了降维的目的。

表1 钻井各参数特征值及对应的贡献率Table1 Eigenvalue and contribution rate of drilling parameters

SSELM 与KPCA-SSELM 模型对比将KPCA方法处理后的数据与利用溢流表征参数做特征选择的数据作为输入分别送入SSELM 中进行训练。训练中网络隐含节点数为120，激活函数选择Sig⁃moid 函数，C0= 0.1，λ= 0.01。有标签样本数与无标签样本数各自取训练集总数的50%。由对比结果（表2）可知，KPCA-SSELM 性能好于基于特征选择的SSELM，证明了KPCA 针对钻井数据在特征提取上有很大的优势。面对未来钻井过程中可监测参数更多的情况，基于核主成分分析的特征提取方法用于钻井溢流诊断可以获得较好的结果。

表2 不同模型性能对比结果Table2 Performance comparison results of models %

KPCA-ELM 与KPCA-SSELM 模型对比为了验证针对钻井过程中少量有标签样本，半监督学习用于溢流诊断的有效性，首先在训练集中，有标签样本在正常和溢流的样本中随机选取10%。KP⁃CA-ELM 方法仅使用这少量的有标签样本进行训练，KPCA-SSELM 方法同时使用有标签样本和剩下的无标签样本进行训练。此外针对不同数量的有标签样本条件下2 种算法性能的比较，分别从有标签样本数占训练样本总数的10%开始递增进行训练，性能比较结果（图3，表3，图4）显示，引入半监督学习的KPCA-SSELM 方法始终优于监督学习KP⁃CA-ELM 方法，这表明KPCA-SSELM 方法能够有效地探索未标记数据，以实现比纯监督学习方法更好的性能。可以发现，当有少量的标记数据时，对于KPCA-ELM 方法来说，训练集样本数很少，模型性能并不好，而增加了半监督学习的KPCA-SSELM 方法，由于增加了大量的无标签样本信息，模型性能有了一定的提升。随着有标签样本数量的增加，2种模型性能均不断提高。但在每一种情况下，加入半监督学习的KPCA-SSELM 方法均高于有监督学习KPCA-ELM 方法，这是因为无标签样本提供了更多的信息，表明KPCA-SSELM 方法可以充分挖掘无标签样本的信息来进一步提高模型的性能。

图3 10%有标签样本数的算法性能对比Fig.3 Comparison of model performance with 10%labeled samples

表3 不同数量有标签样本条件下2种算法性能对比结果Table3 Performance comparison results of two algorithms with different proportion of labeled samples %

图4 不同有标签样本数下的模型性能对比Fig.4 Performance comparison results with different proportion of labeled samples

但从每个测试样本来看，整体模型性能略低。因为在模型训练中，虽然为考虑数据不平衡，选择了溢流前后半小时之内的数据训练，但正常样本仍多于溢流样本，较少的溢流样本无法使得模型学习到全部的信息。

3.4 实际测试

在实际钻井过程中，除了对每个测试样本进行模型的相应评估外，还需要对模型的应用进行分析与评估。图5 给出了测试样本中1 次溢流事故发生前后20分钟的数据变化以及模型诊断结果，其中该测试结果建立在有标签样本数为训练样本总数的50%上。混淆矩阵结果见表4。

表4 混淆矩阵Table4 Confusion matrix

从图5 可以看出，总池体积在9∶05 开始增加，超过1 m3记为溢流发生，但是在此时间之前，钻压、钻速、出口流量有了一定的变化，通过模型输出可以看到在9∶03左右模型开始预警，虽然存在一定的错误报警，但比传统的总池体积监测溢流提前了2分钟。

图5 溢流事故诊断图Fig.5 Kick diagnosis diagram

提出了一种基于KPCA-SSELM 的钻井溢流智能诊断方法。首先利用KPCA 方法分析得出对钻井原始数据关联超过90%的5个主成分作为模型的输入向量，可以很好地提升模型诊断率；
然后将半监督学习方法引入极限学习机的模型中，该方法可以有效地利用大量无标签样本来辅助有标签样本进行训练，很好地解决了钻井数据标记费时费力的问题。通过利用无标签样本进行辅助训练，获得比传统极限学习机更高的溢流诊断正确率，具有很好的应用前景。

符号解释

猜你喜欢溢流钻井标签不害怕撕掉标签的人，都活出了真正的漂亮海峡姐妹(2018年3期)2018-05-09中国建成全球最大海上钻井平台新民周刊(2017年11期)2017-04-05让衣柜摆脱“杂乱无章”的标签Coco薇(2015年11期)2015-11-09浮式钻井平台将迎来史上最大拆解潮珠江水运(2015年12期)2015-07-25未来2年将有超过100座钻井平台报废中国水运(2015年5期)2015-07-13科学家的标签少儿科学周刊·少年版(2015年2期)2015-07-07科学家的标签少儿科学周刊·儿童版(2015年2期)2015-07-07振华重工研制国内首个钻井VFD控制系统中国水运(2014年7期)2014-08-11铜湾水电站溢流面HF混凝土施工工艺探讨科学时代·上半月(2013年6期)2013-08-22

相关热词搜索：溢流钻井 学习机