• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于VAE,预处理和RP-2D,CNN,的不平衡负荷数据类型辨识方法

    时间:2023-01-19 18:00:24 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    黄冬梅,吴志浩,孙 园,胡安铎,时 帅,孙锦中

    (1.上海电力大学电子与信息工程学院,上海 201306;
    2.上海电力大学电气工程学院,上海 200090;
    3.海电力大学数理学院,上海 201306)

    近年来,随着电力物联网智能化的飞速发展,越来越多的高级量测体系投入运营[1],使用户用电数据大量积累,而采集到的负荷数据往往呈现类别多及不平衡等特点[2-3]。如何从海量负荷数据中挖掘并提取有价值的潜在信息,已成为当前的研究热点[4]。因此,研究合理有效的负荷分类算法,有利于制定个性化的用电策略,对于电力资源合理调控、提升能源利用率和提高企业经济效益具有重要意义,同时也有助于实现“碳达峰,碳中和[5]”。

    目前,对负荷数据进行分类的方法可分为无监督聚类和有监督分类。无监督聚类是在未知样本的标签下,按照指定的规则对数据进行划分,例如k-均值[6]、模糊c-均值FCM[7](fuzzy c-means)和密度聚类DBSCAN[8](density-based spatial clustering of applications with noise)等,然而该方法存在调参复杂及对数据敏感等问题。随着负荷数据量的快速增长,无监督聚类往往需要大量的运行时间,并浪费其中部分有标签的数据,难以胜任大量负荷数据背景下快速分类的需求。

    针对上述问题可采用有监督分类进行解决。有监督分类是在获得样本标签的情况下,提取数据的特征与规律并对其进行有效分类。文献[9]使用稀疏自动编码器对负荷数据进行重新表达并优化初始参数,然后训练支持向量机,实现大规模负荷数据的分类;
    文献[10]利用模糊理论优化反向传播BP(back propagation)神经网络的参数,实验表明该方法在不影响收敛精度的前提下,有更快地收敛速度;
    文献[11]利用Spark平台将BP算法并行化,实现大量负荷数据的高性能分类;
    文献[12]建立以BP神经网络为基础的Adaboost集成分类器,相比于传统的神经网络,该方法有更高地分类准确度和更低地运行时间;
    文献[13]利用次梯度下降算法改善支持向量机SVM(support vector machine)训练过程中耗时长且运行效果不佳等问题。

    上述有监督分类方法能有效的兼顾分类速度和分类精度,但仍存在以下问题:①用户的用电行为往往具有随机性和多样性等特点,使负荷数据存在类别之间数据量不平衡的问题,某些类别的负荷数量远少于其余类别的负荷数量;
    其中的生成式对抗网络GAN(generative adversarial networks)作为一种生成式模型,在负荷数据生成方面也能取得很好的效果[14-16],然而GAN存在训练困难,容易崩溃等缺陷[17]。②对负荷数据进行分类的方法仅从序列角度出发,难以挖掘其深层特征,存在特征提取不足的问题。

    综上所述,针对负荷数据分类中存在的类别不平衡及特征提取不足的问题,本文提出一种基于变分自编码器VAE(variational auto-encoder)预处理和递归图-二维卷积神经网络RP-2D CNN(recurrence plot-two-dimensional convolutional neural network)的不平衡负荷数据类型辨识方法。首先,使用VAE对少数类数据进行扩充,实现数据增强。然后,使用递归图算法将负荷曲线编码为二维图像,实现特征增强。最后,使用二维卷积神经网络2D CNN(twodimensional convolutional neural network)求取分类结果。算例表明,VAE 能有效的改善负荷数据类别不平衡的问题,同时相比于序列输入的分类器模型,经过递归图编码后,其图像输入的2D CNN 模型有更高的分类准确度。

    VAE 由编码器和解码器组成。编码器通过对原始训练数据X编码得到隐藏层的隐向量Z;
    给定Z分布的均值μ和方差σ,根据生成的隐变量Z的变分概率分布,再利用解码器还原得到近似的原始训练数据X",进而获得能表征原始训练数据X的隐层特征。其中,编码器和生成器使用神经网络进行拟合[18],图1为VAE的基本结构。

    图1 变分自编码器基本结构Fig.1 Basic structure of variational auto-encoder

    VAE 中隐变量Z的分布可由后验概率密度函数pθ(Z|X) 表示,θ为训练过程中学习的网络参数。由于真实的后验分布无法直接观察,为解决此问题,引入识别模型qφ(Z|X)并将其作为Z近似后验概率,φ为训练过程中学习的网络参数;
    然后使用KL散度DKL(Kullback-Leibler divergence)描述pθ(Z|X)与qφ(Z|X)之间的相似度,即

    式中,logpθ(X)为X的对数似然函数。由于DKL大于0 恒成立,因此最小化DKL可转化为最大化L(θ,φ,X),其中将L(θ,φ,X)称作变分下界。经推导,VAE的变分下界优化目标可表示为

    式中,Eqφ(Z|X)logpθ(Z|X)为pθ(Z|X)的似然期望。为了简化计算过程,将正态分布N(0,1)作为先验分布pθ(Z)。

    本文利用VAE对不平衡负荷曲线进行预处理,实现少数类数据的生成和扩充,其基本过程如下。

    (1)以少数类样本作为VAE 的输入,通过训练VAE学习少数类样本的分布特征。

    (2)从标准正态分布N(0,1)中采样隐变量ε,并输入生成器生成指定数量的样本。

    (3)重复执行上述步骤,将VAE 生成的数据与原始的少数类数据进行合并,实现少数类样本的扩充,从而完成不平衡样本的预处理流程。

    图2为基于VAE的不平衡样本预处理流程,输入信号为少数类的负荷曲线,通过VAE学习负荷曲线的分布特征,并将生成数据与原始数据进行合并,实现对少数类负荷曲线的扩充。其中,编码器和解码器的结构需要对称,以编码器为例,它包含3个全连接层,神经元个数分别为50、100、50,并使用批归一化BN(batch normalization)层优化网络,用于加快训练速度。

    婚后,他们一边过着极其简朴的日常生活,一边追求着非常伟大的梦想。据说,在当时结婚的新房里,只有两把椅子,一人一把。

    图2 基于VAE 的不平衡样本预处理流程Fig.2 Flow chart of preprocessing of imbalanced samples based on VAE

    2.1 递归图

    递归图是研究系统非线性动力学特征的有效方法,可将一维时间序列编码为二维图像,揭示时间序列的混沌性、平稳性和固有的相似性,实现特征的增强[19-20]。本文利用递归图对负荷曲线的特征进行编码,挖掘负荷曲线的隐含特征。对于给定的负荷曲线xi,使用递归图对其进行相空间重构,即

    式中:τ为延迟时间;
    m为嵌入维度;
    Xi为xi在相空间映射后的向量。

    递归图可表示为

    式中,Eij为向量Xi和Xj之间的欧氏距离。

    选取合适的的阈值ε,其递归矩阵Rij可表示为

    式中,θ(·)为Heaviside函数,可表示为

    当阈值ε的选取不恰当时,递归图会损失大量的特征信息[21],因此,本文将日负荷曲线转换为相应的无阈值递归图。

    2.2 二维卷积神经网络

    2D CNN主要由卷积层、池化层、扁平层和全连接层组成。卷积层提取数据中的潜藏的特征;
    池化层对特征进行压缩;
    经过多个卷积池化后,扁平层将多维的输入一维化;
    全连接层对获取的特征进行分类处理,得到最终输出结果。这种网络结构减少了权重参数数量[22],提高了输出结果的精度。2D CNN结构如图3所示。

    图3 2D CNN 结构Fig.3 Structure of convolutional neural network

    本文提出的不平衡负荷类型辨识模型如图4所示。由图4 可知,首先,将输入的负荷曲线使用最大、最小值法归一化至0~1,从而提升神经网络的训练速度;
    其次,判断用电数据是否存在类别不平衡问题,若存在类别不平衡问题则使用VAE将小类别的负荷曲线数量扩充至与大类别样本数量相同;
    然后,使用递归图算法将一维负荷曲线编码为二维图像;
    最后,为图像分类。对于经过编码后的图像,将接受到的图像划分为训练集和测试集,进行有监督分类;
    使用卷积层提取特征,池化层对特征进行压缩,扁平化层将多维的输入一维化,分类层通过计算模型的输出结果和真实值之间的交叉熵损失来判断网络是否收敛;
    最后使用该模型求取测试集上的分类结果。

    图4 不平衡负荷类型辨识模型Fig.4 Identification model of imbalanced load types

    选取爱尔兰可持续能源管理局SEAI(sustainable energy authority of ireland)发布的爱尔兰智能电表[23]实际量测数据中的7类典型负荷数据进行实验,日负荷曲线每30 min 采集一次,即每条负荷曲线由48个功率点组成。第3类和第5类为小样本,个数分别为50、25,其余5 类个数均为100。7 类典型负荷曲线如图5 所示。为了验证本文方法的效果,在类别不平衡实验中,首先,对比GAN 扩充曲线和VAE扩充曲线的质量,并将上述扩充后的负荷曲线与未处理的负荷曲线使用RP-2D CNN 求取在7 类数据上的召回率。然后,根据序列输入与图像输入,分别对比极端梯度提升XGBOOST(extreme gradient boosting)、SVM、一维卷积神经网络1D CNN(one-dimensional convolutional neural network)和本文所提的RP-2DCNN。实验相关参数设置如下:递归图像空间维度为3,时间延迟为3,即将1×48 维度的负荷曲线转为42×42 维度的图像;
    2D CNN 卷积核个数为3,滤波器个数为3,池化层尺寸为2,步长为1,填充方式为“same”,激活函数均为“relu”,训练样本与测试样本比例为1.5∶1;
    XGBOOST 与SVM 的参数使用网格搜索法选取参数;
    而1D CNN的参数与2D CNN参数相同。

    图5 7 类典型负荷曲线Fig.5 Seven types of typical load curve

    4.1 VAE 有效性分析

    4.1.1 不平衡数据生成

    首先,对第3 类、第5 类数据分别使用VAE、GAN扩充,通过比较生成曲线与原始典型负荷曲线的质心曲线,从而比较出生成曲线的质量。生成的负荷曲线和累计概率分布如图6、7所示。由图6、7可以看出,GAN 生成的曲线有大幅度的波动性,尤其是第5 类数据,其生成曲线震荡明显,这是由于GAN 在训练过程不稳定,波动剧烈,难以收敛;
    而VAE生成的曲线形状非常接近与原始曲线,同时保持一定的波动性,这说明VAE 具有较强的泛化能力,产生的曲线比较符合实际场景。

    图6 第三类生成负荷曲线和累计概率分布Fig.6 Curve generated from the third type of load and cumulative probability distribution

    图7 第五类生成负荷曲线和累计概率分布Fig.7 Curve generated from the fifth type of load and cumulative probability distribution

    除直接观察负荷曲线的形状以外,还可以进一步从累积分布函数上对VAE 的有效性进行验证。由图6、7中对应的累计概率分布图可以看出,GAN生成的曲线与原始曲线的累计概率分布函数偏差较大,尤其是第5类数据,几乎没有重叠部分,生成的曲线质量很差;
    而VAE扩充的数据与原始典型曲线在累积概率分布上非常接近,即使是波动性强的第5类负荷曲线,其扩充的曲线仍与原始曲线的累计概率分布曲线保持接近,说明VAE在学习负荷样本形状的同时,还能兼顾数据的分布特点,生成负荷曲线的性能较好。

    4.1.2 召回率比较

    将GAN过采样和VAE过采样的负荷数据使用RP-2D CNN 算法,并与不处理的负荷数据进行对比,实验结果选取5 次实验的平均值如图8 所示。由图8可知,对GAN过采样处理后的负荷数据进行分类,尽管在第5类的召回率相比于不处理的负荷数据略有提升,但其提升不大,且在第3 类的召回率上出现下降,其原因在于GAN 生成的曲线质量差,导致第3 类出现误分类;
    而VAE 过采样处理后的数据在第3类和第5类的召回率相比于不处理的负荷数据则有明显的提升,并且其余负荷类别的召回率并没有下降,表明经过VAE过采样能有效改善类别不平衡问题,提高少数类的召回率,同时不影响其余类别的分类准确度。

    图8 类别不平衡实验结果Fig.8 Result of class imbalance experiment

    4.2 RP-2D CNN 有效性分析

    对使用VAE类别平衡后的数据,再使用递归算法将其图像化,为了对比序列输入与图像输入的区别,本文分别使用XGBOOST,SVM,1D CNN 与RP-2D CNN 进行对比。图9 为典型负荷曲线的质心曲线所对应的无阈值递归图。由图9可以看出,负荷曲线使用递归图算法后具有明显不同的图像特征表达,表1 为不同方法的分类准确率。由表1 可以看出,对负荷曲线进行递归图编码后,使用2D CNN的分类准确率高于使用序列输入的1D CNN,XGBOOST,以及SVM 分类方法,其原因在于负荷曲线经过递归图处理后,能有效的增强特征表达,再利用2D CNN 强大的特征提取能力,从而提高模型的分类准确率。

    表1 测试集上的分类准确率Tab.1 Classification accuracy on test dataset

    图9 典型负荷曲线的质心曲线对应的无阈值递归图Fig.9 Non-threshold recurrence plot corresponding to center-of-mass curve of typical load curve

    为了验证本文方法的泛化能力,选取keel公开数据集[24]进行分析,数据集相关属性如表2 所示。由表2 可以看出,在3 类数据集(天秤座运动数据集,纹理数据集,保险公司基准数据集)上,RP-2D CNN的分类准确度仍高于其余3种分类方法,说明经过递归图算法后,能增加该序列的特征表达;
    使用2D CNN 能提取到更丰富的特征,表明该方法具有一定的适用性。

    表2 三类数据集属性及不同方法的分类准确率Tab.2 Attributes of three types of dataset and the classification accuracy of different methods

    本文针对负荷数据类别不平衡及特征提取不足的问题,提出一种基于VAE 预处理和RP-2D CNN的不平衡负荷类型辨识方法。通过算例分析,得到如下结论。

    (1)本文所提的VAE不平衡样本预处理方法能有效地生成与原始负荷曲线具有相似的形状和分布特征的曲线,改善了负荷类别不平衡问题,在不影响其余类别分类准确度的情况下,提高了少数类的召回率。

    (2)本文所提的RP-2D CNN 负荷类型辨识方法,能将负荷曲线编码为二维图像,其编码后的图像信息更丰富,实现特征增强;
    实验结果表明,相比于序列输入分类器,使用2D CNN提取图像特征,分类准确率更高。

    猜你喜欢 编码器类别卷积 融合CNN和Transformer编码器的变声语音鉴别与还原网络安全与数据管理(2022年1期)2022-08-29设定多圈绝对值编码器当前圈数的方法锻压装备与制造技术(2021年5期)2021-11-13基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02论陶瓷刻划花艺术类别与特征陶瓷学报(2021年4期)2021-10-14转炉系统常用编码器选型及调试科学技术创新(2021年5期)2021-03-17一起去图书馆吧少儿画王(3-6岁)(2020年4期)2020-09-13——编码器">舞台机械技术与设备系列谈(二)
    ——编码器演艺科技(2020年7期)2020-08-13卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20
    相关热词搜索: 预处理 辨识 不平衡

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章