• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    5G支撑网告警数据的故障定位方法

    时间:2023-02-16 08:40:07 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    杨敏

    (中电科普天科技股份有限公司,广东 广州 510000)

    5G 时代各大运营商为了争夺用户,不仅为用户提供了多样化、质量更高的通信服务,还采用全方位、高质量的运维支撑网,以多样化自动化的手段及时响应用户需求,提高用户感知水平。但是,随着电信网规模的不断扩大,电信网中的运维支撑网络结构越来越复杂,当支撑网某一个位置产生故障时,其他位置可能产生一连串的告警事件,因此可能在短时间内产生种类繁多、信息冗余的告警事件,运维人员通常无法在短时间内对无效的告警信息进行剔除,也不能准确对告警的故障位置进行精准定位。国内外已经有不少学者研究如何通过告警事件的关联实现故障根因分析。Yan 等人[1]提出一种大型IP 网络服务质量管理的通用根本原因分析平台,该平台将根因分析过程抽象为症状和诊断事件的特征识别、时间和空间事件相关性以及基于上述的特征和事件相关性进行推理逻辑,最终形成一个全面的服务依赖性模型,包括网络拓扑和跨层关系、协议交互和控制平面依赖性。Li 等人[2]提出一种基于网络拓扑和告警的网络根因故障定位,该文对长告警数据的输出序列进行预处理,在获取网络拓扑信息的基础上,使用支持向量机判断存在的根故障后,使用贝叶斯网络计算每一种故障类型的最高概率,并结合过滤规则实现故障定位。Ding 等人[3]提出了一种5G 网络管理系统现场实时报警根本原因定位算法,该算法从时间和空间维度上充分探索报警之间的关系,通过报警关联时间、报警事件划分、报警事件拓扑生成等技术实现在线报警数据压缩,这种方法大大提高了故障的定位速度和精准性。Li 等人[4]提出基于关联规则挖掘的电信网络告警相关性分析系统,该系统首先使用神经网络对不同级别的报警进行分类,然后利用加权频繁模式树结构的优化技术来提高挖掘效率。Javanbakht 等人[5]采用深度学习的方法实现告警数据的根因分析,该方法首先收集历史告警数据,并对告警的标签进行排序并将其转化为数值向量;
    然后采用融合注意力BiLSTM CNN 分类器来学习历史报警数据之间的相关性并实现告警数据与故障位置的模型训练;
    最后,将该模型用于在线故障检测。由此可知,相关研究工作主要集中在历史告警数据关联挖掘,告警规则、告警压缩,而实际应用需要更快、更准确的故障定位;
    除此以外,由于告警事件的更新速度很快,如果采用历史告警数据构建告警根本原因定位模型,其无法对抗动态多变的网络攻击行为。

    因此,本文提出一种支撑网告警数据的故障定位方法,该方法采用深度学习的方法提取一系列告警事件的时空特征,通过关联规则实现时空特征的有效关联,对无效关联的事件进行剔除,实现告警压缩;
    在此基础上,采用增量式BP 神经网络方法训练告警数据与故障位置的关联性并实时加入新的告警事件对模型进行增量式更新,从而动态适应动态多变的网络环境。

    1.1 告警事件特征提取

    告警事件特征提取是从大量冗余的告警事件中提取出不同事件之间的相关性,这种相关性一般体现为告警事件之间的时空特征,时间特征体现为告警事件发生的先后顺序,空间特征与网络拓扑结构有直接关系。

    国内外有告警事件特征提取方法,包括采用聚类方法[6-9]对告警事件的时空特征进行聚类,从而将不同时间、网络拓扑的告警事件进行区分,简化网络告警事件处理复杂度;
    采用机器学习[10-13]的方法训练告警事件和故障定位的关系模型,实现告警特征的自动提取;
    采用深度学习[14-18]的方法自动抽取告警事件的多维度特征,从而有效地从大量的告警事件中学习到故障的语义信息,保证了故障定位的有效性和可行性。

    由此可知,告警事件的特征关系分析研究中,采用聚类事件、关联规则的方法能够在一定程度上探究告警事件的时间和空间的特征,但是这种方法的时间复杂度和空间复杂度极高,仅适用于基站数量不多的小区网络,对于众多拥有超密集小区的地区来说,这种方法所耗费的计算资源过多,因此不适用于对于整个通信大网的分析;
    而机器学习的方法则能够实现告警事件的自动化挖掘,得到的信息更加丰富全面;
    而深度学习的特征提取方法,通过将海量的告警事件按照时间排序,然后再采用深度学习的方法实现告警事件深浅层语义的学习,最后将深浅层语义进行融合,实现告警事件特征粗细粒度的提取。

    基于上述的分析,本文选用深度学习的方法提取告警事件的多维特征,首先将每一个观测周期的告警事件按照时间进行排序,多个观察周期的告警事件形成一个二维矩阵数据;
    考虑到告警事件具有冗余的特性,本文采用滑动时间窗口的方式对冗余的告警事件进行剔除,并将原始的告警事件转化为告警事务数据,同一个时间窗口中的告警事件可能由同一个网络故障原因引起的并且不同告警事件所引发的告警范围和告警时间长短不一,因此,通过动态时间窗口滑动的方法实现了告警事件在时间上的强关联;
    最后,采用卷积神经网络(Convolutional Neural Networks,CNN)自主提取告警事件的多维度语义特征,为后续的故障定位提供可靠的数据支撑。

    1.2 告警事件关联分析

    告警事件的关联分析是通过整理大量的告警数据并将其作为一个整体进行分析并挖掘告警事件中的相关性,通常采用过滤、压缩或归纳告警事件,使用逻辑推理的方式分析发生的告警事件流,同时对告警数据进行模式识别以找到网络问题、故障。

    国内外有告警事件特征关联方法,包括采用关联规则[19-21]的方法挖掘告警序列之间的时间关系,确定告警规则所属的关系,实现故障源的追溯、冗余告警信息的压缩;
    采用因果模型[22-25]对告警事件的相似性构建攻击场景序列集合,然后利用概率统计方法实现告警类型之间的关联,从而有效识别多步攻击模式;
    采用神经网络[26-28]的方法解决传统告警关联方法中所需的复杂逻辑推理的难题,能够根据不同层次的关联需求灵活调整神经网络的模型结构,并能够根据网络中的参数大小确定告警事件与故障类型的相关关系。

    基于上述的分析,本文选用增量式BP 神经网络方法训练告警数据与故障位置的关联性,通过实时加入新的告警事件对模型进行增量式更新,获取告警事件与故障类型的动态关联,精确确定引起告警事件的故障类型,从而动态适应动态多变的网络环境。

    2.1 告警事件关联故障定位的框架

    告警时间定位的整体流程包括告警实事件预处理、告警事件特征提取和告警事务数据关联分析。具体如图1 所示。

    图1 告警事件关联故障定位整体框架图

    在告警事件预处理过程中,需要抽取影响故障根因分析的关键字段,虽然每一个告警事件包含很多告警属性,但是故障定位仅需要几个关键的属性,比如:告警事件编码、告警内容、告警位置、告警级别。

    将上述的告警字段进行抽取,形成一条告警数据应用于本文所设计的告警事件特征提取和告警事件关联分析中。

    2.2 告警事件特征提取

    由于原始的告警数据无法直接用于特征提取,因此,本文对每一个周期的原始告警数据根据时间序列进行排列,构建一个二维矩阵数据。告警事件特征提取如图2 所示。

    图2 原始告警事件按照时间排列示意图

    图2 是原始告警事件按照时间排列的结果,告警事件S={s,Ts,Te}根据告警发生的时间进行排序。s 表示告警事件序列,s={A,B,E,A,C,B,D,E}。[Ts,Te]表示告警事件的观察周期,图2 的观察周期为[0,60]。本文设置告警事件的观察周期是1 小时。由图2 可知,随着时间推进,告警事件会有重叠,发生时间早的告警事件有可能重叠度越高。

    考虑到不同告警事件所引发的告警范围和告警时间长短不一,结合实际的网络运维经验,采用动态时间窗口滑动的方法实现了告警事件在时间上的强关联。如果告警事件的故障定位精度低于阈值,那么就缩小滑动窗口的宽度和滑动步长;
    相反,如果告警事件的故障定位精度高于阈值,那么就扩大滑动窗口的宽度和滑动步长。如此,就能根据滑动窗口的大小来调整系统中告警的数量,避免由于窗口过大导致告警事务数据中包含太多冗余信息,无法有效挖掘关联规则。同时,动态的步长也能保证两个滑动时间窗口的重叠度,避免了由于窗口重叠过多,人为增强了两个窗口之间的相关性,增加故障定位的复杂度和干扰性。

    假设Sw={w,h,ts,te} 为序列S的其中一个滑动窗口,其中w表示窗口宽度,te -ts表示滑动步长,步长小于观察周期。滑动窗口对告警事件的提取过程如图3 所示。

    图3 滑动窗口示意图

    图3 展现滑动窗口提取告警事件的过程,蓝色虚线框表示窗口1,绿色虚线框表示窗口2,窗口大小为w×h。步长和窗口宽度如图所示。一般来说滑动窗口的步长小于窗口宽度。

    同一个时间窗口中的告警事件可能由同一个网络故障原因引起,并且不同告警事件所引发的告警范围和告警时间长短不一,因此,通过动态时间窗口滑动的方法实现了告警事件在时间上的强关联;
    动态滑动窗口将原始的告警数据转换成告警事务数据的技术路线图如图4 所示。

    图4 动态滑动窗口技术路线图

    本文基于累计误差的思路实现滑动窗口宽度和步长的调整,在T-1 时刻,采用初始化的窗口对原始告警事件进行处理,得到对应的告警事务数据库;
    然后,告警事务数据经过CNN 多维语义特征提取、增量式BP 网络实现告警事务数据特征与故障类型关联后,实现多种故障分类的预测,并给出每一种故障分类的概率,确定故障类型;
    结合序列模式挖掘方法,确定现有告警数据序列与相关位置发生故障所产生的告警事件序列的匹配度,预测故障发生的位置;
    在T+1 观察周期得知上一观察周期故障实际发生的位置与T 观察周期故障预测的位置进行误差分析,得到T观察周期故障定位误差eT,定位误差eT取值为0 或1。如果故障预测定位与真实定位一致,那么eT取值为0;
    否则,eT取值为1。同理,T 观察周期和T+1 观察周期的原始告警事件也是经过同样的过程对数据进行处理,得到T+1 观察周期故障定位误差eT+1。

    计算T+1 观察周期的累积误差:

    判断误差是否大于设定的阈值,如果大于阈值,那么缩小滑动窗口宽度和步长;
    相反,扩大滑动窗口宽度和步长。调整滑动窗口宽度和步长变化值的公式为:

    其中,w0表示初始的滑动窗口宽度,表示初始的滑动步长大小。C与累计误差有关,误差越大,滑动窗口宽度和步长变化值越大:

    其中,k是常数。

    在T+2 观察周期,滑动窗口的宽度和步长调整为:

    2.3 告警事务数据的多维语义特征分析

    对每一个观察周期进行动态滑动窗口提取后,按照滑动的顺序进行排列。本文采用二维数组定义告警事务数据库,定义二维数组a[m][n],其中m 为某一个周期采用动态滑动窗口所获取的告警事件数量,n 是字符串的大小,一般取一个设定的值。二维数组排列的顺序按照时间顺序存放告警事件,即内存中按照顺序存放第一个滑动窗口提取的告警事件,再放第二滑动窗口提取的告警事件,依次存放。为了方便后续的特征提取,本文对每一个窗口提取的告警事件转化成字符串填充到每一行中,由于每一行的告警原因代码大小有可能不一致,因此,对每一行空白的元素采用0 进行填充,构建特定尺寸的告警事务数据库,如图5 所示。

    图5 构建告警事务数据库

    为了提取告警事务的多维语义特征,本文采用CNN对告警事务数据采用不同大小的卷积核进行特征提取,由浅入深提取告警事务数据的时间和空间深浅层次特征,再通过融合层对浅层数据语义和深层数据语义的信息进行融合,实现告警事务数据的多维语义特征分析。特征提取和融合过程如图6 所示。

    图6 CNN实现深浅层的时空特征提取

    2.4 增量式BP神经网络模型构建

    采用增量式BP 神经网络方法训练告警数据与故障位置的关联性并实时加入新的告警事件对模型进行增量式更新。增量式BP 神经网络模型构建过程如图7 所示。

    图7 增量式BP神经网络模型构建过程

    (1)对历史告警事务数据时空特征进行学习,并训练得出初始神经网络模型。当新的告警事件出现后,将新的告警事件进行预处理、多维特征提取后,放入到初始神经网络模型进行训练,获得更新后的神经网络模型。

    (2)考虑到更新后的神经网络是采用新的告警事件进行训练的,因此,更新后的神经网络的参数可能会更偏向新的告警数据,为了防止神经网络遗忘之前学过的知识,本文采用有选择性地选择神经网络的参数,比如选择变动范围小于θ(一般取0-10%范围内)的参数作为原始神经网络模型的参数,至于变动大于10%的参数则将其剔除。如此,增量式BP 神经网络模型通过学习新的告警事件改进模型的泛化性能,同时保留之前学习过的知识。

    (3)基于增量式BP 神经网络判断支撑网告警的故障类型,实现故障识别。

    2.5 基于序列模式挖掘的故障精准定位

    设备从异常发生演变到故障是一个具有较强时序性和关联性的过程,考虑到物理网络拓扑和信息系统传输链路具有密切的耦合关系,因此,告警事件虽然存在冗余,但是这些告警事件具有一定的共性规律,通过挖掘这些告警事件序列模式,可以对信息系统的故障类型与物理网络每一个关键设备的运行异常状态所引致的故障类型进行匹配,实现物理位置故障的精准定位。

    在某一个观测周期内,某一个物理位置的全部状态片段Sp(ti) 按照时序进行排序,形成该设备运行过程异常状态链:

    其中,Sp(tj) 表示在观测周期内,产生的第j个异常状态信息。

    在此基础上,采用序列模式挖掘T时刻Qp(T) 的频繁模式。假设异常序列模式Tpi属于频繁序列模式,其必须满足:在频繁序列模式集中不存在任一个模式Tpj,满足Tpj⊇Tpi,且support(Tpj)≥support(Tpi),以各项目count值降序依次为头节点和其他节点,生成条件模式基,然后采用条件模式基构造对应的FP 树,并按照设定支持度的阈值判断相应的频繁序列模式。

    在获取频繁序列模式的基础上,采用模式识别法判断该异常频繁序列模式的故障类型,并将Top K(k 一般取3)的故障类型与上一节基于增量式BP 神经网络判断支撑网告警的故障类型进行匹配,如果匹配成功,则将该物理设备作为重点排查的对象,实现故障位置的精准定位。

    为了评估5G 支撑网告警数据定位故障的性能,在某市联通5G 试验网中进行测试,通过模拟告警数据的方式来测试故障定位算法的性能。这些数据来自底层网络设备,通过将原始告警数据进行预处理和动态滑动窗口处理后,整理出格式统一的告警信息,然后以二维数组的方式存储在告警数据库中,然后再进行特征提取和故障定位。

    原始告警数据经过预处理和滑动窗口处理后的告警信息处理格式如表1 所示。

    表1 5G支撑网部分告警信息示意图

    然后,采用二维数组的形式将告警事件(告警事件转化为字符串)存储在告警数据库中,格式如图8 所示。

    图8 告警数据库的存储过程

    在获取告警数据库后,采用CNN 进行特征提取告警数据的多维语义特征,并将其输入BP 神经网络中,将告警数据多维特征与故障位置进行关联,构建告警数据多维特征与故障位置的映射关系。

    考虑到告警数据的动态性和随机性,为了保证告警数据与故障位置映射的精准性,采用增量式BP 神经网络来构建新的告警事件与故障位置映射关系的持续更新。首先,通过历史告警数据特征训练BP 神经网络的参数;
    然后,采用新的告警数特征训练新的BP 神经网络参数,为了降低模型的计算复杂度,在新的BP 神经网络参数初始化的过程中,采用有选择性地选择神经网络的参数放进新的BP 神经网络中进行训练,并结合新的告警数据特征更新BP 神经网络参数。具体如图9 所示。

    图9 增量式BP神经网络参数更新过程

    基于上述的分析,得到每一个周期设备故障位置。将该故障位置与基于模式识别法判断的故障位置进行匹配,如果匹配成功,则认为该物理设备作为重点排查的对象,实现故障位置的精准定位。

    上述方法中,有2 个关键因素会影响故障定位的精准性:滑动窗口大小的选择以及选择多少比例的BP 神经网络参数来初始化新BP 神经网络参数,为了进一步分析本文算法的性能,将基于动态滑动窗口的增量式BP 神经网络学习和固定窗口的BP 神经网络学习模型进行准确率、不同θ的灾难遗忘对比,来反映本文提出方法的性能。

    3.1 准确率对比

    准确率是模式识别最重要的评价指标,本文采用平均准确率反映随着故障类别的增加,不同算法在准确率上的表现(θ=5%)。具体的对比结果如图10 所示。

    图10 准确率对比

    相比于固定滑动窗口的BP 神经网络,动态滑动窗口的增量式BP 神经网络故障类别平均准确率更高、更加稳定,这说明本文的方法在构建增量学习过程中,能够对新的知识进行有效学习,能够应对动态多变的网络攻击行为。

    3.2 不同灾难遗忘对比

    为了对比不同灾难遗忘在保留模型参数比例的作用,本文将灾难遗忘分别设置为5%、8%、10%,对不同灾难遗忘随着模型参数增加故障类型识别准确率进行对比。具体的对比结果如图11 所示。

    图11 不同参数变动范围准确率对比

    由此可知,随着模型参数量增加,故障类型识别准确率呈现下降的趋势。这是因为模型参数越多,通过增量学习实现模型局部参数更新时,由于样本量不足或者样本本身的随机性等因素所导致局部参数在更新过程中产生震荡的现象,这种现象会导致故障类型识别率逐渐降低。另外,通过对比不同灾难遗忘率对应的故障识别准确率可知,灾难遗忘率为10% 时,故障识别准确率最高,这是因为合适的参数保留比例能够较好保留原始模型的重要参数,又能通过增量学习实现模型局部参数的更新,从而保证模型的识别能力。而灾难遗忘率5%或者20%时,参数更新设置的条件过于严格或者宽松,很可能导致增量学习过程中重要参数更新范围受限或者过于宽泛,从而导致某些模型重要的参数没有得到更新或者某些参数没有很好保留的情况,从而降低了模型识别的准确率。

    本文提出一种增量式BP 神经网络的支撑网告警数据的故障定位方法,该方法使用增量数据来学习增量的新类别知识,并在增量迭代过程中采用参数变动范围阈值来实现网络参数的优化,从而很好地描述动态网络攻击行为的特征分布,在一定范围内减轻增量学习过程中的灾难性遗忘。实验表明,本文的方法与传统固定滑动窗口的BP 神经网络相比,在分类准确率上表现出明显优势。

    猜你喜欢 增量特征提取滑动 导弹增量式自适应容错控制系统设计北京航空航天大学学报(2022年5期)2022-06-06提质和增量之间的“辩证”当代陕西(2022年6期)2022-04-19全现款操作,年增量1千万!这家GMP渔药厂为何这么牛?当代水产(2021年8期)2021-11-04“价增量减”型应用题点拨中学生数理化·中考版(2019年9期)2019-11-25传动轴滑动叉制造工艺革新制造技术与机床(2019年8期)2019-09-03基于Gazebo仿真环境的ORB特征提取与比对的研究电子制作(2019年15期)2019-08-27一种新型滑动叉拉花键夹具制造技术与机床(2018年11期)2018-11-23基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14Big Little lies: No One Is Perfect意林(绘英语)(2018年1期)2018-04-28Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04
    相关热词搜索: 告警 故障 支撑

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章