基于模糊数学理论的高维小样本数据特征分类系统

时间：2023-01-18 22:30:05　来源：柠檬阅读网本文已影响人

徐成桂，徐广顺

（成都理工大学工程技术学院基础教学部，四川乐山 614000）

高维小样本数据在各个领域中得到了广泛的应用，由于数据维数的迅速增长，出现了大量冗余信息，导致系统出现维度灾难问题。为了解决这个问题，相关学者提出了一种新的集成学习分类方法，以改善其预测性能和稳定性。鉴于目前大部分的特征选取方法都是基于识别能力来选取单一的子集，虽然利用这些子集能够解决模型学习过程中遇到的难题，但每个子集包含的信息量较少，使其变得不稳定[1]。决策树分类方法是一种以实例为基础的归纳式学习方法，该方法能够对已知的随机训练样本进行树形分类。利用每个非叶子节点都会用到的特征来判断分类，每个叶子节点代表最后的分类结果。从根节点到每一个叶子节点，都有一条分类原则，即在检测新的样品时，只要从根节点出发，对每个分支进行检测，然后将其逐级递归到子树上，再进行检测，直到获得叶节点，叶节点所代表的分类结果是当前分类样本的期望类型[2]。但是要预先设置触发因子，这是一个非常漫长的过程，导致分类时间较长。

针对上述问题，本文利用模糊数学原理，建立了一个高维小样本数据特征分类系统。

结合模糊数学理论，设计高维小样本数据特征分类系统，其硬件结构如图1 所示。

该系统硬件结构主要由三部分组成，分别是人机交互端、逻辑处理端和数据分类端。其中，人机交互端负责为系统提供交互端口；
逻辑处理端负责为系统提供高维小样本数据特征处理端口；
数据分类端负责为系统提供分类端口[3]。

1.1 人机交互端

人机交互端主要包括以下几个核心模块：自然语言的理解可以通过框架语义的变化，即用域、意图和属性来表达语义结果。在特定的业务场景中还可将人机交互端分为两个模块：业务优化、模型简化。其中，业务优化能极大地改善人机交互效果；
模型简化可以保证人机交互端具有可控性[4]。在商业应用中可以将多种模式进行整合，以达到智能和可控制之间的最优均衡。

1.2 逻辑处理端

在逻辑处理方面，可以根据服务方提出的特征数据进行分类，并运用模糊数学理论进行特征提取。逻辑处理端所用到的高维小样本数据特征提取装置如图2所示。

在逻辑层处理端，采用云计算技术对数据进行定性分析，以改善分类系统的稳定性。云计算是将数据从数据传送界面中提取出来，再经过数据坐标系的构建、数据校正、数据限制等步骤，从而得到数据特征类型[5-7]。

1.3 数据分类端

数据分类端是系统核心组件，该装置能够将数据映射到指定的某个类别之中，数据分类结构如图3 所示。

数据分类结构主要由三部分组成，分别是预处理、特征提取和分类。其中：预处理主要是提取训练集和测试集编码；
特征提取主要是提取高维小样本数据特征，之后再交由分类部分对提取的数据进行分类处理[8-10]。

数据分类端通过将多个分类器结合起来，对未知样本进行预分类[11]。在进行预分类的同时，未知样本也具有与训练样本相同的类型标记，从而使分类器能够有效地将未知样本用于学习，增强分类器的识别性能。数据分类端通过将一级分类器与二级分类器结合起来，实现对未知样本的自动分类，并将两种分类器得到的未知样本进行“可能”的正确分类（预分类的结果）[12]。

以样本集合的样本为训练样本，使主分类器的训练样本数目有所提高。“可能”分类法的正确意义在于，当两种分类器对一种未知的样本进行分类时，得到的结果就会比较准确[13]。在学习完毕后，利用主分类器对未知样本进行重新分类，并将其输出到最后的结果中。

针对高维小样本数据的特征分类，利用模糊数学理论建立一种以此为基础的分类模型，将高维小样本数据与已有的分类数据相对应，以加快检索和查询的速度，提高分类精度。

2.1 基于模糊数学分析高维小样本数据特征奇异性

为了解决高维小样本数据特征奇异性问题，采用模糊数学理论方法进行分析[14]。高维小样本数据特征中包括类内协方差矩阵、类间协方差矩阵、总体协方差矩阵。

类内协方差矩阵的计算公式可表示为：

式中：P(Ti)表示第i类模式出现的概率；
N表示高维小样本的向量维数；
m表示模式类别；
Zij表示样本向量；
i表示平均样本向量；
s表示样本总数；
T表示出现的某类模式。

类间协方差矩阵的计算公式可表示为：

式中表示总体平均向量。

总体协方差矩阵的计算公式可表示为：

在上述公式中，ηa，ηb为非负定矩阵，由此计算出来的第i类模式出现概率也是一个固定值。将高维小样本数据特征从原来的N维空间降到G维空间后，使用模糊数学理论鉴别矢量集，鉴别函数为：

式中L表示G维列向量。设定一个阈值λ，当式（4）计算结果小于λ时，则说明该类特征不具有奇异性，可将其作为研究对象进行分类研究；
反之，则具有奇异性，应将其剔除[15]。

通过模数数学理论分析的数据奇异性问题，能够为后续分类提供一个良好的环境，避免出现由小样本数据引起的类内奇异性问题。

2.2 高维小样本数据特征约简处理

原始的样本一般处于一个高维空间，采用模式识别法进行分类比较繁琐，无法确定权重属性，导致分类效果不佳。因此，需要对高维小样本数据进行特征约简处理，通过剔除影响最小的分类属性，降低空间维度，进而对模型输入数据进行归一化整理，可以使样本具有较好的可分性，大大简化了高维小样本数据特征分类过程。高维小样本数据特征约简处理详细步骤如下：

假设在信息系统S=(R,H)中，存在个体集合和属性集合，其中R表示非空、有限的个体集合；
H表示非空、有限的属性集合，用f(S) 表示n阶矩阵，该矩阵是由能区分的个体属性组合而成的集合。为了根据f(S)矩阵进行特征约简，需引入分明函数，如下所示：

式中：a，b，c，d，e，f分别表示高维小样本数据特征。为了实现约简，简化式（5），得：

式（6）中去掉了影响较小的属性，达到约简的目的，为分类降低数据集维数。

2.3 分类流程设计

统计约简后的数据，结合模糊数学理论设计分类流程如图4 所示。

由图4 设计详细分类步骤：

步骤1：获取约简后的数据，这些数据具有对应的标签类型，通过对该样本的采集与统计，获得相应的特征信息。

步骤2：在集群各个模糊数学理论区内，分别对样本数据进行统计。利用特征矢量对4 个单元（所属节点、特征、特征值、标记）进行统计。各个模糊数学理论将4 个元组按照＜节点，特征组＞分组并聚集。

步骤3：对每个特征值进行分类，把每个标记的统计信息归类到模糊数学中的某一区域，再以遍历特征值作为模糊数学理论的另一个区域特征值。每一次遍历具有最大信息增益的特征值，选取最佳方案进行模糊数学理论区划分。

步骤4：从步骤2～步骤3，直至所有的模糊数学理论区都被分割完毕。将目前的结果保存为一个分类模型，将要被分类的数据输入到分类模型中，以获得与待分类的数据相对应的类别。

为了确定数据的标号，构建如下分类模型：

式中：μij表示在某个聚类中心的数据隶属度；
vij表示聚类中心数据标号值。当公式（7）计算结果大于1 时，则说明目标数据不属于m类；
反之，则属于m类，由此完成高维小样本数据特征的分类。

为了验证基于模糊数学理论的高维小样本数据特征分类系统的可行性，以某人工智能数据集为研究对象，展开具体的实验验证分析。

3.1 实验数据集

在实验数据集中选择5 类公开数据，分别为Webdocs、NDC、Gisette、Arcene、Dexter，如图5 所示。

图5 中，高维小样本数据集具有排列分散特征，该特征下的实验数据相关参数如表1 所示。

表1 实验数据相关参数

3.2 实验指标

对于上述5 类高维数据的特征分类结果，计算分类结果准确率，公式为：

式中：KL 表示正分类结果；
KP 表示负分类结果；
H表示样本总数。以公式（8）计算结果为依据，计算结果越大，说明分类效果越好。

3.3 实验结果与分析

分别使用集成学习、决策树和模糊数学理论的特征分类系统，对比分析5 类高维数据的分类结果，如图6所示。

由图6 可知，使用集成学习分类方法，Webdocs、NDC、Gisette、Arcene、Dexter 高维数据特征的分类准确率最高分别为62%，60%，58%，56%，53%；
使用决策树分类算法，5 类高维数据特征的分类准确率最高分别为88%，80%，73%，70%，65%；
使用本文的模糊数学理论分类系统，5 类高维数据特征的分类准确率最高分别为96%，95%，93%，90%，88%。

通过上述分析结果可知，使用模糊数学理论分类系统具有高精准分类效果。

本文提出了基于模糊数学理论的高维小样本数据特征分类系统，利用模糊数学理论对高维小样本数据特征进行约简处理，由此获取低维度小样本数据特征。通过增加样本训练数量，能够解决高维小样本数据特征奇异性问题。经过实验验证，证实了该系统具有良好的分类效果。

虽然使用该系统能够解决小样本奇异性问题，但仍然还有许多地方需要进一步深入研究。比如如何鉴别虚拟训练样本，采用更好的分类方式避免大量噪音干扰等。总之，小样本问题研究是未来分类领域中一个持续研究的热点问题。

猜你喜欢约简高维分类器学贯中西（6）:阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21基于相关子空间的高维离群数据检测算法计算技术与自动化(2022年1期)2022-04-15面向连续参数的多粒度属性约简方法研究计算机与生活(2021年8期)2021-08-07基于差别矩阵的区间值决策系统β分布约简计算机应用(2021年4期)2021-04-20基于朴素Bayes组合的简易集成分类器①计算机系统应用(2021年2期)2021-02-23基于深度学习的高维稀疏数据组合推荐算法计算机技术与发展(2020年2期)2020-04-15基于动态分类器集成系统的卷烟感官质量预测方法计算机应用与软件(2020年1期)2020-01-14带权决策表的变精度约简算法小型微型计算机系统(2019年10期)2019-11-11一种自适应子融合集成多分类器方法计算机测量与控制(2019年4期)2019-05-08近似边界精度信息熵的属性约简华东师范大学学报（自然科学版）(2018年3期)2018-05-14