• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于高效通道注意力机制与多尺度特征融合的烟丝图像识别方法研究

    时间:2023-02-16 08:10:05 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    刘江鹏,牛群峰,靳 毅,陈 霞,王 莉,袁 强

    (1. 河南工业大学 电气工程学院,河南 郑州 450000;
    2. 河南中烟工业有限责任公司安阳卷烟厂,河南 安阳 455006)

    梗丝、膨胀叶丝、叶丝和再造烟丝的掺配比例是影响烟支口感、配方设计的重要指标[1]。因此,实现高精度、高效识别烟丝类型对探究配方设计、烟草制品质量检验具有重要意义。目前烟丝类型识别方法主要有人工分拣法、近红外光谱法(NIR)和计算机视觉分析法。人工分拣法是具有经验的工人进行辨识并完成分拣工作,该方法效率低,准确性受人工经验影响波动较大。NIR分析法通过检测烟丝的光谱信息,判断光谱数据辨别烟丝类型,但再造烟丝原料的光谱信息与其他烟丝差异较小,会造成较大的识别误差,无法实际投入使用[2-3]。基于机器视觉的识别方法通过提取图像特征进行烟丝类型区分,该方法相较于人工及NIR 分析法更遍及,但模型的泛化能力容易受成像质量和工程环境的影响。

    近年来,卷积神经网络模型在目标检测[4]、图像分割[5-6]和图像分类[7-8]等图像处理任务中提供了先进、高效的解决方案。其优秀的特征提取能力极大地减少了图像处理任务的工作量[9-10]。针对使用对象的差异性,研究人员大都会根据实际问题调整网络结构[11-12]。高震宇等[13]提出一种基于卷积神经网络的识别方法,该方法与人工及NIR 分析法相比更加便捷,但模型过分关注烟丝局部特征,导致模型在训练集和测试集表现差异较大,泛化能力差,难以投入应用。钟宇等[14]提出一种基于残差神经网络的烟丝类型识别方法,该方法比卷积神经网络识别准确率更高,但其数据集原始样本过少,对宏观上差异较小的烟丝难以区分。鉴于此,提出了一种基于高效注意力机制和多尺度特征融合的烟丝类型识别方法,旨在实现烟丝类型的高效和准确识别。

    1.1 材料

    烟丝按照世界卫生组织《烟草控制框架公约(FCTC)》[15]分为梗丝(Cut stem,CS)、膨胀叶丝(Expanded tobacco silk,ETS)、叶丝(Tobacco silk,TS)和再造烟丝(Reconstituted tobacco shred,RTS)4类。供试4 类烟丝样本均来自于河南中烟工业有限责任公司安阳卷烟厂。使用上海市嘉定粮油仪器有限公司生产的JJSY30x10 检验平筛筛除烟丝中的碎丝,其中筛孔径为0.9 mm,每次检验平筛工作10 s。通过筛选分别获取4 类烟丝各1 100 根,共4 400根样本。

    1.1.1 图像采集 使用海康工业相机MV-CE100-30GC 1 000 万像素彩色相机,配备MVL-HF1224M-10MP 12 mm 焦距海康工业镜头。使用标准白平衡卡作为烟丝拍摄的背景。为保证光源的均匀,选用华康科技公司生产的R20-80-25 环形光源。采集4种样本各1 100 张,单张图像大小为2 788 像素×2 238 像素。人工筛除模糊的烟丝图像,筛选后的图像建立烟丝数据集,经过筛选最终得到烟丝图像4 100张。

    1.1.2 去噪与K-means 图像分割 在采集得到的原始图像中,烟丝所占区域较小,为了减少无关信息,加快模型的收敛速度,提高分类准确度,需要对原始图像进行图像处理,便于系统准确高效实现特征提取。图像预处理流程为:①双边滤波去噪,过滤噪声的同时保留原有烟丝的轮廓细节;
    ②对图像进行K-means 聚类,分离烟丝图像的主体和背景;
    ③对聚类处理后的图像进行灰度化处理和最大类间方差法二值化处理;
    ④获取烟丝主体轮廓,得到感兴趣区域(Region of interest,ROI);
    ⑤分割调整后的ROI区域。

    双边滤波中的2个核函数是组合空间域函数和范围核函数。正是这2个核函数在滤波过程中的作用,使得双边滤波能在有效去除烟丝图像噪声的同时,保留边缘和细节信息。由于烟丝厚度、透光率和颜色深度存在差异,烟丝图像在进行二值化时需要使用不同的阈值以保证烟丝主体轮廓的完整性,而K-means 聚类算法有效解决了这个问题。K-means聚类算法是一种自适应搜索的无监督分类算法。该方法的本质是通过反复迭代找到k个最优聚类中心,将所有样本分成k个类,使所有样本与所属类中心的欧氏距离之和E最小[16]。对于图像数据而言,可将图像中相似的像素值进行聚类,形成一类,以达到划分图像不同区域的目的,从而区分前后景,完成图像分割。

    其中,nj和Xj分别表示在以Ci为中心的集合中样本点个数和样本点。

    经过K-means 聚类处理后,烟丝图像的前后景已分离。对该图像进行灰度化处理,得到烟丝的灰度图像。使用最大类间方差法得到烟丝的二值化图像,获取二值化图像中的最大轮廓及该轮廓的最小外接矩形。根据烟丝的最小外接矩形进行扩展,以保证分割的图像具有相同的长宽尺寸,防止图像送入神经网络之前的缩放处理导致图像失真。4类烟丝典型图像如图1所示。经过处理得到4 100张,其中包含梗丝1 018 张、膨胀叶丝1 012 张、叶丝1 009 张、再造烟丝1 061 张,按照7∶3 的比例随机划分训练集和测试集。

    图1 烟丝数据集Fig.1 Tobacco shred dataset

    1.2 方法

    针对梗丝、膨胀叶丝、叶丝和再造烟丝4类烟丝所具有的宏观尺度特征不明显、尺寸小和形状不规则等特征,提出一种基于高效通道注意力机制与多尺度特征融合的烟丝图像识别方法。改动后的模型结构如图2所示。在网络中引入高效通道注意力策略,通过跨通道交互机制来加强模型提取特征的能力;
    同时,将改进后的模块输出的特征图进行多尺度融合,缓解深层特征图的特征丢失问题。最后,在比较收敛性和准确性时,用PReLU 和AdaBound 代替了ReLU 激活函数和Adam 优化器,进一步提高模型的性能。

    图2 ECA-MS-Inception-ResNet-V2网络结构Fig.2 ECA-MS-Inception-ResNet-V2 network structure

    1.2.1 模型构建 将Inception-ResNet-V2[17]网络作为系统的主框架,Inception-ResNet-V2 是在Inception 网络结构上融入残差思想得到的。Inception网络结构使用不同大小卷积核增强了网络的适应性,提取的特征更加丰富,残差网络用于防止梯度发散。它包含3个部分:①深度卷积层Stem,用于对原始数据进行预处理;
    ②Inception 模块中的非对称滤波器组合Inception-ResNet-B、Inception-ResNet-C,通过非对称卷积分裂增强了滤波器模式的多样性;
    Reduction-A 和Reduction-B 的缩减是为了增加维度,用于补偿Inception 结构造成的维度缩减。③预测层,包括池化层和Softmax层。

    1.2.2 高效通道注意力 分析传统的通道注意力机制发现,降维操作会影响通道注意力的性能,适当的跨通道交互可以在保持高效性能的前提下大大降低模型的复杂性。因此,在基本结构设计中采用了不降维的策略。

    跨通道交互不降维的策略,增加了通道注意力机制的收益,如图3 所示。通过考虑每个通道和它的n个邻域,跨通道互动信息被捕获。卷积核n的大小代表了跨通道交互的覆盖率,即参与特定通道注意力预测的邻域数量。

    图3 高效通道注意力模块Fig.3 Efficient channel attention module

    为了避免人工调整,采用了自适应选择一维卷积核大小的方法来确定n的值。一维卷积用于捕捉跨通道的相互作用;
    n的大小决定了相互作用的覆盖范围。n的数量与通道维度C有关,在固定数量组卷积的情况下,高维(低维)通道与长距离(短距离)卷积呈正比。同样,跨通道信息交互的覆盖率也与通道维度呈正比[18]。高效通道注意力中指数函数被用来近似映射,如公式(4)所示。此外,由于通道维度通常设置为2 的整数次方,因此用2(γ×n-b)代替exp(γ×n-b),得到了公式(5)的映射关系。为了减少训练过程的时间和计算成本,将超参数γ和b分别设为2 和1。可以看出,对于大尺寸的通道,函数能够实现长距离的相互作用。

    激活函数使用参数修正线性单元(PReLU)防止ReLU 中低于0 的输入神经元失去活性。PReLU的函数解析式为公式(7)。

    其中,xi是激活函数的输入,ai从模型训练中学习,其初始值设定为0.25。

    将ECANet 模型嵌入到Inception-ResNet-B、Inception-ResNet-C 模块中,这2 个模块都包含3 个分支,第1 个分支未经过处理直接输出,把第2、3 分支的结果堆叠后经过1×1 的卷积操作,将卷积的结果通过一个ECANet模块,最后把所得输出与第1分支相加。同时,将模块中的激活函数从ReLU 改成PReLU,改动后得到新的模块ECA-Inception-ResNet-B、ECA-Inception-ResNet-C,模块的结构如图4所示。

    图4 ECA-Inception-ResNet详细结构Fig.4 Detailed structure of ECA-Inception-ResNet

    1.2.3 特征融合 膨胀叶丝由叶丝经过膨胀处理制成,其膨胀部分会有所差异,甚至部分叶丝并没有完成膨胀操作,因此,膨胀叶丝和叶丝的相似度很高,除此之外,模型深度的增加会丢失部分特征。浅层特征图感受野较小,小目标细节信息较多,但缺少丰富的语义信息;
    深层特征图感受野较大,有丰富的语义信息,但包含的小目标信息较少[19]。使用多尺度结构能在一定程度上解决特征丢失问题[20]。针对浅层网络与深层网络特点,将网络中的第10 个ECA-Inception-ResNet-B 模 块 和 第5 个ECA-Inception-ResNet-C 模块的特征图进行全局平均池化,再使用Concat 层进行特征拼接,该输出经过全连接层得到最终的分类结果。通过使用多尺度结构减少小尺寸烟丝或大尺寸烟丝里的微小特征进行有效提取,提升模型识别准确率。

    1.2.4 模型训练 模型通过优化算法的方式,通过多次迭代进行梯度下降,找到损失值最小时的模型权重,最终完成模型的训练,优化算法能在模型训练过程中对学习率进行衰减,使得模型获得更好的分类性能[21]。训练前使用双线性插值[22]来尽可能保证图像缩放后的质量,烟丝数据集中的每个图像都被缩放到299×299 像素大小,用均值0.5 和标准差0.5对每个通道的数据进行标准化。在输入前对训练集图像进行随机打乱,以减少图像顺序对模型的影响。

    模型的优化算法选用AdaBound:初始学习率为10-4。当分类准确率连续5次不下降时,将当前学习率调整为原学习率×0.2。设置训练批量大小为32。最大迭代次数设置为50次。每一轮迭代后,在测试集上对模型的准确性进行测试,保留每次迭代生成的模型及结果。选用交叉熵函数作为损失函数,其表达式:

    式中,m为当前一批输入网络的图像数量,yji为真实的标签,ŷji为预测的标签,Closs为损失值。交叉熵刻画了实际输出概率与期望输出概率分布之间的距离,交叉熵的值越小,表示模型训练过程中的学习效果越好[23]。

    试验基于Windows 10 操作系统,GPU 为GeForce GTX 3080(10 GB 显存),处理器为Inter(R)-Core(TM)i7-12700K CPU@3.61GHz,运行内存为32 G。模型的搭建与训练测试通过Python 语言实现,基于PyTorch 深度学习框架,并行计算框架使用CUDA 11.3版本,开发环境使用Pycharm。

    采用公式(9)—(12)计算准确率(ACC)、精准率(P)、召回率(R)、F1分数等评价指标。F1分数是一个融合精准率和召回率的综合指标,F1分数越高则说明模型越理想[24]。

    式中:TP是正确分类为属于该类的样本数,TN是正确分类为不属于该类的样本数,FP是错误分类为属于该类的样本数,而FN是错误分类为不属于该类的样本数。

    2.1 模型性能分析

    为了更清楚地显示ECA-MS-Inception-ResNet-V2 的识别精度和分类结果,根据测试集上的模型分类结果绘制了一个混淆矩阵(图5)。结合烟丝识别结果的混淆矩阵分析,提出的方法适用于梗丝、膨胀叶丝、叶丝、再造烟丝4 种不同类型的烟丝。在识别烟丝类型时,每种烟丝类型的准确性和召回率是不同的。ECA-MS-Inception-ResNet-V2网络的具体性能如表1所示。各烟丝类型的识别精度保持在94.16%~100.00%,平均为97.21%;
    召回率保持在94.72%~99.69%,平均为97.20%。F1分数为95.24%~99.84%,平均为97.20%。上述结果表明,所提出的方法在既定的数据集中表现良好,可以应用于烟丝图像在线识别。

    图5 使用ECA-MS-Inception-ResNet-V2的混淆矩阵Fig.5 Confusion matrix for using ECA-MS-Inception-ResNet-V2

    表1 ECA-MS-Inception-ResNet-V2网络性能表现Tab.1 Network performance with ECA-MS-Inception-ResNet-V2

    2.2 高效通道注意力对模型性能的影响

    去除高效注意力机制后(表2),识别精准率降低0.31~1.88个百分点,平均精准率降低0.98个百分点;
    平均召回率降低0.99 个百分点;
    模型的平均F1分数降低0.99 个百分点,模型整体性能下降。注意力机制在低运算工作量下有效增强了通道依赖性。在模型中融合高效通道注意力机制能强调烟丝图像的关键信息,有效提升模型性能。

    表2 去除高效通道注意力的网络性能表现Tab.2 Network performance with efficient attention removed

    2.3 多尺度特征融合对模型性能的影响

    为了分析多尺度特征融合算法对模型性能的影响,使用烟丝数据集评估包含和不包含多尺度特征融合模块的ECA-MS-Inception-ResNet-V2 模型。试验结果如图6所示。应用多尺度特征融合算法后,最大精度可以提高到100.00%。在相同条件下,梗丝、膨胀叶丝、叶丝和再造烟丝的准确率分别提高了0.65、0.99、1.33、0.31个百分点。识别精度得到了明显的提高。这说明由于深度网络提取的信息过于抽象,在一定程度上造成了信息缺失。因此,多尺度特征融合算法在实践中有效地提高了识别精度。

    图6 多尺度特征融合效果对比Fig.6 Effect comparison of multi-scale feature fusion

    2.4 不同激活函数与优化器的比较

    在ECA-MS-Inception-ResNet-V2 网络的构建中,使用ReLU 或Sigmoid 作为激活函数,Adam 作为优化器是主流选择。选择了激活函数(ReLU、Sigmoid、PReLU)和优化器(Adam、AdaBound)来形成多种方案。方案配置如表3所示。

    一部分是在统一激活函数的前提下,进行优化器的选择。试验包括方案1和方案4的比较,方案2和方案5的比较,以及方案3和方案6的比较。从表3可以看出,虽然方案1的F1分数比方案4的高0.33个百分点,但损失值却比方案4 高。其他使用AdaBound 的方 案5 和6 比使用Adam 的方案表现更好。另一部分是在统一优化器的前提下,进行激活函数的选择。试验包括方案1、2、3 和方案4、5、6 之间的比较。使用PReLU 函数的方案3 比方案1 和2的损失值低;
    方案4 和方案5 的F1分数和损失值都比方案1低;
    方案6的F1分数达到97.20%,而损失值最小(0.082)。根据试验结果和分析,最终使用AdaBound作为优化器,使用PReLU作为激活函数。

    表3 优化器和激活函数的方案Tab.3 Scheme of optimizer and activation function

    2.5 典型网络性能对比

    为了进一步验证ECA-MS-Inception-ResNet-V2 网络的性能,将该网络与经典网络进行性能比较。不同算法模型训练集损失值和测试集准确率随迭代次数变化的曲线如图7 所示。从图7 可以得出,ECA-MS-Inception-ResNet-V2 网络比Inception-ResNet-V2 最终的损失值低,最终ECA-MSInception-ResNet-V2网络准确率最高。

    图7 不同算法模型的损失值和准确率Fig.7 Loss and accuracy of different algorithm models

    表4 显示了6 种不同网络的平均精度与耗时。ECA-MS-Inception-ResNet-V2 网络增加了高效注意力机制和多尺度特征融合结构,并改变网络的激活函数,使烟丝图像的识别更加准确、高效。该算法的准确率相比DensNet121 和Inception-ResNet-V2 分别提高3.50、2.60 个百分点,而单幅图像的检测时间相比原模型增加0.014 s。在牺牲少量运算速度的情况下,ECA-MS-Inception-ResNet-V2的准确率得到了较大提升。

    表4 各模型在测试集上的准确率Tab.4 Test set accuracy of each model

    选择性能表现较好的DensNet121、Inception-ResNet-V2 和ECA-MS-Inception-ResNet-V2 进 行比较,详细的性能表现如表5 所示。ECA-MSInception-ResNet-V2 网络与DensNet121 相 比,4 类 烟丝的识别效果有了明显的提升。在DensNet121 分类结果中,梗丝、膨胀叶丝和叶丝的召回率较低,说明这3 类烟丝分类时,相互混淆的概率较大。使用ECA-MS-Inception-ResNet-V2网络进行烟丝分类,梗丝、膨胀叶丝和叶丝的召回率都有了很大提升。

    表5 各模型在测试集上的详细性能表现Tab.5 Detailed performance of each model on the test set

    ECA-MS-Inception-ResNet-V2 网络与Inception-ResNet-V2网络相比,梗丝、膨胀叶丝和叶丝的精准率和召回率都有明显提升。F1分数的平均值提高2.62 个百分点。说明ECA-MS-Inception-ResNet-V2 网络在烟丝分类任务中有着更加优秀的模型性能。

    2.6 消融试验结果

    对ECA-MS-Inception-ResNet-V2 网络进行消融试验,以评估所提出方法的每个组成部分对性能的影响。选择Inception-ResNet-V2 网络,以评估图像预处理模块(IPP)、高效通道注意力模块(ECA)、多尺度特征融合模块(MCFF)对ECA-MSInception-ResNet-V2 模型性能的影响。消融试验结果如表6 所示。基本网络结构Inception-ResNet-V2(网络1)在未经图像预处理的原数据集上取得了92.92%的平均精度和92.84%的平均召回率,模型的平均F1分数为92.85%。图像预处理使平均精度和召回率分别达到94.63%和94.57%,图像预处理与直接使用原始图像(2 788 像素×2 238 像素)缩放到模型输入图像(229 像素×229 像素)的方法相比,其有效地减少了处理过程中图像细节信息的损失。网络3的高效通道注意力模块提高了目标特征表达能力,大大提高了模型性能,与网络2 相比,评价指数分别提高了1.79、1.81、1.79 个百分点。与网络3相比,网络4包括一个多尺度特征融合模块,以融合不同的特征信息,提高区分度和图像表现能力。与网络3 相比,它在每个评价指标上分别提高了0.81、0.82、0.83 个百分点。试验结果显示,每个组件都能明显改善ECA-MS-Inception-ResNet-V2的性能。

    表6 ECA-MS-Inception-ResNet-V2各组成部分的试验结果Tab.6 Experimental results of each component of the ECA-MS-Inception-ResNet-V2

    为了解决烟丝类型识别中的一系列问题,提供筛选烟丝样本、拍摄图像、图像预处理、建立数据集和类型识别的整套方案。使用K-means 聚类算法进行烟丝图像二值化,完成烟丝图像的前后景分离,使最大类间方差法计算的阈值更符合烟丝图像。避免了烟丝主体轮廓残缺的情况出现,提高输入图像的抗环境干扰能力和特征提取能力。提出了一种基于ECA-MS-Inception-ResNet-V2 网络的烟丝类型识别方法。首先,在Inception-ResNet-V2网络中引入高效通道注意力策略,通过自适应选择一维卷积核来确定跨通道覆盖率,在保持高效通道注意力性能的同时降低了计算成本,加强模型提取特征的能力;
    其次,将改进后的模块输出的特征图进行多尺度融合,增加特征代表性,降低过拟合风险;
    最后,在比较收敛性和准确性时,使用PReLU 激活函数和AdaBound 优化器。最终,ECA-MSInception-ResNet-V2 网络得到97.23%的识别准确率,损失值为0.082,平均F1分数为97.20%,识别单张烟丝图像时间为0.107 s。试验结果表明,ECAMS-Inception-ResNet-V2网络准确率相比典型网络Vgg16、ResNet34、MobileNet-V2、DensNet121 和Inception-ResNet-V2 分别提高10.50、10.42、7.16、3.50、2.60个百分点,模型性能提升显著。

    后续将探究不同类型烟丝自身的几何特征,如长度、宽度、面积和纵横比等对烟丝分类的影响,将这些特征与图像信息共同输入网络。同时,将进行实际现场安装并应用,进一步验证模型性能。

    猜你喜欢 烟丝注意力卷积 不同因素对烟丝填充值的影响研究南方农业(2022年13期)2022-08-03让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02基于灰色关联法的短支烟加工工序间烟丝尺寸分布研究西南农业学报(2020年3期)2020-05-05卷积神经网络的分析与设计电子制作(2019年13期)2020-01-14从滤波器理解卷积电子制作(2019年11期)2019-07-04基于相似性原理的烟丝结构分布稳定性评价江西农业学报(2019年6期)2019-06-26结存烟丝返掺方式的选择消费导刊(2018年8期)2018-05-25基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13
    相关热词搜索: 烟丝 高效 尺度

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章