• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于改进深度学习网络的音乐风格分类模型优化方法

    时间:2023-04-15 20:40:04 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    郭联俊, 侯峰

    (陕西铁路工程职业技术学院, 工程管理与物流学院, 陕西, 渭南 714000)

    人们的生活情感可以通过音乐得以体现,在人们的日常生活和精神生活中音乐属于重要构成部分[1]。数字音乐资源在数字时代中的数量直线上升,管理海量音乐资源的基础是对音乐风格进行分类[2]。国内对音乐风格分类的研究与国外相比起步较晚,但越来越多的国内外学者开始研究音乐风格分类,在音乐风格特征提取和分类等领域取得了一定的成就,并提出了部分音乐风格分类模型。

    文献[3]提出基于PNN的音乐风格分类方法,该方法建立音乐情感与特征之间的联系模型,并提取音乐播放的特征参数,将其输入神经网络中,实现音乐风格的分类。该方法具有较好的准确率,但无法对获取的音乐特征参数进行融合处理,分类结果的ROC曲线不理想,存在F1值低的问题。文献[4]提出基于度量学习和特征提取的MP3音乐分类模型。度量学习过程考虑使用结构化预测方法从包含多个音乐流派的一组MP3音频文件中学习一组参数化距离。利用Mel倒谱系数(MFCC)提取声学信息,并利用主成分分析进行降维,实现MP3音乐分类。该方法能够有效实现音乐分类,但没有对音乐标签进行融合处理,导致处理候选标签所用的时间较长,存在时间复杂度高的问题。

    为了解决上述方法中存在的问题,本文提出基于改进深度学习网络的音乐风格分类模型优化方法。利用D-S证据理论,融合处理提取的音乐特征,缩短了特征数据所用时间,进而降低了时间复杂度。融合处理后的音乐特征,采用改进深度学习网络,构建音乐风格分类模型,实现音乐风格分类,提高了方法的有效性。

    1.1 特征提取

    本文主要从音色、节奏和音高三个方面进行音乐特征提取。具体的特征提取过程如下。

    1) 音色特征提取

    音色主要由频域统计特征决定,音色特征提取实际上就是频域统计特征的提取。由于频率通常情况下会影响音色的概率,因此采用短时傅里叶变换方法,提取频域统计特征[5]。在提取频域统计特征之前,首先用x(n)描述音乐信号的原始时域,通过傅里叶变换音乐时域获得序列Y(k)=FFT(x(n))。

    在此基础上,对于音频信号,常见的频谱统计特征包括谱质心、谱扩散、谱偏度、谱峰度、滚降截止频率、谱通量及谱平坦度。计算频谱统计特征及其公式如下。

    (1) 谱质心

    设μ代表谱质心,可通过式(1)计算得到:

    (1)

    式中,f(k)代表第k个频带对应的中心频率,m1代表频率对应的一阶中心距。频率通常情况下属于随机变量,归一化的幅值即为频率的概率密度p(f(k))[6]:

    (2)

    (2) 谱扩散

    谱扩散σ描述的是普矩心在频谱中的扩散程度[3],可通过式(3)计算得到:

    (3)

    式中,m2代表频率对应的二阶中心距。

    (3) 谱偏度

    谱偏度的表达式如下:

    (4)

    式中,m3代表频率对应的三阶中心距。

    (4) 谱峰度

    谱峰度代表在中心附近频率分布的平坦程度:

    (5)

    式中,m4代表频率对应的四阶中心距。

    (5) 滚降截止频率

    滚降截止频率描述的是当音乐信号总量衰减为95%的状态下能量对应的频率,其表达式如下:

    (6)

    式中,fc代表衰减截止频率,sr代表采样率。频谱形状的特性在一般情况下可以通过滚降截止频率进行度量[7]。

    (6) 谱通量

    频率幅度的变化情况可以通过谱通量Flux进行反映[8]:

    (7)

    式中,Yt(k)代表经过傅里叶变换后第t帧序列。

    (7) 谱平坦度

    谱平坦度SFM可以通过式(8)计算:

    (8)

    通过上述公式,对音色特征进行提取。

    2) 节奏特征提取

    节奏特征的提取实际上就是提取节拍相关特征,即获取节拍分布直方图。通过在信号中寻找节拍显著性最强的周期性,实现音乐节奏特征的提取[9]。本文基于离散小波变换方法,结合节拍的低频特征获取音乐节拍,具体过程如下。

    通过Mallat算法获取小波系数,每一层中都存在采样过程以及低通、高通滤波表示为

    (9)

    式中,x1,L(n)代表高通滤波结果,x1,H(n)代表低通滤波结果,h(k)、g(k)分别代表低通和高通滤波器。小波分解流程如图1所示。

    图1 小波分解流程

    利用小波分解对低通、高通滤波进行分解,得到序列信号α和干扰信号β,选取合适的低通和高通滤波器进行重构,获取序列信号在低通和高通滤波器上的重构信号表示为

    (10)

    3) 音高特征提取

    音高特征提取实际上就是获取基音周期。基于自相关函数算法,在频域上提取音高特征。音高特征的提取流程如图2所示。

    根据图2可知,首先输入初始信号,并对输入的初始信号进行预处理,当频率小于1 kHz时,通过低通滤波进行周期检测;
    当频率大于1 kHz时,经过周期检测后,再通过半波滤波进行周期检测。采用自相关函数算法,获取基音周期,实现音高特征提取。

    图2 音高特征提取流程

    1.2 特征融合

    在完成音乐特征提取后,利用D-S证据理论对上述提取的特征进行融合处理,用样本空间(a1,a2,…,an)描述上述过程提取的音乐特征信息作为证据,通过M(ai)=exp DEN-7/G对样本空间(a1,a2,…,an)进行处理,获得证据置信函数M1(a1),M2(a2),…,Mn(an),其中,ai描述的是DT-CWT纹理特征。

    通过式(11)融合目标多元证据置信函数:

    (11)

    设Pl(A)代表融合似然函数,Bel(A)代表融合置信度函数,其表达式分别如下:

    (12)

    式中,2D由D的全部子集构成。

    通过最大类概率函数f(A)对音乐特征进行判断,实现音乐特征的融合:

    (13)

    式中,|A|、|D|分别代表A、D中元素的数量。

    在实现音乐特征融合后,将融合的音乐特征输入改进深度学习网络,构建音乐风格分类模型。

    (1) 将音乐特征输入网络,对深度学习网络的权值矩阵W进行初始化处理,将隐含层和可见层的偏置a、b初始化为0。

    (3) 神经元在隐含层对应的激活概率值p(h|v)通常情况下为实数,对其进行二值化处理。

    (4) 在深度学习网络中反向传播隐含层单元对应的概率值,获得重构值v′。用p(v′|h)描述激活概率:

    (14)

    (5) 在改进深度学习网络中正向传播重构的v′,计算反向传播概率和激活概率。

    (6) 利用上述计算结果获取可见层中偏置b对应的增量,同时在隐含层h中获取偏置a对应的增量。权值矩阵W的增量可通过反向传播概率和正向传播概率计算得到,通过式(15)构建音乐风格分类模型表示为

    (15)

    式中,ε代表学习率。

    通过上述步骤,输出音乐风格分类结果。

    为了验证基于改进深度学习网络的音乐风格分类模型优化方法的整体有效性,需要对本文所提方法进行测试,仿真环境选择 MATLAB 2021,从九酷音乐平台中1 500首歌曲作为实验所需的音乐文件,包括6种音乐风格,每种风格有250首歌曲。其中,1 000首作为训练级数据,500首作为测试集数据,本次测试的实验环境如表1所示。

    表1 实验环境

    采用基于改进深度学习网络的音乐风格分类模型优化方法(方法1)、基于PNN的音乐风格分类方法(方法2)和基于用户评论的音乐风格分类方法(方法3)分别进行测试。

    实验选取F1值、时间复杂度和ROC曲线作为测试指标。其中,F1值是用来衡量模型精确度的一种指标,F1值越接近于1,表明方法模型的有效性越好。F1值表达式为

    (16)

    式中,macro_P代表样本总体的精确率,macro_R代表样本总体的召回率。

    方法1、方法2和方法3的F1值测试结果如图3所示。

    图3 F1值测试结果

    分析图3可知,在多次迭代中方法1的F1值远远高于方法2和方法3的F1值。F1值越高对应的有效性越好,因而方法1可有效地实现音乐风格的分类。其原因是方法1在音高、节奏和音色三个方面提取音乐风格的特征,融合提取的特征实现音乐风格的分类,提高了方法的有效性。

    时间复杂度是一个算法的时间耗费,时间耗费越长,时间复杂度就越高。但时间耗费理论上是计算不出的,需要上机运行测试进行估计。通过运行时间对方法1、方法2和方法3的时间性能进行测试,不同方法的运行时间测试结果如图4所示。

    由图4可知,在多次迭代中方法1的运行时间均在20 s以内,方法2在第1次迭代中获得的运行时间高达60 s,方法3的运行时间在第2次迭代中高达70 s。通过上述分析发现,方法1的运行时间最短。因为方法1利用D-S证据理论对提取的音乐特征进行了融合处理,缩短了特征数据所用的时间,进而降低了方法1的时间复杂度。

    ROC曲线是用来描述模型的性能,ROC曲线接近于1,表明方法模型的特异性和灵敏性越高。图5中的横纵坐标分别代表特异性和灵敏度,不同方法的ROC曲线如图5所示。

    由图5可知,方法1的ROC曲线接近于1,表明方法1对音乐风格分类的特异性和灵敏度较好,因为方法1根据融合处理后的音乐特征采用改进深度学习网络构建了音乐风格分类模型,利用分类模型实现音乐风格的分类,提高了方法的特异性和灵敏度。根据方法2和方法3的ROC曲线可知,以上2种方法在音乐风格分类的过程中无法同时满足灵敏性和特异性,获取的音乐风格分类结果效果不理想。

    音乐曲库的规模随着多媒体技术的发展不断扩大,并且还有大量的新曲目增加到音乐曲库中,在上述背景下亟需有效的方法对音乐风格进行分类,方便用户在海量音乐库中检索出自己喜欢的音乐曲目。目前音乐风格分类方法存在分类有效性差和时间复杂度高的问题,为此提出基于改进深度网络的音乐风格分类模型优化方法,提取音乐特征并进行融合处理,通过改进深度学习网络构建音乐风格分类模型,实现音乐风格的分类,解决了目前方法中存在的问题,为音乐曲库规模的扩大提供了保障。

    猜你喜欢音乐风格特征提取代表浅谈陕西筝曲《云裳诉》的特色音乐风格参花(上)(2022年4期)2022-05-23诠释代表初心 践行人大使命上海人大月刊(2022年4期)2022-04-14四季的代表作文通讯·初中版(2022年2期)2022-02-05“代表通道”新观察人大建设(2020年5期)2020-09-25这个代表咋这么拗人大建设(2020年5期)2020-09-25拉赫玛尼诺夫浪漫曲音乐风格研究——以《春潮》为例山东农业工程学院学报(2020年3期)2020-06-24无与伦比的月光之美——两首同词艺术歌曲《月光》的音乐风格及演唱技巧乐府新声(2019年2期)2019-11-29基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01
    相关热词搜索: 音乐风格 深度 模型

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章