• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于Welch方法凝聚谱的偏差与方差估计

    时间:2022-12-02 08:55:06 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    孙丰霖

    (中国海洋大学海洋与大气学院,山东青岛 266100)

    在谱分析中,凝聚谱(MSC)是衡量两个序列在频域上相关性的重要工具,有十分广泛的应用[1-4]。在实际应用中,常常采用Welch方法对MSC进行估计[1-4],通过加窗和重叠分段两种方式来降低估计的偏差与方差,从而提高MSC估计量的准确度[1-5]。

    估计量的偏差和方差是衡量一种估计方法优劣的两个重要方面,因此了解Welch方法得到的MSC估计量的偏差与方差是十分必要的。非重叠情形下,MSC估计量的偏差与方差可以直接通过分布函数获得[3],然而,重叠情形下MSC分布尚未导出,致使MSC偏差与方差无法计算。

    一些国外学者针对重叠情形下的MSC估计量的分布进行了研究。例如Bortel和Sovka[4]给出了75%重叠率下MSC估计量的渐进分布,该方法以非重叠情形下的MSC估计量的分布函数为基础,对其中的自由度参数进行修正,并给出适用范围,然而文章并没有涉及实际中常用的50%重叠率。Gallet和Julien[2]针对50%和75%重叠率下,对MSC的显著性阈值进行讨论,针对MSC总体值γ2为0的情形,对MSC估计量的分布进行讨论,从而得出阈值的适用范围,不过文章没有涉及γ2不为0的情形。

    国内学者对Welch方法估计量的偏差与方差的讨论大多集中在功率谱方面,包括窗函数、重叠率和分段数等因素的影响[5-10],而对通过Welch方法估计MSC研究较少,因此本文基于这一现状,对Welch方法下MSC估计量的偏差与方差进行研究,给出四种估计偏差和方差的方法,并通过随机模拟,基于估计值和实际值之间的相对误差,对四种方法进行比较并给出各个方法的适用范围,最后对结论的稳定性进行分析。

    假设x(t)和y(t)为两个总长度为N的离散时间序列,分别进行可重叠的分段,即

    xi(t)=x((i-1)D+t)

    yi(t)=y((i-1)D+t)

    (1)

    其中i=1,2,…,Ns,t=1,2,…,L,Ns为总分段数,L为段长,D分段间的延迟量,则重叠率为p=100(1-D/L)%,通过式(2)估计MSC。

    (2)

    其中F为Fourier变换,*为复共轭,w(t)为数据窗。在非重叠情形下,MSC的分布已经由Carter 等[3]证得,此时MSC的偏差(记为Bias)与方差(记为Var)如下:

    (3)

    (4)

    其中Nd是非重叠情形下的分段数

    Nd=(Ns-1)(1-p)+1

    (5)

    若将式(3)和式(4)中的Nd替换为Ns来估计MSC的偏差与方差,这实际上默认了重叠并不会对MSC的分布产生影响,但事实上,重叠的做法让部分数据多次使用,让相邻分段相关性增强。Gallet和Julien[2]针对MSC显著性检验问题,给出了两种修正Ns的方法。第一种方法(式(6))基于修正功率谱自由度的思想,即将窗函数和重叠率的影响考虑进来。

    (6)

    (7)

    (8)

    第二种方法是基于参数估计的思想,当γ2为0时,在非重叠情形下有E2=1/Nd,因此,若假定重叠前后MSC估计量分布未发生较大变化,则可以用Nc2(式(9))作为Nd的修正。

    (9)

    然而,这两种修正方法仅讨论当γ2为0时,修正后的MSC分布函数是否与随机模拟得到的累积经验分布函数(基于两个独立白噪声序列计算得到)的一致。在本文,探究这两种修正方法是否能应用于γ2≥0时的偏差与方差估计。

    采用随机模拟生成不同MSC真实值γ2、分段数Ns和重叠率p下的MSC样本,随机模拟的参数见表1,模拟序列生成方法参考Carter等[3],采用Hanning数据窗[2],重复m=1×105次实验,得到MSC估计量的偏差B(式(10))与方差V(式(11))的实际值,作为真实值的代表。

    表1 随机模拟参数

    (10)

    (11)

    首先,探究分段数和重叠率对MSC估计量实际偏差与方差的影响。从图1a可见,偏差会随着γ2的增大而逐渐减小直至0(当γ2=1时)。当分段数Ns=5时,25%和50%重叠率下的偏差曲线比较接近,而75%重叠率下的偏差明显增大,当提高分段数至15和30时,偏差出现明显的减小。从图1b可见,方差随着γ2的增大出现先上升后下降的趋势,并在γ2=1/3时达到最大值。当分段数Ns=5时,25%和50%重叠率下的实际方差曲线比较接近,而75%重叠率下的方差明显增大,当提高分段数至15和30时,方差曲线出现明显的降低,这与非重叠情形下的结论相吻合[3]。因此,重叠情形下,随着分段数的增加,偏差和方差明显降低。

    图1 重叠率和分段数对MSC估计量偏差和方差的影响

    从图1可见,在给定分段数Ns=5情形下,25%和50%重叠率的偏差和方差曲线十分接近,不过25%重叠率所使用的数据是50%情形下的1.33倍,数据量提升了约33%,但方差和偏差却没有得到相应程度的减小。虽然75%重叠率进一步利用了有限的数据,但这导致了MSC的分布出现较大变化,使得MSC估计量的统计性质由非重叠下情形向75%重叠率推广的过程中产生一定问题,这已经在75%重叠率阈值的适用范围的结论中得到了验证[2]。

    因此,在实际应用中,50%成为估计MSC常用的重叠率,原因包括,一是在有限的数据量下能够让MSC估计量的偏差和方差有效降低,二是计算简单,MSC估计量的统计分布变化小,可利用非重叠情形下的结论进行扩展。

    下面,在不同重叠率下,比较四种计算偏差和方差的方法的估计效果。将Nd、Ns、Nc1和Nc2分别代入式(3),计算偏差估计值,分别记为Bd、Bs、Bc1和Bc2,代入式(4),计算方差估计值,分别记为Vd、Vs、Vc1和Vc2,以Ns=5情形为例,绘制偏差和方差估计值曲线(图2)。

    对偏差而言,在25%重叠率下,除Bd外,其它三条估计曲线与实际值曲线B十分接近,但随着重叠率提高到50%,Bs出现一定程度的偏离,Bc1和Bc2接近实际值曲线B,当重叠率上升到75%,Bs的偏离程度更加明显,同时Bc1也位于实际值曲线B下方,只有Bc2仍然接近实际值曲线。

    对方差而言,结论与偏差相似。在25%重叠率下,Vs、Vc1和Vc2与实际值曲线非常吻合,50%的重叠率令Vs开始出现细微的偏离,Vc1和Vc2与实际值吻合度较好,然而75%重叠率下,Vd高估了方差,而Vs和Vc1估计值偏低,Vc2也在γ2<1/3时高估了实际方差,不过这种影响在γ2>1/3后逐渐减弱消失。

    图2 偏差和方差的估计效果

    从图2可见,重叠情形下,由于Bd和Vd与真实值之间差距过大,因此使用Nd来估计偏差与方差是不合适的,这个结论在其它Ns同样成立,因此在接下来评价估计效果时,不再对Nd进行讨论。

    下面,针对不同的分段数,对Ns、Nc1和Nc2估计偏差和方差的整体效果进行讨论。对方法Ns,定义偏差和方差的相对误差为

    (12)

    (13)

    其中Φ为随机模拟中γ2的取值集合,mean为取平均,同理,Nc1和Nc2偏差和方差的相对误差记为ζc1,ζc2,ηc1和ηc2。ζ和η能衡量在整个γ2的取值范围内,估计方法得到的偏差和方差估计值与实际值之间的整体差距。三种估计方法的相对误差结果见表2,选择5%作为判断该方法是否适用的阈值,即如果某估计方法在重叠率p和分段数Ns下的相对误差小于5%,则认为该方法可以用来估计偏差和方差。选择5%作为阈值的理由在于,Gallet和Julien[2]利用KS检验对γ2=0情形下对MSC估计量的分布进行了讨论,并利用式(6)和式(9)对非重叠情形下的分布函数进行修正,给出50%和75%重叠率下修正后分布函数的适用范围。在这些适用范围中,当γ2=0时,本文计算的偏差与方差的相对误差均处于5%以内,因此将5%作为衡量估计值与实际值之间是否吻合的阈值。

    表2 偏差估计值与实际值之间相对误差ζ/%

    表3 方差估计值与实际值之间相对误差η/%

    从表2可见,在25%重叠率下,Ns、Nc1和Nc2三种修正方法得到的偏差估计值均能使相对误差控制在5%以内,在50%重叠率下,从Ns>9开始,ζs出现一定程度的增长,超过了5%的阈值范围,且随Ns增大没有表现出明显规律,说明50%重叠率下使用Ns估计偏差的效果不够稳定。ζc1和ζc2依然能够控制在5%以内。在75%重叠率下,ζs在所有Ns下均超过了34%,且随Ns增大呈现一定上升趋势。在Ns<11时的ζc1超过了5%,在Ns≥11时的ζc1小于5%,而Nc2始终能够控制ζc2在5%以内。

    从表3可见,在25%重叠率下,Ns、Nc1和Nc2三种修正方法得到的方差估计值均能使相对误差控制在0.6%以内,在50%重叠率下,从Ns≥15开始,ηs出现一定程度的增长,超过了5%的阈值范围,且随Ns增大呈现一定程度的上升,说明50%重叠率下使用Ns计算方差效果不够稳定。ηc1和ηc2能够控制在1.2%以内。在75%重叠率下,ηs在所有Ns下均超过了15%,且随Ns增大呈现一定上升趋势。在Ns<9时的ηc1超过了5%,在Ns≥9时ηc1控制在5%以内,且随着Ns增大呈现一定程度的下降,Nc2在Ns≥5能够将ηc2控制在5%以内,也随着Ns增大逐渐减小。

    表4 不同重叠率下各方法适用范围

    结合表2和表3结果,给出不同重叠率和分段数下,给出三种方法估计MSC的适用范围(表4)。在25%重叠率下,三种方法计算的偏差和方差均与实际值比较吻合,其中直接使用Ns计算是比较准确和快速的方法。在50%重叠率下,Nc1和Nc2计算偏差和方差相对准确,Nc1只需根据重叠率和数据窗进行计算,而Nc2需通过随机模拟生成MSC样本估计,因此前者是50%重叠率时计算偏差与方差比较好的选择。在75%重叠率下,Nc1的适用范围小于Nc2的适用范围,即使在Ns≥11时,使用Nc1计算的偏差与方差的相对误差高于Nc2,不过差距随着Ns增大而逐渐减小。

    在第3节中,生成给定γ2的两个时间序列是基于服从N(0,1)白噪声序列(以下称为“基序列”),下面将基序列分布进行修改,首先提高方差,变为服从N(0,9)的白噪声序列,其次,弱化不同时间点间相互独立的假设,变为参数为0.5的AR(1)序列,重复偏差和方差实际值的计算过程,验证本文结论的稳定性。

    当基序列变为N(0,9)的白噪声序列(或AR(1))时,计算此时的实际偏差与方差和N(0,1) 情况下实际偏差与方差的相对误差

    (14)

    (15)

    其中,i=1代表N(0,9),i=2代表AR(1),绘制ζi和ηi的分布直方图(图3)。当模拟基序列改为N(0,9)时,MSC偏差的实际值变化幅度处于[-13%,13%],约92%的相对误差集中在[-5%,5%],而方差实际值变化幅度处于[-2.75%,2.75%],约93%的相对误差集中在[-1.25%,1.25%]。当模拟基序列改为AR(1)时,偏差与方差实际值的相对误差分布状况与N(0,9)情形下的结果十分相似,约91%的偏差相对误差集中在[-5%,5%],约94%的方差相对误差集中在[-1.25%,1.25%],使用KS test检验图3a、图3b中样本是否来自同一分布,p值分别为0.86和0.98,不拒绝来自同一分布的假设。

    图3 稳定性分析

    综上,随机模拟中基序列改变并不会对偏差和方差的实际值产生较大影响,同时,Ns、Nc1和Nc2三种方法的适用范围(表4)并未随着基序列改变发生变化,因此,本文给出的Ns、Nc1和Nc2三种方法的适用范围具有一定的稳定性。

    本文研究了基于Welch方法,不同重叠率下MSC估计量偏差和方差的估计问题,给出四种估计偏差和方差方法,并通过随机模拟对这四种方法的估计效果进行比较,给出各个方法的适用范围,并通过改变随机模拟基序列的方式验证本文结论的稳定性。主要结论包括:

    1)在25%重叠率下,使用Ns、Nc1和Nc2三种方法得到的偏差与方差估计值与实际值比较吻合。由于Ns不需通过计算即可得到,是一种比较合适的估计方法。

    2)在50%重叠率下,使用Nc1和Nc2得到的偏差与方差与实际值均比较吻合。前者计算需要窗函数和重叠率,后者需要随机模拟样本对参数进行估计,同时需要足够样本量保证参数的稳定性,因此前者是相对比较合适的方法。

    3)在75%重叠率下,Nc1的适用范围需要保证Ns≥11,而Nc2的适用范围需要保证Ns≥5,且后者的相对误差要优于前者,不过这种差距随着Ns的增大逐步减小。

    猜你喜欢 适用范围方差分段 2018年—2020年山西省普通高考成绩分段统计表山西教育·招考(2021年8期)2021-12-17分段函数的常见题型及其解法语数外学习·高中版上旬(2020年5期)2020-09-10方差生活秀初中生世界·九年级(2017年10期)2017-11-08例谈分段函数单调性问题的解决新高考·高三数学(2017年4期)2017-07-10寻求分段函数问题的类型及解法理科考试研究·高中(2016年10期)2017-01-17企业价值评估方法分析现代商贸工业(2016年24期)2017-01-13刑事和解适用范围探究法制博览(2016年12期)2016-12-28揭秘平均数和方差的变化规律中学生数理化·八年级数学人教版(2016年5期)2016-08-23方差越小越好?中学生数理化·八年级数学人教版(2016年5期)2016-08-23方差在“三数两差”问题中的妙用中学生数理化·八年级数学人教版(2016年5期)2016-08-23
    相关热词搜索: 方差 偏差 凝聚

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章