• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    城市河流水质预测的LSTM方法适用性研究

    时间:2023-02-10 08:55:03 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    孙开争,刘 杨,姜腾龙,马姗姗,刘建军

    (山东省济南生态环境监测中心,山东 济南 250102)

    河流水质预测可以为水环境治理与水环境质量改善提供精准数据支撑。由于污染物在水中迁移转化机理复杂、模型本身求解的不确定性、输入数据不完备等原因,基于机理的水质数值模型模拟精度不高[1]。传统的非机理型预测方法,如多元线性回归法[2]、时间序列模型[3]、灰色系统[4]、人工神经网络[5-6]等方法,特别是人工神经网络适合河流水质变化非线性及不确定性等特点,获得了广泛应用。近年来,随着大数据的持续累积和计算性能的大幅提升,深度学习得以快速发展,其中循环神经网络在语音等时间序列数据解析方面取得突破进展[7]。LSTM(Long Short-term Memory,LSTM)是一种特殊的循环神经网络,在网络结构中增加了记忆单元,有效解决时序数据长依赖问题,在时序数据预测方面表现出色。Liang等[8]采用LSTM神经网络模型对河流6个水质指标预测,并与美国EPA的环境流体力学模型(EFDC)对比,表明用相对简单、短链的LSTM取得了很好预测效果;通过优化模型输入[9-11]、采用组合模型[12]可使得LSTM预测模型性能进一步提升。

    当前基于深度学习的水质预测模型较少采用长时间序列预测,深度学习往往“学习”的不够充分,采用数据大多来自水库或者水质变化较小的河流,LSTM模型能否适用于水质变化较大的城市河流研究较少。本研究选取典型城市河流小清河(济南段)数据为样本,比较了不同链长、不同预测步长下LSTM预测性能的优劣,考虑降雨量与水质变化关系,优化构建多变量LSTM水质预测模型,为提高城市河流水质预测精度进行了新的探索。

    1.1 研究区域

    小清河发源于济南市西部,东至山东省寿光市入渤海,其源头位于济南市槐荫区睦里庄,自西向东与黄河平行横贯济南市,流经济南市5区,从章丘区辛丰庄出济南界,全长为70.3 km,流域面积为2 803 km2。小清河是济南市最主要的排水、行洪、排涝河道,也是泉水的最终受纳水体,影响小清河济南段水质的最主要指标为氨氮[13]。小清河(济南段)有3个水质自动监测站,分别位于源头断面睦里庄、城区控制断面洪园闸、出境断面辛丰庄,3个监测点位位置和汇水范围,如图1所示:

    图1 研究区域与点位分布

    1.2 数据来源与预处理

    选取 2019—2021 年水质自动站的监测数据为研究对象,监测数据采样频率为4 h,一天6个数据的算数平均值为日均值。小清河(济南段)沿程氨氮浓度大致呈“钟线”形,两头低,中间高。因接纳主城区生活污水和少量工业废水,氨氮浓度在市区断面洪园闸最高,随水体的自净及洁净支流的稀释,至出境断面逐渐降低。2019年以来,睦里庄与辛丰庄断面水质稳定达标,洪园闸断面氨氮浓度波动较大,日均值浓度尚不能稳定达标,3个年度浓度分布概览如图2所示。通过精准水质预测,提高环境管理成效,对于持续改善小清河(济南段)水质意义重大,本研究以洪园闸断面为研究对象开展水质预测。

    图2 洪园闸氨氮浓度年度变化

    缺失数据首先采用同时段手工监测数据替代,仍有缺失的数据用滑动平均方法进行插值,共取得日数据1 096个,然后采用MinMaxScale将数据归一化到[-1,1]区间,提高模型收敛速度,避免局部最优。

    1.3 长短期记忆神经网络

    长短期记忆神经网络,解决了循环神经网络(Recurrent Neural Network,RNN)容易产生的梯度消失和梯度爆炸的问题[14],创造性的在隐藏层中引入输入门i、遗忘门f、输出门o等记忆单元,通过门控结构实现神经元细胞状态的存储更新,进而时间序列信息得以有选择的长期保留。单层LSTM神经网络示意图如图3所示,遗忘门ft控制t-1时刻细胞状态Ct-1的通过程度,输入门it决定哪些信息可以输入当前时刻记忆细胞;遗忘门ft和输入门it,共同更新当前时刻细胞状态Ct;输出门ot决定当前时刻细胞输出状态。

    图3 单层LSTM神经网络结构

    其中,σ为sigmoid激活函数,代表矩阵点乘(加)操作。

    1.4 预测结果评价

    本研究采用平均绝对误差(MAE)、均方根误差(RMSE)、决定系数(R2)和相关系数(r)来衡量模型的预测效果。MAE、RMSE是真实值与预测值偏差的度量,与量纲有关,数值越小表示模型预测效果越好。R2、r越接近于1表示模型拟合能力越好,可以比较不同量纲模型拟合优度。

    式中:yi——实测值;——预测值;实测值的平均值;——预测值的平均值;m——测试集样本个数。

    2.1 模型构建

    基于LSTM的预测模型,单向隐藏层节点设置为128个,训练次数设置为1 000,学习率设置为0.001,损失函数采用均方误差MSE,优化器采用Adam。原始数据集以2021年7月1日为界分成2部分,前部分912个数据为训练集,后部分184个数据设为测试集,均覆盖丰水期、枯水期。采用滑动窗口方法构建训练集数据对(Xtrain,Ytrain)。

    式中:xi——第i时刻的状态值,i∈[h,912-h];h——输入序列长度(链长);yi+p——第i+p时刻的状态值;p——预测步长。同样构建测试集数据对(Xtest,Ytest),输入训练好的LSTM(h,p)模型,得到预测值^y。

    2.2 单变量氨氮浓度预测模型

    单变量模型中,xi为第i时刻氨氮浓度,yi+p为第i+p时刻氨氮浓度,设置h为7,31,365,p为1,3,7,即以历史7 d、1 m、1 a氨氮日均浓度预测未来1 d、3 d、7 d氨氮日均浓度,结果见图4。3个不同步长模型拟合效果大致为“p=1”>“p=3”>“p=7”,说明LSTM更擅长短步长预测,当p=1时,不同h值的模型预测结果相差不大,MAE在0.45左右,R2在0.77左右,r在0.87左右,预测结果较好;p=3,h为7和31时,预测结果相差不大,h为365时预测结果较差,这说明模型未从长链数据中学习到足够的“知识”;p=7时,不同h值的模型预测结果均下降明显,结果评价如表1所示:

    图4 不同模型预测值与实测值对比

    表1 单变量模型预测结果评价

    2.3 多变量氨氮浓度预测模型

    小清河是济南市城区雨水径流的唯一接纳水体,已有研究表明,雨水径流在小清河水源(污染源)中贡献程度占比33.0%[15],且污染消减较为困难。选取位于济南城区龟山的国家基本气象站2019—2021年度降水数据,考察降雨量与氨氮浓度变化关系,结果如图5所示。从全年来看,因冬季降水较少污染物逐渐累积,随着初春降雨的增多,污染汇入水体氨氮浓度逐渐攀升;汛期因降雨较为频繁,水质波动较为剧烈;从单场降雨来看,降雨初期(1~3 d)氨氮浓度逐渐升高,后期氨氮浓度逐渐下降,降雨量可以为LSTM预测氨氮浓度提供新的学习资料。

    图5 氨氮浓度与降雨量的关系

    多变量LSTM模型中,xi为第i时刻氨氮浓度和降雨量组成的双变量,其他参数不变,结果见图6。不同步长多变量模型结果较单变量模型有所提升,其中p=1、p=3时提升较为明显,结果评价如表2所示。特别是当p=3、h=365时,MAE和RMSE较单变量LSTM分别下降20.9%,32.3%,这说明p=3的模型从年度同期降雨历时数据中学习到了更多的“知识”,氨氮浓度通常在降雨的第3 d左右变化较大。

    表2 多变量模型预测结果评价

    图6 多个氨氮预测模型(p=1)结果比较

    以2021年11月6日、7日降雨时段看,6日、7日降雨量分别为6.47 mm、99.3 mm,氨氮实测浓度从6日的1.32 mg/L逐渐升高,至8日达到最高4.04 mg/L,随后逐渐下降。多变量预测模型较好的捕捉到了这个降雨过程,氨氮浓度较高时预测结果好于单变量模型。

    2.4 集合模型氨氮浓度预测

    h=7时,模型较多的关注近期的变化趋势,预测结果倾向于向近期靠近,由于洪园闸断面氨氮浓度波动较大,预测结果波动也较明显;而h=365时,模型较多的关注年度趋势变化,预测结果较为平稳。不同链长的预测模型能学习到不同的“历史经验”,将不同链长模型的预测结果算数平均进行集合预测,能获得更好的拟合结果,如图7所示。以p=1为例,较单变量模型RMSE平均值降低19.3%,MAE降低了19.0%,r提升5.8%,集合预测模型性能提升明显,结果如表3所示:

    图7 集合预测模型(p=1)结果比较

    表3 洪园闸组合模型预测结果评价

    城市河流纳污、行洪等功能多,污染来源多样,水质波动较大,数据随机性强,水质预测难度大。LSTM特有的门控式结构可处理时序数据长依赖问题,使其具有突出的时间序列预测能力。本研究以小清河(济南段)市区洪园闸断面的在线监测数据为研究对象,建立氨氮浓度LSTM预测模型,并检验其适用性。分别以不同历史长度365 d、31 d、7 d的数据作为输入,预测未来1 d、3 d、7 d的氨氮浓度,不同链长模型预测未来同一天的结果相差不大,这也说明短链即可获得很好的结果,与已有研究结论一致[8]。采用降雨量、氨氮多变量预测模型预测精度进一步提升,说明模型可以学习降雨量与氨氮浓度之间的变化关系,也印证了降雨对河流水质的影响[15];不同链长的模型可以学习不同历史周期下的氨氮浓度变化趋势,综合面向目标的不同模型进行集合预测,使得模型预测精度进一步提高。

    LSTM模型的长步长预测能力有所下降,如何提高长步长预测精度值得进一步研究;根据《地表水环境质量标准》(GB 3838—2002),将预测的氨氮浓度计算得到水质类别,各模型的水质类别预测正确率介于65%~77%,未来可通过水质分类等预测方法进一步提高水质类别预测精度。

    猜你喜欢 小清河氨氮水质 悬浮物对水质氨氮测定的影响化工管理(2022年14期)2022-12-02董东管道穿越小清河对航道条件的影响分析山东交通科技(2020年2期)2020-08-13低温高铁锰氨地下水净化工艺中氨氮去除途径哈尔滨工业大学学报(2020年6期)2020-06-11氨氮动态优化控制系统在污水厂的应用效果天津科技(2019年9期)2019-09-28关于水质监测对环境保护的意义建材发展导向(2019年10期)2019-08-24一月冬棚养虾常见水质浑浊,要如何解决?这9大原因及处理方法你要知晓当代水产(2019年1期)2019-05-16这条鱼供不应求!虾蟹养殖户、垂钓者的最爱,不用投喂,还能净化水质当代水产(2019年3期)2019-05-14让城市的每一条河流都美丽起来中华环境(2019年6期)2019-01-21图像识别在水质检测中的应用电子制作(2018年14期)2018-08-21山东小清河流域黄土的发现及勘探意义中国石油大学学报(自然科学版)(2015年2期)2015-11-10
    相关热词搜索: 适用性 水质 河流

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章