• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于DBnet和众筹策略的气象纸质表格快速数字化方法及系统

    时间:2023-04-09 18:45:04 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    韩瑞 李强 顾春利 沈晨笛 石明远

    (1 国家气象信息中心,北京 100081;
    2 清华大学环境学院,北京 100084;
    3 中国移动智慧家庭运营中心,北京 100053;
    4 北京应用气象研究所,北京 100029;
    5 中国气象局公共气象服务中心,北京 100081)

    纸质气象表格资料是一种通过表格形式,记录规定时间段内各地气象要素、大气状况及变化的数据[1],是台站观测人员手工记录的第一手原始气象观测资料。现存于中国气象局气象档案馆最早的纸质表格资料始于1796年法国的《气象观测公告》,至今已有200多年历史。由于经历历史沧桑和保管条件所限,气象档案馆保存的纸质气象资料已普遍出现纸质老化、变脆、破损以及字迹退化等现象。这些资料都是宝贵的历史遗产,具有极其重要的科学和历史价值,所以中国气象局从2007年2月正式启动了气象数字档案(Digital Archive)项目,致力于纸质气象资料的数字化工作,至今仍在通过该项目对纸质气象表格资料进行拯救、保护和开发利用工作[2]。

    数字档案这一用语是20世纪90年代诞生的英译词汇[3],日本将其定义为“收集、保存和提供各类数字信息资源的方法的总体”[4];
    《图书馆情报学用语辞典(第五版)》中将其定义为:“以数字信息的形式记录有形或无形的文化遗产,在进行无变质地永久保存的同时,提供互联网使用。最初以纸质资料数字化的形式生产的文化遗产也属于数字档案的对象。”[5]在欧美国家,像这样将文化遗产数字化的信息资源被称为“数字遗产(Digital Heritage)”[6]。2012年,联合国教科文组织公开的“数字遗产”的定义是:“以计算机技术为基础,具有永恒价值并应为下一代保存的资料。”[7]而纸质气象表格资料的数字化就是数字遗产的一部分。

    纸质气象表格是传统的气象观测数据记载方式,历史悠久,且现存待数字化资料多为手写,其中还不乏书写不规范、笔迹压线、涂改等情况,而目前OCR(光学字符识别)技术手写识别精度远低于印刷体;
    同时由于历史原因,许多观测员在记录气象要素信息时,存在不少专有字符和约定记录方式,OCR无法识别;
    所以目前气象数字档案工作方式相对原始,采用的主要技术包括:扫描技术、录入技术、质检技术[8]。其中,扫描技术是人工将档案原件利用扫描仪,以图像方式存储在计算机内或其他存储介质上;
    录入技术目前主要使用录入员手工键入,将图像上的数据录入到电子表格或文件中;
    质检技术是将扫描后数字化的集成结果,通过人工抽取一定比例的样本,进行图像与录入结果的人工肉眼对比检查,用以判断检查录入的质量。简而言之:纸质气象表格资料的数字档案工作是一种采用人工主导扫描、录入、质检的传统方法。由于工作效率和数据安全等方面的要求,这种工作方式采取开辟封闭场地,扫描、录入和质检人员聚集于场地内同场作业的模式。

    突如其来的新冠疫情以及严格的防疫措施,让原有的工作方式难以为继;
    以酸雨资料为例,原需要13人的录入团队,连续工作9个月完成约502320页“一录(录入一次)”的工作任务;
    然根据复工后的防控要求,目前录入团队人数骤减至7人,因而完成时间也延迟至22个月。现实表明,现有工作模式已无法保障原有工作的进度安排;
    同时,复工后为了追赶进度,人工一录出错率也由4.4%上升至6.9%,这与数字档案0.3%的出错率要求存在显著差距。

    结合后疫情带来的外在影响和手工录入本身存在的问题,急需另辟蹊径,应用先进的技术方法改进原有工作模式。

    随着计算机技术的不断发展,虽然在文字识别上还有一定距离,但基于机器学习的表格识别、字符定位技术日渐成熟,可以弥补原有霍夫变换等技术的不足,尤其是利用大数据训练最优模块,有效提高了表格线识别和字符定位的精度;
    而有向单连通链技术(DSCC)提供了一种能够分离交叠字线的算法,一定程度上改善了手写体侧压表格线时的提取问题[9];
    这些都为传统人工数字档案工作中的各个环节注入了新的技术。

    本文旨在提出一种快速数字化方法及系统,基于DBnet模型,结合有向单连通链技术,通过字符定位气象纸质表格资料;
    进行碎片处理,以“众筹”方式完成图像数字化和检验过程;
    通过分段式处理的方法,解放原有手工录入作业,最终完成气象纸质表格类资料的数字档案工作。

    1.1 面临问题

    目前,气象纸质表格资料无法应用自动识别录入技术,主要源于2个问题:①手写体对OCR技术的应用存在精度限制:根据2020年《纸质档案数字复制件光学字符识别(OCR)工作规范》[10]要求,手写体识别精度的合格标准是大于80%,疫情之前的人工录入数字档案最高出错率为4.4%;
    而目前基于深度学习的手写体识别精度最高可以达到93.5%[11],也就是说手写体自动识别的最低出错率是6.5%,较人工录入为低。由于气象纸质表格资料多为手写体,以酸雨气象表格资料为例,需录入共计502320页。其中有482730页为手写体;
    约占总数的96.1%;
    所以这也是之前数字档案仍为人工录入和抽查工作模式,而没有采用自动化技术的原因之一。②表格类型众多分类复杂:纸质表格资料随着对观测要素的不断细化,记录条目也不断增加;
    再以酸雨资料为例,涉及数字档案工作的资料包括酸雨观测记录簿(TB0)和酸雨月报表(TB1)2类,资料横跨1982—2018年,共计存在过的表格种类就有32种;
    图1表示各省酸雨月报表应用表格类型及转换次数,由图可得,各省使用不同类型表格种类最多为10种;
    除了应用种类不统一以外,各省不同类型的表格应用时段也不统一;
    由类型转换次数可知,最多转换51次,这给基于深度学习的识别训练工作带来很大难度。

    图1 各省酸雨月报表应用表格类型及转换次数

    1.2 解决思路

    基于目前现状,手写体识别准确性是数字档案工作无法自动化处理的瓶颈之一,那么是否可以进行“分段”处理?本文的解决思路是将人工数字化工作划分成“碎片、录入、自校”,由“字符定位、字线分离” 等自动化方式实现碎片过程,通过“众筹”方式完成录入、自校过程。其中字符定位、字线分离方案,选取了深度学习中DBnet模型,结合DSCC算法[12]完成碎片准备工作。

    1.2.1 DBnet模型字符定位

    DBnet模型[13-17]字符定位采用了基于语义分割的方法。即将待数字化的图像按照不同比例输入到图像训练集中,经过特征提取和上采样合并操作后得到图2中全蓝色的特征图F,然后使用F预测出概率图P;
    使用F预测出阈值图T,最后通过P和T计算出文本框[18-20]。具体步骤:①采集字符定位数据集,DBnet模型的训练依赖于大量的数据,因此制作字符定位数据集是至关重要的一步。随机选取扫描获取的表格文档图像,并进行标签的勾画,对要识别的字符部分进行标注,使每一张图像对应一张字符标注后标签。②基于深度学习算法,构建字符提取和定位的DBnet模型。本步骤中,以Tensorflow平台为开发环境,搭建DBnet模型,对字符定位数据集进行学习和训练。③基于所采信的字符定位数据集,对DBnet模型进行训练。④采用训练获得的DBnet模型,对所述表格文档图像进行字符定位。

    图2 DBnet模型

    1.2.2 DSCC算法字线分离

    有向单连通链分为横向单连通链和纵向单连通链2种,分别用于检测横线和竖线[11],对输入图像进行有向单连通链的提取,得到大量的单连通链,通过判断多个游程项是否组成一个序列,来判断是否单连通链,及判断表格线,进而完成字线分离。具体步骤如图3所示。

    图3 DSCC算法步骤

    本文采用深度学习DBnet模型,从字符本身出发,自主学习和挖掘字符特征,结合字符多尺度特征,获取更精准的字符位置,实现表格字符的高精度定位。同时应用DSCC算法进行字线分离。按照规定的图像命名规范,对数字化图像进行分割裁剪并用训练后的模型进行识别并存储,完成碎片化处理流程。采用同一碎片多用户分组进行统计,即通过众筹式人工输入对字符进行录入工作,完成数字化处理流程;
    根据批量处理,直至形成最终唯一的统计结果,完成了气象纸质表格资料的数字档案工作。

    图4是气象纸质表格资料快速数字化系统的方案流程图,所述快速数字化系统涉及如下部分:表格文档图像获取、图像预处理、表格线提取、字符定位及提取、图像切割、众筹式录入、校验及输出数字化结果。快速数字化系统流程步骤:①表格文档图像获取,获取所述气象纸质表格文档的图像,一般通过扫描获取表格文档图像。②图像预处理, 对表格文档图像进行预处理,包括对获取的表格文档图像进行降噪、倾斜校正等处理。同时,本文采用中值滤波算法对表格文档图像降噪,获得平滑的表格文档图像。③字符定位,基于深度学习的DBnet模型,实现表格字符的定位。④表格线提取,从完成了上述处理的表格文档图像中提取表格线。基于DSCC算法提取字线分离,并对其进行优化。⑤对完成了上述处理的表格文档图像进行切割,并基于切割后的子图像(图像碎片)发起众筹,对每个子图像进行文字录入。⑥搭建可视化展示框架,基于数据中心相关标准和要求设置统一访问接口,通过统一访问接口为用户提供数据获取功能,包括表格文档图像路径查询、特殊符号图标查询、各省纸质表格文档图像汇总情况查询等。⑦当某一子图像的众筹录入次数大于A次,且一致率大于a%时,确定该子图像众筹录入通过检验,将录入结果存储于临时文档中。若校验不通过,则返回录入操作重新录入。⑧遍历所有子图像且全部校验通过时,将所有录入结果发送给输出文件,作为当前气象纸质表格文档的数字化处理结果。

    图4 气象纸质表格资料快速数字化系统的方案流程

    根据上述的8个步骤进行功能分类,最终将其封装到3个部分中,分别为:碎片处理、登录系统和分析库。在应用层,利用HTML5和CSS3的优势,同时兼容多类型、多版本浏览器访问,具有跨平台、易拓展、兼容性好等优势;
    在服务层,使用Rest和Web Service相结合的方式提供统一访问接口;
    在数据层,基于Oracle数据库存储,提供数据获取功能,包括图片信息查询、数字化图像汇总情况查询等,根据不同的应用模式和开发运行环境,提供多种服务方式,以URI方式在页面中直接查询接口,数据实现前后台交互使用,并以统一的JSON、数组格式封装返回数据,保障数据的标准化和兼容性。具体封装和系统架构如图5、6所示。

    图5 功能封装

    3.1 碎片处理

    碎片处理涉及图像预处理、表格检测、图像切割、图像修正4个部分。其中:图像预处理是指在表格文档扫描成图像的过程中,或多或少会出现一定角度的倾斜。这个问题会直接给单元格定位、字符定位等造成困难,因此对图像应用霍夫变换方法进行图像的倾斜校正。预处理部分还应用了中值滤波算法对表格图像降噪,获得平滑的表格图像。表格检测采用DBnet字符定位技术;
    图像切割则是根据定位结果进行图像碎片化处理;
    图像修正就是对于碎片后图像中有表格线的地方,应用DSCC算法进行字线分离。技术路线及部分实现界面如图7所示。

    图7 技术路线及部分实现界面

    3.2 登录系统及分析库

    登录系统及分析库的流程与实现如图8所示。从碎片处理的最后一个环节“待数字化图片库”开始,步骤如下:①设置气象特定标识库,将已知的气象符号以图片的形式放入标识库,并将符号意义和图片建立映射关系;
    基于关系型数据库进行数据存储,提供符号图标查询获取功能。②设计数据库表,将分割的图片按照图片id、图片名、图片路径等信息进行入库;
    同时对数字化校验数据录入进行库表设计。为使检索效率更加高效,在存储数据时,按照实际业务数据进行分表分类存储;
    同时编写设计用户校验与统计的处理方法。③登陆系统,在Linux服务器上搭建图片访问服务器,统一访问接口,搭建可视化展示框架。④录入结果对比及统计。

    图8 登录系统及分析库的流程与实现界面

    快速数字化系统通过嵌入其他网站,以验证码的形式向系统用户展现,通过系统全部用户的登录行为实现“众筹录入”。本文中网站选取“全国数据资源在线汇交平台”(http://idata.com/datasource/login.html,简称:汇交系统)作为试验平台,对快速数字档案系统进行测试,并对数字档案的正确性进行测试,对时效性进行预估判断。

    4.1 输出结果

    图9是完成上述处理过程后的酸雨月报表,其中,第1个红框截取原始扫描图像;
    中间为数字档案的录入结果;
    第2个红框对原始图像碎片处理后的切片图。通过快速数字化系统,当数据录入次数和一致率达到设定阈值后,确认录入结果,该表快速数字化处理工作完成。

    图9 数字档案后的酸雨月报表

    4.2 正确性验证

    由于在实际字符定位与字线分离的技术中,有可能有碎片不完整的情况产生,所以在登录系统界面中,设计了图片不完整的选项(图10),以便用户众筹录入中出现上述原因,作为反馈改进机制。本测试中有效录入数计算如下:

    图10 图片不完整的反馈机制

    有效录入数=碎片总数-图片不完整数

    (1)

    一录正确率是指对图片进行录入1次时的正确性,所以一录正确率计算如下:

    (2)

    事实上,本系统在设计录入次数的同时,还设计了多次录入同一碎片的一致率,对同一碎片的多次录入,录入结果之间是一个验证的过程,同时也是一个查错的反馈机制,通过这种方式既可以提高正确率,也可以增加数字档案工作的准确性。

    通过试验结果可以看出(表1):测试样本为2056张碎片,除由于图片碎片处理不完整导致43张图片无法识别外,其余共有2013张有效录入张数;

    表1 测试结果

    其中,有2007张图片正确录入;
    一录正确率为99.70%,满足了数字化工作小于0.3%的出错率。对不正确的图片,再次发起众筹录入及正确性验证;
    经过多次录入,正确性可达到100%。

    4.3 时效性预估

    表2是人工数字化工作在疫情前后与快速数字化系统在完成时效上的对比分析。样本选自酸雨数字档案录入任务,共计需要完成502320页的酸雨纸质表格图像资料。

    表2 人工和系统完成数字档案工作的对比

    人工数字化公司需要对扫描后的图像资料完成手工录入;
    于2019年10月启动工作任务,当时预计9个月工期,但是之后由于疫情原因及防控要求,更改了原定工作任务安排由“全部录入”改为“录入其中30万页”,所以该项工作于2021年7月结束。

    本测试以快速数字化系统正式运行预估,快速数字化系统和人工录入工作一样,也是对502320页完成录入工作。首先要进行碎片处理,处理后约60278400张碎片,将其导入汇交系统众筹录入;
    快速数字化搭载的汇交系统,用户涵盖全国31个省,涉及国家级、省级填报人员2464人,其中,基层台站为7×24 h倒班值班,若按照2423人次测算,令网站登录时效为10 min,则平均每周预计录入碎片为2423人×6次×24 h×7 d+41人×6次×8 h×5 d=2452224条,全部完成耗时为60278400÷2452224≈24.6周≈7个月。时效远高于人工数字化处理工作。

    4.4 安全性

    气象数据安全是气象网络安全的重要组成部分,关于本方案的安全性问题,也做了相应的研究工作,结论认为:方案采用图像最小碎片化、待录入图像混淆和调用源安全审计3种方法,可以有效保障气象图像数据资料的安全性。

    虽然本方案将碎片化处理后的图像数据提供给参与众筹识别的网上公众,但参与众筹识别者欲借助图像碎片拼接合成获取原始信息,却存在巨大的困难。

    首先,本方案的图像最小碎片化方法将待处理图像数据进行最小化切分,以本方案中酸雨数字化为例,约502320页资料(每页120个碎片图像)全部碎片化后形成近60278400张碎片,而还原1张原始表需要的拼接方案数如下所示:

    (3)

    其中,n为全部碎片后形成的碎片张数,r为每页资料碎片后的碎片张数。

    因此,通过图像碎片拼接还原来得到原始表格中的完整信息,需要巨大的计算处理能力,以目前计算机体系架构所形成的计算处理能力而言,这是一个天文数字,几乎不可能完成。故图像最小碎片化方法保障了碎片化后的图像数据已经丧失其实际数据分析意义和价值。同时,待录入图像混淆方法将切分后的多年、多站点碎片化图像数据进行随机编码和混淆,破坏原有碎片化数据间的顺序和关联性。这也进一步增加了拼接还原的难度。最后,调用源安全审计方法将判断调用方的IP源地址等信息,对可疑的调用地址进行自动封堵和服务拒绝。可对行为不轨者进行主动防御。综上,本方案的气象数据安全问题是可以保证的。

    本文基于互联网思维模式,使用人工智能技术手段,提出了一种针对气象纸质表格文档的快速数字化方法及系统;
    利用分段式处理的方法,解放原有手工录入作业,最终完成数字档案工作。

    经酸雨纸质表格图像资料代入系统验证表明:①快速数字化系统实验样本的一录正确性,正确率大于99.7%;
    达到数字化工作容错率0.3%的标准;
    ②快速数字化系统实验样本的时效性,约为目前人工处理时长的1/3;
    同时比疫情前人工处理时效也提高了22.2%。综上,该系统在确保了数据正确性的同时;
    有效提高了工作效率,实现了气象纸质表格资料快速形成数字档案的目标;
    特别在新冠疫情常态化工作场景下,降低了传统数字化的人工聚集风险,为数字档案工作提供了新的思路。

    本文涉及的方法及系统在正确性和时效性上还有可改进的空间。①录入正确性方面:在测试中,通过对“图片不完整”情况的分析,认为DBnet算法对不规则表格及字线的提取仍然存在一些问题,还需对剪切图片不完整的完整数字化图像再训练,并对模型参数进行调整和完善;
    ②录入时效性方面:本系统时效性的改进主要依赖网站的访问量,本文以“汇交系统”进行测算,若以月均访问量大于1500万次的中国气象数据网(http://data.cma.cn)为例测算,预计4.1个月就完成本研究工作;
    若各网站多平台并行,时效还可以再提高。

    猜你喜欢字符表格文档《现代临床医学》来稿表格要求现代临床医学(2022年5期)2022-09-28浅谈Matlab与Word文档的应用接口客联(2022年3期)2022-05-31《现代临床医学》来稿表格要求现代临床医学(2022年1期)2022-02-12有人一声不吭向你扔了个文档中国新闻周刊(2021年26期)2021-07-27统计表格的要求文化创新比较研究(2020年13期)2020-01-01字符代表几小学生学习指导(低年级)(2019年12期)2019-12-04一种USB接口字符液晶控制器设计电子制作(2019年19期)2019-11-23图片轻松变身ASCⅡ艺术画电脑爱好者(2019年8期)2019-10-30HBM电子称与西门子S7-200系列PLC自由口通讯数字通信世界(2019年3期)2019-04-19基于RI码计算的Word复制文档鉴别信息安全研究(2016年4期)2016-12-01
    相关热词搜索: 纸质 数字化 气象

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章