• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于图像增强的纯蓝墨水手写档案修复仿真

    时间:2023-01-19 08:05:11 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    巩 霞,魏浩然

    (1. 山东理工大学,山东 淄博 255049;
    2. 德克萨斯大学达拉斯分校,美国德克萨斯州理查德森市75080)

    档案是个人经历和历史进程的真实记录,是社会和国家的宝贵财富。由于国内保存的大部分是手写的纸质档案,在档案保存过程中,档案上的文字会受光照、浸水、氧化等因素的影响,变得难以辨识与保存。依据档案书写中字迹材料的不同,可以分为最耐久的字迹材料、比较耐久的字迹材料、不耐久的字迹材料三种类型。其中最耐久的字迹材料包括墨汁、墨和黑色油墨等。比较耐久的字迹材料包括蓝黑墨水、碳素墨水、蓝色油墨、红色油墨和印泥等。不耐久的字迹材料包括纯蓝墨水、红墨水、复印纸、圆珠笔和银泰油等[1]。

    纯蓝墨水书写的档案耐光、耐水性差,极易褪色,导致字迹难以辨识。在1996年对上海市48家各级各类档案馆馆藏永久卷档案的调查中,纯蓝墨水书写的档案占总档案的比例在2-3%左右[2]。图1展示了建国前、50年代、60年代、70年代等不同时期中,纯蓝墨水书写的档案所占比例的变化。由于纯蓝墨水档案容易出现字迹褪色,针对蓝色墨水档案的修复变得尤为紧要。

    图1 不同时期纯蓝墨水档案所占比例的变化

    近年来,档案抢救与数字化工作正大力开展。目前主要有两种对纸质档案进行保护的方式,一种是对破损档案进行物理修复,尽可能恢复纸质档案原貌并呈现信息。另一种是对档案进行数字化,将纸质档案转化为数字档案[3]。

    图2 纯蓝墨水手写档案

    随着数字信号处理技术在图像和视频处理领域的发展[4-8],将图像增强技术运用到手写档案的褪色修复中,会极大地提高褪色文档的辨识度。然而至今国内尚缺乏使用图像增强技术修复手写档案的研究,主要原因在于,档案馆馆藏档案只有褪色后的档案,而并不知道褪色前档案上所写的准确内容。这使得图像增强技术带来的效果提升,变得难以衡量。

    为解决上述问题,本文从以下三个方面做出了探索:

    1) 提供了首个中文纯蓝墨水手写文档的数据集。通过模拟手写文档浸水的过程,本数据集提供了褪色前的文档图片和褪色后的文档图片。本数据集可以使用以下链接下载(提取码:1234 ):https://pan.baidu.com/s/11E3p1JP2o9 INah4i-nyr2A

    2) 提出了一种衡量中文文档增强效果的评价方法;

    3) 提供了一种基于图像增强技术的彩色文档修复方法,并给出了实验结果。

    在之后的部分里,第二章介绍了纯蓝墨水手写档案数据集,并描述了模拟浸水的过程。第三章介绍了一种基于图像增强技术的彩色档案修复的具体实现方法。第四章介绍了一种衡量中文文档增强效果的评价方法,并给出了第三章中方法的实验结果。

    由于档案馆馆藏档案只有褪色后的档案,而并不知道褪色前档案上所写的准确内容,导致无法衡量图像增强技术带来的修复效果。为了解决这个问题,本文提供了褪色前的纯蓝墨水手写档案图片,并模拟档案浸水过程,提供了浸水褪色后的档案的图片。

    本文的纯蓝墨水手写档案,内容是一份四页纸手写的入党申请书,使用了普通信纸、英雄牌钢笔和上海墨水厂生产的英雄牌高级纯蓝墨水233。四页档案分别包含汉字242个,253个,254个和253个。图2(a)和图2(b)分别展示了褪色前档案的第二页和第四页。

    在得到褪色前的手写档案后,档案的1、2页在水中浸泡两分钟,档案的3、4页在水中浸泡三分钟。之后拿出晒干,得到褪色后的手写档案图片。图3展示了褪色后的手写档案,其中3(a)为第2页,在水中浸泡了两分钟,图3(b)为文档的第4页,在水中浸泡了三分钟。本数据集可以通过引言中的链接获取。

    图3 浸水后纯蓝墨水手写档案

    文本将Gamma变换应用于彩色图像的不同信道,并在不同信道合并前进行了了色彩规整。图4展示了本方法的实现流程。

    图4 彩色档案图像增强流程图

    彩色图像首先按照红绿蓝三个信道,分别进行Gamma变换,Gamma变换通过对每个像素的乘积非线性变换运算,将灰度过高或者过低的图片进行修正,增强了图片对比度[9]。Gamma变换的公式为

    S=Crγ

    (1)

    r为图像每个信道的输入值,取值范围为[0,1]。γ为伽马因子大小,当γ值大于1,会拉伸图像中灰度级较高的区域,压缩灰度级较低部分;
    当γ值小于1时,会拉伸灰度级较低部分,而压缩灰度级较高部分。C为灰度缩放系数,按照不同场景取1或255。S为经过伽马变换后的单个信道输出值。每个信道经过Gamma变换后,又进行了色彩规整操作,色彩规整将每个信道处理后的平均值,规整到本信道输入时的状态,以保证恢复后的图像与原图像的色彩相似度。

    使用上文所述的方法,图5 展示了彩色档案图像增强后的效果。其中5(a)为原文档第2页,在水中浸泡两分钟后的修复效果,图5(b)为原文档的第4页,在水中浸泡三分钟后的修复效果。

    图5 图像增强后的档案

    为了对图像增强后的文字档案阅读效果进行评价,本文采用了8位朗读者对图像增强处理前后的材料进行了分别朗读辨识。这8位朗读者都具有熟练的识字能力,他们来自不同的年龄段,包含2位退休教师,2位中年教师,2位青年教师和2位播音主持专业在读学生。为了实验的准确性,每位朗读者只阅读档案一次,不存在重复阅读相同内容的情况。在相同年龄段的两位朗读者中,一人朗读修复前第1页,修复后第2页,修复前第3页和修复后第4页。另一人朗读修复后第1页,修复前第2页,修复后第3页和修复前第4页

    本文使用了字正确率(wordcorrect,简写为W.Corr)和单页朗读用时两项指标来衡量档案图像增强的效果。由于中文文档每个字占有基本相似的空间大小,不易出现漏读字和插入额外字的情况。相比于计算复杂的字错率(word error rate),字正确率更简洁,更适用于评价中文阅读体验。字正确率(W.Corr)的计算公式为

    W.Corr=(N-S-D)/N

    (2)

    其中N为文档的字数,S为朗读中替换的字数,D为朗读中漏掉或未能辨别出的字数。单页朗读用时是朗读一页文档的平均用时,可以衡量获取文档有效信息的难易程度。

    表1描述了所有朗读者,在朗读不同类型文档时的平均字正确率。表1显示了朗读修复后的文档能得到更高的正确率。

    表1 平均字正确率(%)

    表2描述了所有朗读者,在朗读不同类型文档时的平均单页朗读用时。表2显示了朗读浸水3分钟文档比朗读浸水2分钟文档用时更长,同时也显示出,朗读修复后的文档用时更短。

    表2 单页朗读用时(秒)

    以上实验证明,本文提出的彩色手写文档增强方法,可以提高浸水文档的辨识度,减少阅读误差,也可以更快速的获取文档信息。

    由于纯蓝墨水手写档案耐水性差,浸水后极易褪色。本文提供了首个中文纯蓝墨水手写文档的数据集,通过模拟文档浸水的过程,提供了褪色前的文档图片和褪色后的文档图片,使得档案修复的效果可以衡量。之后,本文提供了一种基于图像增强技术的彩色文档修复方法,并给出了一种衡量中文文档增强效果的评价方法和实验结果。来自8位朗读者的实验结果表明,这种图像增强技术的处理可以提高阅读过程中的字正确率,并可以大幅减少完成阅读的用时。

    猜你喜欢 蓝墨水图像增强字迹 通过图像增强与改进Faster-RCNN网络的重叠鱼群尾数检测农业工程学报(2022年13期)2022-10-09一种基于轻量级深度网络的无参考光学遥感图像增强算法航天返回与遥感(2022年2期)2022-05-12图像增强技术在超跨声叶栅纹影试验中的应用燃气涡轮试验与研究(2021年6期)2021-08-01你作文新天地(初中版)(2020年2期)2020-04-10月 儿中学生百科·小文艺(2020年2期)2020-01-13红与蓝的魔术科普童话·百科探秘(2018年7期)2018-09-13基于图像增强的无人机侦察图像去雾方法北京航空航天大学学报(2017年3期)2017-11-23最幸福的时刻青年文学家(2016年34期)2017-03-31金鱼染色等小学阅读指南·低年级版(2014年9期)2015-01-27蓝笔写红字青年文摘·上半月(1983年9期)1983-01-01
    相关热词搜索: 蓝墨水 手写 仿真

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章