我要投稿 下载七一APP

奋进新时代 兰台谱新篇㉔丨AI画质增强与处理技术在档案存量数字化副本图像修复中的应用思考

文章来源:七一客户端发布时间:2023-12-08 17:25:05

2023年,《数字中国建设整体布局规划》《数字重庆建设总体方案》先后印发,为数字中国、数字重庆建设规划了路线图,明确了实施路径和重点。作为数字政府、数字经济、数字社会、数字生态的基础组成资源,档案部门也全力推动数字档案馆(室)建设,积极融入数字化转型。但由于原件缺陷、标准变更、操作不当、把关不严等原因,不少档案馆扫描或接收的数字化副本不同程度存在图像模糊、细节丢失、色彩偏失、破损划痕等问题,不满足档案利用需求和数字档案馆建设的基本要求。在过去的技术手段环境下,这一问题的解决费时费力。人工智能在图像修复方面,具有低成本、高效率、适用广等特点,探索相关技术在档案馆的应用,对于档案馆提升数字化、智能化水平具有积极的现实意义。

一、档案数字化副本常见问题

文书、照片、实物、专业等各门类档案在数字档案馆建设中均会通过扫描成为数字化副本,数字化副本的问题解决是数字档案馆建设的基础性工作。为了全面地了解馆藏数字化副本中存在的问题,我们以2015年扫描的15000余卷的120余万页数字化图像为抽检对象,按照等距方式抽检了共81卷6743页数字化副本,主要存在以下的几个问题:

1.清晰度不够及色彩差异较大。被抽检的6743页数字化副本均为灰度扫描,分辨率达不到200dpi。大部分图片较模糊,文字辨认困难,打印后加大了文字辨认难度,原始色彩丢失严重。

2.破损划痕、图像形变及局部失真的问题。抽检样本中,共498页存在扭曲变形、图像变色、文字失真,影响正常阅读,无法满足档案OCR识别。

3.倒图、倾斜度过大的问题。档案在数字化处理后,图像副本要根据阅读习惯,采取转正、纠偏等措施进行后期处理。抽检样本中,27页存在倒图问题,159页存在图像倾斜问题。

二、产生问题的原因分析

图像质量不合格主要是标准的变化、原始档案的损坏、扫描操作不规范等多种因素造成的。

1.扫描标准的提高。纸质档案数字化技术规范(DA/T 31-2005)中对纸质扫描的最低标准要求为:黑白二值,分辨率大于等于100dpi,结合设备普遍标准和扫描成本实际,大渡口区档案馆早期对馆藏和进馆数字化副本的基本要求确定为:灰度扫描、分辨率200dpi。2018年,《重庆市纸质档案数字化实施细则》出台,要求扫描色彩模式宜采用24位真彩色模式进行扫描,扫描分辨率应不小于300dpi。

2.操作处理不当。扫描时文件在扫描设备中拖动,或者扫描原件未采取压平、熨平处理直接用高拍仪拍照,数字化后期处理时,工作人员未采取有效的质检、图像纠偏和重扫,造成了倒图和倾斜。数字化工作完成后,档案验收抽检不严格,造成图像质量模糊、局部失真等问题。

3.档案原件出现破损。部分早期档案因年代久远、保存不善以及所用纸张、书写笔不规范和金属易氧化物生锈等原因,档案受到破坏,部分档案出现损坏,有污点、霉变、破损、虫蛀、字迹扩散等现象(特别人事类文件上的个人登记照),扫描效果不佳。还有部分文件在油印、打印时,因纸张摆放不正造成文字倾斜、污点、细节丢失等情况,无法通过重扫解决。

三、借助人工智能技术修复的设想

图像存在的一系列问题,重新扫描是最常见的处理方法,但也存在重复投入、成本高、二次破坏实体档案、部分缺陷无法解决等问题。为了解决馆藏图像档案的质量缺陷,结合人工智能修复技术在图像领域应用和馆藏数字化副本图像实际,我们提出了人工智能画质增强与处理技术在影像类档案应用实践的设想,并通过与相关技术公司联合开展项目攻关,尝试从通过以下路径最终解决档案数字化副本的智能修复问题。

首先,根据数字化副本状况实际,建立研发一种基于人眼主观认知的智能评价体系,而不是采用目前学界和业界普遍采用的PSNR/SSIM/VMAF等指标评估,从而使被修复或者增强的数字化图像能够更加符合人观看的主观感受。

然后,利用人工智能(AI)图像修复技术,结合充足的训练数据以及不断优化的深层网络模型,开发AI影像修复系统。利用AI修复系统,对数字化副本进行抢救修复,以提高修复效率并改善修复效果。

一是利用深度学习技术,研发图像档案的智能修复算法,基于扫描图像数据,训练AI文档超分辨率模型,利用AI模型提高图像的分辨率,增强文字的清晰度,完成图像的智能着色,尝试解决图像局部失真特别是文字失真问题。

二是利用深度学习技术,研发视频档案的智能修复算法,基于卷积神经网络和生成对抗网络等AI技术,研发档案视频超分辨率、视频去噪、视频插帧、视频色彩增强和黑白视频上色等AI模型,解决档案视频中的模糊、低分辨率、低帧率、噪点、编码压缩伪影和褪色等问题。

三是基于影像修复流程对多种AI修复算法进行科学组合,开发AI影像修复系统。AI影像修复系统通过AI网络模型加速技术和视频编解码加速技术,加快图像和视频的处理速度,提高修复效率。

四、人工智能修复在档案馆的应用前景

利用人工智能技术来修复数字图像档案,可以最大限度地呈现历史的记录,完美解决分辨率低、智能着色、老旧破损等问题,大大提高数字化副本的利用效果和修复效率。

1.修复的有效性。数字化副本是各门类实体档案的另一种表现形式,基本信息(特别是文字信息)与档案原件保持一致,数字化副本通常也在档案利用中作为原件的复制件发挥凭证作用。图像的智能修复,存在对细节的增强处理、智能着色和画面修复等处理,一定程度上可能出现不同于扫描件的视觉感受,所以,在修复中坚决保证档案的基本信息与档案原件保持一致,是档案智能修复的最基本原则。

2.修复效率远远高于人工修复。数字图像的修复研究起源于20世纪50年代初期,苏联和美国在太空争霸赛中首次使用了数字图像恢复技术。而我国的数字档案信息资源建设方面的科学研究发展较晚。现有的数字档案图像修复工作更多的是依赖于人工,图像智能修复技术与手工修复相比较,优势十分明显。

3.应用场景广泛。基于数字化副本修复的研究,可以延展到影像领域,为多个场景提供利用。

一是为扫描质量不达标的历史遗留问题提供了更优的选项。部分档案馆在建设数字档案馆过程中,为了解决图像质量不达标的问题,不得不对该部分档案进行重新扫描,既费时费力,又对实体档案造成二次损害,智能修复完美地解决了这个问题。

二是给实体档案的修复提供了新的选项。部分实体档案的破损区域,实体无法修复,智能修复能根据算法分析补齐破损,大大提高档案利用效率,还可根据算法实时保留数字化副本扫描原件。

三是为档案征集找到了新路径。历史照片能通过智能修复取得良好效果,通过为散存各单位和个人手中的老照片、老文字档案提供数字化修复服务,扩大征集手段,丰富珍贵馆藏。

四是为数字档案馆完善新功能。智能修复可对馆藏和新接收档案提供修复利用,并根据图像智能评价体系,尝试开展进馆数字化副本质量抽检工作,提高进馆抽检效率和质量。

(作者单位分别系重庆市大渡口区档案馆、重钢集团档案馆)

编辑:李序

声明:凡注明来源七一客户端、七一网的作品,均系CQDK原创出品,欢迎转载并请注明来源七一客户端;转载作品如涉及版权等问题,请及时联系我们处理。