试析档案数字化扫描参数设置
2022-05-30王梅
摘 要:“扫描”是整个档案数字化过程的关键环节,扫描的质量直接影响着档案数字化成果的质量。本文从色彩模式、存储格式、分辨率、亮度等方面,深入讨论了保真、整理原则下的档案数字化扫描的参数设置的具体内容,对提升新时代档案数字化扫描质量具有积极的现实指导意义。
关键词:档案数字化;扫描;参数设置
概述
新修订的 《中华人民共和国档案法》 第五章“档案信息化建设”第38条提出,“国家鼓励和支持档案馆和机关、团体、企业事业单位以及其他组织推进传统载体档案数字化。” 《纸质档案数字化规范》 明确“数字化”是指“利用计算机技术将模拟信号转换为数字信号的处理过程”。换言之,档案数字化就是指利用扫描仪等设备对档案进行数字化加工,使其转化为存储在磁带、磁盘、光盘等载体上的数字图像,并按照档案内在联系,建立起目录数据与数字图像关联关系的处理过程。其中,“扫描”是整个档案数字化过程的关键环节,扫描的质量直接影响着档案数字化成果的质量。其中,色彩模式、存储格式、分辨率、亮度及优化设置等相关环节的参数设置,关乎档案数字化成果的质量。因此,熟悉并掌握档案数字化扫描的相关参数原理内容、设置方法及主要内容,对做好档案数字化工作至关重要[1-3]。
1 色彩模式[4-5]
数字世界里表示颜色的一种算法,即色彩模式。它是一种表示扫描仪分辨色彩或灰度细腻程度的指标。色彩模式又叫色彩位数、色彩分辨率,理论而言,色彩分辨率越高,颜色就越逼真,图形文件体积越大。扫描仪的色彩模式通常包括彩色、灰度、黑白三种。从扫描仪的发展历程来看,早期主要是24位色彩,后来逐渐发展成为36位色彩、48位色彩,但这三种色彩模式受人眼及显示器因素制约,差异几乎不可见。目前,档案数字化扫描中,色彩模式主要有三种:黑白二值、灰度、24位色彩。
1.1黑白二值模式
扫描仪黑白二值模式是以黑白二色(即1个二进制位)表示图像的色彩模式。黑白照片或纸质档案可直接采用黑白二值色彩模式进行扫描。主要优点:颜色少,扫描后生成的电子文件小,节约存储空间,提升运行效率。适用范围:黑白照片或黑白文稿档案,以及非黑即白页面、无插图票据等,常选用黑白二值色彩模式。若要进行OCR(文字识别),选用黑白二值色彩模式扫描的图像,后期的识别速度、识别准确率都高于灰度、24位色彩模式。
1.2灰度模式
扫描仪灰度模式是以灰色元素(即8个二进制)表示图像的色彩模式,使图像呈现出明暗变化。灰度模式扫描后的档案如“黑白照片”,但由于灰度模式色彩存在较大失真,有色文件或照片多选用24位真彩模式。灰度色彩模式,主要优点:图像呈现出较为显著的明暗变化,扫描后的数字文件体积较小,所占存储空间较小。适用范围:老旧黑白照片或微微泛黄的档案资料,为节约存储空间,常选用灰度模式。针对老旧黑白照片或泛黄档案应选用灰度色彩模式,而不可选用黑白二值色彩模式,否则,扫描后,其图像背景会出现黑点,严重的甚至会出现黑块。
1.324位色彩
扫描仪24位色彩模式是以24个二进制位来表示像素颜色的模式,最多可表示224种颜色。与36位色彩和48位色彩 模式的差别难以通过人眼或显示器分辨,一般用于有色文件选择24位色彩模式即可,经扫描后可直接生成丰富色彩图像,保持彩色照片或有色档案的原真性。24位色彩、36 位色彩或48位色彩模式的不足在于其扫描后的文教较大,扫描及运行速度较慢。适用范围:纸质红头文件;彩色插图或彩色照片文件;严重泛黄的纸质档案。主要优点:保留了红头文件、彩色文件的原真性。
综上,档案数字化扫描时选择色彩模式应考虑的因素包括:1)原件情况。对于影像清晰、档案原件色彩简单、色彩对比强烈的原件,采取3种色彩模式扫描的图像清晰程度差异不明显。影像不清晰,以及色彩对比不强烈的原件,采取彩色模式扫描的图像,在展现档案原件细节、清晰程度等方面要明显优于灰度模式或黑白模式扫描的图像。2)硬件条件。传统条件下,由于硬件所限,通常会综合考虑图像质量、访问速度、存储成本等因素选择色彩模式。随着技术的进步,硬件考量因素将越来越被弱化。3)后期应用。彩色模式可以转换为灰度模式或黑白模式,为尽可能多地采集信息,彩色模式是最理想选择。但是,对需要进行COM输出的档案,色彩模式对输出效果的影响与缩微胶片输出设备可接受的图像色彩模式有很大关系。
2 存储格式[6-8]
2.1TIFF格式
由Aldus和Microsoft公司开发的一种图像文件格式,是一种可压缩保存的图像存储格式。TIFF格式存盘时一般会选择相应项目,首先确定是PC机或是Mac机,是否需要LZW压缩。由于TIFF格式不支持图层,但支持A1pha通道,选择LZW压缩、选择TIFF格式存盘时,能够减少50%的存储容量,且不影响图像质量。TIFF格式存储扫描后的图像文件,一般应用于精度要求较高场合,是一种保真压缩格式,但占用空间较大。
2.2JPEG格式
JPEG格式是一种常见的压缩图像文件格式,是由联合照片专家组开发,存储于要求图像精度不高、存储量大的场合,大多会选择JPEG格式。JPEG格式是一种有损压缩文件存储格式,在存盘时通过选择具体的压缩比(图像质量等级),确定相应的存储格式。要求图像存储质量高清应选择High8以上的高质量图像压缩方式,高清图像模式压缩条件下,其图像容量较大;反之,圖像存储容量变小,其质量相对就会降低。JPEG格式存储属于有损压缩,易造成图像数据损伤,但存储容量大,适宜网络传输。
2.3JPEG2000格式
作为JPEG格式的升级版,JPEG2000版压缩率升高了30%左右。JPEG2000版支持无损压缩和有损压缩两种,其最大特征在于实现渐进传输,即,首先传输图像轮廓,再逐步传输图像数据,提升图像品质,使数字图像由朦胧逐步清晰。且,JPEG2000支持“感兴趣区域”特征,就影像上感兴趣的区域进行压缩,也可就指定区域先解压缩。与传统的JPEG相比,JPEG2000升级版具有显著优势,且向下兼容,取代传统JPEG格式,符合档案数字化信息网络传输需要。
2.4DjVu格式
1996年,美国电报电话公司实验室开发一项新的图片压缩技术——DjVu,目前,其已成为标准图像文档存储格式之一,逐渐成为网络传输扫描文件、数码照片、图像文件等领域的主流技术之一。该技术科将所有傳统印刷资料实现网上高速传播,压缩比可达到1000∶1,300dpi分辨率的彩色页面可从25MB压缩至30-80KB,且图像质量依然很高。能够分别储存于不同层,再每一层进行最优化压缩,分别图片中文字及图片。DjVu下载后的图像可直接存储于计算机内存,在浏览器中快速移动、缩放,该技术在静态存储及网络传输方面具有很大优势。虽然该技术并未被纳入国家标准,但杭州市档案馆等国内部分档案馆实现该技术的应用,满足档案数字化扫描存储,具有较强的应用和推广价值。
综上,数字档案扫描选择相应的存储格式,需要考虑:保证数字档案原真性,在此基础上应选择占用存储空间较小的存储格式;兼容性较高的存储格式;以及具有强大技术力量支持或者已列入标准化存储格式。
3 分辨率[9]
衡量数字档案扫描仪对图像细节表现能力的参数通常用分辨率,即,每英寸扫描图像中含有像素点的个数表示,记作dpi(dot per inch)。分辨率是数字档案中最重要参数,分辨率越高表明每英寸扫描图像中的像素点的个数越多,图像越清晰,但并不意味着分辨率越高,其效果就越好。分辨率对文件大小、扫描速度、图像质量和后期操作等都有不同程度的影响。
一是文件大小。档案数字化扫描,分辨率设置越高,所产生的图像文件就越大。通常,一张A4文件用黑白二值格式扫描成TIFF 格式图像,其分辨率设定为 150dpi、200dpi、300dpi时,其文件大小分别为18K、29K、46K左右,而以24位真彩模式扫描成JEPG格式图像,将其分辨率设定为150dpi、200dpi、300dpi时,其文件大小分别为290K、452K和871K,可见,分辨率越高,图像文件就越大。二是扫描速度。档案数字化扫描,分辨率设置越高,扫描的速度就会越低。通常,一张A4文件用黑白二值格式扫描,分辨率对其扫描速度的影响不明显,但,选用24位真彩模式扫描,分辨率每提高50dpi,其扫描速度就会明显受到影响。分辨率提高一倍,扫描所需时间就会增加一倍。如一名扫描员一天扫描1500张,因分辨率设置而使每一张扫描的时间多花2秒,一天就会多花300秒,即,50分钟。三是图像质量。分辨率的增加对图像质量的影响呈现出递减效应,即,边际效用递减。一开始,分辨率每增加一定量,其图像质量就会显著提高,但随着分辨率的不断提高,对图像质量的影响幅度就会慢慢降低,当到达一定临界点后,分辨率几乎不影响到图片质量。因此,一味追求分辨率在无法提升图片质量的情况下,还会影响档案数字化扫描效率,会起到反向效果。
四是后期操作。档案数字化扫描分辨率设置过高,会影响其后期的挂接、处理速度,以及文件阅读的速度,传输缓慢。
综上,档案数字化扫描分辨率设置没有“最大”“最小”,一般分辨率参数设置≥100dpi,当文档字体偏小、清晰度较差时,可适当提升分辨率。
4 亮 度[10]
亮度是指档案数字化扫描过程中图像的明暗程度参数。适当调整图像明暗程度,及其对比度值,会提升图片识别率。通常,设定档案数字化扫描亮度、对比度值,应保证档案扫描后图像中文字笔画均匀、较细,没有明显断点。因为,亮度太亮,扫描后图像中的文字笔画就容易出现断裂或残缺不全;而亮度太暗,图像中文字笔画又互相粘连,甚至漆黑一团。因此,针对底色较浅或者纸张光面的档案资料进行数字化扫描,应适当调低其亮度;反之,对底色较深或者纸张较暗的档案资料进行扫描,以及笔画较粗、字体较小的黑体、楷体字在扫描时,应适当地调高其亮度。档案数字化彩色模式扫描,也会存在同样扫描仪扫描的成品结果不相同的情况,究其原因,主要是计算机显示器亮度及对比度差异;扫描仪色彩校正软件出现问题,按照软件推荐的参数调整较色软件“亮度”“对比度”。还要注意扫描软件中Gamma参数设置,该参数设置越大,亮度越高,纸质颜色虚假失真。通常情况下,Gamma 参数设置为1.4,报纸、杂志等印刷品Gamma参数设置为1.8左右,档案数字化扫描文件放置网页,则Gamma参数设置为2.2左右。
结语
综上,随着数字时代的到来,数字化是档案发展的趋势和方向,也是提高档案管理效率,发挥档案价值和功能的重要手段。其中,色彩模式、存储格式、分辨率和亮度等参数的科学设定,是提升数字化扫描关键环节,也是增强档案数字化质量,适应数字化时代发展的现实需要。
参考文献:
[1]李如岩.档案数字化扫描质量及安全控制[J].兰台内外,2022(3):33—35,32.
[2]傅荣校,翁敏曦.档案数字化扫描与存储格式比较研究[J].档案与建设,2006(11):10—13.
[3]谢君.大数据时代下档案数字化扫描参数优化设置探讨[J].云南档案,2017(4):51—53,56.
[4]庞莉. 特殊载体档案数字化扫描处理方法探析
[J].北京档案,2017(6):28—30.
[5]吴建凤.档案数字化扫描质量与安全控制[J].办公室业务,2016(3):128—129.
[6]岳晓峰,孙浩,刘志芬.海洋科研纸质档案数字化扫描模式选择和参数设置[J].档案时空,2012(12): 40—42.
[7]可伟,陆丽萍.在档案数字化加工过程中遇到的问题及解决办法[J]. 档案与社会,2016(4): 13— 16,19.
[8]李卫华.文书档案管理实现数字化的意义及措施[J].办公室业务,2020(13):178—179.
[9]齐红晶.档案数字化处理技术探讨[J].黑龙江科技信息,2016(21):172.
[10]代清华.档案数字化工作中的重难点探讨[J].陕西档案,2019(3):22—23.
作者简介:王梅(1979— ),大学学历,西安市鄠邑区人才交流中心档案管理中级(馆员),主要从事档案管理研究。