APP下载

关于档案数字化的编制及其保存方法

2010-04-11秦海萍

河南图书馆学刊 2010年6期
关键词:图像文件存储设备离线

秦海萍

(江苏省苏微微生物研究有限公司,江苏 无锡 214063)

1 档案数字化的编制

1.1 档案整理

纸质档案数字化的流程:(1)目录数据准备。按照《档案著录规则》等的要求,规范档案中的目录内容。包括确定档案目录的著录项、字段长度和内容要求。对错误或不规范进行修改。(2)拆除装订。(3)区分扫描件和非扫描件:无关和重份的文件要剔除,有正式件的文件不扫描原稿。(4)页面修整。破损严重、无法直接扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件先进行相应处理 (压平或熨平等)。(5)档案整理登记。制作并填写数字化加工过程交接登记表单,详细记录档案整理后每份文件的起始页号和页数。(6)装订——扫描后的工序。扫描完成后恢复装订,应注意保持档案的排列顺序不变,做到准确、无遗漏。

1.2 档案扫描

(1)确定扫描方式。根据档案幅面大小选择相应规格的扫描仪。纸张状况较差,纸张间粘贴较紧,不易分开,过薄、过软或超厚的档案,不宜使用自动进纸扫描,必须改用平板扫描方式。大幅面档案可采用大幅面扫描仪扫描、数码平台拍摄,也可以采用小幅面扫描后的图像拼接方式处理。(2)扫描色彩模式。扫描色彩模式一般有黑白二值、灰度、彩色三种。页面为黑白两色,并且字迹清晰、不带插图的档案,采用黑白模式扫描;页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可采用灰度模式扫描;页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式扫描。(3)扫描分辨率。扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。采用黑白二值、灰度、彩色模式对档案进行扫描时,其分辨率一般均建议选择大于或等于100dpi,特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于200dpi。(4)扫描登记。登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

1.3 图像处理

(1)图像数据质量检查。对图像偏斜度、清晰度、失真度等进行检查。发现不符合图像质量要求时,重新进行图像的处理。由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。发现文件漏扫时,及时补扫并正确插入图像。发现扫描图像的排列顺序与档案原件不一致时,及时进行调整。(2)纠偏。对方向不正确的图像进行旋转还原,以符合阅读习惯。对出现偏斜的图像进行纠偏处理,以达到视觉上基本不感觉偏斜为准。(3)去污。对图像页面中出现的影响图像质量的杂质,如黑点、黑线、黑框、黑边等进行去污处理。(4)图像拼接。对大幅面档案进行分区扫描形成的多幅图像进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。(5)裁边处理。采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。

2 档案数字化的保存

2.1 明确电子文件的归档内容

电子文件的归档内容包括电子文件的名称、路径名和盘号,与文件内容相同的其它载体文件的档号,编制该电子文件的软硬件名称、型号、系列和版本等技术环境条件。归档部门,归档日期,档案数字化的有效管理涉及到电子文件的技术环境条件,存贮介质的质量、寿命等问题,因此电子文件的归档时间可视具体情况而定,一般有年度归档、阶段归档等。且归档时间一般不超过2~3个月为宜。

2.2 存储要求

2.2.1 选择存储格式。采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储。采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。存储时压缩率的选择,应以保证扫描的图像清晰可读的前提下,尽量减小存储容量为准则。提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。(2)命名图像文件。纸质档案目录数据库中的每一份文件,都有一个与之相对应的唯一档号,以该档号为这份文件扫描后的图像文件命名。多页文件采用该档号建立相应文件夹,按页码顺序对图像文件命名。

2.2.2 分级存储。所谓分级存储是根据档案数字化信息数据不同的访问频率、价值重要性等指标,在不同级别的存储设备中存放数据客体,实现数据分级存储。并针对数据访问的局部性,利用分级存储管理软件,实现系统将不经常访问的数据自动移到存储层次中较低的层次的自动数据迁移,释放出较高成本的存储空间给更频繁访问的数据,从而获得更好的总体性价比。

(1)分级存储的操作方式。分级存储操作方式主要有两种,即“数据迁移”和“数据回迁”。数据迁移方式是根据档案管理软件或由专门的分级存储管理软件指定的策略或规则(如按照各级存储定义的数据标准),把大量不经常访问的数据放置在离线或近线设备,自动迁移到下一级存储设备上,提高存储资源利用率,同时也大大降低设备和管理成本。数据回迁是数据迁移的一个反向操作过程,是将下一级存储设备中的数据,从离线到近线、从近线到在线按照管理软件指定的策略或规则自动调回上一级存储设备中。满足了用户的利用需求,提高数据的访问速度和利用率。

(2)分级存储的存储方式。分级存储的存储方式有在线存储、近线存储、离线存储。在线存储多采用高端存储系统和技术,如SAN、点对点直连技术和高速在线磁盘阵列等存储设备,存取速度快。这种存储方式以服务器为存储设备中心,将数据信息直接放在服务器的存储设备中,实现数据的输入、保存、输出及应用程序的安全快速运行。近线存储是将不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。其外延相对较广泛,主要定位于客户在线存储和离线存储之间的应用,对这些的设备要求是寻址迅速、传输率高。同时多数情况下由于不常用的数据要占总数据量的比较大的比重,这也就要求近线存储设备在需要容量相对较大。可跟据客户存储需求的不同,我们也会把低端的磁盘阵列 (例如DS4100)或高端的磁带设备(例如3592)作为近线存储应用设备。离线存储一般采用磁带作为存储介质,其访问速度低,但能实现海量存储,同时价格低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,很多情况下数据都需要全部进行改写。因此,离线存储主要用于数据的备份和恢复。

3 档案数字化保存的维护

3.1 建立档案馆(室)网站

为实现档案数字化信息资源共享,档案信息服务网络化、档案管理工作自动化、档案信息管理法制化,档案工作者应进一步加快档案信息资源数据库建设,以网站为基础,在网站上实现电子文件的实时管理与利用,实现信息资源电子化。

3.2 确保档案数字化载体物理上的安全

通常情况下,档案数字化是以脱机方式存储在磁、光介质上,因此,档案数字化的保存要建立一个适合于磁、光介质保存的环境。要控制保持环境的温湿度和满足档案载体的避光、防尘及变形要求,同时,载体排放要直立,要远离有害气体和磁场。

3.3 保证档案数字化的原始性

档案数字化的内容是以数码形式存储于各种载体上的,在利用档案数字化过程中必须依靠电子计算机软硬件平台,将档案数字化的内容还原成直接阅读格式。然而,档案数字化通常是在不同的载体上形成的,其内容的格式编排上存在差异,这必然导致档案数字化还原时所采用的技术与方法的不同,可能导致档案信息的完整性。因此,在保存档案数字化的同时,要将与档案数字化相关的软件及整个应用系统一并保存,并与档案数字化存储在一起,确保档案数字化的永久可用。

[1]孙凯.浅议档案电子化及档案数字化的整理与保护[J].太原城市职业技术学院学报,2008(7).

[2]叶群芳.浅议档案信息电子化的建设与服务[J].才智,2008(21).

[3]靳海峰.档案信息电子化现状分析[J].河南科技,2009(6).

[4]刘颖.浅谈档案数字化的保存与维护[J].新疆广播电视大学学报,2003(4).

猜你喜欢

图像文件存储设备离线
异步电机离线参数辨识方法
呼吸阀离线检验工艺与评定探讨
浅谈ATC离线基础数据的准备
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
图像电子文件的归档格式及其转换研究
Windows 7下USB存储设备接入痕迹的证据提取
基于Flash芯片的新型存储设备数据恢复技术研究
用批处理管理计算机USB设备的使用
两步把PDF转为Word文档
《图像文件探寻之旅——图像文件概述》教学设计及反思