电子文件档案特征之我见
2019-04-04陈怡
陈怡
摘 要:文字、图形、声音、影像等多媒体信息均可以单独或相互搭配构成电子文件档案的内容,在网络环境下,只有明白电子文件档案的特性,才能更好的发挥电子文件档案的作用。
关键词:电子文件;档案; 特征
电子文件档案某些持性与纸质文件有很大区别,要管理好电子文件就必须了解其特性。综合国内外对此问题的研究,电子文件的主要特性可概括为以下几个方面。
一、电子文件是数字化信息技术的产物。
电子文件是在计算机中产生和处理的,其信息形态是数字化的。人们在计算机屏幕上看到由文字、图形等构成的电子文件形态只不过是电子文件的某些输出形式而已。而在计算机内部,无论是传输还是存储等处理,电子文件均是以数字编码的形式存在。
计算机录入汉字的方法有多种,如键盘录入法、扫描录入法、用键盘录入汉字、首先是在输入时对汉字进行计算机的外码转换。可以用汉语拼音、五笔字型等外码录入汉字。计算机接收了其个别汉字外码之后,接着就把外码代表的汉字用计算机内码记录下来。计算机内码是以16位二进制的数字表示的,也就是兩个字节长,计算机内进行文件信息的存储、传输等处理就是对这些内码的处理。只有当需要将文件输出时,才将其汉字内码所对应的字形点阵。也就是字模,以及众多字模按格式组成文章在屏幕或者打印机上输出。
在计算机多媒体技术的支持下,信息数据还可以包括声音、影像等多种形式。不过这些信息形态就计算机内部处理来说,也都是二进制的数字编码而已,只是在输入和输出时,才有其各自的特殊形式。
二、电子文件对设备的依赖性
电子文件的形成和各种处理均是在计算机等设备的支持下完成的,离开计算机等设备,电子文件即看不见也摸不着。其对设备依赖性主要体现在:一是数字编码,二是硬件,三是软件,四是技术设备更新,五是加密。例如电子文件对其他设备环境的不兼容性,使其只能在设备上处理,不同软、硬件环境形成的电子文件载体,有时难以互换。
电子文件的运作、管理是建立在一套标准化体系之上的。其严格程度和对系统性的要求,均远远超过纸质文件的标准化体系。例如,其制作生成要有代码标准,其存储要有机读载体的格式标准,信息压缩存储的算法标准,其查找要有检索语言标准等。标准化是极为重要的基础工作,建立和熟悉电子文件的标准化体系,是保证电子文件妥善归档的重要前提。
在网络环境下,人们对信息的处理标准化问题解决的好一些。但对记录载体的交换问题仍然很多。尤其是在格式、字符集、压缩方式等方面产生不兼容的问题。出于安全保密上的考虑,还常常通过特殊的软、硬件设备人为地进行复杂而独特的编码加密,或信息拆分处理,使需要保密的电子文件档案只能在特定的环境下被读取。计算机更新换代很快,常常只能隔代兼容,对于需要长期归档保存的电子文件档案来说,设备依赖性造成的问题会更加严重。一般计算机设备8年左右就会更新,而耐久性光盘载体可以保存更长时间。若干年之后,很可能出现保管完成的电子文件档案载体找不到读取设备的问题。设备老化和频繁更新,给电子文件档案长久保存带来的问题,远比文件载体本身的寿命长短更为严重。
三、电子文件载体的非直读性
电子文件的非直读性体现在很多方面,一是数字偏码记录于载体上肉眼无法分辨,何况磁载体上的“磁畴”极性是物质内部的物理性质,根本不可能看到。此外,载体上的信息记录密度极大,例如一张容量可达600MB-4000MB的光盘,刻写激光斑点的直径小于百万分之一毫米,可存35万张打印纸上的文字信息,或10万图形信息,即使在高信显微镜下可以看见光盘上的记录痕迹,也不可能读懂那些小点表示什么。另外,载体上的数字信息往往进行了压缩编码、加密等处理,即使有设备,如果不解密也不能读取其内容。以上种种因素均决定了电子文件载体的非直读性。
四、电子文件物理结构与逻结构的复杂性及对元数据和背景信息的依赖性。
文件的物理结构是指其信息存储于载体上的位置及分布的情况,例如文件的正文、图形、批示、附件等都分各自在载体上的存储位置。文件的逻辑结构是通信息自身的结构,例如文件中的文字系列。章节构成、各项的先后顺序、插图、标号等。
纸质文件的信息物理结构与逻辑结构是一致的,而且是直观的。例如,排错了文件页码,就不仅破坏文件信息物理结构也同时破坏其逻辑结构。电子文件的信息物理结构和逻辑结构往往是不一致的。同一份电子文件中的正文、图形、批示、附件等可以不在载体上连续存放,甚至可以存放在不同的载体,而不影响其正常地显示输出。在电子文件信息的处理过程中,其物理结构经常发生变化,而其逻辑结构却可以保持不变,电子文件的逻辑结构通常也需要专门的信息予以描述,当然这些信息可能是隐含的,无特殊需要而不显示出来,正是由于这种原因,电子文件的物理结构和逻辑结构之间关系是很复杂的。在电子文件归档时,如何保持其物理结构和逻辑结构的复杂关系,是保证电子文件不被破坏而必须注意的关键问题之一。
元数据是关于数据的数据,例如文件上、下文件的关系和结构就是元数据,对于纸质文件来说,元数据往往直接体现在其形态上,如一份印好的文件,纸上的文字、图形排列及格式等。电子文件的这种元数据必须特意附在文件信息中,否则将无法恢复电子文件的原貌。此外,纸质文件由于在传递和处理过程中离不开行政部门的实际往来和人工办理各种手续,由其生成和运作的背景信息也就自然地记录在文件上了。电子文件的运作往往是在网络上进行的,操作者互不见面,体现行政背景关系的信息可能存放在其他地方。如不特意提供可补充这些元数据或背景信息,就可能给电子文件的运作和归档带来问题。
五、电子文件信息与载体相分离性
电子文件的存放位置不是固定的,而是可以变化的,甚至可以从一个载体转换到另一个载体。其内容信息却不发生任何变化。同样还可以通过网络传给远方的一个或多个接收者。在一些对保密有特殊要求的网络中,还采取把电子文件分解后分别通过不同途径传递,存放在不同地点的不同设备上,只是在需要时临时把文件装配起来,这些情况,不仅造成电子文件与载体分离性,也是长期处于共享计算机网络资源环境的使用者,淡漠了对电子文件存储于哪台计算机、哪个载体以及什么位置的关心。这个特征给电子文件的保管带来许多新问题,处理不好会直接影响其真实性、完整性和可靠性。
文字、图形、声音、影像等多媒体信息均可以单独或相互搭配构成电子文件的内容,这就是造成了电子文件的多媒体集成性,使得电子文件的信息形态及其组成要比纸质文件复杂的多。例如不同的载体往往适合存储不同的媒体信息,就会造成一份电子文件中的文、图、声、像在存储时载体分离现象。如果脱机保管,就可以造成混乱,甚至破坏电子文件的完整性。