APP下载

图像转PDF的问题与解决方法

2012-04-02赵玉琴江苏省五台山体育中心江苏南京210029

档案与建设 2012年12期
关键词:图像文件压缩算法数据流

赵玉琴(江苏省五台山体育中心,江苏南京,210029)

图像转PDF的问题与解决方法

赵玉琴(江苏省五台山体育中心,江苏南京,210029)

档案数字化就是将大量纸质档案电子化,实现电脑存储与在线查询。由于PDF文件本身的标准化、方便性,目前的应用越来越多,一种比较流行的方法是将扫描好的图像文件最后合并成TIFF文件,然后转换成PDF文件。但是由于有关部门对如何转换成PDF文件没有一个统一的规定,每个扫描公司基本上都是依据自己的想法或经验进行扫描转换,因此转换流程与方式以及软件也五花八门。

转换成PDF文件的原理有两种,一是基于虚拟打印原理。虚拟打印原理的软件开发需要提供打印驱动程序,这种软件通用性较好,除图像文件外还可以将Word等所有可打印格式转换成PDF。二是直接将图像嵌入PDF文件。直接将图像嵌入PDF文件的软件实现相对简单。无论采用那一种方法都存在着图像数据流重新压缩造成的问题和对特殊图像格式的支持问题等。

一、图像数据流重新压缩造成的问题

对基于虚拟打印原理实现的转换软件来说,其工作过程为:转换工具提供一个虚拟打印机。如Acrobat 提供的打印机名为Adobe PDF。看图软件打开图像文件,在接到打印命令后,像在真实打印机上打印一样,将图像每个像素描绘到虚拟纸上,形成发送给虚拟打印机的数据流。虚拟打印机收到数据流后,根据图像的色彩空间等信息,选择合适的压缩算法,对数据流再次进行压缩以减小文件长度,然后将压缩后的数据流存入PDF。

对于基于虚拟打印原理实现的图像转PDF 工具,可能会有如下问题:对于有损压缩的JPG 文件,转换成PDF 后的质量与发出打印命令的软件密切相关。像ACDSEE 这样先解码再打印,必然会因为图像的再压缩而造成质量衰减或文件膨胀。像Word 这样直接将JPG 数据流发送到虚拟打印机,则与软件内部的打印设置有关,设置好了可以直接将数据流完整嵌入PDF 而不造成损失或膨胀,设置不好则同样可能造成像素损失。另外,打印机对JPG 数据流的支持受平台限制,一般来说包括ACDSEE 在内的大多数软件都是先解码成bitmap,这样就可以不受平台限制。而对于无损压缩的图像文件,如GIF、PNG、BMP 等,真彩色图像往往会被转换成有损压缩的JPG数据流,造成图像质量损失;灰度、索引色图像往往会被解码后再压缩成某种无损压缩数据流,如果虚拟打印机所选压缩算法的压缩效率低于原图像压缩算法,则可能造成PDF 文件的膨胀。

直接将图像嵌入PDF的转换软件工作原理与基于虚拟打印机的转换软件不同,其工作过程是,用户在转换软件中选择需要转换的图像文件后,转换工具按照PDF文件规范创建PDF文件,写入文件头信息,再逐一从图像文件中抽取图像数据,根据需要对数据进行转换,然后将数据打包成PDF对象,写入PDF文件。直接读取图像数据的转换工具,由于可以从原始图像文件中获取丰富的图像信息,包括原始数据压缩算法等,可以针对不同的文件格式或不同的图像情况做出选择。基于虚拟打印原理实现的转换工具,如果打印机只能得到解码后的数据流,选择的余地就会小一些,是从bitmap数据流中获取颜色深度等信息,再选择算法重新压缩数据。

总之,只要对图像数据流重新压缩就有会产生问题,差别在于问题的大与小、重与轻,将无损压缩转换成有损压缩,或对有损压缩解码后再次有损压缩,必然造成图像质量下降。改变文件数据流的压缩方法,某些情况下可以减小文件长度,在某些情况下则相反,会引起文件长度加长,甚至膨胀,关键是看数据与压缩方法的搭配是否合适。

二、对特殊图像格式的支持问题

这里说的特殊图像格式,主要是指TIFF 格式。在常见的图像格式中,JPG、GIF、BMP 等都有严格的格式规定,可能出现的情况较少。但是对于TIFF 来说,由于TIFF 标准本身希望能够包容尽可能多的东西,又对实现细节也没有具体的规定,所以各家软件生成的TIFF 图像种类繁多。

国内专业扫描外包公司中,他们为了减少数据处理量,对TIFF 采用有损压缩是常有的事,这些图像多半就连libtiff也解不开,ACDSEE 更是想都不用想,有些甚至连专门显示TIFF 文件的MicrosoftOffice Document Imaging (微软Office 2003 所带附件之一)也打不开,而只能用他们自己的软件才能阅读。

除TIFF 外,PNG 文件也是一种可能会造成潜在麻烦的格式。但是与TIFF 不同,PNG 的麻烦不在于文件格式本身或数据压缩算法,而在于它丰富的色彩表示。

三、问题的解决办法

解决以上问题的建议是,对有损压缩的图像数据,应尽量将原始数据流嵌入PDF文件,避免重新压缩造成图像质量衰减。对无损压缩图像数据,可以根据图像特征选择合适的无损压缩算法重新压缩图像数据,以节省存储空间,也可以直接将原始图像数据嵌入PDF,以节省重新压缩所需的时间。在数字化过程中TIFF文件的生成最好规定一到两种压缩算法,生成PDF文件的软件或最终文件要通过一定的检测。

猜你喜欢

图像文件压缩算法数据流
汽车维修数据流基础(上)
汽车维修数据流基础(下)
基于参数识别的轨道电路监测数据压缩算法研究
一种基于嵌入式实时操作系统Vxworks下的数据压缩技术
图像电子文件的归档格式及其转换研究
基于数据流聚类的多目标跟踪算法
PMU数据预处理及压缩算法
北医三院 数据流疏通就诊量
曲线数据压缩方法与实现
两步把PDF转为Word文档