APP下载

方正书版大样转双层PDF文件的实现方法

2011-04-28徐泽智章丽萍

关键词:方正双层页面

艾 红,徐泽智,章丽萍

(中国水产科学研究院南海水产研究所,广东 广州 510300)

PDF(portable document format)是Adobe公司开发的一种文档格式,可内嵌图文,完整保留原文件的格式与风貌,具有文件较小、阅读方便、适于网络传播等优点,是目前在网络、出版、产品说明等领域广泛使用的一种电子文件格式。

国内很多科技期刊都采用方正书版系统排版,由于方正的PS文件与Adobe的PS标准不一致,无法直接转换为PDF文件。采用方正文易、方正Creator等专业软件可将大样PS直接转换为PDF文件,但因操作系统、性价比等限制了其使用;方正书版2008新增了转PDF功能,转换后部分方正字符如1/3空格、外文连字符等复制出来的是乱码,用其发排低版本书版(如9.X)文件会出现排版格式变化,且系统升级成本较高,故采用新版软件排版并出片的期刊还不多。

目前越来越多的期刊编辑部采取制作PDF文件实现远程校对[1-2],并自建网站提供 PDF全文下载。因此,如何生成清晰、可注释修改的PDF校样以及制作具有搜索、复制功能的PDF文件成为编辑部普遍关注和探索的问题。有关方正大样转PDF的方法已有一些报道[3-5],但这些方法在原文重现、文本复制或全文检索等方面仍有欠缺。而专业期刊网络数据库系统如万方和维普,对用方正软件排版的期刊均采用扫描后经OCR识别生成PDF文件的方法,也存在页面显示效果稍差、文字识别有差错等缺点。笔者通过对比多种转换方法,总结出方正PS转PDF文件方法的特点,并提出一种制作双层PDF文件的新方法。

1 方正PS转PDF文件方法

1.1 利用专业软件生成文本型PDF文件

主要转换软件有方正文易、方正Creator、大样转PDF专家等。

方正Creator的功效与方正文易相似,优点是可以在XP操作系统下使用,转换速度快,转出的PDF文件文本可以复制,但复制出的英文、数字与标点是全角字符,且原英文单词之间的空格消失,生成的PDF文件仅可进行中文字符的搜索,适用于外文字符较少的期刊。

大样转PDF专家软件(ps22pdf)是一款将方正二扫文件(PS2,MPS)转为PDF的专业软件。用该软件生成的PDF文件复制出的文本几乎是原文,英文单词因换行自动生成连字符,复制出来仍是完整的单词,图片清晰。缺点是,因使用替代字库,页面显示效果欠佳,常出现标点符号与字符挤压的现象,部分方正特有字符(如比例号)无法显示和复制。

1.2 利用方正打印机转为标准PS文件

通过安装文杰A5000打印机驱动程序,将方正PS文件经虚拟打印生成标准PS文件,然后用Adobe Distiller转成 PDF格式[6]。虽然多一道转换步骤,但转换速度较快,生成文本型PDF文件,文件小,图片清晰,其显示效果与常规文本型PDF文件基本一致,但因其字体的字符映射方式与标准Unicode不同,复制出的文本全是乱码,无法进行检索。

1.3 利用虚拟打印机生成图像型PDF文件

(1)通过pdfFactory或Adobe PDF虚拟打印机转为PDF文件[7]。这是最常用的一种转换方法。该方法是通过方正发排软件PSP Pro中将大样PS文件虚拟打印为PDF文件。转换较耗时,生成图像型PDF文件,文字清晰,但图片质量稍差,文件稍大,无法复制文本。

(2)利用微软 Office Document Image Writer虚拟打印法[8]。需在书版10.0中生成ceb文件,通过Apabi Reader软件用Microsoft Office Document Image Writer虚拟打印机生成图像格式文件,最后用Adobe虚拟打印成PDF文件。转换后的图像精度尚可。

(3)利用书生公文阅读器软件,将二扫文件虚拟打印成PDF。转出的文字和图片的清晰度尚可,但文字的显示效果欠佳,不能显示斜体,并且标点符号与字符常挤压在一起。

2 双层PDF文件的实现方法

为了促进学术交流,扩大期刊的显示度和学术影响力,越来越多的科技期刊通过互联网实现了开放存取。开放存取期刊,尤其是多种语言混排的科技期刊,应考虑与国际接轨,不仅要求制作的文档具有可读性,能清晰重现原文,而且还应有文本复制和全文检索功能,这也是期刊编辑部数字化加工水平的体现。将方正书版大样转为双层PDF文件是实现这些功能与要求的有效途径之一。

双层PDF是指文件内容既包含文本层,也包含图像层,且其位置上下一一对应的一种PDF文件格式。这种文件可完全保留原始版面效果(图像层),并且支持选择、复制与检索等功能(文本层)。

与标准的农民专业合作社相比较,农机合作社更强调入社的股份(包括农机折价形成的股份),这是由于农机的价值较大,同时合作社股份构成较为复杂(农机、土地、资金等),但在管理方式上依然强调民主,强调民办、民管、民受益。农机合作社是中国农民对于世界合作社运动的重要贡献。

目前关于方正大样转双层PDF的报道尚未见到。李宗红[9]总结了利用Acrobat 8.0的OCR文本识别将图像型PDF转为文本型PDF文件的方法,转换后因文字可选择,生成的PDF文件可用于远程校对。使用Acrobat软件操作简单、转换快,缺点是因OCR文字识别率与图像的分辨率、选择的语言等密切相关,识别文字的出错率可能偏高。对于外文字符且二级汉字较少的文件,图像清晰,其文本识别的正确率可达90%以上。而对于中、英文混排,公式、符号较多,或者二级汉字稍多的文件,识别出错率偏高。OCR识别功能仅适用于图像型PDF文件,对文本型或转曲文字型PDF文件无效。

为了有效解决这一问题,笔者摸索出一种双层PDF文件的制作方法。其实现思路是利用大样转PDF专家软件生成的文本型PDF与图像型PDF进行组合,生成文本层在上、图像层在下的双层PDF文件。生成的PDF文件充分利用了二者的文本复制与检索、具有图像清晰以及精确重现原文等优点,虽然步骤略复杂,但熟练操作后可以较快完成整本期刊的转换。

基本软件为大样转PDF专家软件ps22pdf,书版9.X,Foxit PDF Editor 2.0(编辑、修改 PDF),Advanced PDF Tools 2.0(用于改变PDF文件显示页面的大小),Acrobat 7.0以上版本。其操作步骤如下:

(1)运行大样转PDF专家软件,在字体设置中选系统字体,将大样PS直接转为PDF文件(文件名为p.pdf)。因该文件的页面偏大,将页面缩小到原来的70%即可与图像层的文字完全重合。故用Advanced PDF Tools将p.pdf一次性缩小到原页面的70%,其操作界面如图1所示。如不用Advanced PDF Tools,可在 Foxit PDF Editor的属性窗口每页修改比例X(%)和Y(%)为70%。

图1 Advanced PDF Tools缩小页面的操作界面

(2)在书版发排时选“忽略所有图片”,另生成一个仅含文字的PS文件,如图2所示,使图片位置为空白,通过虚拟打印法生成清晰的图像型PDF文件(文件名为v.pdf)。

图2 生成纯文字大样的输出选项

(3)用 Foxit分别打开 p.pdf和 v.pdf,翻到相同页面。

(4)在p.pdf文件窗口,按Ctrl+A全选后,再按住Ctrl键并用鼠标点击不想复制的内容(如横线)后再按Ctrl+C复制。

(5)转到v.pdf文件窗口,按Ctrl+V粘贴所选文字和图片,通过光标键整体移动粘贴的内容,直至与下面的图像层文字全部重合,然后在属性窗口Text栏,将文本模式由“填充文本”改为“没有填充和笔画的文本(不可见)”,其界面图如图3所示,完成后上层的文本便全部隐藏了。

3 Foxit Editor PDF文本属性界面

重复上述步骤(3)~步骤(5),完成所有页面的组合。采用这种方法生成的双层PDF文件,不仅清晰显示与原文一致的效果,而且具有全文复制和搜索功能。但是,由于它是两种文件的组合,文件稍偏大。可在步骤(1)后用Acrobat对p.pdf减少文件大小后保存(基本不影响显示效果);最后用Acrobat将生成的PDF文件“另存为”,可进一步减少文件大小。

如用Acrobat 9.0操作,可在步骤(2)之后,先用OCR识别保存,然后在Foxit PDF Editor中删除识别的文本层,处理后文件大小可减少20% ~30%且保持显示效果不变。

3 结论

提出了一种制作高质量双层PDF文件的方法。所生成的PDF文件兼具文本型PDF和图像型PDF文件的优点。与专业扫描生成的PDF文件相比,用该方法制作的PDF文件基于打印生成的图像PDF,显示效果好,清晰度高,优于扫描的效果,而文本层除造字和特殊符号外,不存在文字差错率的问题。因此,在精确重现原文、文本复制和全文检索上完全优于用其他方法生成的PDF文件,能够较好地满足开放存取期刊的需要。

[1] 王燕萍,臧庆军,辛明红,等.用Adobe Acrobat将北大方正大样文件制成作者校样的新方法[J].编辑学报,2004,16(5):354 -356.

[2] 王昌栋,陈翔.利用方正书版10.0和Apabi Reader实现远程校样[J].中国科技期刊研究,2005,16(2):211-212.

[3] 李学军.方正书版文件转PDF文档两种常用方法使用中应注意的问题[J].中国科技期刊研究,2008,19(5):828-830.

[4] 付中林,龚晓宁,陈小平.一种快速将方正大样转为PDF格式校样的方法[J].武汉工程大学学报,2007,29(5):55 -56.

[5] 周虹,欧阳贱华,王竑.如何将方正小样文件转换成PDF 格式文件[J].编辑学报,2007,19(1):45-46.

[6] 何知宇.方正书版文件转换PDF文档的几种方法比较[J].中国科技期刊研究,2006,17(4):609 -613.

[7] 熊水斌,胡新宇,马敏峰,等.科技期刊方正大样转为PDF文档的一种快捷方法[J].中国科技期刊研究,2007,18(1):86 -88.

[8] 王重洋.由方正低成本、高效转换为PDF的方法[J].中国科技期刊研究,2007,18(3):457 -458.

[9] 李宗红.利用Adobe Acrobat Professional 8.0软件实现图片型PDF文件到文本型PDF文件的转换[J].中国科技期刊研究,2010,21(1):69-70.

猜你喜欢

方正双层页面
刷新生活的页面
双层最值问题的解法探秘
墨尔本Fitzroy双层住宅
浅析射阳大米的由来
关于钢铁厂车间动力自动化设备管理应统筹管理的思考
“双层巴士”开动啦
方正
次级通道在线辨识的双层隔振系统振动主动控制
Microwave Photonics for Modern Radar Systems*
Web安全问答(3)