APP下载

快速编辑和提取PDF文件信息

2012-10-26丁筠官鑫

中国科技信息 2012年12期
关键词:文件夹文档界面

丁筠 官鑫

1,吉林大学仿生工程学报(英文)编辑部,长春 130022 2,吉林大学学报(医学版)编辑部,长春 130021

Universty, Changchun, 130022, P. R. China 2 Department of Medicine Edition, Journal of Jilin University,Changchun 130021, China

快速编辑和提取PDF文件信息

丁筠1官鑫2

1,吉林大学仿生工程学报(英文)编辑部,长春 130022 2,吉林大学学报(医学版)编辑部,长春 130021

Universty, Changchun, 130022, P. R. China 2 Department of Medicine Edition, Journal of Jilin University,Changchun 130021, China

简要介绍PDF文件的功能、特点和在互联网传播中的重要性,详细阐述如何尽可能快速、有效、简便地提取PDF文件中的文字、图片等信息。

PDF;图片信息;文字信息;信息提取

PDF;picturie nformation;teixnt formation;information extraction

仿生工程学报(Journal of Bionic Engineering)是全英文的仿生学专业期刊,于2007年被美国《科学引文索引》(SCI)收录,2011年影响因子达到了1.032,学报作者群已涵盖世界所有科技发达国家,所发国外稿件已占全部发稿量的50%。然而,我们在日常工作中发现,各国作者目前使用的文章写作软件五花八门,包括Word 2003版、Word 2007版、LaTeX、WPS等文章编译软件,这给编辑和审稿专家对文章的审读造成了很大的麻烦。因此,编辑部借鉴一些国际性期刊的经验,将PDF文件用作论文提交及与审稿专家电子文件交流使用。

PDF文件在提供相同的信息容量的情况下,文件更小,更便于文件传输,在网络时代的今天越来越多的收到用户的青睐。但是在上传提交PDF格式论文时,由于PDF文档是面向显示的,无法对其内容进行直接编辑处理。如果能找到一套简单实用,又能获得PDF文档中准确的文字信息和清晰的图片信息的方法,将极大的推动PDF文件在各个科技期刊编辑工作中的应用,提高工作效率。本文介绍几种准确提取PDF文档中文字和图片信息的方法,供参考。

1 PDF的特点

PDF格式的文档资源由于其本身具有操作平台的无关性、文档的视觉显示信息和数据信息之间的独立性以及良好的安全性,逐渐地受到了人们的青睐,正慢慢地发展成为电子文档资源在信息系统中共享的主流文档格式[1]。它能保持原文件的排版格式和创建风格,能高保真压缩,可不依赖原创应用程序和操作平台显示和打印[2]。目前,PDF在网络出版业的应用越来越多,国外的几大著名的网络出版集团Elsevier,Spring,IEEE等均采用PDF向网络用户提供原版的期刊论文文件,国内著名的万方数据网络中心也采用PDF向用户提供期刊论文文件,CNKI数据库也在向用户提供CAJ文件的同时,提供PDF文件的下载,使用者可深切感受到PDF带来的便利。随着网络的普及,电子邮件的广泛利用,网络用户对信息保真传送的需求逐步增多[3]。相比其它传输文件,PDF文件更小,所能提供的信息容量更大,因此使其受到越来越多人的青睐。PDF文件的使用也给编辑的日常工作带来了极大的便利。但PDF文件的一个弊端是用户不能直接提取该文档中的文字或图片信息,下面介绍提取PDF文件中的文字和图片信息的几种简便的方法。

2 文字信息提取

PDF文件的文本信息提取相对容易,其中最简便的是直接将其转换成Word文档文件,随后只要用Word等文本编辑工具将转换的文本文件打开即可继续编辑。能够将PDF转换成Word文档的工具很多[4,5],在编辑部的日常工作中,本文推荐使用以下两种方法:

2.1 在线转换

将PDF转换成Word文档可以通过PDF to Word网站在线完成,不需安装专门的软件,进入网站即可看到该操作是100%免费的,该方法的优势还在于其得到的Word文档能够很好的保持原有的格式。

(1) 在浏览器地址栏输入http://www. pdftoword.com/,按下回车键,进入PDF to Word Converter网站首页,在首页左侧会出现如图1所示的操作界面。

(2) 点击“浏览”,找到需要进行转换的PDF文件,填写邮箱地址,单击“Convert to Word”,系统会自动上传PDF文件,上传完成后,会显示如图2所示的界面。

(3) 文件转换完成后,查看邮箱,系统会以附件的形式发送转换完成的Word文档,生成的文档为Word 2003版文件。

图1 PDF to Word 转换界面

图2 文件转换界面

2.2 使用转换软件

2.2.1 软件的安装

(1) 软件名称:VeryDOC PDF To Word Converter V2.5 汉化版

(2) 双击“ha_VeryDOC-pdf2word25_ cz.exe”文件,运行安装程序,按照提示逐步点击“前进(N)”进行安装。安装完成后,在计算机的“开始”菜单下,“程序”栏中会出现“VeryDOC PDF To Word Converter V2.5 汉化版”栏,单击“VeryDOC PDF2Word”图标即可运行该软件。

2.2.2 软件的操作

(1) 进入主程序后,会显示如图3所示的操作界面。点击“添加PDF文件”,浏览文件夹所在位置,添加需要转换的PDF文件,在右侧“输出选项”栏中选择“仅文本(无图像)”,在“输出格式”栏中选择“微软Word文档(*.Doc)”,“页码范围”选择“所有的页”即可;如原始PDF文件有密码保护,则需要在“PDF密码”输入栏中填入密码。

(2) 以上设置完成后,点击“转换”按钮,会出现如图4所示的界面,建立一个新的Word文档(在文件名处键入新的文件名)并选择转换后文档的存放位置,转换完成后,会自动显示得到的Word文档。该方法仅得到文档中的文字信息,便于编辑和排版。

图3 主程序操作界面

图4 操作界面2

3 图片信息提取

PDF文件中图片信息的提取方法很多,但不同方法所得到的图片的清晰度不尽相同,本文推荐以下两种使用方便且提取图片效果较好的方法。

3.1 使用“PDF Extract TIFF”软件

使用“PDF Extract TIFF”软件可以将PDF文档中的所有图标提取出来并保存为TIFF图片格式。

3.1.1 软件的安装

(1) 软件名称:PDF Extract TIFF绿色汉化版 V2.0

(2) 该软件是绿色汉化版,不需安装,直接找到“pdf2tif.exe”文件,双击进入主操作界面,如图5所示。

图5 PDF Extract TIFF主操作界面

3.1.2 软件的操作

用PDF Extract TIFF提取PDF中图片时,启动PDF Extract TIFF,在主界面中单击“打开”按钮,在弹出的窗口中选择需提取图片的PDF文件。

随后打开“另存为”对话框,在此选择好图片文件保存的路径和图片文件名。单击“保存”按钮,对PDF文件中的所有图片进行提取,并保存的指定的文件夹中。

3.2 使用“Some PDF Image Extract”软件

3.2.1 软件的安装

(1) 软件名称:Some PDF Image Extract V1.5

(2) 该软件虽然是全英文版,但是安装简单,双击“pdf2word.exe”图标,进入自动安装程序,按照提示按“Next”键即可完成安装,安装完成会运行该程序,进入到如图6所示的操作主界面。

图6 Some PDF Image Extract主操作界面

3.2.2 软件的操作

(1) 点击Some PDF Image Extract界面里的第一个“打开文件”按钮,在“打开”对话框里选择欲提取图片的PDF文件。如果有多个PDF文件待提取,可以将它们放在一个文件夹下,点击界面里的第二个“输入目录”按钮,选定整个文件夹,把整个文件夹下的PDF直接导入。

(2) 默认的提取出来的图片保存位置是在PDF文件所在的相同目录下的同名文件夹下。默认提取的图片格式是JPG,可以在软件界面的右侧的“输出模式”后的下拉列表里重新设置提取的图片格式(bmp、gif、png、tiff、tga、pcx)。默认的图片质量是70%,一般需要将其改成100%,这样输出的图片更清晰,但图片体积要大些。点击“输出目录”可以重新设置提取图片的输出目录。

(3) 设置完成后,点击最左下方的“播放按钮”,开始提取操作,当进度条显示“Convert Finished”时提取完毕。

4 结语

在学术期刊编辑工作中,异地审稿和校对是例行程序。为了实现稿样及其他图文资料从编辑部向审稿人及作者的快速准确的传送,保证审稿人、作者、编辑看到的文档信息(文字、图形)完全相同,编辑部在日常工作中越来越多的使用了PDF文档。本文针对如何从PDF文件中准确、快速地提取文档信息(文字、图形)用于编辑出版的方法进行了阐述,为PDF文档在编辑工作中的进一步应用奠定了基础。

[1] 任林涛. PDF格式中文科技论文的有效信息提取方法及分类研究[D], 吉林大学, 2011.

[2] 张红林, 胡昌平. PDF在编辑工作中的应用[J].编辑学报, 2001, 13(5), 284 286.

[3] 张红林. PDF在编辑工作中应用的探讨[J]. 中国科学技术期刊编辑学会2001年会综合学术年会论文集, 99 102.

[4] 陈永杰, 邢宝山, 张祥合, 李桃. 利用Adob e Acrobat7.0实现PDF格式文件的转换[J]. 编辑学报, 2006, 18(6), 437 438.

[5] Office2003实现PDF文件转Word文档电[J]. 力信息化, 2005, 3(12), 85.

Rapidly Editing and Extracting of the Information of PDF Documents

Ding Yun1Guan Xin2
1 Editorial Department of Journal of Bionic Engineering, Jilin

The functionsf, eatures and the importanocef communicaitnio tn he network of PDF documenwts ere briefly introducedIn. additio n, how to extractingt he picturei nformatioan nd text informatioinn PDF documernat pidly, effectively and simply, were described in detail.

10.3969/j.issn.1001-8972.2012.12.135

丁筠(1982-),女,编辑,博士毕业,主要从事英文科技期刊的编辑和出版发行工作。

猜你喜欢

文件夹文档界面
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
微重力下两相控温型储液器内气液界面仿真分析
Fast Folders,让你的文件夹四通八达
国企党委前置研究的“四个界面”
一种可用于潮湿界面碳纤维加固配套用底胶的研究
基于FANUC PICTURE的虚拟轴坐标显示界面开发方法研究
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题
Word文档 高效分合有高招